2022 ‹  Številka  1 ‹  letnik XXX ‹ issn 1318-1882 
01 

UPORABNA 
INFORMATIKA 
2022 ŠTEVILKA 1  JAN/FEB/MAR  LETNIK XXX ISSN 1318-1882 




Znanstveni prispevki 
Maša Kljun, Matija Teršek, Slavko Žitnik 

Pomenska analiza kategorij sovražnega govora v obstojecih oznacenih korpusih	 3 
Jan Bajt, Marko Robnik Šikonja Strojna analiza tematik in sentimenta slovenskih novicarskih medijev	 19 


Strokovni prispevki 

Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, 
Sara Scarsini, Uroš Rajkovic 

E-ucilnica za ucenje na dokazih podprte zdravstvene nege	 37 
Gregor Polancic, Mateja Kocbek Bule 


Stanje in trendi na podrocju rudarjenja procesov	 51 
Živa Rant, Dalibor Stanimirovic, Jure Janet 

Funkcionalnosti in uporaba portala za paciente zVEM in Centralnega registra podatkov o pacientu	 63 

Prispevki iz Konference Dnevi slovenske informatike 
Matjaž Kragelj, Mirjana Kljajic Borštnar, Alenka Brezavšcek 

Problematika ohranjanja zasebnosti pri podatkovnem rudarjenju dokumentov z obcutljivimi podatki	 74 
Informacije 

Iz slovarja 84 
UPORABNA INFORMATIKA 

INFORMATIKA 

2022 ŠTEVILKA 1  JAN/FEB/MAR LETNIK XXX ISSN 1318-1882 
Ustanovitelj in izdajatelj 
Slovensko druptvo INFORMATIKA Litostrojska cesta 54, 1000 Ljubljana 
Predstavnik 
Niko Schlamberger 
Odgovorni urednik 
Saša Divjak 
Uredniški odbor 
Andrej Kovacic, Evelin Krmac, Ivan Rozman, Jan Mendling, Jan von Knop, John Taylor, Jurij Jaklic, Lili Nemec Zlatolas, Marko Hölbl, Mirjana Kljajic Borštnar, Mirko Vintar, Pedro Simőes Coelho, Saša Divjak, Sjaak Brinkkemper, Slavko Žitnik, Tatjana Welzer Družovec, Vesna Bosilj-Vukšic, Vida Groznik, Vladislav Rajkovic 
Recenzentski odbor 
Aleksander Sadikov, Alenka Kavcic, Aljaž Košmerlj, Andrej Kovacic, 
Bor Plestenjak, Borut Batagelj, Borut Weber, Borut Werber, Borut 
Žalik, Branko Kavšek, Branko Šter, Ciril Bohak, Danijel Skocaj, David Jelenc, Dejan Georgiev, Dejan Lavbic, Denis Trcek, Domen Mongus, Eva Krhac, Evelin Krmac, Inna Novalija, Irena Nancovska Šerbec, Ivan Gerlic, Jernej Vicic, Jure Žabkar, Katarina Puc, Lovro Šubelj, Luka Cehovin, Luka Pavlic, Marina Trkman, Marjan Hericko, Marjan 
Krisper, Marko Bajec, Marko Hbl, Marko Robnik Šikonja, Matej 
Klemen, Matevž Pesek, Matjaž Divjak, Mirjana Kljajic Borštnar, Mladen Borovic, Muhamed Turkanovic, Niko Schlamberger, Nikola Ljubešic, Patricio Bulic, Peter Trkman, Polona Rus, Sandi Gec, Saša Divjak, Slavko Žitnik, Uroš Godnov, Uroš Rajkovic, Vida Groznik, Vladislav Rajkovic, Vlado Stankovski, Živa Rant 
Tehnicni urednik 
Slavko Žitnik 
Lektoriranje angleških izvleckov 
Marvelingua (angl.) 
Oblikovanje 
KOFEIN DIZAJN, d. o. o. 
Prelom in tisk 
Boex DTP, d. o. o., Ljubljana 
Naklada 
200 izvodov 
Naslov uredništva 
Slovensko druptvo INFORMATIKA Uredniptvo revije Uporabna informatika Litostrojska cesta 54, 1000 Ljubljana www.uporabna-informatika.si 
Revija izhaja Ëetrtletno. Cena posamezne ptevilke je 20,00 EUR. Letna naroËnina za podjetja 85,00 EUR, za vsak nadaljnji izvod 60,00 EUR, za posameznike 35,00 EUR, za ptudente in seniorje 15,00 EUR. V ceno je vkljuËen DDV. 
Revija Uporabna informatika je od ptevilke 4/VII vkljuËena v mednarodno bazo INSPEC. 
Revija Uporabna informatika je pod zaporedno ptevilko 666 vpisana v razvid medijev, ki ga vodi Ministrstvo za kulturo RS. 
Revija Uporabna informatika je vkljuËena v Digitalno knjićnico Slovenije (dLib.si). 
ź Slovensko druptvo INFORMATIKA 

Vabilo avtorjem 
.torjev z najpirpega podroËja informatike v poslovanju podjetij, javni upravi in zasebnem ćivljenju na znanstveni, strokovni in informativni ravni; pe posebno spodbujamo objavo interdisciplinarnih Ëlankov. Zato vabimo avtorje, da prispevke, ki ustrezajo omenjenim .-informatika.si. 
.
nju ter na naslovu http://www.uporabna-informatika.si. .zirani, o objavi pa na podlagi recenzij samostojno odloËa urednipki odbor. Recenzenti lahko zahtevajo, da avtorji besedilo spremenijo v skladu s priporoËili in da popravljeni Ëlanek ponovno prejmejo v pregled. Uredniptvo pa lahko pe pred recenzijo zavrne objavo prispevka, Ëe njegova vsebina ne ustreza vsebinski usmeritvi revije ali Ëe Ëlanek ne ustreza kriterijem za objavo v reviji. .nost Ëlanka in dovoljuje prenos materialnih avtorskih pravic. NenaroËenih prispevkov ne vraËamo in ne honoriramo. Avtorji prejmejo enoletno naroËnino na revijo Uporabna informatika, ki vkljuËuje avtorski izvod revije in pe nadaljnje tri zaporedne ptevilke. 
S svojim prispevkom v reviji Uporabna informatika boste prispevali k pirjenju znanja na podroËju informatike. Ćelimo si Ëim veË prispevkov z raznoliko in zanimivo tematiko in se jih će vnaprej veselimo. 
Uredniptvo revije 

Navodila avtorjem Ëlankov 
.dilo naj bo jezikovno skrbno pripravljeno. PriporoËamo zmernost pri uporabi tujk in ‡ .skih ustreznic priporoËamo uporabo spletnega terminolopkega slovarja Slovenskega druptva Informatika Islovar (www.islovar.org). 
.
kov, obvestila in poroËila pa do 8.000 znakov. »lanek naj bo praviloma predloćen v urejevalniku besedil Word (*.doc ali *.docx) v .ka napravite samo en prazen prostor, pri odstavkih ne uporabljajte zamika. Naslovu Ëlanka naj sledi za vsakega avtorja polno ime, ustanova, v kateri je zaposlen, naslov in elektronski naslov. Sledi naj povzetek v slovenpËini v obsegu 8 do 10 vrstic in seznam od 5 do 8 kljuËnih besed, ki najbolje opredeljujejo vsebinski okvir Ëlanka. Pred .ne kljuËne besede v anglepËini. Obratno velja v primeru predloćitve Ëlanka v anglepËini. Razdelki naj bodo naslovljeni in optevilËeni z arabskimi ptevilkami. 
Slike in tabele vkljuËite v besedilo. Opremite jih z naslovom in optevilËite z arabskimi ptevilkami. Vsako sliko in tabelo razloćite tudi v besedilu Ëlanka. »e v Ëlanku uporab­ljate slike ali tabele drugih avtorjev, navedite vir pod sliko oz. tabelo. Revijo tiskamo v Ërno-beli tehniki, zato barvne slike ali fotografije kot original niso primerne. Slik zaslonov ne objavljamo, razen Ëe so nujno potrebne za razumevanje besedila. Slike, .pajih desno od enaËbe. 
V besedilu se sklicujte na navedeno literaturo skladno s pravili sistema APA navajanja bibliografskih referenc, najpogosteje torej v obliki (Novak & KovaË, 2008, str. 235). Na koncu Ëlanka navedite samo v Ëlanku uporabljeno literaturo in vire v enotnem seznamu po abecednem redu avtorjev, prav tako v skladu s pravili APA. VeË o sistemu APA, katerega uporabo omogoËa tudi urejevalnik besedil Word 2007, najdete na strani http://owl.english.purdue.edu/owl/resource/560/01/. 
»lanku dodajte kratek ćivljenjepis vsakega avtorja v obsegu do 8 vrstic, v katerem poudarite predvsem strokovne dosećke. 

 Pomenska analiza kategorij sovražnega govora v obstojecih oznacenih korpusih 
Maša Kljun, Matija Teršek, Slavko Žitnik Univerza v Ljubljani, Fakulteta za racunalništvo in informatiko, Vecna pot 113, SI-1000 Ljubljana mk2700@student.uni-lj.si, mt2421@student.uni-lj.si, slavko.zitnik@fri.uni-lj.si 
Izvlecek 
Trenutno je dostopnih mnogo angleških korpusov z oznacenimi razlicnimi kategorijami žaljivega govora, razlicnimi nacini oznacevanja in poimenovanja kategorij. V tem prispevku analiziramo 21 kategorij žaljivega oz. sovražnega govora. Pri tem uporabimo metode obdelave naravnega jezika na sedem razlicnih korpusih, da lahko odkrivamo korelacije med posameznimi kategorijami. Analizo izve.demo s pomocjo tradicionalnih (TF–IDF) in naprednih (fastText, GloVe, Word2Vec, BERT in ostale globoke metode) tehnik, s kateri.mi želimo odkriti zakonitosti med posameznimi kategorijami sovražnega govora. Rezultati razkrijejo, da je vecina kategorij mocno povezana med seboj, vendar lahko kljub temu izdelamo dvonivojsko hierarhicno predstavitev povezanosti. Analizo izdelamo tudi za slovenski jezik in primerjamo rezultate za oba izbrana jezika. Kljucne besede: žaljivi govor, sovražni govor, obdelava naravnega jezika, vektorske vložitve besed 
Abstract 
There exists a vast amount of different offensive language corpora for English language, annotation criteria and category naming. In this paper, we explore 21 different categories of offensive language. We use natural language processing techniques to find correlations between the categories based on seven different data sets. We employ several traditional (TF–IDF) and advanced (fa.stText, GloVe, Word2Vec, BERT, and other deep NLP methods) techniques to uncover similarities among different offensive langu.age categories. The findings reveal that most of the categories are densely interconnected, while a two-level hierarchical represen.tation of them can be provided. We also transfer the analysis to the Slovenian language and compare the findings between both researched languages. Keywords: Offensive language, hate speech, natural language processing, word embeddings 
1	 INTRODUCTION 
In the last few years, social media grew exponenti.ally, and with it also the ability of people to express themselves online. Enabling people to write on diffe.rent online platforms without even identifying them.selves lead to a new era of freedom of speech. De.spite this new medium for communication bringing many positive things, it also has its downside. Social media has become a place where heated discussions happen and often result in insults and hatred. It is an important task to recognize hate speech and offensi.ve language, and to prevent it. 
Hate speech is defined as .ech or writing that expresses prejudice against a particular group, especially on the basis of race, religion, or sexual orientation [OUP, 2021]. We can see that the definition is very vague. Having said that, the goal of our paper is to help distinguish different types of hate speech and find the specific keywords of its subgroups in order to explain its structure. This could help with its identification and classification in case someone would use multiple datasets. As there exist no clear definitions of annotated categories, a researcher ne.eds to understand them first and then decide how to 
use them. In this paper we focus on 21 subgroups of offensive language – abusive, hateful, spam, general hate speech, profane, offensive, cyberbullying, racism, sexism, vulgar, homophobic, slur, harassment, obscene, threat, di.scredit, insult, hostile, toxic, identity hate and benevolent sexism. The goal of this paper is to explore offensive language subgroups and understand the similarities and connections between them. 
There has been done a lot of research regarding offensive language, however, these works are usual.ly focused on classification. One of the first works in.cludes [Spertus, 1997] who built the decision tree ba.sed classifier Smokey for abusive message recogni.tion and classification. Some other works that focus mainly on classification include [Waseem, 2016], who compare the classification accuracy of models train.ed on expert and amateur annotations, [Gambäck and Sikdar, 2017] use convolutional neural networks for classification into four predefined categories, and [Martins et al., 2018] use different natural language processing techniques for expanding data sets with emotional information for better classification. In the last years, especially deep learning models are often used for detection and classification of hate speech, such as [Rizoiu et al., 2019], who propose a sophisti.cated method that is a combination of a deep neural network architecture with transfer learning. There is .ge data sets, such as [Chung et al., 2019], who create a large-scale, multilingual, expert-based data set of hate speech. 
What is less common in the research area of of..en different types of the offensive language and the .clude [Xu et al., 2012], who try to separate bullying from other social media posts and try to discover the topic of bullying using topic modeling with Latent Dirichlet Allocation (LDA). [Calder et al., 2020] model hate speech against immigrants on Twitter in Spain. They try to find the underlying topic of hate speech using LDA, discovering features of different dimensions of hate speech, including foul language, humiliation, irony, etc. [Schmidt and Wiegand, 2017] conduct a survey about hate speech detection and de.scribe key areas that have been explored, regarding the topic modeling, as well as sentiment analysis. 
.cusing on creating a new typology of offensive lan.guage [Banko et al., 2020] or trying to unify offensive language categories across datasets [Salminen et al., 2018, Risch et al., 2021]. None of these research has focused or analyzed existing data in depth. Banko et al. [Banko et al., 2020] proposed a new typology that would require re-annotation of existing data and is therefore only a theoretical ground for further an.notation campaigns. Similarly, Salminen et al. [Sal.minen et al., 2018] propose a new taxonomy, based on existing data sources, annotate a new corpus and perform classification analysis. Risch et al. [Risch et al., 2021] try to combine a multitude of datasets into a single schema. They also provide a unification tool. We cannot agree with the analysis as we show that annotation guidelines and data sources are too much different to directly map them into one schema and that their context should be considered when doing so. We show that different categories of offensive language (as annotated in publicly available corpora) from different datasets do not have a full intersecti.on. In the future, there is a need for comprehensive typology development, along with linguistically-so.und definitions. 
We organize this paper as follows: we present the data sets and describe data preprocessing in Secti.on 2, we perform the exploratory analysis by using many traditional and neural approaches in Section 
3. Furthermore, we use non-contextual embeddings and apply them to the Slovene language in Section 4. In the end, we provide a possible offensive language ontology in Section 5. 
Note to the reader: this paper includes some explicit examples of offensive language. 
2	 DATA 
.ratory analysis. We combine three data sets [Wase.em, 2016], [Waseem and Hovy, 2016], and [Jha and Mamidi, 2017] into one large data set (referred to as SRB) as they include the same categories of hate speech. We create labels sexism, racism, and both from [Waseem, 2016] and [Waseem and Hovy, 2016]. [Jha and Mamidi, 2017] is an extension of the first two. It includes label hostile sexism, which contains tweets from sexism category in the first two data sets, and la.bel benevolent sexism, which we rename to benevolent. Thus, we obtain a data set with 6069 samples that are labeled either sexism, racism, both, or benevolent. Benevolent includes comments that exhibit subjective positive sentiment, but is sexist, while sexism inclu­des tweets that exhibit explicitly negative emotion. The authors do not state what was the criteria to label tweets as racist, but they state that it is easy to iden­tify racist slurs. 

The next data set (referred to as AHS)[Founta et al., 2018] contains 3 categories – abusive, hateful, spam. Abusive is any strongly impolite, rude, or hurtful lan­guage using profanity, that can show a debasement of someone or something, or show intense emotion. Hateful is language used to express hatred or is in­tended to be derogatory, to humiliate, or to insult the members of the group. Spam consists of posts rela­ted to advertising, phishing, and other kinds of un­wanted information. As we use no data sets that are directly derived from this data set, contrary to the previous three data sets, we show this data set as a separate standalone data set. We obtain 13776 twe­ets with the above mentioned labels. Note that we exclude None label from both data sets, as we do not need it for the analysis. We provide an example for each label: 
Racism: »He can’t be a server at our restaurant, that beard makes him look like a terrorist.« Everyone laughs. #fuckthanksgiving 
Sexism: #katieandnikki stop calling yourselves pretty and hot..you’re not and saying it a million ti­mes doesn’t make you either...STFU 
Benevolent : It’s »NEXT to every successful man, there’s a woman« Spam: RT @OnlyLookAtMino: [!!] #WINNER trending #1 on melon search Abusive: You Worried About Somebody Bein Ugly... Bitch You Ugly... 
Hateful: i hope leaders just kick retards that fake leave teams today 
Additionally, we use the data set of comments extracted from the League of Legends community [Bretschneider and Peters, 2016], which we refer to as CYB. Cyberbullying is a process of sending offen­ding messages several times to the same victim by the same offender. We preprocess the data set given in the SQL format to a more readable CSV form and keep only the posts that are annotated as haras­sment. We obtain 259 examples of cyberbullying. The sixth data set that we use was designed for the pro­blem of hate speech identification and classification, but we use the labels from the train and test set and merge them into one big data set that we use for our analysis. It provides tags of hatespeech, profane, and offensive, so we refer to the data set as HPO [Mandl et al., 2019]. It consists of 2549 tweets. Hateful includes messages that describe negative attributes of indivi­duals because they are members of a group or hate­ful comments towards race political opinion, gender, etc. Offensive includes messages that are degrading, dehumanizing, or insulting to an individual, and profane includes messages that contain unacceptable language in the absence of hate and offensive content (for example swearwords). We provide an example for each of the labels. 
Cyberbullying: plot twist she’s a fggt 

Hatespeech: Johnson you liar. You don’t give a flying one for the Irish 
Offensive: #FuckTrump And retired porn star Melania too. 
Profane: Fuck Trump and anybody who voted for that Lyin POS! #FuckTrump 
We also use the data set of Wikipedia comments [Wulczyn et al., 2017, Borkan et al., 2019] that are marked as either toxic, severe toxic, obscene, identity hate, threat, and insult. We merge the first two cate­gories into toxic. Most labels here are derived from toxicity, which is defined as anything that is rude, disrecpectful, or unreasonable that would make so­meone want to leave a conversation. It is important to note that each comment in this data set might have multiple labels, so the results for those tags might be similar. The original data set contains 159571 tweets, 16225 of which are labeled. We denote this data set as TOITI in the future text and show the examples for each label: 
Threat : SHUT UP, YOU FAT POOP, OR I WILL KICK YOUR ASS!!! 
Obscene: you are a stupid fuck and your mother’s cunt stinks 
Insult : Fuck you, block me, you faggot pussy! 

Toxic: What a motherfucking piece of crap those fuckheads for blocking us! 
Identity : A pair of jew-hating weiner nazi schmucks. 
We show the distribution of individual categories from data sets in Figure 1. Note that the numbers of samples might not match the numbers in the original papers, due to the removed tweets by Twitter, ma­king them unavailable for us to analyze. We see that toxic, obscene, insult, and spam are far more frequent than other labels, especially compared to threat, ra­cism, and cyberbullying. This varies as the comments were extracted from various social media platforms, which sometimes ban or remove inappropriate com­ments, making them unavailable for us to analyze. The number of comments for each label also depen­ds on the size of the data set – for example, TOITI is much bigger than HPO. Note that two labels are si­milar (hateful and hate), and authors of both data sets use them to classify hate speech oriented towards certain groups because of their social status, disabili­ty, race, religion, ethnic origin, or sexual orientation. However, we do not merge those two labels as data sets are collected from Twitter or Facebook at diffe­rent times, which might influence their content. 

In addition to the 15 labels from the above men­tioned data sets, we also consider six more offensive language subgroups discredit, harassment, vulgar, ho­mophobic, slur, and hostile, which were not in the ori­ginal five data sets that use. We included those words based on previous analysis done with experts from the linguistics field [Lewandowska-Tomaszczyk et al., 2021]. In this paper, we want to additionally support the claim that category naming in existing offensive datasets is not sound and therefore we ca­nnot clearly distinguish them also using exploratory analysis tools. 
As the goal of this report is to inspect the deeper structure and gain a new understanding of relation­ships between different subgroups of hate speech, we must also inspect how the data that we work with were annotated. Annotations play a big role in this analysis, as we take them as ground truth, meaning if in the data set some tweet or comment was labeled as e.g., sexism we do not further question this choi­ce and perform all our further analysis accordingly. The used data sets were sampled from different so­cial mediums in a limited period at different times, and in some cases, for a specific topic (e.g., political topic). This influences the analysis. However, as the goal of this paper is to research the connections be­tween various subgroups of hate speech, we do not question whether the data sets are a good represen­tation of the subgroups, yet we are aware of this and keep this in mind during the analysis. 
Data set [Waseem, 2016] uses both amateur anno­tators from crowdsourcing platform CrowdFlower and annotators with theoretical and applied kno­wledge of hate speech, and use the data set for hate speech detection and classification. [Jha and Mamidi, 2017] manually annotate their data set with the help of a 25-year-old woman studying gender studies and use the data to investigate how different is benevolent sexism from sexism, and also perform classification with SVM. [Founta et al., 2018] again use amateur an­notators from CrowdFlower and want to provide lar­ge annotated data set that is available for further sci­entific exploration. [Bretschneider and Peters, 2016] use three human experts for the annotation and then propose an approach to precisely detect cyberbullies and also provide metrics to identify victims of severe cyberbullying cases. [Mandl et al., 2019] used junior experts for language and they engaged with an on-line system to judge the tweets. Their goal was text classification. [Wulczyn et al., 2017] again use plat­form CrowdFlower, however, they require their an­notators to first pass a test of ten questions to ensure data quality. Their goal is to provide a methodology that will allow them to explore some of the open que­stions about the nature of online personal attacks. 

EXPLORATORY ANALYSIS In this section, we show the analyses of the offensi­ve language corpora. We especially focus on known NLP techniques that would help us differentiate bet­ween existing offensive language categories that are annotated in the corpora. Our analysis is conducted as follows: (A) First we employ traditional methods such TF–IDF to gather common keywords for the existing categories. (B) We continue using pre-train­ed and custom-trained non-contextual word embed­ding techniques. These enable us to gather a number of relevant vectors and then embed them into two dimensions to investigate possible differences or clu­sterings. (C) Lastly, we use three different contextual word embedding techniques to check for more fine­-grained similarities. 
Before applying any methods we first preprocess all of our data. We remove retweet text RT, hyper­links, hashtags, taggings, new lines, and zero-length tweets. We further filter out tokens that do not conta­in letters, e.g., raw punctuation. 
3.1	 Traditional word embeddings 
As the results using Latent Dirichlet Allocation in combination with Bag-of-Words (BoW) and TF–IDF do not add a contribution to the analysis, we employ TF–IDF as we want to see the most relevant words for each category of offensive language that we have in the data set. For each category, we take the corre­sponding tweets or comments and use them as do­cuments. We show the results in Table 1. We can see that some of the categories have similar unigrams that achieved the highest TF–IDF score. An exam­ple of categories with the same highest scored uni-grams are insult and obscene. This makes it harder to differentiate between the categories. It is important to note, that such examples might also occur due to subjective labeling in the provided data sets, as well as people not clearly differentiating between these categories. Most data sets are not labeled by experts, but with the help of platforms such as FigureEight or Amazon Mechanical Turk. From the results in Ta­ble 1, we could assume that most people perceive categories such as insult and obscene or threat and toxic similarly. On the other hand, categories such as spam or cyberbullying are clearly differentiable from other categories. We can also see a lot of categories including Trump related words (hatespeech, profa­ne, and offensive). Those categories are taken from the same data set, and we can see that such labels will contain words that are related. So the words connected to those labels might also be connected to some bigger topic since this can be influenced by the popular topics at that time, and a platform from which the creators of the data set decided to collect the data. 
Table 1: Table shows the five highest scoring unigrams for each label we investigate. We choose the parameters, which we believe provide us with the most meaningful unigrams, so we consider words that appear in at least 5 % and less than 60 % of the documents. 
category unigrams with highest TF–IDF score 
racism peopl, white, terror, man, look 
sexism feminazi, women, think, sexist, notsexist 
benevolent women, classi, sassi, nasti, gonna 
abusive know, stupid, shit, like, idiot 
hateful peopl, trump, nigga, like, idiot 
spam giveaway, game, enter, work, home 

cyberbullying  one, guy, good, gone, go  
hatespeech  world, trumpisatraitor, trump, shameonicc, peopl  
identity hate  fuck, shit, littl, like, one  
insult  delet, go, ass, stupid, bitch  
obscene  delet, go, stupid, bitch, ass  
offensive  trumpisatraitor, like, douchebag, fucktrump, get  

profane trump, shit, say, resist, peopl 
threat fuck, get, die, want, find 
toxic fuck, get, bitch, want, block 

3.2	 Non-contextual word embeddings 
For each of the category labels, we try to find the 30 most similar words and use their embed- dings to infer the similarities and differences between the su­bgroups. For this task we use pre- trained Word2Vec [Mikolov et al., 2013a, Mikolov et al., 2013b], GloVe [Pennington et al., 2014], FastText [Bojanowski et al., 2017], and ConceptNet Numberbatch [Speer et al., 2017] embeddings of dimensionality 300. We visuali­ze the results with the help of t-SNE [Van der Maaten and Hinton, 2008] (perplexity = 15, number of itera­tions = 3500, and 2 components). Because of this, we cannot interpret distances between the labels from the visualization. However, we can still infer that the 

Figure 2: Word2Vec and GloVe embeddings. Figure shows Word2Vec (left) and GloVe (right) embeddings of 30 closest words of each label that we analyze. Note that we omit offensive language subgroups that are not in the vocabulary. 
labels that are intertwined are more similar than tho­se that are nicely separable from one another. 
We show the results of Word2Vec and GloVe in Figure 2. Note that with this approach, the name of the category is favoured as the used words are de­rived with respect to the category name. However, the approach still uncovers various connections. We can see that homophobic and racist appear very inter­twined in Word2Vec and GloVe embeddings, mea­ning that they cannot be separated, thus indicating a strong relation. On the other hand, in both of these embeddings spam, toxic, and discredit are well sepa­rated from other groups and are clearly distingu­ishable from others. We can also see that abusive is entangled with benevolent in GloVe representation, however, in results obtained from Word2Vec benevo­lent is nicely separable from other labels. So it is dif­ficult to conclude that benevolent is a label that is dif­ferent enough from other labels. FastText also nicely separates toxic and benevolent from other labels, but is unable to separate vulgar, profane, obscene, and insult. From all three models combined, we can conclude that the only label that can be always well distingui­shed from the others is toxic, and that vulgar, profane, obscene, and insult are labels that cannot be nicely se­parated. We also conclude that spam is a nicely se­parable category. Note that in some models we omit labels that are not in a vocabulary (identity hate in all models, hate speech in GloVe, and threat and spam in FastText). 
By now we provide some relations and decide to further investigate the connections between the related labels using word analogy. We try to find hyponyms and hypernyms, which we do with the help of the following setting: 
father : son = our_label : x  (hyponyms)  
animal : cat = our_label : x  (hyponyms)  
son : father = our_label : x  (hypernyms)  
cat : animal = our_label : x  (hypernyms)  

where our_label is one of the analyzed labels and x is the word found by Word2Vec or GloVe. We look at most similar words to the vector, which we obtain by taking the difference of unit-normed vectors of the two words on the left side of the equation and ad­ding unit-normed vector of our_label. We consider cosine similarity. 
Unfortunately, the relationships are not clear and uniquely defined. An example is racism is to sexism what is son to father with a cosine similarity of 0.646, but sexism is to racism what is son to father with a cosine similarity of 0.648. We can once again see that the two labels are related, but the precise rela­tionship cannot be inferred. Using brother and sister the similarity is lower. This could indicate that it is impossible to find a specific hypernym and that we can only conclude that the labels are more closely re­lated, as they are each in some way hypernym and hyponym of each other. Similarly, racism and sexism are connected to homophobia and slur. Another group that we find, but also cannot clearly define the inner relations contains vulgar, profane, and obscene. 
As mentioned, the distances between the inspec­ted labels cannot be determined from our chosen vi-sualiza- tion. That is why we approach this problem with clustering. We use k-means (10 iterations for all experiments) and hierarchical clustering (with Ward linkage on distance matrix) in hopes of finding me­aningful clusters that could help us understand the relationships between the subgroups of the offensi­ve language better. We determine the k in k-means by using the silhouette score. The silhouette score is a useful metric that can be used to validate the go­odness of the clustering. It can take values from -1 (clusters assigned in the wrong way) to 1 (clusters are clearly distinguished). Silhouette score is also useful for determining the optimal number of clusters, and we use it for that purpose. Note that we choose the k of the second peak of the score, as we want to form more diverse and meaningful clusters than just 2 big subgroups as the silhouette score suggests. See the example output of the silhouette score in Figure 3. 

Silhouette score – k-means clustering 
0.40 
0.35 
0.30 
0.25 
0.20 

silhouette score 

k 
Figure 3: Silhouette score. Example of silhouette scores for different numbers of clusters. We use the second peak (k = 5) instead of first (k = 2), as we want to get more clusters. 

From the top 30 similar words for each label, we compute an average vector and we obtain one such vector for each label. We compute the cosine similarity matrix between the vectors simcos and compute the di­stance matrix as d = 1 simcos, which we then use for the clustering. In Table 2 we show the obtained clusters using k-means and in Figure 4 we show the results of hierarchical clustering of Word2Vec embeddings. 
From these two clustering results, we can infer that insult and obscene are two similar subgroups of hate speech as they both appear in the same cluster in k-means clustering and we can see that they are in the same subcluster of nine offensive language groups in hierarchical clustering. They are also very similar according to the results from TF–IDF as seen before. We can see that cyberbullying and spam are clustered together in both clusterings and that threat and toxic are also very similar. 
Comparing the hierarchical clustering results of GloVe and FastText embeddings to Word2Vec em­beddings, we can see that we always get almost the same two main clusters like those in Figure 4, so we do not show figures with those results. 
Looking at k-means clustering of Word2Vec and GloVe embeddings we see that labels abusive, vulgar, racist, homophobic, profane, slur, obscene, hateful, insult, and discredit, hostile always appear in the same two clusters, so we can conclude that they are related. We do not include the results of FastText k-means cluste­ring, as its silhouette score is = 0.30 for all possible k, whereas in the first two, the score is often > 0.30. 
We try to apply this same approach to the words with the highest TF–IDF scores from each subgroup, however, the obtained clusters provide no useful un­derstanding, so we omit those results. 
Additionally, we use ConceptNet Numberbatch [Speer et al., 2017] embeddings. ConceptNet Num­berbatch is a snapshot of word embeddings that have semi-structured, common sense knowledge from ConceptNet, a freely available semantic network. We apply a similar methodology as for Word2Vec, GloVe, and FastText embeddings, and show the re­sults in Figure 5 using t-SNE. We can see that some subgroups are separable from the others, such as be­nevolent, hostile, threat, homophobic, and spam. We can also separate a cluster of vulgar, obscene, and profane. Other subgroups of offensive language are mainly intertwined and inseparable. 


Table 2: K-means clustering of average Word2Vec embeddings of labels’ 30 nearest words. Table shows five clusters obtained with 5-means clustering. We determine k = 5 using silhouette score. 
cluster components 
1  offensive  
2  abusive, vulgar, racist, homophobic, profane,  
slur, harassment, obscene, hateful, insult, sexism, hate  
speech  
3  discredit, hostile, benevolent  
4  cyberbullying, spam  
5  threat, toxic  

3.3	 Contextual word embeddings 
To perform analysis using contextual word embed­dings, we need to provide whole utterances to get desired embedding vectors. We evaluate three diffe­rent approaches based on BERT (Section 3.3.1, Key-BERT (Section 3.3.2) and USE (Section 3.3.3). For the plain BERT language model, we attach a category ke­yword to an utterance to get its representation. Ke­yBERT allows for automatic extraction of keywords from utterances and these represent each category. For the USE we compute average vectors from utte­rances and compare similarities between categories (such approach was not successful with BERT). 
3.3.1	 BERT 
We move on to contextual embeddings and we focus on BERT. We use the pretrained BERT base ca­sed model [Devlin et al., 2019] with 768 dimensional embeddings, and convert tweets and comments from our data set to BERT embeddings. We first append them » – This is <label>« and compute the embeddin­gs. From the obtained last-layer embeddings of each vector, we compute an average representation from the vectors that belong to the tokens of the label. We average the obtained representation of each label and use cosine similarity to compute the similarity bet­ween those label representations. We show the ob­tained similarity matrix in Figure 6. We can see high similarities between most of the subgroups of hate speech. The one that differs the most from the other groups is cyberbullying. We can also see that profane is slightly less similar to identity, insult, threat, and toxic, however, the similarity score is still between 0.87 and 
0.89. For all other combinations, the similarity score is = 0.90. We also visualize the embeddings with the help of t-SNE in Figure 7 and we show the labels on the mean points of each subgroup. We can see that all subgroups are tightly connected and it is hard to distinguish between them. However, we can see that cyberbullying is a little bit more compact and not as dispersed as others, which might be a reason be­hind slightly different similarity scores. It is also in­teresting that some labels, although being dispersed, have some small clusters which stand out and might indicate special subgroups within those subgroups of hate speech. An example of such a subgroup is be­nevolent sexism. 


Figure 5: ConceptNet Numberbatch embeddings. Figure shows ConceptNet Numberbatch embeddings of 30 closest words of each label that we analyze. Note that we omit offensive language subgroups that are not in the vocabulary. 
3.3.2	 KeyBERT 
We leverage the KeyBERT [Grootendorst, 2020], whi­ch is a minimal keywords extraction technique that uses BERT embeddings to create keywords and key phrases that are most similar to a document. For each label, we compute top three keywords for each twe­et or comment using KeyBERT, and show the labels’ five most common keywords in Table 3. We can see that insult, obscene, and toxic have the same five most common keywords. Since they come from the same data set, and since each tweet from that data set co­uld have multiple labels, we feel that this affected the results. We can see that quite a few labels include common keywords such as fuck, bitch, fucking, and idiot, which is not surprising, as they are among the top common curses. We can see more Trump-related words in offensive, profane, and hate speech, which is probably again due to the background of data set ge­neration. However, the most common keyword sets of those labels still slightly differ. Keywords are the most diverse between benevolent, cyberbullying, raci­sm, sexism, and spam. 
3.3.3	 Universal Sentence Encoder (USE) 
Another model that we use is Universal Sentence En­coder (USE) [Cer et al., 2018] which is a model that can be nicely used for semantic similarity. USE en­codes text into high dimensional vectors that can be used for text classification, semantic similarity, clu­stering, and other natural language tasks. USE can be trained using Transformer encoder architecture [Vaswani et al., 2017] with Deep Averaging Network (DAN) [Iyyer et al., 2015]. Both models focus on a tra-de-off between accuracy and computational resource requirement. While the one with Transformer enco­der has higher accuracy, it is computationally more intensive. For this analysis, we use universal-senten­ce-encoder-large model available from TensorFlow Hub, which was trained using Transformer encoder and has 512 dimensional embeddings. 
We use USE model to further analyze the structu­re of offensive language in general. We average the obtained embeddings of texts for each label and use cosine similarity to compute the similarity between those label representations. We show the obtained si-

Figure 6: Similarities between BERT embeddings. Figure shows the similarity between labels’ BERT embeddings. For each label, we obtain an average vector representation by averaging embeddings obtained from the label’s tweets or comments (same as in Fig. 7). The similarity is then computed as cosine similarity between those vector representations. 

Figure 7: BERT embeddings. T-SNE visualization of BERT embeddings for different labels. We obtain each embedding by first appending – This is <label> to our tweets or comments and computing the embeddings for each text. An embedding of the label of text is then the average of the token embeddings that belong to the <label>. 
milarity matrix in Figure 8. From the plot we can see that similarly to BERT results, the subgroups here are again very similar. We can see that toxic, hateful, and spam are more similar to each other than to other labels. 
4	 OFFENSIVE LANGUAGE IN SLOVENIAN 
In this section, we translate English terms to Slovene and check whether we might uncover some differen­ces between them using pre-trained models. 
We choose to use non-contextual word embed­dings. We do not focus on contextual word embed- dings, as no Slovene data sets that would cover most of our labels exist. We use pretrained Word2Vec [Ku­tuzov et al., 2017] and FastText [Grave et al., 2018] models for Slovene language and want to see whe­ther we can separate some subgroups of hate speech or find some subgroups that are inseparable. We first translate the labels of subgroups into Slovene lan­guage and we show the translations in Table 4. We intentionally translate all labels to nouns in order to keep them all in the same part of speech, as experi­ments showed that otherwise the labels that shared the same part of speech were intertwined. Unfortu­nately, as some words are not supported in Slovenian Word2Vec and FastText, we remove labels for hate speech (slo. sovražni govor ), spam (slo. vsiljenost ), and cyberbullying (slo. spletno nasilje) for Word2Vec and hate speech (slo. sovražni govor ), toxic (slo. toksicen), and cyberbullying (slo. spletno nadlegovanje) for Fa-stText. Although FastText supports word-parts, the splits did not include meaningful roots of the key­words and therefore we ommit them from results. For each of the supported category labels we try to find the ten and twenty most similar words for 
Table 3: KeyBERT keywords. Table shows five most common keywords found with KeyBERT obtained from tweets or comments for each offensive language subgroup. 
category BERT keywords 
racism coon, white, black, terror, fuck 
sexism sexist, women, feminazi, girls, kat 
benevolent women, womensday, sassy, adaywithoutwomen, woman 
abusive fucking, idiot, bitch, hate, fuck 
hateful hate, trump, idiot, nigga, fucking 
spam video, new, 2017, liked, free 
cyberbullying riot, troll, hacking, trolls, hacker 
hate speech trumpisatraitor, doctorsfightback, shameonicc, borisjohnsonshouldnotbepm, trump 
identity hate gay, fuck, nigger, bitch, fucking 
insult fuck, wikipedia, bitch, fucking, suck 
obscene fuck, wikipedia, bitch, fucking, suck 
offensive trumpisatraitor, fucktrump, trump, murderer, rapist 
profane fucktrump, fuck, dickhead, trump, douchebag 
threat kill, die, fuck, bitch, rape, death 
toxic fuck, wikipedia, bitch, fucking, suck 


Figure 8: Similarities between USE embeddings. Figure shows the similarity between labels’ USE embeddings. For each label, we obtain an average vector representation by averaging embeddings obtained from the label’s tweets or comments. The similarity is then computed as cosine similarity between those vector representations. 
Word2Vec and FastText models, respectively, and use their embeddings to infer the similarities and dif­ferences between the subgroups. We show the results of Word2Vec and FastText in Figure 9. We can see from Word2Vec visualization that toxic (slo. toksicen) is the only subgroup that can be well separated from others while all other subgroups are inseparable. Inspecting the FastText t-SNE visualization, we see that the only well separable subgroup is homopho­bic (slo. homofobija). Otherwise, there exist three gro­ups that contain two or more subgroups of offensive language that are inseparable. An example of such a group is one smaller group that contains racism (slo. rasizem) and sexism (slo. seksizem) while two other groups contain five and eight subgroups of offensive language, respectively. 

Figure 9: Analysis of offensive language ontology for the Slovene language. Figure shows PCA visualization of Word2Vec and t-SNE visualization of FastText embeddings. 
DISCUSSION Considering all the results and findings from above, we can now provide the following inference. Note that all categories are tightly connected in the results of contextual embeddings, which should be kept in mind. However, we want to provide some sort of se­paration where possible, so we consider more those results that separated our subcategories of offensive language. From all of the performed analysis, we can conclude that spam and cyberbullying can both be se­parated from other subcategories. We put toxic as a separate block as it is distinguishable from others in Word2Vec and GloVe embeddings, however, from clustering results we can see that it can also be con­nected to offensive and threat. We put obscene, insult, profane, abusive, and vulgar together as they appear in the same cluster in k-means clustering of Word2Vec and GloVe embeddings, and as they have quite simi­lar words in KeyBERT. We define the remaining two subgroups by inspecting the Word2Vec results. Thus we obtain the following blocks: 
1. 
sexism, racism, homophobic, and slur ; 

2. 
obscene, insult, profane, abusive, vulgar ; 

3. 
discredit, offensive, hostile, threat, benevolent ; 

4. 
toxic; 

5. 
spam; 

6. 
cyberbullying. 


In the above list, we only state 17 out of 21 su­bgroups that we analyze, as some categories could be tightly connected to multiple subgroups. As some subgroups cannot be separated just yet (block 1, 2, and 3), we apply further analysis with Word2Vec and GloVe. We focus on the labels and use the embeddin­gs of their 50 most similar words. We use PCA vi­sualization (with 2 components), so that we can also see the distance between subgroups. In the first plot of Figure 10 we see that racism, slur, and homophobic are more related to each other than to sexism. In the second plot of Figure 10 we can see that all of the in­spected subgroups are tightly connected and cannot be nicely separated, insult, however, slightly stands out. In the last plot of Figure 10 we can see that disc­redit is not as intertwined with insult and obscene, so we conclude that although it is related to them, it is less they are to each other. 
From the above findings, we show a schema of offensive language subcategories in Figure 11. Note that the schema is obtained with the described 
Table 4: Slovenian translation of labels. Table shows English labels and their Slovenian translations. We only show labels for which we found a suitable translation. We use only benevolenten as a translation for benevolent sexism, as it is mostly used in connection with benevolenten seksizem. 
English word Slovene translation 
Sexism Seksizem 
Racism Rasizem 
Slur Blatenje 
Homophobic Homofobija 
Hate speech Sovražni govor 
Harassment Nadlegovanje 
Insult Žaljenje 
Hateful, hostile Sovražnost 
Vulgar Vulgarnost 
Profane Bogokletnost 
Obscene Nespodobnost 
Abusive Nasilje 
Benevolent sexism Benevolentnost 
Discredit Diskreditiranje 
Offensive Napadalnost 
Threat Grožnja 
Toxic Toksicenost 
Spam Vsiljenost 
Cyberbullying Spletno nadlegovanje 
analysis and it is not confirmed by any linguist pro­fessional. All of the subgroups are also tightly con­nected, however, as the goal of our paper is to provi­de some meaningful relations and ontology, we try to summarize our findings in a schema and show more connected groups together. We find 3 main groups, that are shown in bordered rectangles. The diffe­rence in colors means that the node is slightly less connected to other nodes in those groups. Spam and cyberbullying are both gray, as they are connected, but they each could be put in a separate rectangle, as they differ enough. We place them next to toxic as slight relations can be seen between those three. Toxic and benevolent are also connected to some of the nodes in the blue subgroup. The latter is also connected to ha­teful. We also see that insult has a strong relationship with the red and green subgroups, and discredit from the blue group. General hate speech is mostly connec­ted to the red and green subgroup. Note that identity hate is related to all, but we could not find a stronger relation to any specific subgroup. 


Figure 10: Further analysis of blocks that could not be separated. We use PCA visualization in all plots and 50 nearest words’ embeddings of each label are used. We use GloVe embeddings in the first plot, and Word2Vec in the other two. 
We compare our taxonomy to the taxonomy defi-different and missing some of the categories in our ned in [Banko et al., 2020]. This is a challenging task, paper. The authors propose four main subcategories as the proposed taxonomy in [Banko et al., 2020] is of online harm: Hate and harassment, self-inflicted only a theoretical ground for further annotation cam-harm, ideological harm, and exploitation. We can see paigns and not derived from data, thus containing that the green nodes from our taxonomy in Figure 11 

Figure 11: Inferred schema of hate speech. Figure shows the inferred schema of hate speech. Note that all of the labels are very related, however, we try to provide one possible division. Nodes in groups that are of slightly different color are more separable from other nodes in this group. We show connections to other nodes with normal lines and connections to whole groups with lines and two arrows. Identity is dotted because we do not have enough information to connect it with other nodes or groups. 
can be classified into multiple subgroups of hate and harassment. Spam could be included in misinforma­tion, which is a subgroup of ideological harm, as well as into some subcategories of exploitation. Some of the categories, like threat, offensive, and profane could be categorized into multiple subgroups of hate and harassment as well, while for some we could not find appropriate subcategories of online harm. We did not cover groups of hate speech that could be categori­zed into self-inflicted harm from [Banko et al., 2020], including self-harm and eating disorder promotions, or specific categories that could be categorized into subcategories of exploitation, such as child sexual abuse material or adult sexual services. Existing data is missing such annotations and relabeling could be beneficial for further exploration of subcategories of online harm proposed by [Banko et al., 2020]. 
6	 CONCLUSIONS 
Offensive language is known to everybody, as it is very common in social media. However, we often neglect the fact that is a conglomerate of many su­bgroups, such as sexism, racism, etc. In this paper, we wanted to explore offensive language and its structure and we do this by utilizing different natu­ral language processing techniques. 
We used seven different data sets that contained Twitter and online forum comments. We used tra­ditional techniques, such as TF–IDF, and also more advanced approaches such as non-contextual (Word­2Vec, GloVe, FastText) and contextual (BERT, Key-BERT, USE) embeddings. We found out that each of the approaches provides us with slightly different relations and it is difficult to draw conclusions and we would probably need some help from linguist professionals. Results also depend on how the com­ments were obtained and how annotators conceive the meaning of the labels. 
Combining the results from several approaches, we inferred one possible ontology of offensive lan­guage. We inferred there exist three groupings that include four subgroups of offensive language each. However, even in those groupings there exist su­bgroups, that are less connected to others. We also found some subgroups that are more separable from others. However, it is important to note that all the subgroups are still tightly connected. 
Additionally, we used pre-trained Slovenian Word2Vec and FastText models and found out that toxic (slo. tok- sicnost ) and homophobic (slo. homofo­bija) can be nicely separable by Word2Vec and Fa-stText, respectively. Having a Slovene data set that would cover most of our labels would also be bene­ficial, as we could also use contextual embeddings. This would help us infer an ontology and we, there­fore, delegate this to future work. 
In the future, the obtained knowledge could also be upgraded with the help of a linguist professio­nal. Only a few data sets for Slovene offensive lan­guage exist at the moment. These include Slovenian Twit- ter dataset 2018-2020 1.0 [Evkoski et al., 2021] and Slovenian Twitter hate speech dataset IMSyPP--sl [Kralj Novak et al., 2021], with labels acceptable, inappropriate, offensive, and violent, with the latter data set also containing some information to whom the hate speech is directed (LGBT, racism, sexism, ho- mophobia, etc.), and Offensive language dataset of Croatian, English and Slovenian comments FRENK 
1.1 [Ljubešic et al., 2021], which contains six cate­gories – violence, offensive speech, threat, inappro­priate speech, and acceptable speech. For future work, we see additional value in expanding those or creating new data sets, that would cover all catego­ries analyzed in this paper. Note that we used only pretrained embeddings which were in our case too general and resulted in inseparable categories. Bet­ter results might be obtained by using more problem specific embeddings, such as HateBERT [Caselli et al., 2020]. 
7	 ACKNOWLEDGEMENTS 
We thank Žiga Trojer, Dimitar Stefanov, and Tomaž Martincic for suggesting and help with ConceptNet 
Numberbatch. 
REFERENCES 
[1] [Banko et al., 2020] Banko, M., MacKeen, B., and Ray, L. (2020). A unified taxonomy of harmful content. In Procee­dings of the Fourth Workshop on Online Abuse and Harms, pages 125–137, Online. Association for Computational Lin­guistics. 
[2] [Bojanowski et al., 2017] Bojanowski, P., Grave, E., Joulin, A., and Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the Association for Computatio­nal Linguistics, 5:135–146. 
[3] [Borkan et al., 2019] Borkan, D., Dixon, L., Sorensen, J., Tha­in, N., and Vasserman, L. (2019). Nuanced metrics for mea­suring unintended bias with real data for text classification. In 
Companion proceedings of the 2019 world wide web confe­rence, pages 491–500. 
[4] [Bretschneider and Peters, 2016] Bretschneider, U. and Pe­ters, R. (2016). Detecting cyberbullying in online communities. 

[5] [Calderón et al., 2020] Calderón, C. A., de la Vega, G., and Herrero, D. B. (2020). Topic Modeling and Characterization of Hate Speech against Immigrants on Twitter around the Emergence of a Far-Right Party in Spain. Social Sciences, 9(11):188. 
[6] [Caselli et al., 2020] Caselli, T., Basile, V., Mitrovic, J., and Granitzer, M. (2020). Hatebert: Retraining bert for abusive lan­guage detection in english. arXiv preprint arXiv:2010.12472. 
[7] [Cer et al., 2018] Cer, D., Yang, Y., Kong, S.-y., Hua, N., Lim­tiaco, N., St. John, R., Constant, N., Guajardo- Cespedes, M., Yuan, S., Tar, C., Strope, B., and Kurzweil, R. (2018). Universal Sentence Encoder for English. In Proceedings of the 2018 Con­ference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 169–174, Brussels, Belgium. 
[8] [Chung et al., 2019] Chung, Y.-L., Kuzmenko, E., Tekiroglu, 
S. S., and Guerini, M. (2019). CONAN – COunter NArratives through nichesourcing: a multilingual dataset of responses to fight online hate speech. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pa­ges 2819– 2829, Florence, Italy. Association for Computatio­nal Linguistics. 

[9] [Devlin et al., 2019] Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectio­nal transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Langu­age Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Compu­tational Linguistics. 
[10] [Evkoski et al., 2021] Evkoski, B., Pelicon, A., Mozetic, I., Lju­bešic, N., and Kralj Novak, P. (2021). Slovenian twitter data­set 2018-2020 1.0. Slovenian language resource repository CLARIN.SI. 
[11] [Founta et al., 2018] Founta, A., Djouvas, C., Chatzakou, D., Leontiadis, I., Blackburn, J., Stringhini, G., Vakali, A., Sirivia-nos, M., and Kourtellis, N. (2018). Large scale crowdsourcing and characterization of twitter abusive behavior. In Procee­dings of the International AAAI Conference on Web and Soci­al Media, volume 12. 
[12] [Gambäck and Sikdar, 2017] Gambäck, B. and Sikdar, U. K. (2017). Using convolutional neural networks to classify ha-te-speech. In Proceedings of the first workshop on abusive language online, pages 85–90. 
[13] [Grave et al., 2018] Grave, E., Bojanowski, P., Gupta, P., Jou­lin, A., and Mikolov, T. (2018). Learning Word Vectors for 157 Languages. In Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018). 
[14] [Grootendorst, 2020] Grootendorst, M. (2020). KeyBERT: Mi­nimal keyword extraction with BERT. 
[15] [Iyyer et al., 2015] Iyyer, M., Manjunatha, V., Boyd-Graber, J., and Daumé III, H. (2015). Deep unordered composition rivals syntactic methods for text classification. In Proceedings of the 53rd annual meeting of the association for computatio­nal linguistics and the 7th international joint conference on natural language processing (volume 1: Long papers), pages 1681–1691. 
[16] [Jha and Mamidi, 2017] Jha, A. and Mamidi, R. (2017). When does a compliment become sexist? analysis and classificati­on of ambivalent sexism using twitter data. In Proceedings of the second workshop on NLP and computational social sci­ence, pages 7–16. 
[17] [Kralj Novak et al., 2021] Kralj Novak, P., Mozetic, I., and Lju­bešic, N. (2021). Slovenian twitter hate speech dataset IM-SyPP-sl. Slovenian language resource repository CLARIN.SI. 
[18] [Kutuzov et al., 2017] Kutuzov, A., Fares, M., Oepen, S., and Velldal, E. (2017). Word vectors, reuse, and replicability: To­wards a community repository of large-text resources. In Pro­ceedings of the 58th Conference on Simulation and Model-ling, pages 271–276. Linköping University Electronic Press. 
[19] [Lewandowska-Tomaszczyk et al., 2021] Lewandowska-To­maszczyk, B., Žitnik, S., Baczkowska, A., Liebe- sking, C., Mitrovic, J., and Oleskevisiene, G. V. (2021). Lod-connected offensive language ontology and tagset enrichment. In Pro­ceedings of the First Workshop on Sentiment Analysis & Lin­guistic Linked Data, pages 1–16. 
[20] [Ljubešic et al., 2021] Ljubešic, N., Fišer, D., Erjavec, T., and Šulc, A. (2021). Offensive language dataset of croatian, engli-sh and slovenian comments FRENK 1.1. Slovenian language resource repository CLARIN.SI. 
[21] [Mandl et al., 2019] Mandl, T., Modha, S., Majumder, P., Pa­tel, D., Dave, M., Mandlia, C., and Patel, A. (2019). Overview of the hasoc track at fire 2019: Hate speech and offensive content identification in indo-european languages. In Proce­edings of the 11th forum for information retrieval evaluation, pages 14–17. 
[22] [Martins et al., 2018] Martins, R., Gomes, M., Almeida, J. J., Novais, P., and Henriques, P. (2018). Hate speech classifi­cation in social media using emotional analysis. In 2018 7th Brazilian Conference on Intelligent Systems (BRACIS), pages 61–66. IEEE. 
[23] [Mikolov et al., 2013a] Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. 
[24] [Mikolov et al., 2013b] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., and Dean, J. (2013b). Distributed Represen­tations of Words and Phrases and their Compositionality. In Burges, C. J. C., Bottou, L., Welling, M., Ghahramani, Z., and Weinberger, K. Q., editors, Advances in Neural Information Processing Systems, volume 26. Curran Associates, Inc. 
[25] [OUP, 2021] OUP (2021). Lexico.com – Oxford Universi­ty Press. https://www.lexico.com/definition/ hate_speech. Accessed: 2021-09-01. 
[26] [Pennington et al., 2014] Pennington, J., Socher, R., and Manning, C. D. (2014). Glove: Global vectors for word repre­sentation. In Empirical Methods in Natural Language Proces­sing (EMNLP), pages 1532–1543. 
[27] [Risch et al., 2021] Risch, J., Schmidt, P., and Krestel, R. (2021). Data integration for toxic comment classification: Ma­king more than 40 datasets easily accessible in one unified format. In Proceedings of the 5th Workshop on Online Abuse and Harms (WOAH 2021), pages 157–163. Association for Computational Linguistics. 
[28] [Rizoiu et al., 2019] Rizoiu, M.-A., Wang, T., Ferraro, G., and Suominen, H. (2019). Transfer learning for hate speech detec­tion in social media. arXiv preprint arXiv:1906.03829. 
[29] [Salminen et al., 2018] Salminen, J., Almerekhi, H., Milenko­vic, M., Jung, S.-g., An, J., Kwak, H., and Jansen, 
[30] B. (2018). Anatomy of Online Hate: Developing a Taxonomy and Machine Learning Models for Identifying and Classifying Hate in Online News Media. In Proceedings of the Internatio­nal AAAI Conference on Web and Social Media. 
[31] [Schmidt and Wiegand, 2017] Schmidt, A. and Wiegand, M. (2017). A survey on hate speech detection using natural lan­guage processing. In Proceedings of the fifth international workshop on natural language processing for social media, pages 1–10. 
[32] [Speer et al., 2017] Speer, R., Chin, J., and Havasi, C. (2017). ConceptNet 5.5: An open multilingual graph of general kno­wledge. In Thirty-first AAAI conference on artificial intelligen-[37] [Waseem and Hovy, 2016] Waseem, Z. and Hovy, D. (2016). ce, pages 4444–4451. Hateful Symbols or Hateful People? Predictive Features for 
[33] [Spertus, 1997] Spertus, E. (1997). Smokey: Automatic Re-Hate Speech Detection on Twitter. In Proceedings of the NA-cognition of Hostile Messages. In Proceedings of the Fourte-ACL Student Research Workshop, pages 88–93, San Diego, enth National Conference on Artificial Intelligence and Ninth California. Association for Computational Linguistics. Conference on Innovative Applications of Artificial Intelligen-[38] [Wulczyn et al., 2017] Wulczyn, E., Thain, N., and Dixon, L. ce, AAAI’97/IAAI’97, page 1058–1065. AAAI Press. (2017). Ex Machina: Personal Attacks Seen at Scale. In Pro­
[34] [Van der Maaten and Hinton, 2008] Van der Maaten, L. and ceedings of the 26th International Conference on World Wide Hinton, G. (2008). Visualizing data using t-sne. Journal of ma-Web, WWW ’17, pages 1391–1399, Republic and Canton of chine learning research, 9(11). Geneva, CHE. International World Wide Web Conferences 
[35] [Vaswani et al., 2017] Vaswani, A., Shazeer, N., Parmar, N., Steering Committee. Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polo-[39] [Xu et al., 2012] Xu, J.-M., Jun, K.-S., Zhu, X., and Bellmore, sukhin, I. (2017). Attention is all you need. Advances in neural A. (2012). Learning from bullying traces in social media. In information processing systems, 30. Proceedings of the 2012 conference of the North American 
[36] [Waseem, 2016] Waseem, Z. (2016). Are you a racist or am i chapter of the association for computational linguistics: Hu-seeing things? annotator influence on hate speech detection man language technologies, pages 656–666. on twitter. In Proceedings of the first workshop on NLP and computational social science, pages 138–142. 
• 
Maša Kljun is a Data Science Masters’s student at the Faculty of Computer and Information Science, University of Ljubljana. 
• 
Matija Teršek is a Data Science Masters’s student at the Faculty of Computer and Information Science, University of Ljubljana. 
• 
Slavko Žitnik is an assistant professor at the Faculty of Computer and Information Science, University of Ljubljana. His main research interests are information retrieval and information extraction. Specifically, he is trying to enrich the extracted data from text using parallel and iterative combination of entity extraction, relationship extraction and coreference resolution techniques. Furthermore, his research also focuses on data merging, redundancy elimination and ontologies. 

 Strojna analiza tematik in sentimenta 
slovenskih novic arskih medijev 
Jan Bajt, Marko Robnik Šikonja 
Univerza v Ljubljani, Fakulteta za racunalništvo in informatiko, Vecna pot 113, 1000 Ljubljana janbajt@gmail.com, marko.robnik@fri.uni-lj.si 
Izvlecek 
V delu primerjamo slovenske novicarske medije s pomocjo analize tematik in sentimenta clankov. Analizirali smo razlicna stališca sedmih slovenskih medijev do specificnih dogodkov oziroma tematik v letih 2019 in 2020. Tematike smo modelirali dvofazno z mo-delom LDA, s katerim smo v množici spletnih clankov poiskali nekaj posameznih tematik. Za nalogo zaznavanja sentimenta smo prilagodili velik vnaprej naucen slovenski maskirni jezikovni model SloBERTa in ga uporabili pri klasifikaciji izbranih clankov v enega izmed treh razredov (pozitivnega, nevtralnega ali negativnega). V množici izbranih tematik smo opazili precejšnje razlike med mediji v pogostosti in sentimentu porocanja. Kljucne besede: analiza sentimenta, latentna Dirichletova alokacija, modeliranje tematik, model BERT, obdelava naravnega jezika, slovenski novicarski mediji 
Abstract 
We compare topics and sentiment in Slovenian news media. We analysed the sentiment of seven media concerning specific political events or topics in 2019 and 2020. We used two phases of LDA modelling to detect a number of specific topics. For the sentiment analysis task, we fine-tuned large pretrained Slovenian masked language model, SloBERTa, and used it to classify articles in one of three classes (positive, neutral or negative). In the set of selected topics, we observed considerable differences between media in frequency and sentiment of reporting. Keywords: Sentiment analysis, latent Dirichlet allocation, topic modeling, model BERT, natural language processing, Slovenian news 
media 
1	 UVOD 
Mediji s pisanjem o dogodkih in z mnenjskimi clan-ki mocno vplivajo na družbo in so tudi njen odraz. Ko gre za politicne teme, mnogokrat pokažejo tudi ideološka prepricanja, ki jih zastopajo. V delu želimo 
z metodami procesiranja naravnega jezika poiskati razlike v pisanju slovenskih medijev o nekaj izbranih dogodkih oz. temah s primerjavo sentimenta clan-kov izbranih tematik. Podobna strojna analiza za slo­venske medije še ne obstaja. Naš namen je objektivno 
analizirati slovenski novicarski medijski prostor in 
interpretirati razlike med posameznimi tematikami in mediji. 
1.1	 Obstojece raziskave na slovenšcini 
Podrocje zaznavanja sentimenta je pogosta naloga na podrocju obdelave naravnega jezika, vendar je bila vecina raziskav narejenih za angleški jezik. V zadnjem casu so najbolj uveljavljene rešitve z upora­bo tehnologij, ki temeljijo na arhitekturi transformer [24]. Med tovrstne modele spada model BERT [7], iz 
katerega so razvili vec razlicic (npr. RoBERTa [12], ALBERT [10] itd.), ki se uporabljajo za razlicne na-loge predstavitve jezika. Za slovenski jezik so Bucar, Povh in Žnidaršic [4] opravili raziskavo o odkrivanju sentimenta v slovenskih clankih. V tej raziskavi so na množici slovenskih clankov [5] uporabili pet razlic­nih klasifikatorjev (multinomski naivni Bayes, naivni Bayes, metoda podpornih vektorjev, k-najbližjih sose­dov in nakljucni gozdovi) in jih med seboj primerjali. Pelicon, Pranjic, Miljkovic, Škrlj in Pollak [18] so ana­lizirali medjezikovne zaznave sentimenta v clankih. 
Razvili so klasifikacijski sistem, ki s podanim korpu­som oznacenih clankov v slovenskem jeziku dolo-ci sentiment ne samo na slovenskih temvec tudi na drugih jezikih brez dodatnih ucnih podatkov. Sistem temelji na vecjezicnem modelu BERT, v raziskavi pa razišcejo tudi razlicne pristope za delo z dolgimi be-sedili. V nasprotju z naštetimi pristopi v našem delu za klasifikacijo sentimenta uporabimo trenutno naj­uspešnejši slovenski jezikovni model SloBERTa [22]. 
Za analizo tematik je razvitih kar nekaj modelov. Med najbolj poznanimi so verjetnostni modeli, med katere spadajo probabilisticna latentna semantic­na analiza (pLSA) [9], latentna semanticna analiza (LSA) [6] in latentna Dirichletova alokacija (LDA) [2]. 
Za slovenšcino sta Logar Berginc in Ljubešic [14] opravila tematsko primerjavo podatkovnih množic Gigafida in slWaC. V množicah sta poiskala teme z metodo LDA, jih primerjala med seboj in izpostavi-la nekaj razlik med najdenimi temami obeh množic. Škrajnc in Pollak [21] sta analizirali in primerjali te­matike med blogi moških in ženskih avtorjev. Za raz­liko od Logar Bohinc in Ljubešic sta razvili hierarhic­ne ontologije, kar je omogocilo identifikacijo podtem za vsako izmed tem. 
Sistematicna analiza tematik v slovenskih medi­jih še ne obstaja. Razlike med porocanji slovenskih medijev so raziskali Martinc, Perger, Pelicon, Ulcar, Vezovnik in Pollak [17], ki so se osredotocili na temo LGBTIQ+. Raziskali so razlike v zaznanem sentimen­tu in uporabljenih besedah. V našem delu analizira-mo široko množico tematik, vendar zaradi omeje­nega prostora porocamo o le nekaj ožjih tematikah (politika in epidemija COVID-19). 
1.2	 Novosti 
V zbirki clankov sedmih slovenskih vecjih medijev 
smo najprej opravili analizo tematik in izbrali nekaj širših tem iz preteklih let. Znotraj teh tematik smo 
dolocili še podrobnejše teme. Za modeliranje tem smo uporabili statisticni model latentne Dirichletove 
alokacije (LDA) [2], ki zaradi svoje razširjenosti po­nuja tudi vec vizualizacijskih orodij, ki so nam po­magala pri interpretaciji rezultatov. Za izbrane teme smo analizirali sentiment z modelom SloBERTa, ki smo ga predhodno prilagodili za zaznavanje tri ra­zrednega sentimenta. Analiza je pokazala precejšnje razlike med posameznimi mediji, tako glede pogo-
stosti porocanja o posameznih tematikah kot glede 
sentimenta pisanja o teh temah. Novosti našega pri­spevka so naslednje. 
• Predlagamo dvonivojsko analizo tematik sloven-
skih medijev, ki omogoca boljšo interpretacijo in poimenovanje ožjih tem, kot ce bi z enofazno analizo dolocili vecjo število tematik, saj bi v tem primeru v veliki množici dobljenih tem težje do-locili specificne teme, ki jih želimo primerjati med 
mediji. 
• Prvic na slovenskih clankih uporabimo model SloBERTa za analizo sentimenta na nivoju clan-kov. Model se pokaže kot uspešnejši v primerjavi 
z dosedanjimi poskusi z modelom SVM. 
• Za razliko od dosedanjih vecjih analiz sentimen­ta slovenskih medijev analiziramo trorazredni 
sentiment, za katerega menimo, da omogoca bolj 
objektivno analizo v primerjavi z binarnim senti­mentom, saj je najvec clankov v medijih sentimen­tno nevtralnih, nevtralni razred pa binarna anali­za sentimenta na silo pripoji bodisi pozitivnemu bodisi negativnemu razredu. 
• 
V naši analizi uporabimo doslej najvecjo podat­kovno množico spletnih novic in medijev, kar daje izsledkom vecjo težo.

• 
Opravljena analiza tematik v kombinaciji z ana­


lizo sentimenta izbranih tem pokaže precejšnje 
razlike med mediji tako glede pogostosti pisanja 
o posameznih temah kot tudi glede sentimenta. 
1.3	 Struktura prispevka 
Delo smo razdelili na pet razdelkov. V drugem raz­delku najprej predstavimo uporabljene tehnologije za detekcijo tematik in analizo sentimenta. V tretjem 
razdelku opišemo analizirano zbirko spletnih clankov in ucno množico SentiNews, ki smo jo uporabili za ucenje sentimentega klasifikatorja na podlagi modela 
SloBERTa. Naš pristop k modeliranju tem in analizi sentimenta predstavimo v cetrtem razdelku. Peti raz­delek vsebuje ovrednotenje razvitih modelov in rezul­
tate modeliranja tematik in sentimenta. Zakljucke in 
ideje za nadaljnjo delo zapišemo v šestem razdelku. 
2	 TEHNOLOGIJE ZA ANALIZO TEMATIK IN SENTIMENTA 
V tem razdelku predstavimo uporabljene tehnologi­
je. Zaradi razpoložljivosti dobrih orodij, s katerimi 

lahko interpretiramo rezultate, smo za modeliranje tematik izbrali latentno Dirichletovo alokacijo, ki jo predstavimo v razdelku 4.1.3. Za interpretacijo re-zultatov smo izbrali vizualizacijsko orodje LDAvis, katerega zmožnosti opišemo v razdelku 2.2. Za kla­sifikacijo sentimenta smo uporabili slovenski model SloBERTa, ki ga opišemo v razdelku 2.3. 
2.1	 Analiza tem z latentno Dirichletovo alokacijo 
Model latentne Dirichletove alokacije (LDA) [2] je verjetno najpogosteje uporabljen pristop za mode-liranje tem v besedilih. Modeliranje tem je metoda 
nenadzorovanega ucenja, kjer v korpusu besedil poišcemo potencialno skrite ali abstraktne teme [1]. 
Poleg modela LDA sta za modeliranje tem pogosto uporabljena še pristopa LSA (angl. Latent Semantic Analysis) [8] in pLSA (angl. Probabilistic Latent Se­mantic Analysis) [9]. 
Model LDA, katerega delovanje prikazuje slika 

1, predpostavlja, da je v korpusu besedil doloceno 
število tem (na sliki so štiri teme: Tema 1, Tema 2, Tema 3, Tema 4). Vsaka izmed tem vsebuje verjetno­stno porazdelitev besed, ki se v temi nahajajo (npr. za Temo 1: 5% Beseda 1, 4 % Beseda 2, 2,5 % Beseda 3 itn.). Vsak dokument je zgrajen iz nakljucne meša-nice tem v korpusu (npr. 60% Tema 1, 20 % Tema 2, 15% Tema 3 in 5 % Tema 4). Za tvorjenje novega do-kumenta verjetnostni model predpostavi, da iz vsa­
ke teme nakljucno izberemo doloceno število besed 
(iz Teme 1 60% vseh besed v dokumentu, iz Teme 2 20 % itd.). 
V realnosti je proces ravno obraten. Na sliki 2 je graficni prikaz delovanja modela LDA. Model na vho­du prejme število tem K in korpus besedil z M doku­menti in N besedami v posameznem besedilu. Na ni­voju dokumenta (notranji okvir na sliki 2) model vsaki besedi w nakljucno doloci temo z, s tem pa pridobimo porazdelitev tem .v posameznem dokumentu. 
Model ima še dva hiperparametra, ain ß, ki sta parametra Dirichletove porazdelitve. LDAnamrec predvideva, da sta porazdelitvi tem v besedilu in be-sed v temah Dirichletovi. Hiperparameter a vpliva na porazdelitev tem v posameznih dokumentih, ßpa na porazdelitev besed v posameznih temah. Vecja vrednost parametra apomeni, da bodo dokumenti mešanica vecjega števila tem, vecja vrednost parame­tra ßpa pomeni, da bodo teme mešanica vecjega šte­vila besed. Obratno velja za majhne vrednosti obeh parametrov. 
Iz korpusa dokumentov in števila tem model 

LDA izracuna dva tipa distribucij:
• 
distribucije besed za vsako izmed zaznanih tem in 

• 
distribucije tem, ki se pojavljajo v posameznem dokumentu iz korpusa dokumentov. 


Izracunan model lahko uporabimo za analizo iz­branega korpusa ali za klasifikacijo novih dokumen­tov, ki niso del izbranega korpusa. Pri analizi izbra­nega korpusa dobimo pregled tem, ki jih vsebuje, in-terpretiramo jih lahko z besedami, ki jih posamezne teme vsebujejo. Pri klasifikaciji novih dokumentov model uporabi zgolj besede iz ucnega korpusa, ne upošteva pa besed iz dokumentov, ki jih ni v nauce­nem modelu. Za vsak nov dokument dobimo verjet­nostno porazdelitev tem tega dokumenta. 

Figure 1: Primer generiranja dokumenta z verjetnostnim modelom, ki ga predpostavlja LDA. Figure 2: Shema delovanja modela LDA. 

2.2	 Vizualizacija tem z orodjem LDAvis 
LDAvis [20] je orodje, ki omogoca interaktivno vizu­alizacijo tem, pridobljenih z modelom LDA. Z orod­jem imamo pregled nad vsemi temami in razlikami med njimi, kot tudi pregled besed povezanih z izbra-no temo, kot ilustrira slika 3. Poleg vizualizacije tem orodje vpelje še mero primernosti besed (angl. rele­vance) za vsako besedo znotraj teme. 
Vizualizacija modela je razdeljena na dva dela: 
• 
globalen pregled vseh tematik (leva polovica slike 

3) in 

• 
pregled najpogostejših besed znotraj izbrane teme (desna polovica slike 3). 


Z analizo globalnega prikaza vseh tem lahko ugo­tovimo, kako pogosto se tema v besedilu nahaja in kako so teme med seboj povezane. Posamezne teme so predstavljene s krogi v dvodimenzionalnem pro-storu. Vecji krogi pomenijo, da je tema bolj razširje­na med opazovanimi besedili, razdalja med krogi pa pove, kako podobne so si teme. Dobro interpretabi­len model LDA je predstavljen z velikimi krogi, ki se med sabo ne prekrivajo in so razpršeni po celotnem prostoru. 
V desni polovici vizualizacije na sliki 3 so v obli­ki stolpcnega diagrama predstavljene najprimernej­še besede za interpretacijo izbrane teme. Modri del posameznega stolpca predstavlja pogostost besede v celotnem korpusu besedil, rdeci del pa predstavlja pogostost besede v izbrani temi. 
Pomemben del orodja je mera primernosti bese­de .za doloceno temo, ki lahko zavzame vrednosti med 0 in 1. Vrednost .= 1 pomeni, da so besede v desni polovici vizualizacije razvršcene po pogostosti besed znotraj izbrane teme (po velikosti rdecega dela stolpca). Nižja kot je vrednost ., vecjo pozornost da­jemo besedam, ki se bolj izkljucno pojavljajo v izbra­ni temi. Sievert in Shirley [20] predlagata nastavitev .na vrednost 0.6. V interaktivni vizualizaciji lahko vrednost . prilagajamo in s tem spreminjamo vrstni red besed v desni polovici vizualizacije, kar nam po­maga pri interpretaciji modela. 
2.3	 Klasifikacija sentimenta s prilagajanjem modela SloBERTa 
Model BERT (angl. Bidirectional Encoder Represen­tations from Transformers) [7] je jezikovni model, 
ki pri ucenju predstavitve besed upošteva kontekst 
vseh besed v stavku (tako pred kot za opazovano 
besedo). S prilagajanjem naucenega modela (angl. 
fine tuning) dobimo trenutno najuspešnejše modele 
za razlicne naloge na podrocju obdelave naravnega 
jezika, tudi za klasifikacijo sentimenta, ki jo uporabi-mo v našem delu. Model BERT sestavljajo kodirniki nevronske arhitekture transformer [24], ki uporablja mehanizem samopozornosti (angl. self-attention). 
Osnovna inacica modela BERT (BERT base) vsebuje 
12 slojev kodirnikov, kjer ima vsaka plast 768 skritih nevronov. Model ima 12 glav pozornosti (angl. atten­tion head) in skupno 110 milijonov parametrov. 


Figure 3: Vizualizacija tem z orodjem LDAvis. Na desni je prikazana interpretacija teme 3 (rdec krog na levi strani), ki zadeva temo o nogometu. 
Za ucenje modela BERT se uporabita dve razlic­ni nalogi in velika množica neoznacenih podatkov. Prva naloga je maskirni jezikovni model (angl. ma­sked language model), kjer je ’zamaskiranih’ nakljuc­nih 15% besed oz. vhodnih žetonov (angl. tokens). Model napoveduje zamaskirane besede, s tem pa se nauci konteksta zamaskiranih besed. Druga naloga je predvidevanje naslednje povedi, kjer model prav tako ucimo na neoznacenih podatkih. Na vhod mo­del dobi zaporedje dveh povedi, ugotoviti pa mora ali druga poved sledi prvi ali ne. S tem se model uci smiselnih povezav na nivoju povedi. Naucen model lahko prilagodimo za uporabo na specificnih nalogah obdelave naravnega jezika, kot so odkrivanje senti­menta, povzemanje besedil, odgovarjanje na vpraša­nja ipd. Pri prilagajanju modela za doloceno nalogo uporabimo oznacene podatke, primerne za nalogo, ki jo izvajamo, modelu pa dodamo nov izhodni sloj. 
Model RoBERTa [12] (angl. A Robustly Optimized BERT Pretraining Approach) je izboljšava modela BERT, ki je uporabila veliko vecjo podatkovno mno­žico in daljši cas ucenja. RoBERTa uporablja vecje ve­likosti ucnih paketov (angl. batch size), v fazi ucenja 
pa ne uporablja naloge predvidevanja naslednjih po­
vedi. Spremenjen je tudi nacin maskiranja besed. Pri modelu BERT so besede maskirane staticno (samo enkrat, na zacetku ucenja), model RoBERTa pa bese­de maskira dinamicno, kar pomeni, da se maskiranje izvede posebej za vsako iteracijo ucenja.
Model SloBERTa [23] je enojezicen slovenski mo­del RoBERTa, ki sledi arhitekturi in ucenju franco­skega modela CamemBERT [16]. Naucili so ga na korpusu besedil, ki vsebuje 3.47 milijard besed, nje-gov slovar pa vsebuje 32.000 žetonov.
3	 UCNI PODATKI 
Za opravljeno analizo smo potrebovali dve zbirki podatkov. Zbirko spletnih novic, ki smo jo analizira­li glede tem in sentimenta, opišemo v razdelku 3.1, ucno množico, s katero smo naucili klasifikator sen-timenta, pa v razdelku 3.2. 
3.1	 Zbirka spletnih clankov iz storitve Event Registry 
Dostop do velike množice clankov s slovenskih novi-carskih medijev nam je omogocil spletni servis Event Registry [11]. Pridobljena množica vsebuje 2.2 mili­jona clankov v formatu JSON, objavljenih med 1. 1. 2014 in 31. 12. 2020. Posamezen clanek poleg besedila vsebuje še meta podatke, kot so naslov, datum, cas objave, spletni naslov in informacije o viru clanka.
Za potrebe naše analize smo za vsak clanek izlu-šcili njegovo vsebino, naslov in medij. Zaradi ome­jenega prostora smo uporabili clanke iz let 2019 in 2020 za nekaj najvecjih slovenskih medijev (Dnevnik, 24ur.com, RTV Slovenija in Siol.net) in nekaj medijev iz desnega politicnega pola, za katere smo pricako­vali vecje razlike v porocanju (Nova24TV, Tednik De-mokracija in Portal Politikis). 
V tabeli 1 so prikazane povprecne dolžine clankov posameznih medijev v posameznem letu. Iz clankov izbranih medijev smo odstranili tiste z manj kot 25 besedami in duplikate, ostale clanke pa smo uporabi­li pri zaznavanju tematik. Koncno število uporablje­nih clankov izbranih medijev v posameznem letu je prikazano v tabeli 2. 
Table 1: Povprecna dolžina clankov v številu besed za posamezne medije v analiziranih letih 2019 in 2020. 
Medij 2019 2020 
RTV Slovenija 403 452 
Siol.net 410 405 
24ur.com 202 214 
Svet24 340 346 
Tednik Demokracija 424 463 
Nova24TV 523 546 
Portal Politikis 353 356 
Dnevnik 253 253 
Povprecje 351 373 
Table 2: Število uporabljenih clankov izbranih medijev v letih 2019 in 2020. 
Medij 2019 2020 
RTV Slovenija 28.948 33.466 
Siol.net 25.871 23.863 
24ur.com 18.831 21.281 
Tednik Demokracija 8.869 8.213 
Nova24TV 6.524 7.170 
Portal Politikis 6.142 5.321 
Dnevnik 20.990 15.304 
Skupaj 116.175 114.618 
3.2	 Ucna množica za analizo sentimenta SentiNews 
Za ucenje sentimenta smo uporabili podatkovno množico slovenskih clankov SentiNews [3, 5]. Ce-
lotna podatkovna zbirka je sestavljena iz vec kot 
250.000 clankov s politicno, poslovno, ekonomsko in financno vsebino petih slovenskih spletnih medijskih virov (24ur, Dnevnik, Finance, RTV Slovenija in Žur­nal24). V tej zbirki je bilo 10.427 dokumentov rocno oznacenih s sentimentom, merjenim s petstopenjsko 
Likertovo lestvico (1 – zelo negativno, 2 – negativ-no, 3 – nevtralno 4 – pozitivno in 5 – zalo pozitivno). Dokumente je anotiralo od 2 do 6 anotatorjev, pov­
precne vrednosti ocen pa so pretvorjene v eno izmed koncnih oznak po naslednjih merilih [5]:
• razred »negative«, ce je povprecje ocen manjše ali 
enako 2.4, 
• razred »neutral«, ce je povprecje ocen med 2.4 in 
3.6, 
• razred »positive«, ce je povprecje ocen vecje ali 
enako 3.6. 
Clanki so oznaceni s sentimentom na treh nivojih: nivo stavka, odstavka in dokumenta. V naši raziska-vi smo uporabili clanke, ki so s sentimentom ozna-ceni na nivoju celotnega dokumenta. Izmed skupno 
10.427 anotiranih clankov je 5.425 clankov oznacenih 
s nevtralnim sentimentom, 3.337 z negativnim in 
1.665 z pozitivnim sentimentom. Povprecno število besed v teh clankih je 309.
4	 METODOLOGIJA ANALIZE TEMATIK IN SENTIMENTA 
V tem razdelku opišemo uporabo tehnologij, opisa­nih v razdelku 2, za namen analize tem (razdelek 4.1) 
in dolocitve sentimenta novic posameznih medijev v 
izbranih temah (razdelek 4.2). Shema celotnega po­stopka je ilustrirana na sliki 4. 
4.1	 Modeliranje tem 
S postopki modeliranjem tem želimo v množici slo­venskih clankov odkriti razlicne teme, o katerih piše­jo slovenski mediji. Za te teme želimo, da so dovolj 
podrobne, da bomo lahko na njih odkrivali razlike v sentimentu in opravili primerjavo razlicnih medi­jev. Primer tem, ki bi jih lahko odkrili in analizirali je npr. cepljenje proti COVID-19 ali menjava vlade v letu 2020. Za pridobivanje tako podrobnih tem bi lahko zgradili model LDA za veliko število tem (100 in vec), vendar bi si s tem otežili interpretacijo prido­bljenih tem. Namesto tega smo se modeliranja tem lotili dvofazno. Najprej smo zgradili model LDA na celotnem korpusu besedil za majhno število širših 
tem (okrog 10), ki jih je hitreje in lažje interpretirati.


Figure 4: Shema uporabljene metodologije za analizo clankov. 
Po opravljeni interpretaciji prvostopenjskega mo-dela smo za nadaljnjo obravnavo izbrali le dve širši temi o politiki in epidemiji COVID-19. Iz množice dokumentov smo tako izbrali le tiste, ki imajo verje­tnost, da pripadajo širši temi višjo od dolocene meje (vsaj 0.55). Na tako pridobljeni novi množici clankov smo zgradili nov podrobnejši model LDA. Na koncu smo iz nekaj drugostopenjskih tem znotraj širših tem 
o politiki in epidemiji COVID-19 izlušcili najbolj ti­picne clanke in jih uporabili za analizo sentimenta in 
primerjavo medijev. Celoten postopek modeliranje tem sestavljajo naslednji koraki, ki so prikazani tudi na sliki 5: 
1.
Predobdelava clankov (razdelek 4.1.1).

2.
Priprava podatkov za racunanje prvostopenjske­ga modela LDA (razdelek 4.1.2). 

3. 
Konstrukcija modela LDA (razdelek 4.1.3). 


4. 
Interpretacija prvostopenjskega modela LDA (razdelek 4.1.4). 

5.
Izbor teme in clankov za racunanje podrobnejše­ga drugostopenjskega modela. 

6. 
Ponovimo 2., 3. in 4. korak za modeliranje podtem izbranih širših tem. 

7.
Izbor podtem in clankov za nadaljnjo analizo sen-timenta (razdelek 4.1.5). 


3.0.1	 Predobdelava clankov 
V predobdelavi podatkov za odkrivanju tematik iz 
besedil izlušcimo za nas pomembne dele. Postopek na besedilih clankov izvede naslednje korake, ki jih 
shematsko prikazuje slika 6. 
1.
Filtriranje clankov.

2. 
Tokenizacija. 

3.
Pretvorba besed v male crke.



Figure 5: Dvostopenjski postopek modeliranja tem za pridobivanja clankov dolocene ožje teme, ki jo analiziramo glede sentimenta. Figure 6: Proces predobdelave podatkov za analizo tematik. 

4.
Odstranitev besed krajših oz. daljših od dolocene dolžine.

5. 
Odstranitev nepomembnih besed (angl. stop­-words). 

6. 
Lematizacija. 

7.
Odstranitev ponavljajocih se delov besedil.


V prvem koraku smo clanke filtrirali, kar pomeni, da smo odstranili vse clanke, ki so krajši od dolocene­ga števila besed, in vse podvojene clanke, t.j. clanke z identicnimi naslovi. Pri odstranjevanju duplikatov smo v tem koraku odstranili zgolj clanke s popolno-ma identicnimi naslovi, ne pa tudi clankov, kjer je v naslovu spremenjena zgolj posamezna beseda, je pa ocitno, da gre za enako vsebino clanka.
Naslednje tri korake predobdelave smo opravili s 
pomocjo metode simple_preprocess iz knjižnice Gensim 
[19]. Metoda besedilo razdeli na posamezne besede 
(tokenizacija), jih pretvori v male crke in odstrani vse besede, ki so krajše oz. daljše od dolocene dolžine.
Iz preostalih besed odstranimo še t.i. stop besede (angl. stop words), ki nimajo posebnega pomena v povedih (npr. vezniki, zaimki, imena mesecev itn.). Seznam stop besed za slovenski jezik smo pridobili iz knjižnice NLTK [15]. Vse preostale besede smo pre­tvorili v njihove leme (osnovne oblike). Za lematizaci­jo slovenskih besed smo uporabili orodje Classla [13]. 
V zadnjem koraku smo pregledali dobljene clanke posameznih medijev in pri dolocenih medijih opazi­li ponavljajoce se dele besedil, ki smo jih odstranili. Pri vec medijih se je v clankih velikokrat pojavljala beseda »foto«, ki je bila v spletni obliki clanka del naslova priloženih fotografij. Odstranili smo tudi oznake virov, npr. ’reuters’, ’getty images’, ’urbanec’ in ’sportid’, ki predstavljajo vir fotografij. Pri medi­ju 24ur.com smo odstranili ponavljajoc se zacetni del besedila, ki od uporabnika zahteva omogocenje piškotkov spletne strani. Iz clankov Siol.net Novice smo odstranili ponavljajoc se zacetni del besedila, ki se je nanašal na t.i. termometer, ki bralcu clanka razlo­ži vlogo le-tega pri porocanju o popularnosti clanka. Pri ostalih medijih vecjih ponavljajocih se delov na zacetku clankov nismo opazili.
3.0.2	 Priprava n-gramov za model LDA 
S postopkom predobdelave podatkov smo iz clan-kov izlušcili posamezne besede, ki nam lahko nekaj povedo o temah clankov. V clankih se dolocene bese­de veckrat pojavljajo skupaj (npr. Marjan Šarec, Janez Janša, državni zbor itd.), kar lahko pomaga pri inter-pretaciji tem. V naslednjem koraku smo zato v clan-kih zaznali pogoste dvojice besed (bigrame) in po­goste trojice besed (trigrame). Knjižnica Gensim [19] ponuja model za avtomatsko zaznavanje pogostih besednih zvez imenovan Phrases. Zaznane bigrame 
in trigrame smo pretvorili v en sam niz besed locenih s podcrtajem (npr. državni_zbor) in jih dodali v se­znam besed predprocesiranih clankov. Pri tem nismo 
upoštevali tistih bigramov in trigramov, ki se pojavi­
jo v manj kot 15 clankih in tistih, ki imajo vrednost threshold1 nižjo od 100.
Iz predobledanih clankov smo pridobili podatke, ki jih potrebujemo za ucenje modela LDAs knjižni-co Gensim [19]. Ta na vhodu sprejme za vsak clanek 
t.i. vreco besed (angl. bag of words) in slovar besed 
(angl. dictionary) za celoten korpus besedil. Slovar besed vsebuje vse unikatne besede iz korpusa pred­obdelanih besedil, za vsako od besed pa doloci uni-katno identifikacijsko število (id). S pomocjo slovarja knjižnice Gensim tvorimo vreco besed za vsak clanek v korpusu z uporabo metode doc2bow. 
S tem imamo pripravljen slovar besed in korpus clankov predstavljenih z vrecami besed in lahko zac­nemo z ucenjem modela LDA.

Podrobnosti o parametru threshold so predstavljene v dokumentaciji orodja Gensim na https://radimrehurek. com/gensim/models/phrases.html#gensim.models. phrases.Phrases. 
3.0.3	 Izgradnja modela LDA 
Delovanje modela LDAsmo razložili v razdelku 2.1. Implementacija modela LDAv knjižnici Gensim na vhodu sprejme število tem, ki jih želimo odkriti v besedilu, slovar besed in korpus clankov v formatu vrece besed, katerih pripravo smo opisali v razdelkih 
4.1.1 in 4.1.2. Glavno merilo evalvacije modela LDA je smiselnost in interpretabilnost tem, zato smo iz­
racunali vec modelov z razlicnim številom tematik. Izracunane modele smo poizkusili interpretirati in 
za nadaljevanje postopka izbrali subjektivno najbolj interpretabilen in smiseln model. 
3.0.4	 Interpretacija tem modela LDA 
Pri interpretacijah modelov LDA smo si pomagali z 
vec pripomocki. Uporabili smo najpogostejše besede 
posameznih tem, poleg tega pa še vizualizacijo mo-dela LDA z orodjem pyLDAvis [20]. Pri interpretaciji 
je pomembna mera primernosti besed, katere vecje 
vrednosti dajejo prednost besedam, ki pripadajo 
opazovani temi v vecji meri kot drugim temam. Na ta nacin tematik ne interpretiramo le na podlagi naj­pogostejših besed ampak uporabimo tudi besede, ki so najbolj primerne za opazovano temo. 
Za razumevanje širšega konteksta smo si pri inter-pretaciji modela LDApomagali tudi z naslovi clankov.Vsakemu clanku smo najprej dolocili temo, ki ji pripadav najvecji meri (najvecja verjetnost). Clanke smo natozdružili po temah in za vsako temo izbrali 20-30 clan-kov, ki najbolje predstavljajo posamezno temo (imajo najvišjo verjetnost, da pripadajo temi). Iz teh clankovsmo izlušcili naslove in jih uporabili pri interpretaciji.
V postopku interpretacije teme poimenujemo s 

pomocjo treh elementov, ki jih prikazuje slika 7:
• najpogostejše oz. najprimernejše besede dolocene 
teme, 

• 
vizualizacija z orodjem pyLDAvis, 

• 
naslovi clankov.


3.0.5	 Izbor clankov za nadaljnjo analizo 
Ko smo v analizi drugostopenjskega modela LDA 
dolocili in izbrali podrobnejše teme, moramo iz njih izbrati clanke, ki jih bomo uporabili pri nadaljnji analizi sentimenta. Pri tem želimo izbor tematsko homogene množice clankov, ki bo omogocala smisel-no primerjavo med mediji. To dosežemo tako, da iz vsake izbrane teme, izberemo clanke z dovolj viso­ko verjetnostjo pripadnosti temi. Prag verjetnosti je 
lahko med posameznimi temami razlicen, zato smo preizkusili razlicne vrednosti verjetnosti in pri vsaki primerjali še naslove clankov, ki dosegajo prag.
4.2	 Analiza sentimenta 
Analiza sentimenta je sestavljena iz dveh faz. Najprej 
na oznacenih podatkih naucimo napovedni model za sentiment dokumentov, cemur sledi klasifikacija clankov, ki smo jih izbrali v razdelku 4.1.5.
Kot napovedni model smo uporabili vnaprej na-

ucen maskirni jezikovni model SloBERTa [22], ki 
smo ga podrobneje opisali v razdelku 2.3. Model smo prilagodili za napovedovanje sentimenta z upo­
rabo ucne množice SentiNews [5], ki smo jo opisali 
v razdelku 3.2. Model SloBERTa smo prilagajali s pomocjo knjižnice transformers [25]. Osnovni model je bil naucen za nalogo napovedovanja maskiranih 
besed, zato smo iz modela odstranili zadnji sloj, ki je namenjen tej nalogi, in mu dodali dva nova slo­ja. Prvi dodani sloj je linearen s 768 nevroni, ki smo 
mu dodali še opušcanje nevronov (angl. dropout). 
Kot zadnji sloj smo dodali tri nevrone, vsakega za eno izmed oznak sentimenta (pozitivno, negativno in nevtralno). 

Pred prilagajanjem modela smo pripravili vhodne podatke. Model lahko na vhodu sprejme najvec 512 žetonov, zato smo predolge clanke skrajšali, krajše pa podaljšali s posebnimi žetoni pad_token. S tem smo dobili enako dolge predstavitve vseh clankov. Posto­pek smo izvedli s tokenizatorjem modela SloBERTa, ki pripravi podatke v primernem formatu za ucenje:
1. ’input_ids’: seznam unikatnih id-jev za vsako iz-
med besed v clanku
2.’attention_mask’: seznam nicel in enic, kjer mesta z niclami predstavljajo pad_token. 
Za ucenje modela smo uporabili okolje Google Colaboratory, ki ponuja brezplacno uporabo GPU z omejeno rabo spomina. Ta nam je dovoljevala veli­kosti paketov podatkov (angl. batch size) najvec 8 za zaporedja žetonov dolžine 512. Podatke smo razde­lili na ucno, validacijsko in testno množico, kjer 80% podatkov predstavljajo ucni podatki, po 10% pa vali­dacijski in testni podatki. Izpopolnjevanje modela je potekalo 6 epoh; takrat se klasifikacijska tocnost na validacijski množici ni vec izboljševala in je dosegla najvišjo vrednost 70%. 
Za zanesljivo interpretacijo rezultatov naše ana­lize je nujno uporabiti kakovosten napovedni model za analizo sentimenta, zato smo prilagojen model SloBERTa pred dejansko uporabo ovrednotili. Po-leg klasifikacijske tocnosti, ki je dosegla 70% na te­stni množici, smo za ocenjevanje modela uporabili še mere tocnost, priklic in F1. Klasifikacijska tocnost predstavlja delež pravilno napovedanih vseh pri­merov. Tocnost, priklic in F1 so namenjene za oce­njevanje klasifikatorjev v dvorazrednih problemih. V vecrazrednih problemih enega od razredov izbe­remo kot pozitivnega, ostali razredi skupaj pa pred­stavljajo negativni razred. Tocnost predstavlja delež pravilno klasificiranih primerov med napovedanimi pozitivnimi primeri, priklic pa nam pove delež pra­vilno klasificiranih primerov dejanskega pozitivnega razreda. Meri tocnost in priklic uporabimo za izra-cun mere F1: 
2 · tocnost ·priklic 
F1= 
tocnost + priklic
Podrobnejši rezultati napovednega modela so prikazani v tabeli 3. 
Table 3: Rezultati napovednega modela za zaznavanje sentimenta SloBERTa na testni množici SentiNews. 
razred tocnost priklic F1 št. primerov 
negativni 0,67 0,72 0,70 331 
nevtralni 0,75 0,69 0,72 558 
pozitivni 0,64 0,72 0,68 154 
povprecje 0,69 0,71 0,70 1043 
uteženo povprecje 0,71 0,70 0,70 1043 
Model ima v primerjavi s podobnimi modeli BERT, ucenimi na binarnem sentimentu angleških clankov [7, 10], nižjo tocnost, kar je posledica vec ra­zlogov. Ker smo bili omejeni z delovnim spominom v okolju Google Colaboratory, smo model ucili z dokaj majhnimi velikostmi paketov. Slabost modela SloBERTa pri napovedovanju sentimenta celotnih clankov je tudi v omejeni dolžini vhoda v model (512 žetonov), s krajšanjem clanka pa izgubljamo informacije. Tretji razlog za nižjo uspešnost modela v primerjavi z angleškimi je tudi v trirazredni kla­sifikaciji sentimenta, ki je težji problem kot binarna klasifikacija. Menimo, da je uporaba trorazrednega sentimenta zaradi objektivnosti analize bolj smisel­na od binarne, saj vecina clankov spada prav v tretji, nevtralni razred. 
Tako kot Bucar, Povh in Žnidaršic [4] smo tudi mi preizkusili klasifikator SVM (angl. support vec­tor machine), ki se je pri zaznavanju binarnega sen-timenta izkazal za dokaj uspešnega (85%). Za ucenje sentimenta s tremi možnimi oznakami smo z mode-lom SVM dobili klasifikacijsko tocnost le okrog 60%.
Nauceni napovedni model smo uporabili na clan-kih iz razdelka 4.1.5, ki smo jih pridobili s proce­som modeliranja tematik, in jim dolocili sentiment. Rezultati modeliranja tem in napovedan sentiment predstavljajo podatke, s pomocjo katerih smo ovre­dnotili celoten postopek in interpretirali rezultate, kar opišemo v 5. poglavju. 
5	 INTERPRETACIJA REZULTATOV 
V tem razdelku predstavimo rezultate analize tema­tik, njihovo interpretacijo in primerjamo razlicne me-dije. Analizo smo izvedli za leti 2019 in 2020, kjer smo za vsako leto posebej odkrili teme, o katerih pišejo 
clanki, in primerjali odnos medijev do zaznanih tem.Ker smo želeli ugotoviti, kakšne razlike je zmožna 
zaznati predstavljena metodologija, smo izbrali štiri osrednje medije (MMC RTV Slovenija, 24ur.com, Siol. 

net Novice in Dnevnik) in tri desno usmerjene medije (Nova24TV, Tednik Demokracija in Portal Politikis). 
Z metodami opisanimi v 4. poglavju želimo poiskati 
razlike v opredelitvah posameznih medijev do neka­terih tem med tema dvema skupinama medijev. 
V razdelku 5.1 predstavimo primerjavo pokritosti posameznih širših tem med razlicnimi mediji, v raz­delku 5.2 pa ožjih podtem. V razdelku 5.3 predsta­vimo še primerjavo med mediji glede uporabljenega sentimenta pri pisanju o posameznih ožjih temah.
5.1	 Rezultati modeliranja splošnih tem 
Nekaj statistik o podatkih uporabljenih pri modelira­nju splošnih tem z modelom LDA smo za obe anali­zirani leti zbrali v tabeli 4. 
Table 4: Podatki o ucni množici za pripravo modela LDA za splošne teme. 
2019 2020 
število splošnih tem 8 10 
št. clankov za ucenje modela 94.640 93.914 
št. besed v slovarju 66.653 64.051 

Razlike med mediji smo opazili že pri modelira­nju splošnih tem. Za vsako leto smo naucili model LDAna clankih vseh vkljucenih medijev in opazili, da model LDAodkrije eno ali vec tem, ki jo sesta­vljajo vecinoma clanki iz desnih medijev. Na sliki 8 je 
prikazana porazdelitev tematik, ki jih pokrivajo raz­
licni mediji. Opazimo, da je vecina clankov desnih medijev dodeljenih loceni temi o politiki, medtem ko clanki s politicno vsebino ostalih medijev uporablja­jo toliko drugacen jezik, da so dodeljeni drugi temi. Dokaj presenetljiva je tudi nizka frekvenca porocanja 
treh desnih medijev o športu in svetu slavnih. 
Ker želimo v naši analizi preveriti opredelitve me-dijev do enakih tem, smo iz množice clankov izlocili clanke desnih medijev in ponovno izracunali model LDA, kot to prikazuje slika 9. Pri novo izracunanem modelu smo dobili bolj enakomerno zastopane teme. Clanke desnih medijev smo nato klasificirali z do-bljenim modelom LDA. Problem precej drugacnega pisanja desnih medijev in prevlada pisanja o politiki pri njih se je pojavil tako pri splošnem modelu LDA (za pridobitev splošnih tem) kot tudi pri podrobnej­ših modelih. V obeh primerih smo postopali na zgo-raj opisan nacin.
Za clanke iz leta 2020 smo naucili model za 10 tem (slika 9). Vecino tem smo lahko poimenovali že samo s pregledom besed z najvišjimi vrednostmi mere primernosti besed (tabela 5), pri nekaterih temah pa smo si pomagali še s preverjanjem naslovov clankov (tabela 5). Temo epidemije virusa COVID-19 smo 

Figure 8: Distribucija clankov izbranih medijev po temah pridobljenih z modelom LDA, ki je bil naucen na celotni množici podatkov za leto 2020. Figure 9: Distribucija tem clankov po medijih za leto 2020 z modelom LDA, izracunanim na osrednjih medijih. 

lahko prepoznali s pomocjo besed korona virus, okužb, tematik. Temi poimenovani Športin Šport – rezul­covid, okužen itd. Pri športnih tematikah samo s pre-tati sta si po najprimernejših besedah zelo podobni, gledom besed ne moremo dovolj dobro interpretirati saj obe v vecji meri predstavljata temo nogometa. Po 
Table 5: Pregled 20 lem, pridobljenih z orodjem Classla [13], z najvecjo vrednostjo mere primernosti za posamezne splošne teme za leto 2020. 
COVID-19  Politika  Promet- Košarka  Gospodar- Avtomobili­ Šport  Svet  Šport  Film,  
ne, na­ stvo, finance  zem  (splošno)  (rezultati)  glasba  
ravne in  svet  
ostale  slavnih  
nesrece  

1  koronavirus  stranki  dom  košarkar  podjetji  lahek  sezon  ameriški  minuti  let  
2  nov  predsednik  policist  lig  evrov  avtomobiti  klub  trump  tekmi  film  
3  okužb  policij  ljubljan  dallas  odstotkov  motor  prvenstvo  let  zmago  življenje  
4  covid  vlade  otrok  tock  odstotek  model  nogometen  britanski  mesti  lahek  
5  ljud  politicen  obcin  košarkarski  lahek  elektricen  lig  kitajski  dvoboj  knjig  
6  okužen  minister  obmocji  koncnic  javen  voziti  tekmovanje  dejati  dirko  cas  
7  števiti  poslanec  voziti  doncic  let  hitrost  športen  volitev  premagati  imeti  
8  potrditi  zakon  center  luk_doncic  zaposlen  avtomobilov  evropski  biden  polcas  svet  
9  ukrep  vlad  bolnišnic  igre  ministrstvo  kilometrov  šport  predsednik  zadetek  glasben  
10  zdravstven  desus  zdravnik  miami  dejavnost  kolo  let  sporociti  gol  fotografij  
11  držav  sodišce  voznik  parket  deloven  meter  nogomet  držav  kolesar  otrok  
12  virus  javen  gasilec  cetrtin  gospodarski  let  prvak  poroc  zadel  videti  
13  umrl  predlog  obcine  tekmi  gospodarstvo  avto  igralec  vojen  zmagovalec  družin  
14  okužbe  politik  župan  dosegel  vrednost  zrak  trener  zvezen  priložnost  ljudje  
15  karanten  dejati  šolski  boston  pomoc  vozil  slovenski  ruski  prednost  slovenski  
16  hrvaški  odlocitev  zaposlen  dragic  sredstev  polet  svetoven  trumpov  tocki  nagrad  
17  bolezen  odstop  pomoc  tocka  epidemij  zato  lig_prvakov  napad  niz  zato  
18  teden  slovenski  oddelek  miamij  deti  znamki  reprezentanec  dolarjev  tour  filmski  
19  bolnikov  opozicij  policij  zvezdnik  družbe  avtomobilski  lahek  vojaški  etap  ljubezen  
20  zdravje  postopek  star  tekmo  financen  hitro  tek  oblast  izgubiti  misel  

pregledu naslovov clankov obeh tem smo ugotovili, zaznali temo, ki je v celoti pripadala politiki, v letu da ena tema predstavlja predvsem športne rezultate 2019 pa smo politicno tematiko zaznali skupaj z go-oz. izide tekem, druga pa govori o športnikih in špor-spodarsko in financno tematiko. Prav tako smo opa­tnih tekmovanjih. Za interpretacijo nekaterih tem je zili nekaj razlik pri zaznanih športnih tematikah. bilo potrebno pregledati vec besed in naslovov.V obeh letih je opaziti razliko v distribuciji tema-
Za clanke iz leta 2019 smo dolocili 8 razlicnih tem. tik med posameznimi mediji. Desni mediji imajo vi-Postopek interpretacije tem je bil enak prej opisane-sok delež clankov s temo politike, nizko pa pri tema-mu za leto 2020. V obeh letih smo zaznali podobne tikah športa. Osrednji mediji imajo bolj enakomerno teme, nekaj pa je tudi razlik. Tako smo v letu 2020 porazdelitev tem, vseeno pa so tudi med njimi opa-
Table 6: Primeri naslovov clankov, ki pripadajo posameznim splošnim temam za leto 2020. 
COVID 19 Rekordne številke okužb v Italiji, Nemciji in Avstriji, v Franciji je umrlo že vec kot 40.000 ljudi Rekordno število novookuženih v Avstriji in Nemciji, na Hrvaškem najvec smrti v enem dnevu doslej Na Poljskem število potrjenih okužb preseglo milijon, na Švedskem dnevni rekord okuženih Na Hrvaškem 2399 novih okužb in najvec smrti v enem dnevu, 35 V Grciji ustavljajo javno življenje, v Belgiji prvi znaki izboljšanja 
Politika Polnar: Iz poslanske skupine DeSUS lahko izstopim le sam Pivceva: Pred sejo sveta stranke ne bom odstopila Direktor Ukoma za opozarjanje na manipulativne novinarske prispevke Predcasne volitve ostajajo prva izbira SD-ja Urbanija za opozarjanje na »manipulativne prispevke«; oster odziv v Levici in SD-ju 
Prometne, naravne Ceste na Dolenjskem v le nekaj urah vzele dve življenji 
in druge nesrece V Piranu zagorela hiša, sedem oseb prepeljali v bolnišnico Še bo vetrovno, obcasno bo rahlo snežilo Voznik pri Kranju zapeljal s ceste in po prevracanju vozila umrl c rni petek: V celnem trcenju štirje mrtvi 
Košarka LeBronu Jamesu v Houstonu vzklikali »MVP« Naveza Jokic-Porter novo udarno orožje Denverja Dragic in Butler poskrbela za Miamijev zmagovalni ’ogenj’ Zmagi za vodilno moštvo obeh konferenc Dallas zmagal brez poškodovanega Doncica 
Gospodarstvo, finance Prispevki delavcev državo doslej stali vec kot 90 milijonov evrov Delodajalci v treh dneh oddali 1154 vlog za cakanje zaposlenih Financni minister: Leta 2021 ne bo novih davkov, nekateri se bodo znižali 2021 ne bo prineslo višjih davkov, tudi davka na nepremicnine (še) ne bo Za 6,6 odstotka BDP-ja primanjkljaja in 16 odstotkov manj proracunskih prihodkov 
Avtomobilizem Clio E-tech Uradno: prenova in novost enega najbolj priljubljenih križancev Elektricni leaf z vecjo baterijo na preizkusu uporabnosti Volkswagnov ofenziva ob koncu leta Kako je voziti male SUV? Ti se izkažejo najbolje. 
Šport Final four v ligi prvakov? Presednika NZS Mijatovica caka nujni sestanek s Kekom As: V ligi prvakov možen tudi final four Kevin Kampl izvedel, kdaj bo zacel sezono Prvi seznam po letu 2005, pod katerim ni podpisa Dobovicnika 
Svet Novi predsednik ZDA je Joe Biden Florida in Teksas Trumpu, ki napoveduje »veliko zmago«; Biden nagovoril javnost: Bodite potrpežljivi Lukašenko na 
skrivaj prisegel za šesti mandat 

Macron na skepticnem vzhodu brani svoj strateški dialog z Moskvo Iran grozi Združenim arabskim emiratom s posledicami zaradi dogovora z Izraelom 
Šport – rezultati Celje – Triglav 1:1 Tekma zapravljenih priložnosti v Kidricevem #video Prva zmaga Celjanov, nocoj na TV SLO 2/MMC Olimpija – Domžale Razigrani Vekic paral živce Domžalam #video Nov poraz Maribora, Aluminij slavil v Domžalah 
Film, glasba, svet  Sestra Miley Cyrus se je veckrat pocutila pozabljeno: Živela sem v njeni senci Poslovila se je plesalka Lojzka Žerdin  
slavnih  Ko izza znamenitega oranžnega kavca skoci kar sama Rachel  
Bowrain – 2020 sekund v živo  
Lana Del Rey svojo glamurozno obleko kupila v nakupovalnem središcu  

zne razlike v pokrivanju tematik. Tako izstopa vecje 
pokrivanje športa in avtomobilizma portala Siol.net 
in vecje pokrivanje sveta slavnih portalov 24ur.com 
in MMC RTV. 
5.2	 Analiza rezultatov modeliranja podrobnejših tem 
Naslednji korak analize posameznega leta je inter-pretacija rezultatov pridobljenih z modeliranjem po­drobnejših podtem izbrane splošne teme. V tem ko­
raku pridobimo koncne teme in njihove clanke, ki jih 
nato uporabimo za primerjavo sentimenta medijev. Postopek dolocanja podtem je bil enak kot pri mode-liranju splošnih tem. 
Za nadaljnjo analizo smo iz leta 2020 vzeli clanke s splošnimi temami o epidemiji koronavirusa in slo­venski ter svetovni politiki. Za leto 2019 smo poiskali podobne tematike in sicer: politika, gospodarstvo, finance in svetovna politika. Za izbrane teme obeh let smo ponovno izracunali model LDAin s tem pri­dobili podrobnejše podteme. Za analizo sentimenta smo na koncu izbrali tiste podteme, ki so vsebovale 
najbolj podobne clanke.Za leto 2020 smo v clankih o slovenski politiki z 
nadaljnjim modeliranjem našli 12 podtem (slika 10). 
Naslovi posameznih tem povzemajo dogajanje na slo­
venski politicni sceni v letu 2020. Zaznali smo temo 
menjave vlade, ki zajema odstop premiera Marjana Šarca, kot tudi sestavo nove vlade. Poleg tega smo za­znali tudi dogajanje znotraj stranke DeSUS in afero 
Aleksandre Pivec, afero o nabavi zašcitne medicinske 
opreme, proteste, ukinitev financiranja STA itd. Opa­ziti je, da imajo desni mediji najvecji del svojih clan-kov s temo, ki smo jo oznacili kot temo razmišljanj o 
slovenski politiki in njeni zgodovini. Znotraj te teme clanki omenjajo predvsem 30 letnico plebiscita o sa­mostojnosti Slovenije, kar je verjetno vzrok, da imajo 
desni mediji tako visok delež clankov s to temo.
Za leto 2019 med splošnimi temami nismo dobi­li teme z zgolj politicno vsebino, ampak smo dobili politicno tematiko skupaj s financami in gospodar­stvom. Ker se te tri teme pogosto prepletajo, se to zdi upraviceno. Za temo s politicnimi, financnimi in go-spodarskimi clanki smo izracunali nov model LDAza 10 podtem. Ena izmed podtem predstavlja celotno politicno dogajanje, ostale pa govorijo o podrobnej­ših gospodarskih in financnih temah. Primeri takih tem so stecaj letalske družbe Adrie Airways, prevze-mi in prodaje podjetij (npr. Mercator), razlicne sodne obravnave itd. 



Figure 11: Distribucija podtem svetovne politike po medijih za leto 2020. 
Pri clankih, ki smo jih dolocili temi poimenovani letu 2020 je bilo vec govora o predsedovanju Donal­’svet’, smo za leto 2020 zaznali 8 razlicnih podtem, da Trumpa, ki je najbolj zastopana svetovna politic­za leto 2019 pa 10. V obeh letih smo zaznali teme o na tema v letu 2020. V letu 2019 je veliko clankov na ameriški politiki in predsedniku Donaldu Trumpu, temo evropske politike, saj so to leto potekale evrop­vojnih spopadih na Bližnjem vzhodu in protestih. V ske parlamentarne volitve. Deleži tem se v letu 2020 letu 2020 je posebna podtema ameriške volitve, v letu med posameznimi mediji ne razlikujejo prav veliko, 2019 pa evropska politika. Zaradi ameriških volitev v za leto 2019 pa smo opazili, da desni mediji v vecji meri pišejo o migrantski krizi in teroristicnih napa­dih ter o evropski politiki. 

V letu 2020 je posebna tema epidemije virusa COVID-19, ki je pri nas izbruhnila v zacetku meseca marca. Znotraj te tematike smo zaznali podteme, kot so porocanje o številu okuženih, o cepivu, evakuaci­jah in potovanjih v casu epidemije ter o protikoron­skih ukrepih (slika 12). 
5.3	 Analiza sentimenta 
V prejšnjem razdelku smo analizirali zaznane podte-me, v tem razdelku pa izlušcimo clanke izbranih pod-tem in primerjamo razlike sentimenta med mediji. Ker nekaj tem govori o enem samem dogodku oz. temi (menjava vlade, stranka DeSUS), nekaj pa jih pokriva vec dogodkov (npr. financiranje STAin afera odreza­na roka sta del iste teme), smo za analizo sentimenta izbrali tiste, ki predstavljajo en sam dogodek oz. temo. 
Za leto 2020 smo izbrali teme menjave vlade, ameriške politike (predsednik Donald Trump), ce­pivu proti COVID-19 in protikoronskih ukrepih. Porazdelitve sentimentov po posameznih temah so prikazane na sliki 13. 
Pri temi menjave slovenske vlade opazimo, da pri vseh medijih prevladuje nevtralen sentiment. No­va24TV in Tednik Demokracija imata nekoliko višji delež clankov z negativnim sentimentom, ostali me-diji pa so si zelo podobni po porazdelitvi sentimen­ta. Pri temah o protikoronskih ukrepih in o ameriški politiki opazimo, da v clankih prevladuje negativni sentiment. Opaziti je nekoliko višji delež pozitivnega sentimenta medijev Nova24TV in Portal Politikis pri temi o ameriškem predsedniku Donaldu Trumpu. Pri vseh treh omenjenih temah je delež negativnega sentimenta najvišji pri desnih medijih, predvsem pri Nova24TV. Pri temi o cepivih je porazdelitev senti-


        (a) Menjava vlade     (b) Protikoronski ukrepi

        (c) Cepivo proti COVID-19    (d) Ameriška politika, Donald Trump 
Figure 13: Distribucije sentimenta po medijih za izbrane podteme v letu 2020. 
menta precej drugacna. Vecina clankov o temi piše s pozitivnim sentimentom, saj vecinoma pišejo o ra­zvoju in dobavi cepiv. 
Za analizo leta 2019 smo izbrali podobne teme kot 

za leto 2020: slovensko politiko, stecaj Adrie Airways 
in ameriško politiko. Temi slovenske in ameriške po­
litike sta dokaj široki, a razbitje na še vec podtem bi razdelilo clanke na premajhne skupine za zanesljivo 
analizo sentimenta. Pri temi slovenske politike smo 
opazili podoben delež sentimenta kot v letu 2020 pri menjavi vlade. Obe temi namrec veliko omenjata ko­alicijo, opozicijo, politicne stranke itd. Pri temi ame­riške politike v letu 2019 smo opazili, da imajo mediji zelo podobne porazdelitve sentimenta, pri temah menjave vlade in protikoronskih ukrepov pa imata 
Tednik Demokracija in Nova24TV opazno višji delež 
negativnega sentimenta. Zanimivo je, da v letu 2019 Portal Politikis nekoliko odstopal od ostalih dveh de­snih medijev. 
Z analizo sentimenta v obeh letih smo opazili, 

da imajo clanki desnih medijev pogosto višji delež 
negativnega sentimenta kot uveljavljeni mediji. Ve-
cina negativnih desnih clankov opisuje teme, ljudi, stranke in medije z nasprotnega politicnega pola, kar je razlog za višji delež negativnega sentimenta. Prav tako smo v obeh letih opazili nizek delež po­zitivnih clankov. Razlogov za to je lahko vec. Eden glavnih je zagotovo ta, da v vecini obravnavanih te­matik težko pricakujemo clanke s pozitivnim senti­mentom. Drug razlog bi lahko bil v našem modelu 
za napovedovanje sentimenta. Model smo naucili na relativno majhni kolicini podatkov oznacenih s pozitivnim sentimentom, ki vecinoma izhaja iz fi­nancne oz. gospodarske tematike (zaslužki, delnice, 
prodaja itd.). 
Rezultate moramo torej jemati z nekaj rezerve, ki izhajajo iz omejitev strojne analize. Omeniti je po­trebno tudi, da model zaznava sentiment zgolj za pr-vih 512 žetonov vsakega clanka, kar pomeni izgubo dela informacij. Lociti je potrebno tudi med zazna­vo sentimenta (naklonjenosti) in izraženimi stališci. Sentiment namrec detektiramo v clankih s podobni-mi temami, kar pa ne pomeni, da mediji o istih temah govorijo iz istih stališc. V politicni temi se velikokrat pokaže, da desni mediji z negativnim sentimentom pišejo o levo opredeljenih strankah ali osebah, med tem ko levo opredeljeni mediji pocnejo obratno. Tako clanki medijev obeh opredelitev pišejo o isti politicni temi, a oboji izpostavljajo negativne aspekte. 
6	 ZAKLJUCEK 
V delu smo s pristopi obdelave naravnega jezika po­
skusili objektivno analizirati dosedaj najvecjo zbirko clankov izbranih slovenskih medijev. Z analizo smo želeli primerjati razlike med uveljavljenimi in manj 
uvel- javljenimi desno opredeljenimi mediji, do ka­terih smo imeli dostop preko servisa Event Registry. Predstavili smo postopek predobdelave besedil in tehniko modeliranja tematik, kjer smo z dvonivoj-skim modelom LDAiz clankov zaznali podrobne te­matike in z naucenim modelom SloBERTa analizirali 
sentiment. 
Z modeliranjem tematik smo pridobili nekaj smi­selnih in interpretabilnih tem, ki opisujejo posame­zne dogodke oz. teme. Ugotovili smo, da desni me-diji v veliki vecini pišejo le o politicnih temah. Nekaj tem smo izbrali in njihove clanke klasificirali glede sentimenta z naucenim modelom SloBERTa. Ugoto­vili smo, da je vecina clankov politicnih tem z nega­tivnim in nevtralnim sentimentom, zelo malo pa s pozitivnim. Opazili smo razliko med desnimi mediji in uveljavljenimi mediji, kjer so za vec tem desni me-diji imeli višji delež negativnega sentimenta.
Rezultati so pokazali nekaj razlik med mediji tako na nivoju zaznanih tematik kot na nivoju sentimenta. Rezultati bi bili lahko natancnejši, ce bi se uspeli izo­gniti omejitvam našega pristopa. Pri modeliranju tem bi lahko namesto iskanja podobnih clankov glede na najvišjo verjetnost pojavljanja v dani temi uporabili metodo grucenja. Clanke bi predstavili s porazdeli­tvami verjetnosti vektorskih vložitev za posamezne teme in poskusili poiskati smiselne skupine clankov, ki bi vsebovale podobne clanke. Rezultate zaznava­nja sentimenta bi lahko izboljšali z uporabo natanc­nejšega modela, ki bi ga naucili z vec raznovrstnimi ucnimi množicami. Namesto krajšanja clankov na zacetnih 512 žetonov bi lahko uporabili kakšen drug pristop, kot na primer kombiniranje zacetka in konca clanka.
ZAHVALE 
Avtorja se zahvaljujeva Gregorju Lebanu iz podjetja 
Event Registry, ki je omogocil dostop do slovenskih clankov. Raziskavo je sofinancirala Javna agencija 
za raziskovalno dejavnost Republike Slovenije sko­
zi projekt J6-2581 (Racunalniško podprta vecjezicna analiza novicarskega diskurza s kontekstualnimi besednimi vložitvami) in raziskovalni program P6­
0411 (Jezikovni viri in tehnologije za slovenski jezik). 
LITERATURA 
[1] David Blei, Lawrence Carin, and David Dunson. Probabilistic topic models: A focus on graphical model design and appli­cations to document and image analysis. IEEE signal proces­sing magazine, 27:55–65, 11 2010. 
[2] David M Blei, Andrew Y Ng, and Michael I Jordan. Latent Dirichlet allocation. Journal of machine learning research, 3:993–1022, 2003. 
[3] Jože Bucar. Manually sentiment annotated Slovenian news corpus SentiNews 1.0, 2017. Slovenian language resource repository CLARIN.SI. 
[4] Jože Bucar, Janez Povh, and Martin Žnidaršic. Sentiment classification of the Slovenian news texts. In Proceedings of the 9th International Conference on Computer Recognition Systems CORES 2015, pages 777–787, 2016. 
[5] Jože Bucar, Martin Žnidaršic, and Janez Povh. Annotated news corpora and a lexicon for sentiment analysis in Slovene. Language Resources and Evaluation, 52(3):895–919, 2018. 
[6] Scott Deerwester, Susan T Dumais, George W Furnas, Tho­mas K Landauer, and Richard Harshman. Indexing by latent semantic analysis. Journal of the American society for infor­mation science, 41(6):391– 407, 1990. 
[7] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirectional transfor­mers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technolo­gies, Volume 1 (Long and Short Papers), pages 4171–4186. Association for Computational Linguistics, 2019. 
[8] Susan T. Dumais. Latent semantic analysis. Annual Review of Information Science and Technology, 38(1):188–230, 2004. 
[9] Thomas Hofmann. Probabilistic latent semantic indexing. In Proceedings of the 22nd annual interna- tional ACM SIGIR conference on Research and development in information re­trieval, pages 50–57, 1999. 
[10] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. ALBERT: A lite BERT for self-supervised learning of language representati­ons. CoRR, abs/1909.11942, 2019. 
[11] Gregor Leban, Blaz Fortuna, Janez Brank, and Marko Grobel­nik. Event Registry: Learning about world events from news. In Proceedings of the 23rd International Conference on World Wide Web, page 107–110, 2014. 
[12] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, M. Lewis, Luke Zettlemoyer, and Veselin Stoyanov. RoBERTa: A robustly optimized BERT pre-training approach. ArXiv, abs/1907.11692, 2019. 
[13] Nikola Ljubešic and Kaja Dobrovoljc. What does neural bring? Analysing improvements in morpho- syntactic anno­tation and lemmatisation of Slovenian, Croatian and Serbian. In Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing, pages 29–34, 2019. 
[14] Nataša Logar and Nikola Ljubešic. Gigafida in slWaC: temat-ska primerjava. Slovenšcina 2.0, 1(1):78–110, 2013. 
[15] Edward Loper and Steven Bird. NLTK: The natural language toolkit. In In Proceedings of the ACL Workshop on Effective Tools and Methodologies for Teaching Natural Language Pro­cessing and Computational Linguistics., 2002. 
[16] Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yo-ann Dupont, Laurent Romary, Éric Vil- lemonte de la Clerge­rie, Djamé Seddah, and Benoit Sagot. CamemBERT: A tasty French language model. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020. 
[17] Matej Martinc, Nina Perger, Andraž Pelicon, Matej Ulcar, An-dreja Vezovnik, and Senja Pollak. EM- BEDDIA hackathon report: Automatic sentiment and viewpoint analysis of Slove­nian news corpus on the topic of LGBTIQ+. In Proceedings of the EACL Hackashop on News Media Content Analysis and Automated Report Generation, pages 121–126, 2021. 
[18] Andraž Pelicon, Marko Pranjic, Dragana Miljkovic, Blaž Škrlj, and Senja Pollak. Zero-shot learning for cross-lingual news sentiment classification. Applied Sciences, 10(17):5993, 2020. 
[19] Radim R. ehu° r.ek and Petr Sojka. Software framework for to­pic modelling with large corpora. In Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, pa­ges 45–50, 2010. 
[20] Carson Sievert and Kenneth Shirley. LDAvis: A method for visualizing and interpreting topics. In Proceedings of the wor­kshop on interactive language learning, visualization, and in­terfaces, pages 63–70, 2014. 
[21] Iza Skrjanec and Senja Pollak. Topic ontologies of the Slove­ne blogosphere: A gender perspective. 2016. 
[22] Matej Ulcar and Marko Robnik-Šikonja. Slovenian RoBERTa contextual embeddings model: SloBERTa 1.0, 2020. Sloveni­an language resource repository CLARIN.SI. 
[23] Matej Ulcar and Marko Robnik-Šikonja. SloBERTa: Slovene monolingual large pretrained masked language model. In Proceedings of Data Mining and Data Warehousing, SiKDD, 2021. 
[24] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszko­reit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Proces­sing Systems, page 6000–6010, 2017. 
[25] Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chau­mond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush. Transfor­mers: State-of-the-art natural language processing. In Proce­edings of the 2020 Conference on Empirical Methods in Na­tural Language Processing: System Demonstrations, pages 38–45, 2020. 


E-ucilnica za ucenje na dokazih podprte zdravstvene nege 
Alenka Baggia1, Robert Leskovar1, Branislav Šmitek1, Saša Mlakar2, Katja Pesjak2, Mateja Bahun2, Manuel Lillo-Crespo3, Jorge Riquelme Galindo3, Christine FitzGerald4, Liz Kingston4, Alice Coffey4, Lucia Cadorin5, Alvisa Palese5, Barbara Narduzzi6, Sara Scarsini6, Uroš Rajkovic1 1 Fakulteta za organizacijske vede, Univerza v Mariboru, Kidriceva cesta 55a, SI-4000 Kranj 2 Fakulteta za zdravstvo Angele Boškin, Spodnji plavž 3, SI-4270 Jesenice 3 Faculty of Health Sciences, University of Alicante, Carretera San Vicente del Raspeig s/n, ES-03690 San Vicente del Raspeig, 
Alicante 
4 Department of Nursing & Midwifery, Faculty of Education & Health Sciences, Health Sciences Building, North Bank Campus, University of Limerick, IE-Limerick 5 Udine University, Viale Ungheria 20, IT-33100 Udine 6 Azienda Sanitaria Universitaria Friuli Centrale, Via Pozzuolo n. 330, IT-33100 Udine alenka.baggia@um.si, robert.leskovar@um.si, branislav.smitek@um.si, smlakar@fzab.si kpesjak@fzab.si, mbahun@fzab.si, manu-el.lillo@grupohla.com, jorge.riquelme@grupohla.com, Christine.Fitzgerald@ul.ie, Liz.Kingston@ul.ie Alice.Coffey@ul.ie, lucia.cado-rin@uniud.it, alvisa.palese@uniud.it, barbara.narduzzi@asufc.sanita.fvg.it, sara.scarsini@asufc.sanita.fvg.it, uros.rajkovic@um.si 
Izvlecek 
Podobno kot na ostalih izobraževalnih podrocjih se je tudi podiplomski študij zdravstvene nege v zadnjem casu delno preselil v sple­tno okolje. Že pred tem pa se je pojavila ideja o razvoju skupne platforme za ucenje na dokazih podprte zdravstvene nege. E-ucilnica za ucenje na dokazih podprte zdravstvene nege bo omogocala lažji dostop do gradiv, ki ni casovno omejen. Z uporabo interaktivnih elementov v e-ucilnici pa bomo udeležence izobraževanja še dodatno motivirali. Zaradi razširjenosti in dostopnosti sistema za upra­vljanje z ucnimi vsebinami je bil za razvoj e-ucilnice izbran sistem Moodle. Izbrani sistem s svojimi raznolikimi aktivnostmi že v osnovi ponuja širok nabor interaktivnih elementov, z razširitvama BigBlueButton in H5P pa se ta nabor še razširi. Da bi omogocili izvajalcem izobraževanja s podrocja zdravstvene nege lažje odlocanje o primernosti posameznih nacinov prikaza ucnih vsebin, smo razvili prototip spletne ucilnice. Na osnovi informacij o potrebah po izobraževanju smo identificirali kljucne teme, za katere bomo v nadaljevanju razvili interaktivno e-ucilnico za ucenje na dokazih podprte zdravstvene nege. Kljucne besede: e-ucenje, e-ucilnica, interaktivne vsebine, zdravstvena nega, na dokazih podprta zdravstvena nega 
Abstract 
Similar to other educational sectors, postgraduate nursing studies have also shifted to the online environment to some extent in recent times. The idea of developing a common platform for learning on evidence-based nursing emerged even before this change in education. E-learning on evidence-based nursing will provide easier access to the available material. The integration of interacti­ve elements in the e-classrooms will further motivate students to actively participate in education. Due to its widespread use in education and accessibility, the Moodle learning management system was selected as the development platform. Moodle, with its wide range of activities, offers a variety of interactive elements that can be integrated into the e-Classroom, and the number of elements is even greater with the use of BigBlueButton and H5P plugins. To help healthcare education providers decide how to present content, we developed a prototype e-Classroom. Based on information on educational needs gathered during the project, we identified the main topics for which we will develop an interactive e-Classroom for evidence-based nursing. Keywords: E-learning, e-classroom, interactive content, gamification, nursing, evidence-based nursing 
na dokazih podprte zdravstvene nege 
UVOD 
V zadnjem obdobju se je celoten izobraževalni proces 
po sili razmer preselil v spletno okolje. Ne glede na to pa so že pred situacijo s COVID-19 nekatere izo­braževalne ustanove, predvsem visokošolske, svoje 
aktivnosti delno izvajale preko spleta. V svojih sple­tnih ucilnicah so ponujali in še ponujajo razlicne obli­ke predstavitev, aktivnosti in možnosti medsebojne­ga sodelovanja študentov ali sodelovanja študentov z izvajalci študijskega procesa. Prehod v situacijo iz­
rednih razmer v izobraževanju tako za marsikatero 
visokošolsko ustanovo ni predstavljal tako velikega problema kot ustanovam na nižjih stopnjah izobra­ževanja. Poleg internih spletnih ucilnic posameznih 
ustanov lahko na spletu najdemo veliko prosto do-
stopnih spletnih platform, ki ponujajo tecaje (angl. 
Massive Open Online Course – MOOC) in ostale 
izobraževalne vsebine. Tovrstne vsebine so mnoge izobraževalne ustanove v casu izrednih razmer tudi 
koristno uporabile v svojem študijskem procesu. 
Podobno kot ostala podrocja se razvija tudi izo­braževanje v zdravstveni negi. Veliko priložnosti za izobraževanje v spletnem okolju se nam na tem po­drocju ponuja predvsem na podiplomskem študiju zdravstvene nege, ki nadgrajuje dodiplomski študij z novimi znanji, raziskovalnimi pristopi ter celo­stnim pristopom k obravnavi pacienta. Študenti na podiplomskem študiju so bolj notranje motivirani za študij, dodatno pa jih lahko motiviramo še z metoda-mi aktivnega poucevanja. Pri tem lahko v študijski proces smiselno vkljucimo številna spletna orodja in storitve ter tako poucevanje osredotocimo na študen­ta [1]. 
Kot v porocilu s srecanja Sekcije za informatiko 
v zdravstveni negi navaja Dornik [2], naj bi se e-izo­
braževanje na podrocju zdravstvene nege uveljavilo kot oblika formalnega, vseživljenjskega in samoi­zobraževanja medicinskih sester. [3] ugotavljajo, da se e-izbraževanje v primerjavi s tradicionalnim na-cinom izobraževanja ne izkaže kot bistveno boljše glede obravnave pacienta, obnašanja, vešcin in zna­nja zdravstvenih delavcev, kljub temu pa študenti e­
-izobraževalne portale uporabljajo in jih nameravajo uporabljati tudi v prihodnosti, saj so casovno prila­godljivi, pomagajo pri razvoju kariere in naredijo študente bolj zaposljive [4]information quality and service quality. E-learning effectiveness dimension included user satisfaction and net benefits. The items in this section were measured on a five-point Likert scale ranging from strongly disagrees to strongly agree. The data collected have been analyzed using the SPSS version 17.0 and AMOS version 21.0. Fin­dings: Results show that system quality and service quality contribute more in e-learning system compa­red to information quality. Students perception may be that information available on the website may not be very useful as it’s a one-way mode of communica­tion. The researcher also found that the three dimen­sions (system quality, service quality and informati­on quality. 
V prispevku predstavljamo prototipno rešitev e­
-ucilnice za ucenje na dokazih podprte zdravstvene 
nege, posebnega koncepta dela medicinskih sester, ki je kljucnega pomena za njihovo uspešno delo. E­-ucilnica bo namenjena podiplomskim študentom 
zdravstvene nege ne glede na lokacijo in bo razvita v okviru Erasmus+ projekta ProCare (Hospitals and Faculties together for propoerous and scientific ba­sed healthcare). 
2	 E-IZOBRAŽEVANJE 
Ceprav smo bili v zadnjem obdobju primorani upo­rabljati e-izobraževanje kot nacin izobraževanja na vseh stopnjah, pa se je koncept e-izobraževanja že pred situacijo s COVID-19 izkazal kot ucinkovit. 
Kot navajajo [5] ima še posebej pozitiven vpliv pri uporabi platforme za e-izobraževanje možnost ko­municiranja, interaktivnost, možnost ocenjevanja in vrednotenja ter raznolikost ucnih stilov. 
2.1	 Interaktivnost v e-izobraževanju 
Da bi e-izobraževanje v cim vecji meri približali štu­dentom, je pomembno, da študenta ne samo z vse­binami, pac pa tudi z nacinom dela v procesu e-iz­obraževanja cim bolj pritegnemo k sodelovanju. Pri tem lahko uporabimo razlicne inovativne pristope, 
ki jih predstavljamo v nadaljevanju. Pri predstavitvi posameznih pristopov izhajamo iz predpostavke, da želimo opisane pristope uporabiti na primeru izo­braževanja s podrocja zdravstvene nege, zato nava­jamo tudi primere uspešne uporabe v izobraževanju s podrocja zdravstva. 
Skupnost praks 









Skupnost praks (angl. Community of Practice) je ena 
od oblik skupinskega ucenja, pri kateri si skupina 
ljudi izmenjuje mnenja o neki skupni temi ter sode­luje z izmenjavo informacij in izkušenj, da doprinese 

na dokazih podprte zdravstvene nege 
k boljšemu znanju [6]. Pri CoPje kljucnega pomena, 
da imajo študenti dostop do skupnosti in pa osnovne racunalniške spretnosti, da se lahko vkljucijo v sku­pnost. Vsekakor pa moramo poskrbeti tudi za to, da 
so kljucne komponente CoPzagotovljene tudi ce se 
le-ta izvede v spletnem okolju [7] Kot navajata [6], lahko za podporo delovanja skupnosti praks upora­
bimo razlicne spletne tehnologije, družbena omrežja 
ali pa forume. 
Bralni klub 






Bralni klubi (angl. Journal Club), ki so se v prete­
klosti v vecji meri odvijali znotraj akademskih ali 
zdravstvenih ustanov, so bili namenjeni spodbujanju kriticnega mišljenja in širjenju informacij o novih od­kritjih [8]. Pozitivne ucinke in mnenja o izvedbi bral­nih klubov so zaznali tudi pri bralnih klubih, ki se 
s pomocjo razlicnih orodij izvajajo preko spleta [9]
its effectiveness as an educational resource is unde­termined. Objective To evaluate the effectiveness of the international Twitter-based urology journal club (#urojc. Spletni bralni klubi poleg spodbujanja kritic­nega mišljenja študentov, ter vešcin za delo po za­kljucku študija [10], omogocajo dostop do vsebin in diskusij širšemu krogu študentov kot klasicni bralni 
klubi. 




Množicni odprti spletni tecaji (angl. Massive Open 
Online Course, MOOC) so prosto dostopni na spletu. 
Vecina jih sicer zahteva registracijo, na osnovi cesar je mogoce slediti napredku posameznika v primeru izdaje potrdila o opravljenem tecaju po zakljucku te-caja. Razširjenost MOOC-ov spodbuja visokošolske ustanove, da tudi same razišcejo nove vrste ucnih 
modelov [11], marsikatera od njih pa študente spod­buja k sodelovanju v MOOC-ih da bi razširili svoje znanje. Tak nacin uporabe v zdravstvu prikazuje pri­spevek [12], ki opisuje primere izvedbe uvajalnih se­
minarjev za novo zaposlene s pomocjo MOOC. 

Ena od glavnih prednosti e-izobraževanja je tudi pri­ložnost uporabe interaktivnih vsebin. Medtem ko vkljucevanje interaktivnih vsebin v nekaterih izobra­ževalnih okoljih zahteva napredno znanje orodij in programskih jezikov, pa sistemi za upravljanje ucnih vsebin omogocajo uporabo vticnikov za urejanje in-teraktivnih vsebin. Moodle tako vkljucuje vticnike kot so lekcija, e-knjiga ali vticnih H5Ps širokim iz­borom možnosti za vkljucevanje interaktivnih vsebin 


[13]. Nekaj primerov uspešne uporabe interaktivnih 
vsebin v spletnem izobraževanju najdemo tudi na podrocju zdravstva. [14] opisujejo razvoj interaktiv­nih spletnih ucnih modulov za ucenje tematik pove­zanih z varnostjo pacientov ter ugotovijo, da lahko tovrstno tehnologijo uspešno uporabijo za ucenje te­oreticnih osnov. Še bolj napreden pristop, 360° vide­oposnetek pri vkljucevanju interaktivne vsebine na podrocju izobraževanja v zdravstvu prikazujejo [15], ki prav tako naleti na pozitiven odziv udeležencev izobraževanja.

Igrifikacija, koncept uporabe elementov iger v ne­
igranih kontekstih [16] se v izobraževanju uveljavlja kot ucinkovito motivacijsko orodje za vkljucevanje 
študentov. [17] ugotavljajo, da je k uvedbi igrifika­
cije v ucno okolje potrebno pristopiti premišljeno in hkrati inovativno, da bi dosegli najboljši možni uci­nek – poleg znanja tudi boljše tehnicne in vedenjske vešcine študentov. Koncept igrifikacije je še posebej uporaben na podrocju zdravstva, saj omogoca simu­lacijo dela s pacientom. [18]many medical schools now incorporate technology-enhanced active lear­ning and multimedia education applications. Educa­tion games, medical mobile applications, and virtual patient simulations are together termed gamified tra­ining platforms. Objective: To review available litera­ture for the benefits of using gamified training plat­forms for medical education (both preclinical and 
clinical v svoji raziskavi predstavljajo vec tovrstnih orodij za klinicno izobraževanje v zdravstvu in raz­pravljajo o njihovi ucinkovitosti. Ugotavljajo namrec, da veliko zdravstvenih šol tovrstne nacine izobraže­vanja že vkljucuje v svoje ucne programe.
2.2	 E-izobraževanje v zdravstveni negi 
V preteklih letih je bilo pri študentih zdravstvene 
nege zaznati dolocen strah pred e-ucenjem [19], še posebej ob hitrem prehodu na e-izobraževanje ob 
izbruhu pandemije COVID-19 [20]confinement me­asures and an urgent change in the education of nur­sing students from traditional education to distance learning throughout the country affect the mental health of university students. This study analyzed state-trait anxiety levels of nursing students because of e-Learning during two periods of the COVID-19 
na dokazih podprte zdravstvene nege 
confinement. A mixed follow-up study was used, which evaluates the same cohort cross-sectionally but with a longitudinal component. A sample of 460 nursing students of the Nursing Degree at the Uni­versity of Lorca (Murcia, vendar pa se je odnos do e-izobraževanja v casu pandemije COVID-19 kore­nito spremenil. Kot navajajo Singh in sodelavci [21] we aim to evaluate if online teaching methods are as feasible, acceptable, and effective as in-class teaching for medical/nursing students.\nObjectives\nThe questionnaire captured: (1, si študenti medicine in zdravstvene nege želijo še vec inovativnih ucnih me-tod, ki jih ponuja tehnologija. Po drugi strani pa ra­zvoj materialov za e-izobraževanje na podrocju zdra­vstvene nege prinaša tudi razlicne izzive za izvajalce 
pedagoškega procesa tako pri pripravi materialov, kot tudi pri zagotavljanju povratnih informacij in nadzora nad delom študenta [19]. 
Poseben izziv pri oblikovanju okolja za e-izobra­
ževanje pa predstavlja ucenje na dokazih podprte 
zdravstvene nege. Na dokazih podprta zdravstvena nega predstavlja vestno in premišljeno uporabo tre­
nutno najboljših dokazov pri odlocanju glede oskrbe 
posameznega pacienta. Pri tem medicinska sestra sledim 5 korakom [22]: 
1. 
Oblikovanje vprašanja o zdravstvenem problemu 

2.
Iskanje najboljšega možnega dokaza, ki ustreza 


vprašanju 
3.
Kriticno ocenjevanje ali je dokaz primeren, klinic­no relevanten in ga je mogoce uporabiti

4. 
Uporaba rezultata dokaza na obravnavanem pri­meru 

5.
Evalvacija ucinkovitosti uporabe


Za ucinkovito uporabo na dokazih podprte zdra­vstvene nege mora imeti medicinska sestra dolocenekompetence, kot so metodološka znanja, poznavanje epidemiologije, iskanja po elektronskih bazah podat­kov ter sposobnost kriticnega presojanja [22]. V prete­klih raziskavah se je e-ucenje za poucevanje na dokazihpodprte zdravstvene prakse že izkazalo kot ucinkovi-to, saj prinaša boljše rezultate pri preverjanju znanja in omogoca vecjo fleksibilnost za udeležence [23].
ORODJA ZA PRIPRAVO E-UCILNICE Na izbiro orodij pri pripravi e-ucilnice vplivajo raz­licni dejavniki. Poleg tega, da je platforma prosto do-stopna, smo pri razvoju e-ucilnice za ucenje na doka­zih podprte zdravstvene nege upoštevali tudi kriterij 
poznavanja tehnologije ter druge pomembne de­javnike [24]. Glede na izbrane kriterije, se je spletna platforma Moodle [25] izkazala kot najbolj primerna 
za pripravo e-ucilnice, saj jo podpira mednarodna 
skupnost, je odprto kodna in prosto dostopna, zelo 
fleksibilna, ponuja veliko razširitev ter omogoca tudi integracijo z videokonferencnim sistemom BigBlue-Button. Kot navajajo Lambda Solutions [26] je Moo-
dle tudi v izobraževanju zdravstvenih delavcev zelo razširjen in na ta nacin lahko omogoci konsistenten nacin izobraževanja za zaposlene v zdravstvu. Mo-odle se tako uporablja pri kombiniranem ucenju (angl. Blended learning), vseživljenjskem ucenju ali kot tocka srecanja za dolocene zdravstvene strokov­ne skupnosti. 
Med razširitvami, ki jih lahko vkljucimo v Moo-dle, smo izbrali H5P, ki omogoca uporabo širokega nabora interaktivnih vsebin v razlicnih oblikah [27], [28], hkrati pa je mogoce aktivnostim študenta in njegovemu napredku slediti. H5P je zelo intuitivno zasnovan, zato priprava interaktivnih vsebin za iz­vajalca izobraževanja ni težka in ne zahteva poseb­nih znanj. Druga razširitev, ki jo bomo v e-ucilnici uporabili, LevelUp!, omogoca vkljucevanje koncep­tov igrifikacije v ucno okolje. Podobno kot razširitev H5P tudi LevelUp! ne zahteva posebnih znanj, ven­dar pa moramo pri uporabi dosledno definirati logi­ko dodajanja tock in prehajanja stopenj. S uporabo razširitve LevelUp! študentom omogocimo zbiranje tako imenovanih izkustvenih tock (angl. Experience Points, XP), ki predstavljajo napredek študenta in so osnova za premik študenta po nivojih znanja [29]. 
S pomocjo predstavljenih orodij smo razvili pro-totip e-ucilnice za poucevanje na dokazih podprte zdravstvene nege. Vsebina in ucne oblike izhajajo iz raziskave o potrebnih znanjih s podrocja na dokazih podprte zdravstvene nege, upoštevali in vkljucili pa smo tudi dobre prakse predhodnega izobraževanja na partnerskih ustanovah. 
4	 PROTOTIP E-UCILNICE ZA POUCEVANJE NA DOKAZIH PODPRTE ZDRAVSTVENE NEGE 
V projektu ProCare sodelujejo izobraževalne ustano­ve in bolnišnice. Bolnišnice z namenom identificira-
ti potrebe po znanjih s podrocja zdravstvene nege, ter evalvirati pripravljene izobraževalne vsebine. Izobraževalne ustanove v vecji meri prispevajo s 
svojim strokovnim in znanstvenih poznavanjem po­
drocja zdravstvene nege, bolj specificno na dokazih 

Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 

Slika 1: Videokonferencni sistem BigBlueButton. 
podprte zdravstvene nege. Da bi zapolnili vrzel pri bin v okviru e-ucilnice, so sodelavci pripravili nekaj poznavanju podrocja e-izobraževanja ter tehnologi-prototipnih rešitev, ki jim bodo v pomoc pri odloca­je, ki e-izobraževanje podpira, so v projektno ekipo nju o najprimernejših nacinih podajanja vsebine za vkljuceni tudi sodelavci Fakultete za organizacijske posamezno tematiko. vede Univerze v Mariboru, ki s svojim strokovnim 
znanjem s podrocja informacijskih sistemov ostalim 4.1	 Videokonferencni sistem partnerjem svetujejo pri razvoju e-ucilnice. Da bi par-Videokonferencni sistem je postal nepogrešljiv del tnerje seznanili z možnimi nacini predstavitve vse-e-izobraževanja. V spletnem okolju Moodle lahko 

Slika 1: Forum za skupnost praks. 
Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 

uporabimo videokonferencni sistem BigBlueBut-ton [30], ki ima podobne funkcionalnosti kot ostala podobna orodja, za delovanje pa potrebuje samo 
HTML5. Videokonferencni sistem lahko uporabimo 
kot orodje za predstavitev vsebin, za razprave, med-sebojno pomoc študentov in podobno. Izgled vme­snika videokonferencnega sistema BigBlueButton je 
predstavljen na sliki 1. 
4.2	 Forum 
V e-ucilnici lahko aktivnost Forum, ki podpira sku­pinsko delo, uporabimo za razlicne namene. Forum 
lahko poljubno oblikujemo in prilagodimo. Na sliki 2 je predstavljen forum za podporo delovanja skupno­sti praks. Kot predlog smo pripravili dve osnovni temi. Prva tema je namenjena predstavitvi novih štu­
dentov, ki predstavlja dobro izhodišce za kvalitetno 
komunikacijo v spletnem okolju. Glede na izvajalce 
izobraževanj ostale teme v skupnost praks dodaja moderator e-ucilnice. 
Forum je primerna oblika tudi za spletno izvaja­nje aktivnosti bralnega kluba. Bralni klubi v obliki rednih, obicajno mesecnih druženj medicinskih se­ster so v sodelujocih ustanovah stalna praksa. S spre­membami dela v obdobju med in po COVID-19 pan-
demiji, kot tudi s spremenjeno obliko ucenja preko e-ucilnice, bralnega kluba v klasicni obliki ni mogoce vec izvajati. Na sliki 3 je predstavljena ena od tem v 
forumu Bralnega kluba. 
Seveda forum ni edina možna oblika izvedbe bral­nega kluba v e-ucilnici. Možne so razlicne kombina­cije z videokonferencnim sistemom. Manj verjetna je uporaba spletne klepetalnice za izmenjavo mnenj o aktualnih vsebinah in prispevkih. Vse možne oblike smo vkljucili v prototip ter tako uporabnikom omo­gocili testiranje možnih izvedb, ki so predstavljene na sliki 4. 
4.3	 Zunanji viri 
V e-ucilnico lahko vkljucimo tudi zunanje vsebine, pri cemer poskrbimo za ustrezno navajanje avtorjev gradiva. V prototip sta vkljucena dva razlicna prime-ra: MOOC tecaj iz spletnega portala Coursera [31] in 
e-knjiga povzeta po Dugganu [32]. 
4.4	 Interaktivne vsebine 
Da bi udeležence izobraževanja cim bolj motivirali ter obogatili njihovo izkušnjo ucenja na dokazih pod-prte zdravstvene nege v e-ucilnici, smo v prototipu e-ucilnice predlagali tudi vkljucevanje interaktivnih 

Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 

Slika 4: Razlicne možnosti izvedbe bralnega kluba. 

Slika 5: Zunanji viri v e-ucilnici. 
Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 

vsebin. Sistem za upravljanje ucnih vsebin Moodle 
v osnovi ponuja nekaj interaktivnih modulov. Tako 
smo v prototip vkljucili lekcijo, ki omogoca pripravo razvejane vsebine z razlicnimi dodatki in možnostjo 
prehajanja med posameznimi vsebinami (slika 6). E-knjiga podobno kot lekcija omogoca uporab­niku premikanje po poglavjih, vkljucevanje razlic­
nih vsebin, povezav in zunanjih virov. Medtem ko je glavna prednost lekcije v razvejanosti, pa e-knjiga 
uporabniku predlaga doloceno zaporedje. Primer e-knjige o ucenju na dokazih podprte zdravstvene 
nege prikazuje slika 7. Poleg osnovnih komponent smo v prototipu upo­
rabili tudi vticnik H5P, ki so svojim širokim naborom 


Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 

razlicnih oblik interaktivnih vsebin omogoca razvoj atraktivnih prikazov ucnega gradiva. Za razliko od 
interaktivne lekcije in e-knjige modul Course presen­tation omogoca vkljucevanje še ostalih interaktivnih elementov. Kot prikazuje slika 8, je mogoce v vgra­jenemu videoposnetku dodati vprašanja za sprotno preverjanje znanja. 
Na sliki 9 je prikazana uporaba vprašanja, ki omogoca sprotno preverjanje znanja udeležencev iz­obraževanja. Rezultati sprotnega preverjanja znanja so zbrani in prikazani ob zakljucku dela s posame­znim modulom. 
Modul Course presentation ponuja še vrsto dru­

gih možnosti, med katerimi smo v prototip vkljucili 

Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 

še kartice za preverjanje znanja. Kartice lahko upo­rabimo za primer vprašanja in odgovora, ali pa za primer trditev, ki jim na drugi kartici sledijo primeri. 
Razširitev H5Pomogoca tudi enostavno dodaja­nje elementov, ki jih prikažemo na casovnem traku. Na sliki 10 je prikazan casovni trak razvoja razisko­vanja v zdravstveni negi. V casovni trak lahko vklju-cimo opise, fotografije in povezave do dodatnih raz-lag posameznih mejnikov. 
Na dokazih podprta zdravstvena nega vkljucuje tudi razlicne metode raziskovanja, na primer stati­sticne metode. Pri raziskavi moramo torej za anali­zo podatkov uporabiti pravi statisticni test. Modul odlocitveni scenarij (angl. branching scenario), ki ga ponuja razširitev H5Pomogoca definicijo odlocitve­nega drevesa. V odlocitvenem drevesu so definirana vprašanja, ter možni odgovori, na osnovi katerih se doloci logika izbire posameznega statisticnega testa 
(slika 11). 
Na osnovi definicije odlocitvenega drevesa, se 
po uvodnem diapozitivu predstavitve (slika 12), na 
zaslonu prikazujejo vprašanja z možnimi odgovori 


Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 


(slika 13), ki vodijo do koncnega rezultata, pravega aktivnostmi v okolju Moodle lahko uporabimo tudi statisticnega testa za izbrani problem. povratno informacijo, kviz, vprašalnik ali anketo. Še 
Ko udeleženec izobraževanja izbere vse odgovore vecji nabor možnosti pa najdemo v razširitvi H5P, od definirane v odlocitvenem drevesu, se izpiše rezul-možnosti dopolnjevanja manjkajocih izrazov, grafic­tat, ki prikazuje ime najprimernejšega statisticnega nih prikazov, prekrivanja slik, iskanja parov, virtual-testa za obravnavani primer (slika 14). nih ogledov in podobno. 
Poleg predstavljenih interaktivnih elementov v Ena od možnosti, ki v prototip še niso vkljucenje, e-ucilnico lahko vkljucimo tudi druge. Ena od za-je tudi dodajanje elementa igrifikacije. V e-ucilnici nimivih možnosti je slovar izrazov. Med osnovnimi Moodle lahko igrifikacijo omogocimo z uporabo raz­
Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 

širitve LevelUp! [33]. Z definicijo obveznosti in pra­
vil za zbiranje tock udeleženec izobraževanja dobi 
povratno informacijo, kako dobro napreduje in ka­kšen je njegov napredek v primerjavi z ostalimi ude­
leženci izobraževanja.
5	 ZAKLJUCEK IN RAZPRAVA 
V prispevku smo predstavili prototip e-ucilnice za ucenje na dokazih podprte zdravstvene nege. Proto-tip je nastal v okviru Erasmus+ projekta Procare in predstavlja izhodišce za razvoj ucnega modula s po­drocja zdravstvene nege. V prototipu je uporabljen sistem za upravljanje izobraževalnih vsebin Moodle, 
z razširitvama BigBlueButton in H5P, ki pomagata 
pri vzpostaviti interaktivnih vsebin v spletni ucilnici. V prispevku prikazujemo razlicne možnosti rešitev, ki bi študentom zdravstvene nege še bolj približale dolocene tematike. Kot je prikazano v vec raziskavah namrec tudi izobraževanja s podrocja zdravstvene 
nege, lahko obogatimo z uporabo interaktivnih vse-bin. Interaktivne vsebine omogocajo boljšo uporab­niško izkušnjo in udeleženca izobraževanja dodatno motivirajo. V prototip je v manjši meri vkljucen tudi element igrifikacije, preko zbiranja tock v razlicnih interaktivnih aktivnostih. V vecji meri pa je mogoce igrifikacijo vkljuciti v e-ucilnico z uporabo razširitve 
LevelUp!. 
V nadaljevanju bomo v okviru projekta ProCare razvili delujoco e- ucilnico, ki jo bodo uporabljali štu­denti zdravstvene nege v angleškem jeziku. Raziska­va med zaposlenimi v zdravstveni negi je pokazala, da se zdravstveni delavci želijo izpopolniti v tema­tikah kot so osnovne raziskovalnih metod, uporaba znanstvenih baz podatkov, najnovejše raziskave na podrocju zdravstvene nege. Pri tem želijo, da so vse informacije zbrane na enem mestu, da imajo dostop do videoposnetkov z navodili kako dostopati do informacij, ter da lahko s svojimi vrstniki delijo iz­kušnje. V nekaterih primerih so zdravstveni delavci izrazili tudi željo, da bi bilo gradivo na voljo v njiho­vem jeziku in ne samo v angleškem. 
ZAHVALA 
Prispevek je nastal ob podpori Evropske komisije z nepovratnimi sredstvi 2018 – 2726 / 001 – 001 za pro-jekt Hospitals and faculties together for prosperous and scientific based healthcare (ProCare). Vsebina 
tega prispevka ne odraža nujno stališca ali mnenja Evropske komisije. Za izražena mnenja odgovarjajo 
samo avtorji in se zato ta ne morejo šteti za uradno 
stališce Evropske komisije.
LITERATURA 
[1] Ž. Fišer and A. B. Arbeiter, »Možnosti za uporabo na študenta osredinjenih metod poucevanja in ucenja bioloških predme­tov na UP FAMNIT,« Andragoška spoznanja, vol. 26, no. 2, pp. 47–57, 2020. 
[2] E. Dornik, »Digitalizacija v zdravstvu: porocilo s srecanja Sek­cije za informatiko v zdravstveni negi – SIZN 2019,« Inform. Medica Slov., vol. 24, no. 1–2, pp. 55–60, 2019. 
[3] A. Vaona et al., »E-learning for health professionals,« Cochra­ne Database Syst. Rev., no. 1, 2018. 
[4] G. Chopra, P. Madan, P. Jaisingh, and P. Bhaskar, »Effec­tiveness of e-learning portal from students’ perspective: A structural equation model (SEM) approach,« Interact. Tech-nol. Smart Educ., vol. 16, no. 2, pp. 94–116, 2019. 
[5] D. Al-Fraihat, M. Joy, R. Masa’deh, and J. Sinclair, »Evalua­ting E-learning systems success: An empirical study,« Com-put. Human Behav., vol. 102, pp. 67–86, 2020. 
[6] M. Chou and J. Frank, »Designing of Online Communities of Practice to Facilitate Collaborative Learning,« in 2018 5th International Symposium on Emerging Trends and Technolo­gies in Libraries and Information Services (ETTLIS), 2018, pp. 100–104. 
[7] P. Moule, »E-learning for healthcare students: developing the communities of practice framework,« J. Adv. Nurs., vol. 54, no. 3, pp. 370–380, May 2006. 
[8] J. M. Topf et al., »The Evolution of the Journal Club: From Osler to Twitter,« Am. J. Kidney Dis., vol. 69, no. 6, pp. 827– 836, 2017. 
[9] I. A. Thangasamy et al., »Evaluating the Effectiveness of an Online Journal Club: Experience from the International Urolo­gy Journal Club,« Eur. Urol. Focus, 2019. 
[10] V. C. Lucia and S. M. Swanberg, »Utilizing journal club to facilitate critical thinking in pre-clinical medical students,« Int. 
J. Med. Educ., vol. 9, pp. 7–8, Jan. 2018. 
[11] W. D. Maxwell et al., »Massive open online courses in U.S. healthcare education: Practical considerations and lessons learned from implementation,« Curr. Pharm. Teach. Learn., vol. 10, no. 6, pp. 736–743, 2018. 
[12] M. Pucko, B. Jurca, and M. Jermol, »Odprto izobraževanje v zdravstvu – tehnologija in metoda,« Andragoška spoznanja, vol. 22, no. 4, pp. 57–71, 2016. 

Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 
[13] Joubel, »H5P,« 2020. [Online]. Available: https://h5p.org/. [Accessed: 24-Aug-2020]. 
[14] R. Gaupp, M. Körner, and G. Fabry, »Effects of a case-ba­sed interactive e-learning course on knowledge and attitudes about patient safety: a quasi-experimental study with third­-year medical students,« BMC Med. Educ., vol. 16, no. 1, p. 172, 2016. 
[15] F. Ulrich, N. H. Helms, U. P. Frandsen, and A. V. Rafn, »Le­arning effectiveness of 360° video: experiences from a con­trolled experiment in healthcare education,« Interact. Learn. Environ., pp. 1–14, Feb. 2019. 
[16] M. Urh and E. Jereb, »Model uvedbe igrifikacije v sisteme za upravljanje ucenja glede na osebnostne lastnosti,« in 38. Mednarodna konferenca o razvoju organizacijskih znanosti: Ekosistem organizacij v dobi digitalizacije, 2019, pp. 1155– 1168. 
[17] M. J. Ferreira, C. Algoritmi, F. Moreira, D. F. Escudero, and 
L. S. Gretel, »Gamification in higher education: The learning perspective,« in Experiences and perceptions of pedagogical practices with Game-Based lLarning & Gamification, B. D. da Silva, J. A. Lencastre, M. Bento, and J. Osorio, Eds. Braga, Portugal: Institute of Education, University of Minho, 2019, pp. 195–218. 

[18] L. McCoy, J. H. Lewis, and D. Dalton, »Gamification and Mul­timedia for Medical Education: A Landscape Review,« J. Am. Osteopath. Assoc., vol. 116, no. 1, pp. 22–34, Jan. 2016. 
[19] M. Telford and E. Senior, »Healthcare students’ experiences when integrating e-learning and flipped classroom instructi­onal approaches,« Br. J. Nurs., vol. 26, no. 11, pp. 617–622, Jun. 2017. 
[20] J. García-González, W. Ruqiong, R. Alarcon-Rodriguez, 
M. Requena-Mullor, C. Ding, and M. I. Ventura-Miranda, »Analysis of Anxiety Levels of Nursing Students Because of e-Learning during the COVID-19 Pandemic,« Healthcare, vol. 9, no. 3, 2021. 

[21] H. K. Singh et al., »A survey of E-learning methods in nursing and medical education during COVID-19 pandemic in India,« Nurse Educ. Today, vol. 99, p. 104796, 2021. 
[22] A. Rohwer, N. V. Motaze, E. Rehfuess, and T. Young, »E-lear­ning of evidence-based healthcare (EBHC) to increase EBHC competencies in healthcare professionals,« Campbell Syst. Rev., vol. 13, Mar. 2017. 
[23] A. Green, D. A. Jeffs, B. A. Boateng, G. R. Lowe, and M. Walden, »Evaluating evidence-based practice knowledge and beliefs through the e-learning EBP academy,« J. Contin. Educ. Nurs., vol. 48, no. 7, pp. 304–311, 2017. 
[24] A. Baggia et al., »Selecting the e-Learning Platform for Nursing Education,« in 38. mednarodna konferenca o razvoju ograni­zacijskih znanosti: Ekosistem organizacij v dobi digitalizacije, 2019, pp. 49–62. 
[25] Moodle, »Moodle.« 2019. 
[26] Lambda Solutions, The complete user guide to Moodle. 2017. 
[27] J. Hudson, »Flipping Lessons with Moodle: Using the H5P Moodle Plugin to Deliver Online Sessions,« in 12th Annual University of Glasgow Learning and Teaching Conference, 
2019. 

[28] R. Singleton and A. Charlton, »Creating H5P content for acti­ve learning,« Pacific J. Technol. Enhanc. Learn., vol. 2, no. 1, pp. 13–14, 2019. 
[29] H. F. Hasan, M. Nat, and V. Z. Vanduhe, »Gamified Colla­borative Environment in Moodle,« IEEE Access, vol. 7, pp. 89833–89844, 2019. 
[30] Big Blue Button, »Big Blue Button.« 2019. 
[31] R. Kukafka, »HI-FIVE: Health Informatics For Innovation, Va­lue & Enrichment (Social/Peer Perspective).« Columbia Uni­versity, 2021. 
[32] J. Duggan, »Diffusion Models,« in System Dynamics Mode­ling with R, Lecture Notes in Social Networks, Springer Inter­national Publishing, 2016, pp. 97–122. 
[33] branchup, »LevelUp!,« 2020. [Online]. Available: https://leve­lup.plus/. [Accessed: 27-Aug-2020]. 
• 
Alenka Baggia je docentka na Univerzi v Mariboru, Fakulteti za organizacijske vede kot docentka za podrocje informacijski sistemi. Njeno raz­iskovalno delo je osredotoceno na sprejetje novih tehnologij in vlogo informacijskih sistemov v trajnostnem razvoju. Je clanica Laboratorija za kakovost in testiranje programske opreme in certificirana inštruktorica Oracle Academy. 
• 
Robert Leskovar je redni profesor na Univerzi v Mariboru, Fakulteti za organizacijske vede. Raziskovalno podrocje obsega veckriterijsko odloca­nje, simulacijo in modeliranje ter razvoj in testiranje programskih rešitev. Je vodja Laboratorija za kakovost in testiranje programske opreme, predstojnik Katedre za informatiko in certificiran inštruktor Oracle Academy. 
• 
Branislav Šmitek je docent na Univerzi v Mariboru, Fakulteti za organizacijske vede. Njegovo pedagoško in raziskovalno delo je usmerjeno v reševanje problemov uporabe multimedije v izobraževalnem procesu, razvoja elektronskih ucnih gradiv in njihove uporabe pri e-izobraževanju in nacrtovanja ter izvedbe preverjanja znanja s pomocjo elektronskih sistemov za preverjanje znanja. 
• 
Saša Mlakar je Predstojnica Centra za vseživljenjsko izobraževanje, karierno svetovanje, tutorstvo in mentorstvo na Fakulteti za zdravstvene vede Angele Boškin. V sklopu Centra vodi karierno središce, ki je namenjeno povezovanju zaposlovalcev in diplomantom fakultete. Sodeluje na vec mednarodnih in nacionalnih projektih s podrocja zdravstvenih ved. 
Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, Sara Scarsini, Uroš Rajkovic: E-ucilnica za ucenje na dokazih podprte zdravstvene nege 
• 
Katja Pesjak je docentka za podrocje Sociologije zdravja in bolezni na Fakulteti za zdravstvo Angele Boškin. Je clanica razvojno-raziskovalne sku-pine fakultete in raziskovalno deluje na podrocju javnega zdravja, promocije zdravja in razvoja zdravstvene nege kot znanstvene discipline. Aktivno sodeluje pri pridobivanju in izvajanju tujih in domacih aplikativnih in temeljnih projektov. 
• 
Mateja Bahun je višja predavateljica in predstavnica vodstva za kakovost na Fakulteti za zdravstvo Angele Boškin. Po izobrazbi je profesorica zdravstvene vzgoje in magistra zdravstvene nege. Njeno pedagoško delo na 1. stopnji visokošolskega študijskega programa zdravstvene nege obsega razlicne vsebine, med drugim tudi e-zdravstveno nego. 
• 
Manuel Lillo-Crespo je izredni profesor na Oddelku za zdravstveno nego Univerze v Alicanteju. Je vodja vec nacionalnih in mednarodnih razisko­valnih projektov s podrocja zdravstvene nege, inovacij v izobraževanju zdravstvene nege ter kakovosti zdravstvene nege. Je clan Royal College of Surgeons na Irskem in sodelavec Akademije za zdravstveno nego v regiji. 
• 
Jorge Riquelme Galindo je doktorski kandidat na podrocju zdravstvenih ved. Zaposlen je kot koordinator zdravstvene nega na oddelku za intenzivno terapijo in intervencijsko kardiologijo v bolnišnici HLA Vistahermosa. Hkrati je profesor na CEU Univerzi in mentor mendarodnim študentom na HLA Vistahermosa. Je clan vec mednarodnih združenj s podrocja zdravstvenih ved in sodeluje na vec mednarodnih projektih. 
• 
Christine Fitzgerald je podoktorska raziskovalka na Univerzi v Limericku. Z bogatimi izkušnjami s podrocja zdravstvene nege in promocije zdravja, se njeno raziskovalno delo osredotoca na raziskovanje zdravstvenih storitev, uporabniške izkušnje in sodelovanja na podrocju zdravstvene nege. 
• 
Liz Kingston je predavateljica in koordinatorka laboratorijev na Oddelku za zdravstveno nego Univerze v Limericku. Njena raziskovalna podrocja vkljucujejo higieno rok, preprecevanje in nadzor okužb, poucevanje klinicnih vešcin ter uporaba tehnologije v pedagoškem procesu. 
• 
Alice Coffey je redna profesorica ter predstojnica oddelka zdravstvene nege, vodja doktorskega študija, vodja inštituta za zdravstvene raziskave 
in grozda Health Implementation Science and Technology na Univerzi v Limericku. Njena raziskovalna podrocja so prehodna in celostna oskrba, gerontologija, paliativna oskrba demence in razvoj raziskovalnih kompetenc na podrocju zdravstvene nege. 
• 
Lucia Cadorin je raziskovalka na Univerzi v Udinah in izredna profesorica bioetike. Kot oblikovalka stalnega izobraževanja je zaposlena pri nacio­nalnem inštitutu za boj proti raku. Sodeluje pri vec projektih vezanih na izobraževanje v zdravstveni negi. Njeno raziskovalno podrocje pa vkljucuje samostojno in smiselno ucenje na podrocju zdravstvene nege. 
• 
Alvisa Palese je izredna profesorica za podrocje zdravstvene nege na Oddelku za medicinske vede ter koordinatorica študijskega programa zdravstvenih ved Univerze v Udinah. Kot koordinatorka ali raziskovalka sodeluje pri vec nacionalnih in mednarodnih projektih. Njeno podrocje raz­iskovanja vkljucuje zaposlovanje in izobraževanje medicinskih sester, klinicne študije ter raziskave s podrocja nevroznanosti v zdravstvenih vedah. 
• 
Brabara Narduzzi je magistrica zdravstvenih ved. Zaposlena je kot medicinska sestra v Univerzitetnem javnem zdravstvenem podjetju za Osre­dnjo Furlanijo. Vkljucena je v raziskave s podrocja profesionalnega razvoja medicinskih sester in babic. 
• 
Sara Scarsini je diplomirana medicinska sestra, zaposlena kot raziskovalka na mednarodnih projektih na Univerzitetnem javnem zdravstvenem 
podjetju za Osrednjo Furlanijo. Poleg bogatih izkušenj na delovnem mestu medicinske sestre je zakljucila tudi doktorski študij. 
• 
Uroš Rajkovic je zaposlen na Univerzi v Mariboru, Fakulteti za organizacijske vede. Raziskuje na podrocju sistemov za podporo odlocanju in zdra­vstvene informatike. Je vodja programskega odbora konference Vzgoja in izobraževanje v informacijski družbi. 

Stanje in trendi na podrocju rudarjenja procesov 
Gregor Polancic1 in Mateja Kocbek Bule1 1 Univerza v Mariboru, Fakulteta za elektrotehniko, racunalništvo in informatiko, Koroška cesta 46, 2000 Maribor gregor.polancic@um.si, mateja.kocbek@um.si 
Izvlecek 
Upravljanje poslovnih procesov je uveljavljena metodologija, katere poglavitni namen je ucinkovito izboljšanje organizacijskih procesov z uporabo razlicnih tehnik in tehnologij, ki v veliki meri temeljijo na modelih procesov. Predpogoj za uspešno upravljanje je zagotavlja­nje veljavnih modelov, kar pa je v praksi pogosto težko doseci, saj so le ti, pogosto zaradi cloveških dejavnikov, nepopolni, nepravilni oziroma neažurni. Alternativni oziroma komplementarni pristop, ki se v zadnjih letih uveljavlja na podrocju upravljanja poslovnih procesov, je zato na realnih podatkih temeljece upravljanje procesov, ki jih, predvsem v obliki dnevnikov dogodkov, generirajo poslovne informacijske reši­tve. Rudarjenje procesov je sinonim za množico tehnik in tehnologij, ki omogocajo avtomatsko generiranje in vizualizacijo modelov procesov na osnovi dnevnikov dogodkov, z njihovo pomocjo pa je možno procese odkrivati, analizirati, preverjati skladnost izvajanih procesov in odkrivati morebitna odstopanja. V prispevku bomo predstavili in umestili rudarjenje procesov v življenjski cikel upravljanja poslovnih procesov, na osnovi korakov al­goritma Alfa pa bo pojasnjen postopek avtomatskega oblikovanja modela procesa iz podatkov sistemskega dnevnika. Osrednji del prispevka je namenjen predstavitvi zmožnosti sodobnih rešitev za rudarjenje procesov, ki postajajo v sodobnih poslovnih okoljih ne­pogrešljiv clen poslovne analitike, z njihovo pomocjo pa je možno sprejemati natancne procesne oziroma poslovne odlocitve, ki teme­ljijo na realnih operativnih podatkih. 
Kljucne besede: poslovni procesi, upravljanje poslovnih procesov, rudarjenje procesov 
Abstract 
Business process management is an established methodology the main purpose of which is to effectively improve organizational processes by applying a variety of techniques and technologies that are largely based on process models. A prerequisite for the successful management is the provisioning of valid models, which is often difficult to achieve in practice as commonly, due to human factors, process models tend to be incomplete, inaccurate, or outdated. An alternative or complementary approach, which has been established in recent years in the field of business process manage­ment, considers empirical process-related data, which especially in the form of event logs, are generated by business applications. 
Process mining is a synonym for a multitude of techniques and technologies that enable automatic event log-based generation and visualization of process models that make possible the detection and analysis of processes, checking the compliance of implemen­
ted processes and detection of potential deviations. In this paper, we will present and position process mining in the business process management lifecycle. Process mining will be demonstrated with the steps of a common process mining algorithm – Alpha. The central part of the paper is aimed at presenting the capabilities of modern tools for process mining, which are becoming an indispensable part of business analytics in modern business environments. With their help, it is possible to make precise process or business decisions based on real operational data. 
Keywords: Business process, business process management, process mining 
UVOD Upravljanje poslovnih procesov (angl. business pro­cess management, BPM) je uveljavljena metodologi­ja, katere poglavitni namen je povecanje uspešnosti, ucinkovitosti in prilagodljivosti organizacijskih pro-cesov in posledicno poslovanja podjetja. Predstavlja skupek praks, tehnik in tehnologij, ki so obicajno ure­jene v obliki (teoreticnega) življenjskega cikla, sesta­vljenega iz naslednjih, medsebojno odvisnih, faz [1]: identificiranje procesa (angl. process identification), odkrivanje procesa (angl. process discovery), anali­za procesa (angl. process analysis), prenova proce­sa (angl. process redesign), implementacija procesa (angl. process implementation) in spremljanje oz. nadzorovanje procesa (angl. process monitoring and control). 
Ker so (poslovni) procesi neotipljiva sredstva (angl. intangible assets), jih obicajno upravljamo pre­ko modelov procesov (angl. process model), le ti pa so obicajno predstavljeni v graficni obliki oziroma v obliki diagrama (angl. process diagram) [2]. Jedro tradicionalnega upravljanja poslovnih procesov tako predstavljajo modeli procesov, ki služijo razlicnim namenom kot so: analiziranje procesov, komunicira­nje o procesih, implementacija procesov in spremem-be oz. izboljšave procesov. Ker odlocitve upravljanja poslovnih procesov v veliki meri temeljijo na mode-lih procesov, je poglavitni izziv zagotavljanje veljav-nih modelov procesov (angl. validity), kar pomeni, da modeli predstavljajo dejanske procese oziroma operativno izvajanje in da le te opisujejo v celoti (angl. completeness) [1]. 


V praksi se je izkazalo, da je ravno zagotavljanje 
veljavnih in pravilnih modelov procesov šibek clen 
njihovega upravljanja. Zaradi nenehnih sprememb v poslovnem okolju se poslovni procesi kontinui­rano spreminjajo in prilagajajo. Modeli poslovnih procesov tako hitro postanejo neskladni z dejansko 
izvajanimi procesi kakor tudi s tehnicnim okoljem v 
katerem se izvajajo. Modeliranje poslovnih procesov 
je prav tako podvrženo cloveškim dejavnikom, saj je pretežno odvisno od spretnosti, znanj in razpoložlji­vosti analitika, kar vpliva na izdelane modele proce­sov. Tradicionalno odkrivanje in modeliranje proce­
sov je drago in casovno potratno tudi zaradi vrzeli v poslovnem znanju deležnikov in pomanjkanja objek­tivnih validacij modelov [3]. Modeli so zato pogosto nepopolni (ne opisujejo celotnega procesa), neskla­dni (ne predstavljajo dejanskega procesa) ali nepra­vilni (ne upoštevajo pravil diagramskega jezika, na primer BPMN, in so zato nerazumljivi tako za ljudi 
kakor tudi za izvajalna okolja). Poslovne odlocitve, 
ki se sprejemajo na neustreznih modelih procesov, so 
tako lahko napacne. 
Z višanjem stopnje avtomatizacije (procesov) so se pojavile priložnosti za reševanje omenjenih izzi­vov, ki omogocajo bolj neposredno povezovanje ak­tivnosti upravljanja procesov z dejansko izvajanimi procesi in sicer preko podatkov, ki jih poslovne infor­macijske rešitve generirajo v fazi operativne izvedbe procesov, predvsem v obliki dnevnikov dogodkov (angl. event log). Te podatke je možno z usmerjenimi tehnikami rudarjenja podatkov (angl. data mining) pretvoriti v obliko, ki je uporabna za sprejemanje od­locitev upravljanja procesov in se imenuje rudarjenje procesov (angl. process mining). Rudarjenje proce­sov predstavlja uspešen primer prehoda akademskih zamisli in rešitev v poslovna okolja [3]. 
V prispevku bomo predstavili in umestili rudar­jenje procesov v življenjski cikel upravljanja poslov­nih procesov, na osnovi korakov algoritma Alfa pa bo pojasnjen postopek avtomatskega oblikovanja modela procesa iz podatkov sistemskega dnevni­ka. Osrednji del prispevka je namenjen predstavitvi zmožnosti sodobnih rešitev za rudarjenje procesov, ki v postajajo v razvitih državah nepogrešljiv clen poslovne analitike, z njihovo pomocjo pa je možno 

sprejemati natancnejše procesne odlocitve, ki teme­ljijo na operativnih podatkih. 
OSNOVE RUDARJENJA PROCESOV 

Kot že besedna zveza pove, je osnovni namen ru­darjenja procesov »pridobivanje« procesov oziroma njihovih modelov iz osnovnih sestavin, to je (empiric­nih) podatkov o procesih. Pri tem je pomembno izpo­staviti, da lahko rudarjenje poteka popolnoma samo­dejno, s pomocjo algoritmov, ki na osnovi podatkov operativnega izvajanja procesov, generirajo modele procesov. Znacilnost tako nastalih modelov procesov je visoka stopnja veljavnosti (a ne nujno popolnosti) oziroma dobro prileganje dejanski izvedbi tehnicnega okolja in (skoraj) realno-casovna ažurnost modelov. Formalno je rudarjenje procesov definirano kot: »teh­nike, orodja in metode odkrivanja, spremljanja in izboljše­vanja realnih procesov, ki temeljijo na pridobivanju znanja iz dnevnikov dogodkov informacijskih sistemov« [4]. 
3	 DNEVNIK DOGODKOV 
Empiricne podatke oziroma vhodno tocko rudarje­nja procesov najpogosteje predstavlja (transakcijski) dnevnik dogodkov, ki ga je možno s pomocjo algo­ritmov preoblikovati v model procesa, ce so upošte-vane naslednje predpostavke: (1) dnevnik dogodkov beleži dogajanje enega procesa; (2) posamezne do-godke (vrstice) je možno povezati s primerkom ozi­roma instanco procesa (angl. case, instance); (3) zapi­sani dogodki so rezultat izvedene aktivnosti procesa in (4) dnevnik dogodkov je popoln. Primer poenosta­vljenega dnevnika dogodkov, ki izpolnjuje omenjene 
predpostavke, je v tabelaricni obliki ponazorjen v 
Tabela 1, kjer: (1) atribut »CaseID« predstavlja pri­merek procesa; (2) »Activity« predstavlja naziv izve­dene aktivnosti; in (3) »time:timestamp« predstavlja 
casovno znacko dogodka zakljucka aktivnosti.
V praksi se izkaže, da vhodni podatki v rudarje­nje podatkov niso tako dobro strukturirani kot prika-
Tabela 1: Tabelaricni prikaz(poenostavljenega) medicinskega dnevnika dogodkov 
Case ID Activity time:timestamp lifecycle: transition CRP DiagnosticUrinary Sediment 
XJ ER Registration 7.11.2019 08:18 complete TRUE 
XJ ER Triage 7.11.2019 08:29 complete 
XJ ER Sepsis Triage 7.11.2019 08:37 complete 
XJ CRP 7.11.2019 08:51 complete 16.0 
XJ IV Liquid 7.11.2019 09:05 complete 
XJ IV Antibiotics 7.11.2019 10:05 complete 
XJ Admission NC 7.11.2019 11:11 complete 
XJ Leucocytes 8.11.2019 08:00 complete 
ER Registration 9.11.2019 09:21 complete TRUE 
ER Triage 9.11.2019 09:34 complete 
Leucocytes 9.11.2019 09:42 complete 
CRP 9.11.2019 09:42 complete 9.0 
zuje Tabela 1, (po kakovosti jih je možno umestiti v 
pet razredov [4]) zato je potrebno pred samo izved­bo rudarjenja podatkov le te ustrezno pripraviti za obdelavo, kar je poznano pod okrajšavo ETL (angl. Extract, Transform, Load) oziroma: (1) pridobivanje 
podatkov iz informacijskih rešitev; (2) sintakticna in semanticna pretvorba podatkov v obliko, ki je pri­merna za rudarjenje procesov; (3) nalaganje podat­
kov v ciljni sistem, na primer podatkovno skladišce 
ali relacijsko podatkovno zbirko. Omenjeni postopek bistveno olajša zapisovanje dnevnikov dogodkov v standardnih formatih, kot sta IEEE 1849-2016 XES (eXtensible Event Stream) in njegov predhodnik MXML (Mining eXtensible Markup Language). Slika 2 prikazuje Meta model standarda XES v obliki UML razrednega diagrama. 
Iz zgornje slike je razvidno da XES datoteka ozi­roma dokument vsebuje 1 dnevnik dogodkov, ki je sestavljen iz množice sledi (angl. traces). Vsaka sled predstavlja zaporedje dogodkov (angl. event), ki pri­padajo dolocenemu primerku izvedbe procesa. Tako dnevnik, kakor tudi sledi in dogodki, lahko imajo 

množico dodatnih atributov, ki se lahko urejajo v hierarhicno obliko. Doloceni atributi se lahko opre­delijo kot obvezni, na primer: vsaka sled mora imeti 
poimenovanja, vsak dogodek pa mora imeti casovno znacko. Semantiko atributov dolocajo t.i. razširitve 
(angl. extensions). 
Rudarjenje procesov iz dnevnikov dogodkov je povezani z nekaterimi izzivi [6]. Kot prvo, morajo biti dogodki povezani z dolocenim primerkom pro-cesa, kar je lahko problematicno v primeru dogod­kov, ki so razpršeni v obsežni podatkovni bazi. Drugi izziv je povezan z granulacijo in formatom casovnih znack, ki se lahko razlikujejo v razlicnih tabelah po­datkovne baze. Tretji izziv lahko predstavlja omejen doseg dnevnika dogodkov, ki morda beleži le del ce­lotnega procesa. Cetrti izziv lahko predstavljajo ob-sežne podatkovne zbirke poslovnih informacijskih sistemov, ki otežijo definiranje dnevnikov dogodkov za rudarjenje procesov. Peti izziv je povezan s stopnjo granulacije beleženih dogodkov, ki je lahko glede na dejanski proces vecja ali manjša. 
4	 ALGORITMI RUDARJENJA PROCESOV 
Avtomatizirano odkrivanje procesov predstavlja teh­niko pridobivanja modela procesa na osnovi dnev­nika dogodkov z uporabo ustreznega algoritma. Al-goritem, ki se najpogosteje uporablja za ponazoritev delovanja avtomatiziranega odkrivanja procesov je 
algoritem a (alfa) (angl. alpha algorithm) in njegove izpeljanke (a+, a++, a# in a$) [6].
Kot samo rudarjenje procesov, ima tudi algoritem a osnove v akademskem okolju , natancneje v teorijizaporedij (multimnožice, kjer je pomembna urejenostoziroma vrstni red). Algoritem analizira relacije ureje­nosti med pari opravil v sledeh (angl. traces) (zapored­je dogodkov, urejenih po casovnih znackah, ki pripa­dajo istemu primerku) dnevnika dogodkov kot so: ne­posredni naslednik (angl. direct successor), vzrocnost(angl. causality), socasnost (angl. concurrency) in ek­skluzivnost (angl. exclusiveness). Rezultat algoritma a je mreža delovnega toka »W«, ki ohranja omenjene
relacije dnevnika dogodkov L, kar zapišemo kot: a L = W. 


Slika 3: Izsek dnevnika dogodkov, zapisanega v formatu XES 
Kot primer vzemimo vzporedni razcep oziroma Podobno kot za vzporedni razcep, algoritem a razcep ‘in’(angl. AND split) v mreži delovnega toka definira preslikave še za druge osnovne vzorce kon-(Slika 4). trolnega toka (angl. workflow patterns), kot so: zapo-
Kot je razvidno iz Slika 4, je vzporedni razcep redje (angl. sequence), vzporedno združevanje (angl. (angl. AND split) sestavljen iz treh medsebojno po-AND join), ekskluzivni razcep (angl. XOR split) in vezanih opravil {x,y,z} v naslednjih zgoraj predsta-ekskluzivno združevanje (angl. XOR join). vljenih relacijah: vzrocnost med opraviloma <x,y> in <x,z> ter relacijo socasnosti med opraviloma <y,z>, 
kar zapišemo kot: x . y, x . z . y//z, 



Slika 4: Vzporedni razcep predstavljen v Petrijevi mreži Slika 5: Sledi dnevnika dogodkov L1 (zgoraj) in njegov odtis (spodaj) 
Na osnovi odtisa dnevnika dogodkov (angl. foo­tprint) (Slika 5), ki predstavlja relacije kavzalnih (.), socasnih (II) in ekskluzivnih (#) relacij vseh parov dogodkov vseh sledi dnevnika dogodkov L (Slika 5), nato algoritem a izdela celovito mrežo delovnega toka v naslednjih osmih korakih: (1) dolocitev množi­ce aktivnosti oziroma prehodov Petrijeve mreže , ki se pojavijo v dnevniku dogodkov; (2) dolocitev vhodnih prehodov , ki predstavljajo zacetne prehode v sledeh dnevnika dogodkov; (3) dolocitev izhodnih preho­dov , ki predstavljajo koncne prehode v sledeh dnev­nika dogodkov; (4) identifikacija parov med-vzrocnih (angl. inter-causal) in notranje-socasnih (angl. intra­-concurrent) aktivnosti in (5) redukcija pridobljenih množic na nacin, ki ohranja le nad-množice; (6) de­finiranje mest P, ki jih dodamo med prehode; (7) sin­takticno ustrezno povezovanje mest in prehodov z relacijo toka F (ang. flow relation) in (8) združevanje rezultatov v z izrisom mreže delovnega toka.
Jedro algoritma a predstavljata cetrti in peti ko­rak, kjer je poglavitni izziv dolocitev mest in pripa­dajocih povezav v mreži delovnega toka, na nacin, da se dolocita množici vhodnih in izhodnih preho­dov zgoraj omenjenih mest (angl. places). Omenje-no je možno doseci s preureditvijo vrstic in stolpcev odtisa dnevnika dogodkov (Slika 5), na nacin, da se oblikujeta dve množici dogodkov, katerih elementi so med množicama vzrocno povezani (povezava v mreži delovnega toka), medtem, ko znotraj posame­znih množic niso v vzrocni zvezi. 
Med omejitve algoritma a, spadajo t.i. kratke zan­ke v procesu, ki imajo dolžino ena (v sledi je vec za­porednih enakih dogodkov) ali dva (v sledi je vec za­poredno ponavljajocih parov dogodkov). V takšnih primerih algoritem a ne zazna povezav s pripadajo-cimi prehodi. 
Poleg algoritma a obstaja še množica algoritmov 
za odkrivanje procesov, kot so na primer [6]: hevri­
sticno rudarjenje (angl. heuristic mining), genetsko 
rudarjenje procesov (angl. genetic process mining), 
podrocno rudarjenje (angl. region-based mining), 
induktivno rudarjenje (angl. inductive mining) in njihove številne variacije, vkljucno z lastniškimi al­goritmi, ki so vkljuceni v komercialne rešitve (na pri­mer, Celonis). Orodje Apromore uporablja algoritem razcepljenega rudarjenja (angl. split miner) [7]. 
Razlog za poplavo algoritmov je v pomanjkljivo­stih posameznih algoritmov, kot so [6]: (1) stopnja prileganja (angl. fitness) ki opredeljuje, kako do-bro se izdelan model procesa prilagaja podatkom v dnevniku oziroma kako dobro je možno le tega re-plicirati iz izdelanega modela procesa; (2) enostav­nost (angl. simplicity), ki opredeljuje preprostost izdelanega modela procesa; (3) generalizacija (angl. generalization), ki opredeljuje kako dobro algoritem predvideva dejanski model, ki morda presega zapise v dnevniku dogodkov (le ti najverjetneje niso popol­ni) in (4) natancnost (angl. precision), ki je nasprotna lastnost generalizacije in doloca, v kolikšni meri mo­del opisuje natancno to kar je opredeljeno v sledeh dnevnika dogodkov oziroma, da model ne dovoljuje obnašanja, ki ni evidentirano v dnevniku dogodkov. 
5	 VIZUALIZACIJA PROCESOV 
Modeli procesov, ki jih generirajo algoritmi za ru­darjenje procesov, so najpogosteje vizualizirani v eni 
izmed naslednjih procesnih notacij: mreže delovnih 
tokov (angl. workflow maps), procesne mape (angl. process maps) in BPMN diagrami (Business Process Model and Notation). 
Mreže delovnih tokov so podzvrst Petrijevih mrež (natancneje, imajo natanko en zacetek in konec ter bi 


Slika 6: Mreža delovnega toka v okolju ProM Slika 7: Primer procesne mape, ki jo je generiralo okolje Apromore3 

v primeru vpeljave prehoda med zacetkom in kon­cem izkazovale lastnost »mocne povezanosti«). Za­radi mocnega teoreticnega ozadja in možnosti tako 
formalnega, kot vizualnega prikaza so zelo primerne 
za algoritmicno obdelavo, prikazujejo pa lahko tako staticno kakor tudi dinamicno sliko procesa. Slika 6 prikazuje mrežo delovnega toka procesa pridobiva­nja kredita, ki je bila pridobljena iz testnega dnevni­ka dogodkov v formatu XES1 s pomocjo algoritma Alfa implementiranega v orodju ProM2. 
Slabost mreže delovnih tokov se kaže predvsem v njihovi prakticni uporabnosti, saj zaradi konceptualne preprostosti (vsebujejo le tri teoreticne koncepte: pre-hod, stanje in povezavo) ne nudijo neposredne pod-pore za višje-nivojske koncepte poslovnih procesov in so tako slabše razumljive za poslovne uporabnike. 
Procesne mape (angl. process map, directly fol­lows graph) so neformalna in preprosta notacija za prikaz poslovnih procesov, ki najpogosteje vkljucu­jejo le dva gradnika: (1) aktivnost, ki je predstavljena z vozlišcem (najpogosteje pravokotnik) in (2) pove­zavo med vozlišci, ki predstavlja zaporedje izvedbe aktivnosti oz. pripadajocih dogodkov. V primeru ru­darjenja procesov so procesne mape priljubljene za­radi preprostosti in dejstva, da rudarjenje procesov najpogosteje rezultira prav v modelih, ki predstavlja­jo množice aktivnosti in relacij med njimi.
Kot je razvidno iz Slika 7, so elementi procesnih map pogosto dopolnjeni še s »statisticnim slojem«, naprimer: trajanje ali pojavnost elementa. Le te je mocpridobiti s tehnikami rudarjenja procesov, predstavlja­jo pa pomembne informacije za procesne odlocitve.
Zaradi kompleksnosti realnih procesov, pred­vsem iz vidika števila variacij izvedb enega procesa (varianta predstavlja vse sledi procesa z istim zapo­redjem aktivnosti), so obicajno tudi procesne mape kompleksne, zato orodja obicajno nudijo možnosti abstrakcije pridobljenih modelov in sicer se najpo­gosteje omejuje prikaz glede na pogostost izvedbe aktivnosti ali povezav (na primer prikaz najpogoste­je ali najredkeje izvedenih variant procesa). Slika 8 prikazuje procesno mapo, ki jo generira okolje Ce-lonis. Na desni strani so v graficni obliki ponazorje­ne frekvence variant izvedbe procesa in obmocje ter delež variant, ki so ponazorjene v prikazani procesni mapi. Iz Slika 8 je tako razvidno da procesna mapa prikazuje potek treh najpogosteje izvajanih sledi, ki skupno pokrivajo 77% vseh primerkov procesa. 
Drug prikaz istega procesa oziroma dnevnika do-godkov prikazuje Slika 9, ki vizualizira 495 variant procesa, ki pa skupaj predstavljajo le 8% vseh izvedb oziroma primerkov procesa. 
Med slabosti procesnih map spada pomanjkanje 

procesnih konceptov, na primer težje je prepoznati 
pogojne in vzporedne tokove. Alternativa, ki odpra­vlja omenjeno slabost je uporaba BPMN 2.0, ki je de--facto in ISO standard (ISO/IEC 19510:2013) za mode-le procesov. Zaradi standardiziranosti tako notacije, kot tudi meta-modela, nudi le ta številne prednosti, kot so: bogat nabor konceptov poslovnih procesov, ki jih notacija podpira, prenosljivost modelov med orodji, možnosti simulacije in avtomatizacije proce­sov. Slika 10 prikazuje segment BPMN modela, ki ga je generiralo okolje Apromore na dnevniku iz Tabela 
1 http://www.promtools.org/prom6/downloads/FutureLearn%20-%20Process%20mining%20with%20ProM%20-%20Event%20logs.zip. 2 https://www.promtools.org/. 3 https://apromore.org/. 

1 z uporabo »split miner« algoritma, ki je sposoben poznati le osnovne koncepte in vzorce kontrolnega zaznati koncepte BPMN brez dodatnih transformacij toka. Zato je obicajno izkorišcen le majhen del gra-med notacijami [3]. dnikov notacije BPMN 2.0. 
Slabost uporabe notacije izhaja predvsem iz ome­jitev orodij za rudarjenje procesov, ki generirajo že 6	 ZMOŽNOSTI RUDARJENJA PROCESOV na videz drugacne modele, kot jih izdelajo analitiki Kljucna lastnost rudarjenja procesov je mocna po-in tudi v »omejenosti« algoritmov, ki so zmožni pre-vezanost med modeli procesov in realnostjo, ki je 

Slika 9: Abstrakcije modelov procesov v okolju Celonis s prikazom najredkeje izvajanih variant 
https://www.celonis.com/. 


lahko definirana na tre nacine: »play-in«, »play-out« 
in »replay«. Primer »play-in« je generiranje modela procesa na osnovi dnevnika dogodkov. »Play-out« predstavlja nasprotno aktivnost in sicer generiranje dnevnika dogodkov na osnovi definiranega modela procesa. Zadnji nacin »replay« predstavlja kombina­cijo predhodnih nacinov, kjer se na osnovi dnevnika 
dogodkov generira model procesa, le tega pa nato uporabimo za generiranje novega dnevnika dogod­kov. Nacin »replay« je primeren za ugotavljanje skla­dnosti med dejanskim in generiranim dnevnikom dogodkov ali za ponazoritev dodatnih informacij v modelu procesa (na primer: frekvence in trajanje). Zato lahko s tehnikami in orodji za rudarjenje proce­sov poleg avtomatiziranega odkrivanja procesov, ki je bilo podrobneje predstavljeno v predhodnem po­glavju, izvajamo še druge procesne aktivnosti (Slika 11), ki so predstavljene v nadaljevanju. 
7	 PREVERJANJE SKLADNOSTI 
Preverjanje skladnosti (angl. conformance 

checking) omogoca primerjavo izvajanega modela 
(oziroma dnevnika dogodkov) z definiranimi po­slovnimi pravili ali definiranim modelom procesa (angl. prescribed process model) in je s tem rele­vantno za usklajevanje poslovanja z zahtevami in za presojanje poslovanja (angl. auditing). Prime-ri poslovnih pravil, ki jih lahko preverjamo, so: (1) omejitve kontrolnega toka, kot je analiza izvajanja obveznih aktivnosti (na primer: odobritve zahtevkov ali obvezna kontrola kakovosti); (2) omejitve nivoja storitev oziroma SLA (angl. service level agrement), kot je najdaljši dovoljen cas izvajanja aktivnosti, re-gije ali procesa; (3) omejitve virov kot je »locevanje dolžnosti« (na primer: ista oseba ne sme izvesti dveh 
zaporednih aktivnosti) in (4) identifikacija redkih primerkov izvedbe, ki so potencialno neskladni s 


poslovnimi pravili. Rezultat analize preverjanja skla­dnosti je seznam odstopanj od pravil ali definiranega 
modela procesa. Slika 12 prikazuje analizo casovne 
skladnosti izvedbe storitve popravila, kjer imamo na 
primer opredeljeno casovno pravilo »cakanje med in-formiranjem uporabnika in izvedbo preprostega opravila 
ne sme trajati vec kot eno uro«. Orodje Apromore lahko odkrije vse primerke procesa, ki trajajo dlje od nave-denega. 
8	 RUDARJENJE ZMOGLJIVOSTI 
Z rudarjenjem zmogljivosti pridobimo dodatne in-formacije o modelih procesov, ki lahko vodijo v nji-hove izboljšave. Rezultat rudarjenja zmogljivosti so grafi zmogljivosti in modeli procesov, ki so dopolnje­ni z informacijami kot so trajanja aktivnosti ali po­
gledi na procese iz vidika dolocenega vira. Na tak nacin lahko odkrivamo ozka grla (angl. bottleneck analysis) v izvajanju, kot so: (1) aktivnost je pocasna 
zato predstavlja ozko grlo; (2) vse vhodne poveza­
ve v aktivnost so pocasne, zato je najverjetneje ozko 
grlo vir, ki mu je dodeljena izvedba aktivnosti; in (3) 
pocasna je predaja dela (angl. handoff) med dvema 
viroma (odebeljena povezava »21 mins« na Slika 13). 
Pogled virov lahko prav tako omogoci identifika­cijo potencialno preobremenjenih udeležencev pro-
cesa (velika frekvenca ali visoko trajanje izvedbe) ali 
premalo obremenjenih udeležencev procesa (nizka 
frekvenca ali kratko trajanje izvedbe). 
Na zmogljivost delovanja lahko prav tako bistve-no vplivajo ponovitve opravil, ki so lahko posledica slabo ali nepopolno opravljenega dela, ki se kaže kot: 
(1) zankanje ene aktivnosti (angl. self loop); (2) krat­ke zanke, kjer se izmenicno veckrat izvedeta dve ak­tivnosti (angl. short loop, ping-pong behavior); ali (3) posredne ponovitve, kjer se po istem vzorcu pona­vlja ista skupina aktivnosti (angl. indirect repetition). 
9	 ANALIZA RAZLICIC 
Analiza razlicic (angl. variant analysis) temelji na primerjavi dveh ali vec razlicic dnevnikov dogodkov istega procesa, ki tako predstavljajo razlicne variante 
procesa (na primer, primerjava vseh primerkov pro-
cesa, ki so se uspešno zakljucili glede na neuspešne). 
Primerjava variant procesov poda vpogled na vpra­
šanja tipa »zakaj?«, na primer: (1) zakaj se doloceni primerki procesa (ki smo jih združili v eno izmed 
variant procesa) izvajajo hitreje kot drugi? (2) Za­
kaj se doloceni primerki procesa uspešno zakljucijo, 
medtem ko se drugi neuspešno? (3) Zakaj je vir, ki je 
vkljucen v izbrano varianto procesa manj ucinkovit 
kot drugi? 



Odgovore na zgornja vprašanja lahko pridobimo 

z enim izmed naslednjih pristopov analize razlicic 
procesov: (1) analizo metrik uspešnosti (angl. perfor­mance measures) razlicic procesov; (2) analizo razli-cic procesov glede na cas izvedbe (na primer: analiza in primerjava razlicic procesov, ki so se izvajali pred in med pandemijo); (3) analiza razlicic procesov gle­de na lastnosti primerkov (na primer: vrsta izdelka, 
segment kupcev, geografsko podrocje, ipd.)
10	 ZAKLJUCEK 
Digitalna preobrazba in optimizacija poslovanja je prepletena s tehnološkimi inovacijami, ki morajo za­gotavljati hiter in veljaven vpogled v delovanje orga­
nizacij, temeljec na realnih podatkih, na nacin, ki je razumljiv vsem vpletenim. Med kljucne tehnike za 
doseganje navedenega spada rudarjenje procesov, ki izkorišca mocno povezanost med fizicno in informa­cijsko realnostjo (digitalni dvojcek) poslovanja, v ka­teri se poslovni dogodki beležijo v realnem casu, le ti 
pa so uporabljeni za usmerjanje, prilagajanje in nad­zor poslovnih procesov. Rudarjenje procesov postaja 
del rutine vecjih podjetij razvitih držav [3], k cemu 
je pripomogel tudi širok nabor »enterprise-ready« orodij za rudarjenje procesov. Le ta so dostopna raz­
licnim vrstam in potrebam organizacij in omogocajo 
relativno nizek vstopni prag v aktivnosti rudarjenja procesov. Slabost vpeljave orodij je pogosto, da so le ta v podjetjih implementirana v omejenem obsegu in zato ne pokrivajo celotnega poslovanja. 
Poglavitna izziva širše vpeljave rudarjenja proce­sov ostajata kakovost podatkov in cloveški dejavniki. Izkušnje kažejo, da je okoli 80% casa potrebnega za lociranje, izbiranje, pridobivanje in transformacijo podatkov, pogosto pa omenjene aktivnosti odkrijejo tudi težave s kakovostjo podatkov, ki jih je potrebno odpraviti neodvisno od rudarjenja procesov. Clove­ški dejavniki so pogosto povezani z nepoznavanjem podrocja rudarjenja procesov in »strahom« pred od­kritjem dejanskih procesov, ki bi lahko izpostavili pomanjkljivo vodenje, neucinkovitosti ali neskladno­sti med operativnih delovanjem in predpisi. 
V preteklem desetletju se je rudarjenje procesov uveljavilo predvsem kot tehnologija za odkrivanje in vizualizacijo realnih procesov, v prihodnosti pa se obeta razvoj podrocja v smer optimizacije proce­sov, podprte z umetno inteligenco [9]. Prvi trend je robotsko rudarjenje procesov (angl. robotic process mining), ki omogoca odkrivanje rutinskih digitalnih opravil iz dnevnikov uporabniških vmesnikov (angl. UI log), s pomocjo katerih se lahko nato generirajo avtomatske skripte. Drugi trend je vzrocno rudarje­nje procesov (angl. causal process mining), ki omo­goca odkrivanje vzrocno-posledicnih povezav med specifikami primerkov procesov in njihovimi rezul­tati (na primer, primerek procesa se izvede drugace v kolikor je stranka iz dolocene regije). Odkrivanje omenjenih povezav lahko vodi v izboljšave procesov in višje zadovoljstvo deležnikov. Tretji trend je »kaj 
– ce« rudarjenje procesov (angl. what-if process mi­ning), ki namesto analize obstojecega stanja omogoca 
simulacije delovanja procesov v primeru spremembe 
dolocenih vhodnih podatkov. Na primer, »kako se bo odzval proces, ce se število zahtevkov podvoji?«. Ce-trti trend je predpisano ali normativno spremljanje procesov (angl. prescriptive process monitoring), ki 
s pomocjo strojnega ucenja omogoca predvidevanja 
(negativnih) rezultatov primerkov (na primer, ali 
se bo dolocen primerek zakljucil pravocasno). Peti 
trend rudarjenja procesov v prihodnosti je avtomati­zirano izboljševanje procesov (angl. automated pro­cess improvement), ki za razliko od trenutnih pristo­
pov omogoca avtomatizirano vpeljavo sprememb 
procesov, ki izboljšujejo izbran indikator (na primer: 
stroški, cas in stopnja napak).
Izjemne razmere, kot je pandemija, so pokazale kako pomembna je digitalizacija, procesi, zanesljivi podatki in zmožnost hitrih prilagoditev novim raz­meram. Nagle spremembe v poslovanju se odražajo v naglih spremembah procesov, ki jih je možno zagoto­viti z ustrezno procesno avtomatizacijo in spremljati s tehnikami in tehnologijami rudarjenja procesov. 
LITERATURA 
[1] M. Dumas, M. L. Rosa, J. Mendling, in H. A. Reijers, Fun­damentals of Business Process Management. Springer Berlin Heidelberg, 2018. [Na spletu]. Dostopno na: https://books. google.si/books?id=KgVTDwAAQBAJ 
[2] G. Jošt, J. Huber, M. Hericko, in G. Polancic, »Improving cognitive effectiveness of business process diagrams with opacity-driven graphical highlights«, Decision Support Systems, let. 103, str. 58–69, nov. 2017, doi: 10.1016/j. dss.2017.09.003. 
[3] M. Kerremans, S. Searle, T. Srivastava, in K. Iijima, »Market Guide for Process Mining«, Gartner, sep. 2020. Pridobljeno: sep. 08, 2021. [Na spletu]. Dostopno na: https://www.gar­tner.com/doc/reprints?id=1-24ARMY34&ct=201002&st=sb 
[4] W. van der Aalst idr., »Process Mining Manifesto«, v Busi­ness Process Management Workshops, let. 99, F. Daniel, K. Barkaoui, in S. Dustdar, Ur. Berlin, Heidelberg: Springer Ber­lin Heidelberg, 2012, str. 169–194. doi: 10.1007/978-3-642­28108-2_19. 
[5] G. Acampora, A. Vitiello, B. N. D. Stefano, W. M. P. van der Aalst, C. W. Günther, in E. Verbeek, »IEEE 1849: The XES Standard: The Second IEEE Standard Sponsored by IEEE Computational Intelligence Society [Society Briefs]«, IEEE Comput. Intell. Mag., let. 12, št. 2, str. 4–8, 2017, doi: 10.1109/MCI.2017.2670420. 
[6] W. M. P. van der Aalst, Process Mining: Data Science in Acti­on, 2nd ed. 2016 edition. New York, NY: Springer, 2016. 
[7] A. Augusto, R. Conforti, M. Dumas, M. La Rosa, in A. Polyvyanyy, »Split miner: automated discovery of accurate and simple business process models from event logs«, Kno­wl Inf Syst, let. 59, št. 2, str. 251–284, maj 2019, doi: 10.1007/ s10115-018-1214-x. 
[8] „Process Mining 101«. Pridobljeno: sep. 09, 2021. [Na sple­tu]. Dostopno na: https://apromore.org/process-mining-101/ 
[9] M. Dumas, »Process Mining in 2021 and Beyond««. mar. 09, 2021. Pridobljeno: sep. 09, 2021. [Na spletu]. Dostopno na: https://apromore.org/whitepaper-process-mining-in-2021­-and-beyond/ 

• 
Gregor Polancic je znanstveni svetnik in izredni profesor na podrocju informatike. Spada med vodilne raziskovalce na podrocjih modeliranja 
poslovnih procesov in konceptualnega modeliranja v informatiki, tehnik in tehnologij upravljanja poslovnih procesov, tehnologij komuniciranja in 
sodelovanja. Bil je gostujoci profesor in raziskovalec na številnih tujih akademskih institucijah, recenzent številnih vrhunskih znanstvenih revij in clan vec odborov znanstvenih srecanj. Njegova bibliografija obsega preko 300 zapisov, od tega preko 30 izvirnih znanstvenih clankov s faktorjem vpliva. 
• 
Mateja Kocbek Bule je asistentka in doktorska študentka na Fakulteti za elektrotehniko, racunalništvo in informatiko, Univerze v Mariboru. Med njene interesne dejavnosti spada predvsem podrocje upravljanja poslovnih procesov. 

Funkcionalnosti in uporaba portala za paciente zvem in centralnega registra podatkov o pacientu 
Živa Rant, Dalibor Stanimirovic, Jure Janet Nacionalni inštitut za javno zdravje, Trubarjeva 2, 1000 Ljubljana ziva.rant@nijz.si, dalibor.stanimirovic@nijz.si, jure.janet@nijz.si 
Izvlecek 
eZdravje, ki ga od leta 2015 dalje vodi Nacionalni inštitut za javno zdravje (NIJZ), je eden kljucnih dolgorocnih ciljev digitalizacije javnega sektorja v Sloveniji. Epidemija covid-19 je v mocno vplivala tako na razvoj celotne zdravstvene informatike v Sloveniji, kot tudi na razvoj rešitev eZdravja. Posebno velik napredek sta v zadnjih letih doživeli rešitvi Zdravstveni portal za paciente zVEM in Central-ni register podatkov o pacientu. Prispevek predstavlja opis in analizo teh dveh rešitev, njune novosti in podatke o njuni uporabi. Z vidika pacienta je razvoj in vzpostavitev zdravstvenega portala za paciente zVEM zagotovo ena izmed vecjih pridobitev v zadnjih de­setletjih. Portal zVEM je v casu epidemije prevzel pomembno vlogo obvešcanja in ozavešcanja prebivalstva. Podatki, ki se prikazuje­jo preko Portala zVEM, se crpajo iz CRPP. Danes je CRPP najkompleksnejši javni informacijski sistem v Sloveniji. Uporaba portala zVEM in CRPP v zadnjih dveh letih eksponentno narašca. Ceprav so rešitve eZdravja v zadnjih letih doživele nesluten razvoj, bo po­trebno v prihodnje vložiti še mnogo napora s strani vseh deležnikov ter zagotoviti dodatne cloveške in materialne vire, ce bomo že­leli ohraniti doseženi napredek in mogoce celo pospešiti razvojni trend na podrocju zdravstvene informatike v Sloveniji. Kljucne besede: Centralni register podatkov o pacientu, digitalizacija, eZdravje, portal za paciente zVEM, zdravstvena informatika, funkcionalnost, uporaba. 
Abstract 
eHealth, which has been led by the National Institute of Public Health (NIJZ) since 2015, is one of the key long-term goals of the public sector in Slovenia. Despite certain challenges, great progress has been made in the field of eHealth solutions in recent years. The COVID-19 epidemic has in many ways marked the development of the entire healthcare informatics in Slovenia. The paper presents an in-depth analysis of the functionality and use of the zVEM web portal and the Central Registry of Patient Data (CRPD) in recent years, especially during the COVID-19 epidemic. From the patient‘s point of view, the development and establishment of the zVEM patient portal is certainly one of the most important achievements in recent decades. During the epidemic, the zVEM portal took on an important role in informing and raising public awareness. The data displayed via the zVEM Portal is drawn from the CRPD. Today, this is without a doubt the most complex public information system in Slovenia. The use of the zVEM portal and CRPD has been growing exponentially in the last two years. Although eHealth solutions have undergone unprecedented development in recent years, much effort will have to be made by all stakeholders in the future and additional human and material resources will have to be provided if we want to maintain the progress and perhaps even accelerate the development trend in healthcare informatics in Slovenia. Keywords: Central Registry of Patient Data, digitalization, eHealth, patient portal zVEM, healthcare informatics, functionality, usage 
UVOD pred slovenskim zdravstvom. Izkušnje razvitih dr-Ucinkovita in celovita digitalna transformacija slo-žav kažejo (Bokolo, 2021; Arcury et al., 2020; Petrova, venskega zdravstvenega sistema je ena izmed te-Balyka in Kachan, 2000) da imajo uspešno izvedeni meljnih sprememb, ki naj bi pripomogla k bolj uspe-projekti digitalizacije zdravstva izjemno velik strate­šnemu spopadanju s številnimi izzivi, ki se nahajajo ški pomen za nadaljnji razvoj zdravstvenega sistema, 
kažejo pa tudi širše implikacije v smeri povecanja družbene blaginje in gospodarske rasti (Evropska 
komisija, 2018). Projekt digitalizacije slovenskega zdravstva (eZdravje), ki sledi nacionalnim, evrop-skim in tudi usmeritvam Svetovne zdravstvene orga­
nizacije (SZO), je bil eden kljucnih dolgorocnih ciljev 
javnega sektorja v Sloveniji. Celotna zasnova projek­ta eZdravje in razvojne smernice temeljijo na izho­
dišcih, ki so bile opredeljene v krovnem dokumentu 
»eZdravje2010 Strategija informatizacije slovenskega zdravstvenega sistema 2005-2010« iz leta 2005 in ga je pripravilo Ministrstvo za zdravje (Ministrstvo za zdravje, 2005). 
Izcrpen pregled razmer na podrocju kaže, da te­žave, s katerimi se že od vsega zacetka srecuje pro-jekt digitalizacije slovenskega zdravstva (eZdravje), na eni strani izhajajo iz tehnicno-tehnoloških zna-cilnosti obstojecih ter povecini razdrobljenih zdra­vstvenih informacijskih sistemov (ZIS), ki so posle­dica neusklajenega razvoja na podrocju zdravstvene informatike v zadnjih desetletjih. Na drugi strani pa gre odgovornost za obstojece stanje pripisati pred­vsem odlocevalskim krogom, ki so razvoj zdravstve­ne informatike v tem obdobju prepustili lastnim pobudam, potrebam in partikularnim interesom po­sameznikov na ravni zdravstvenih zavodov (ali celo oddelkov), brez enotnih strateških usmeritev. Poleg tega pristojni v tem obdobju niso uspeli spodbuditi razvoja in uresnicitve projekta digitalizacije z moc­nejšo politicno (financno, kadrovsko, organizacijsko) podporo ter oblikovanjem moderne in konsistentne strategije na podrocju. 
Posledice navedenih vzrokov se odražajo v do-locenih izzivih, ki jih je Nacionalni inštitut za javno zdravje (NIJZ) zaznal v teku dosedanjih aktivnosti za vsesplošno digitalizacijo slovenskega zdravstva in implementacijo rešitev eZdravja: 
• nepripravljenost (upravljavska, tehnološka, or-
ganizacijska, procesna ipd.) dolocenih izvajalcev 
zdravstvene dejavnosti za ustrezno uporabo reši­tev eZdravja; 
• procesne, organizacijske, varnostne in uporabni­
ške težave pri izvajalcih zdravstvene dejavnosti;
• 
visoka stopnja nevkljucenosti koncesionarjev v varno omrežje zNET, kar onemogoca porocanje in uporabo dolocenih rešitev eZdravja;

• 
neusklajenost zdravstvene stroke pri vsebinskih vprašanjih (npr. šifrant VZS, matrika dostopov v CRPP); 


• ozka usmerjenost posameznih deležnikov v la-
stno strokovno podrocje brez zavedanja o soodvi­
snosti vseh deležnikov zdravstvenega sistema;
• pomanjkanje kompetentnih strokovnjakov s po­drocja informatike pri izvajalcih zdravstvene de­javnosti, ki bi skrbeli za ustrezno vzdrževanje in 
delovanje rešitev eZdravja; 
• nezadostna sredstva za digitalizacijo pri izvajal­cih zdravstvene dejavnosti in na NIJZ, ki skrbi za razvoj, vzdrževanje in nadgradnje centralnih na­cionalnih rešitev eZdravja. 
Navkljub navedenim izzivom, pomanjkanju eno­tnih strateških dokumentov (strategija digitalizacije zdravstva se pripravlja šele v zadnjem letu) in neza­dostnemu vlaganju na podrocju zdravstvene infor­matike je v zadnjih štirih letih prišlo do velikega na­predka pri razvoju in implementaciji tako nekaterih temeljnih infrastrukturnih rešitev kot tudi dolocenih uporabniških aplikacij eZdravja. Glede na dinamiko dogodkov od objave prvega strateškega dokumen­ta na podrocju digitalizacije zdravstva iz leta 2005 predstavlja implementacija rešitev eZdravja, ki je bila izvedena od zacetka leta 2016 dalje, pomemben mejnik, ki bo nedvomno v veliki meri dolocal nadalj­nji razvoj slovenskega zdravstvenega sistema. Tukaj je treba poudariti, da kljub merljivim uspehom reši­tev eZdravja v zadnjem obdobju, kar dokazujejo tako nacionalne evalvacije (Vrednotenje ucinkov imple­mentacije projekta eZdravje: eRecept in eNarocanje, Ministrstvo za javno upravo, 2019) kot tudi medna­rodne evalvacije (Evropska komisija, Indeks digital-nega gospodarstva in družbe – DESI, 2019), kjer se je Slovenija glede na uporabo eZdravja uvrstila na šesto mesto, glede na uporabo eRecepta pa na tretje mesto med državami clanicami EU, eZdravje še ve­dno ne uživa takšnega ugleda, kot bi si ga zaslužilo. 
Rešitvam eZdravja, ki jih je NIJZ prevzel od Mini-strstva za zdravje leta 2015, smo v letih 2020 in 2021 zaradi epidemije covid-19 dodali še dve rešitvi: testi­ranje na covid-19 in narocanje na cepljenje proti co­vid-19 (NIJZ, 2021a). NIJZ upravlja nacionalne reši­tve eZdravja že od konca leta 2015 in ves cas skrbi za izboljšave in nadgradnje rešitev. Vendar sta leti 2020 in 2021 v tem pogledu res posebni, saj je epidemija covid-19 povzrocila, da obicajen nacin dela pri tem ni bil mogoc (Stanimirovic in Matetic, 2020). Vse nad­gradnje je bilo potrebno razviti in uvesti v cim kraj­šem casu. Za nekatere rešitve smo lahko uporabili že 

obstojece rešitve s prilagoditvami, nekatere rešitve je 
bilo potrebno narediti na novo. Zadnji dve leti še po­sebej izstopata Zdravstveni portal za paciente zVEM in Centralni register podatkov o pacientu (CRPP). Skladno z navedenimi izhodišci se prispevek v na­daljevanju osredotoca na sledeca raziskovalna cilja, 
in sicer opis in analizo razvoja ter funkcionalnosti in uporabe Zdravstvenega portala za paciente zVEM in CRPP. 
2	 METODE 
Prispevek predstavlja poglobljeno analizo funkcio­nalnosti in uporabe spletnega portal zVEM in CRPP. Analiza je bila na eni strani izvedena na podlagi 
pregleda literature s tega podrocja (Tulu et al., 2021; 
Glgler & Ammenwerth, 2021), ter projektne doku­
mentacije in tehnicnih specifikacij spletnega portala 
zVEM in CRPP, na drugi strani pa na podlagi izku­šenj ter strokovnega mnenja strokovnjakov na NIJZ, ki upravljajo z rešitvami eZdravja (tudi s portalom 
zVEM in CRPP) in dejanskih statisticnih podatkov o 
uporabi portala zVEM in CRPP iz administratorske­ga modula samih rešitev (Sim & Waterfield, 2019). Izbira raziskovalne metode je temeljila na posebno­
stih raziskovalnega podrocja in dejstvu, da je celotno podrocje digitalizacije zdravstva v Sloveniji še vedno 
v relativno zgodnji fazi, zato obstaja le ozek krog strokovnjakov z ustreznim znanjem in izkušnjami na tem podrocju. Slednji metodološki pristop je omo­gocil tako vpogled v dosedanja teoretska in tehno­loška izhodišca tovrstnih digitalnih rešitev, kot tudi empiricni pregled dejanskega stanja, razvojnih faz in 
uporabe spletnega portala zVEM in CRPP v sloven-
skem zdravstvenem sistemu in širšem družbenem 
okolju (Mohajan, 2018). Sodelovanje strokovnjakov z NIJZ pri raziskavi je poleg vpogleda v tehnološko / tehnicne, statisticne in upravljavske vidike delova­nja spletnega portala zVEM in CRPP, omogocilo tudi kriticen in temeljit vpogled v uporabniške vidike omenjenih rešitev. Strokovnjaki z NIJZ so namrec do-bro seznanjeni z uporabniškimi izkušnjami pacien­tov in zdravstvenih delavcev na terenu ter njihovim zadovoljstvom s spletnim portalom zVEM in CRPP, saj skrbniki rešitev vsakodnevno sodelujejo pri reše­vanju zahtevkov in odgovarjanju na vprašanja pre­
ko Službe za pomoc uporabnikom, ki je v letu 2020 zabeležila 15.217, do konca novembra 2021 pa že 
104.684 zahtevkov uporabnikov rešitev eZdravja iz celotne Slovenije (NIJZ, 2021b). Ogromen skok v šte­
vilu zahtevkov oz. vprašanj v letu 2021 gre pripisati predvsem velikemu zanimanju državljanov za na­rocanje na cepljenje proti covidu-19 in pridobivanje 
digitalnih covid potrdil. Glede na to, da strokovnja­ki z NIJZ sodelujejo pri obravnavi in reševanju tako velikega števila zahtevkov oz. vprašanj uporabnikov na letni ravni, lahko podajo relativno zanesljivo in objektivno oceno tako uporabniške izkušnje na eni strani, kot tudi tehnološke ustreznosti in kakovosti rešitev eZdravja. 
Analiza funkcionalnosti in uporabe spletnega portala zVEM in CRPP, v smislu pregleda literature s tega podrocja ter projektne dokumentacije in teh­nicnih specifikacij spletnega portala zVEM in CRPP, je bila izvedena v prvi polovici leta 2021. Strukturi­rani razgovori s strokovnjaki NIJZ in pridobitev sta­tisticnih podatkov iz poslovnih in administratorskih modulov pa so bili izvedeni v obdobju od junija do decembra 2021. 
Prispevek se osredotoca na portal zVEM in CRPPpredvsem zaradi njune uporabnosti in pomembno­sti tako za paciente kot tudi zdravstvene delavce ter velikega napredka v zadnjih dveh letih. Sinteza ugotovitev iz literature, uporabniških funkcional­nosti iz tehnicne dokumentacije, statisticnih porocil ter stališc strokovnjakov z NIJZ omogoca oblikova­nje verodostojnih in na preverljivih podatkih teme­ljecih zakljuckov glede izpostavljenih raziskovalnih ciljev. Uporaba zgoraj opredeljenega metodološkega okvira vkljucujoc kombinacijo razlicnih pristopov ter tehnik zbiranja podatkov je bila kljucnega pomena za verodostojnost analize funkcionalnosti in upora-be spletnega portala zVEM in CRPP. Celovita analiza podatkov, pridobljenih iz raznoterih virov in struk­turiranih razgovorov s strokovnjaki NIJZ, je v skle­pni fazi raziskave zagotavljala kljucno osnovo za in-terpretacijo podatkov ter oblikovanje konsistentnih zakljuckov glede raziskovalnih izhodišc prispevka, ki naslavljajo funkcionalnosti in uporabo Zdravstve­nega portala za paciente zVEM in CRPP. 
3	 REZULTATI 
3.1	 Zdravstveni portal za paciente zVEM 
Zagotovo je najvecji razvoj v zadnjih dveh letih do-živela rešitev Zdravstveni portal za paciente zVEM 
– zdravje vse na enem mestu (Stanimirovic, 2021). 
Portal zVEM je bil zasnovan kot povezovalna sto­
ritev, osrednje sticišce osnovnih rešitev eZdravja 
za paciente, za omogocanje varnega in ucinkovite­ga dostopa do njihovih napotnic, receptov, izvidov 
in drugih dokumentov in narocanje na sekundarne storitve in pregledovanje cakalnih dob (Janet & Sta­nimirovic, 2020). Z vidika pacienta je razvoj in vzpo­stavitev zdravstvenega portala za paciente zVEM zagotovo ena izmed vecjih pridobitev v zadnjih de­setletjih (van Gemert-Pijnen, 2011). Tehnicno je bila rešitev vzpostavljena ob zakljucku projekta eZdravje novembra 2015. Polna uporaba z možnostjo registra­cije je bila zagotovljena v zacetku leta 2017 (Rant et al., 2018). Dostop do vseh funkcionalnosti je možen 
preko sistema SI-PASS s kvalificiranim digitalnim potrdilom ali smsPASS-om. Portal zVEM uporabni­
kom omogoca varen in zanesljiv dostop do njihovih 
podatkov v zbirkah eZdravja in dostop do storitev eZdravja. Uporabnikom ponuja še aktualne vsebi­
ne s podrocja javnega zdravja. Vsebuje dolocene funkcionalnosti za izvedbo izobraževanj (e-ucilnice) in anket, upravljavcem Portala zVEM pa omogoca tudi objavo pomembnih sporocil v sklopu novic in oglasne deske (Rant, Stanimirovic & Žlender, 2019). 
V prvi vrsti je portal zVEM namenjen pacientom in je dostopen na spletni strani https://zvem.ezdrav.si/ (NIJZ, 2021c). Po prijavi lahko uporabnik pregleduje svoje podatke in podatke svojih otrok do petnajstega 
leta starosti. Možno se je tudi narociti na obvestila 
o receptih in napotnicah. Ker v zadnjih letih nara-
šca delež oseb, ki želijo do spletnih vsebin dostopati 
prek interneta s pametnim telefonom, je bila razvita aplikacija zVEM za pametne telefone, ki ponuja hiter 
in pregleden dostop do vecine storitev. Aplikacija je 
v uporabi od julija 2021. 
Izvajalci zdravstvene dejavnosti (IZD) pošilja­jo izvide, odpustna pisma in podatke za povzetek podatkov o pacientu (PPoP). Iz zbirk podatkov v okviru eZdravja se polnijo podatki o receptih (eRe­cept), napotnicah, narocilih (eNarocanje) in ceplje­njih (eRCO). Podatki o zavarovanjih se prenašajo iz zbirk ZZZS-ja. Demografski podatki se prenašajo iz Registra pacientov in prostorskih enot (RPPE), ki se ažurira iz Centralnega registra prebivalcev (CRP) in Geodetske uprave RS. Pacient sam prispeva izjave volje in se lahko naroca na cepljenje (slika 1). 
3.2	 Vpogled v lastno zdravstveno dokumentacijo 
Velika dodana vrednost je pogled v lastno zdravstve-no dokumentacijo (Rant et al., 2019). Pacient lahko pregleduje izvide in odpustna pisma iz bolnišnic. Med njimi so tudi potrdila o opravljenih testiranjih in rezultatih testov na covid-19. Pacient si lahko nati­sne Evropsko digitalno covid potrdilo (EU DCP). Te dokumente lahko v svojem informacijskem sistemu 
vidijo tudi lececi zdravniki in tako pacientom ni vec potrebno prenašati izvidov med razlicnimi izvajalci 
zdravstvene dejavnosti. 


Slika 1: Prikaz podatkov v zVEM 
3.3	 Povzetek podatkov o pacientu 
Pacient si lahko ogleda povzetek podatkov o paci­entu (PPoP, angl: Patient Summary) zase in za svoje otroke. PPoP je strukturiran zapis, ki ga sestavljajo najpomembnejši zdravstveni podatki, potrebni za kakovostno zdravstveno obravnavo in so del Cen­tralnega registra podatkov o pacientih (CRPP). V njem so pacientovi identifikacijski podatki, podatki 
o alergijah in ostalih preobcutljivostih, boleznih in 
stanjih, cepljenjih, kirurških posegih, medicinskih pripomockih in vsadkih, priporocenih terapijah, in-validnosti, socialni zgodovini, morebitni nosecnosti, 
povzetkih zdravljenja, meritvah in izdanih zdravilih. 
Osnovni podatki o pacientu prikazujejo osnovne demografske podatke pacienta in podatke o izbranih osebnih zdravnikih. Povzetek pisnih izjav volje pa-cienta vsebuje pisne izjave volje pacienta. Prepoved vpogleda pa lahko pacient tudi vnese. 
3.4	 Podatki o receptih 
Pacient si lahko ogleda podatke o predpisanih in izdanih zdravilih na recept. Pri vsakem receptu so prikazani podatki o predpisanem zdravilu in njego­vih izdajah v lekarnah. Za vsak predpis in izdajo si je možno ogledati tudi podrobnosti, npr. število preo­stalih izdaj zdravila pri obnovljivih receptih. 
3.5	 Podatki o eNarocanju 
Pacient lahko vidi seznam napotnic, seznam narocil in cakalnih dob, ki jih porocajo izvajalci zdravstvene 
dejavnosti. Za vsako napotnico si lahko ogleda njen 
status (ali je že porabljena), zdravnika izdajatelja in 
datum obravnave. Lahko si pogleda tudi podrobno­sti napotnice in izpiše potrdilo o izdani e-napotnici. 
V seznamu narocil pregleda obravnave, na katere je narocen, in podatke o tem narocilu. Narocilo lahko tudi odpove. V okviru storitve eNarocanje je vsem državljanom omogocen vpogled v cakalne dobe in 
proste termine pri izvajalcih zdravstvene dejavnosti, kot jih le-ti porocajo, ter operativna izvedba e-naroci-la na želeno zdravstveno storitev. Portal zVEM omo­goca narocanje na cepljenje proti covid-19.
3.6	 zVEM plus – zdravstveni portal zVEM za izvajalce zdravstvene dejavnosti 
Portal zVEM plus omogoca zajem podatkov in njiho­vo obdelavo ter oddajo razlicnih porocil, ki jih morajo 
pošiljati izvajalci zdravstvene dejavnosti. Namenjen je izvajalcem, ki za to ne uporabljajo svojega informa­cijskega sistema. Naložbo je financirala Evropska uni-ja iz Evropskega sklada za regionalni razvoj v okviru odziva Unije na pandemijo covid-19 (Janet & Stani­
mirovic, 2020). Prek sistema zVEM plus je mogoce:
• 
izdajanje EU DCP (npr. za lekarne), 

• 
narocanje oseb na cepljenje proti covid-19,

• 
pregledovati cakalne sezname na cepljenje,

• 
vnašati rezultate covid-19 testov v CRPP, 

• 
pregledovati sezname testiranih na covid-19, 

• 
izvajati poizvedbe o osebah v RPPE, 

• 
pregledovanje umrlih po obdobju, • oddajati in preklicati dokumente v CRPP, 

• 
izvajati kontrolne poizvedbe v CRPP. 


3.7	 Podatki o uporabi Portala zVEM 
Portal zVEM se je zacel pospešeno uporabljati v za-cetku leta 2017, zelo velik skok je uporaba dosegla v letih 2020 in še posebej 2021 z možnostjo izpisa re-zultatov testiranj in cepljenj proti covid-19 in Evrop­skega digitalnega covid potrdila. Prvo digitalno po­
trdilo o cepljenju je bilo možno izpisati že 19. 3. 2021. 
Evropsko digitalno covid potrdilo (EU DCP) pa od 
24. 6. 2021. Od 13. 7. 2021 je na voljo aplikacija zVEM tudi na mobilnih telefonih. Aplikacijo za preverjanje EU DCP si lahko uporabniki namestijo od 5. 8. 2021. 
Portal zVEM je v casu epidemije prevzel po­membno vlogo obvešcanja in ozavešcanja prebival­stva. Decembra 2020 smo zaceli na portalu objavljati mikrobiološke izvide iz CRPP, vkljucujoc rezultate hitrih in PCRtestov za covid-19. S tem se je zacela hi-tra rast števila uporabnikov na portalu. Število regi­striranih uporabnikov je vec let ostajalo na relativno nizki ravni, dokler ni postal portal pomembno orodje za pridobivanje dokumentov v povezavi z zdravjem in covid-19 (Wong et al., 2021). Pomembno povecanje je zaslediti z možnostjo izpisa EU DCPjunija 2021 in z aplikacijo zVEM za pametne telefone avgusta 2021 (slika 2). V letu 2021 je število registriranih uporab­nikov portala zVEM doseglo 409.900. Trenutna rast registriranih uporabnikov na portalu se giblje okrog 5000 oseb na dan. 
Tudi število edinstvenih obiskov na portalu zVEM je v zadnjem letu eksponentno naraslo in je leta 2021 doseglo 23.975.212. Eksponentna rast je posledica predvsem uvedbe potrdil o testiranjih in certifikatih 
o cepljenju proti covid-19, še posebno pa z možnostjo 
izpisa EU DCP julija 2021 (slika 3). Pri portalu zVEM plus (za izvajalce zdravstvene de­
javnosti) je bilo konec leta 2021 že 101.581 uporabnikov.

Rast uporabnikov na portalu zVEM je dobrodošla in nujna za uspešen razvoj eZdravja in povezanost storitev. Dejstvo je, da je bil portal zVEM zasnovan pred šestimi leti, zato bo treba nadgraditi zaledne sisteme in baze, da bomo pripravljeni na prihajajoce izzive in neomejeno delovanje portala v prihodnosti. 
3.8	 Centralni register podatkov o pacientu (CRPP) 
Podatki, ki se prikazujejo preko Portala zVEM, se berejo iz Centralnega registra podatkov o pacientu (CRPP). Danes je CRPP brez dvoma najkompleksnej­ši javni informacijski sistem v Sloveniji. CRPP je zbir­ka podatkov eZdravja o pacientih s stalnim ali zaca­snim prebivališcem v Republiki Sloveniji. Podatki v 
CRPPse obdelujejo zato, da se izvajalcem omogoci 
dostop do podatkov, izmenjava podatkov za izvaja­
nje zdravstvene oskrbe in mrliško pregledne službe ter z namenom ažuriranja podatkov zdravstvene do-kumentacije (ZZPPZ, 2021). Dostopanje do podatkov 
v CRPPdoloca Pravilnik o pooblastilih za obdelavo 
podatkov v Centralnem registru podatkov o pacien­tih (Ministrstvo za zdravje, 2021). 
CRPP sestavljajo Register pacientov in prostor­skih enot (RPPE), zdravstveni dokumenti in povze­tek podatkov o pacientu PPoP (angl. Patient Sum­mary). Demografski podatki v RPPE se polnijo iz Centralnega registra prebivalcev (CRP) in Geodetske uprave RS. Zdravstveni dokumenti se prenašajo iz 



Slika 4: Centralni register podatkov o pacientu (CRPP), vir: Lucija Tepej Jocic 
IS izvajalcev zdravstvene dejavnosti. PPoP je struk­turiran zapis, ki ga sestavljajo najpomembnejši zdra­vstveni podatki, potrebni za kakovostno zdravstve-no obravnavo in se polni s podatki, ki jih pošiljajo IZD (slika 4) . 
3.9	 Podatki o uporabi CRPP 
Pošiljanje podatkov v CRPP je obvezno po Zakonu 
o zbirkah podatkov s podrocja zdravstvenega var-stva (ZZPPZ, 2021). Izvajalci zdravstvene dejavnosti so po ZZPPZ obvezni uporabniki CRPP. Podatke po­šiljajo vsi javni zdravstveni zavodi. Podatke pošiljajo tudi koncesionarji in zasebniki brez koncesije. Ena izmed kljucih ovir za širitev uporabe CRPPje nev­kljucenost v zNET.
Podatki o številu dokumentov v CRPPkažejo na velik skok leta 2020 in nadaljnjo eksponentno rast v letu 2021. Oktobra 2021 je število dokumentov v CRPP doseglo 115.527.061. (slika 5; opomba: podatki za leto 2021 so do konca oktobra). 

Slika 5: Rast števila dokumentov v CRPP po letih 
3.10	 Razvoj novih funkcionalnosti in rešitev 
CRPPin zVEM se vseskozi razvijata, kar povecuje 
njuno kompleksnost. Najpomembnejše novosti v za­
dnjem casu so:
• tretje cetrtletje 2019: prva verzija spletne rešitve zVEM plus za profesionalne uporabnike; name-njena je bila interni uporabi v NIJZ za naloge, po­vezane z upravljanjem CRPP; 
• tretje cetrtletje 2019: prvi mikrobiološki laboratoriji so zaceli posredovati izvide, ob nastopu epidemije pa se je kmalu vkljucila vecina laboratorijev; to je vsem lececim zdravnikom omogocilo takojšnjo se­znanitev z rezultati mikrobioloških preiskav; 
• drugo cetrtletje 2020: nadgradnja jedrnih storitev za pridobivanje demografskih podatkov in razvoj spletne rešitve zVEM plus, ki je omogocila poi-zvedbe po demografskih podatkih posameznikov za potrebe epidemiološke dejavnosti ter ažurno spremljanje in analiziranje aktualnih podatkov o umrljivosti, ki so kljucni pri obvladovanju epide­mije; danes se dnevno uporablja v epidemiološki dejavnosti; 
• december 2020: vzpostavljena je nacionalna reši­tev za porocanje covid-19 testiranja in obvešcanje pacientov; omogoca zajem strukturiranega rezul­tata testov ter njegov zapis v CRPP, avtomatizira-no pošiljanje SMS obvestil o rezultatih testov za paciente, avtomatizirano informiranje izvajalcev testiranja (vstopnih tock) o rezultatih testov in statusu obvešcanja pacientov ter posredovanje po­datkov o pozitivnih rezultatih v zbirko nalezljivih bolezni (NIJZ 48 Evidenca nalezljivih bolezni); 
• januar 2021: razvita je spletna rešitev zVEM plus za vstopne tocke, ki omogoca celovito informacij­sko podporo obvešcanja pacientov; 
• januar 2021: razvita je nacionalna spletna rešitev zVEM plus za izvajalce, ki nimajo ustreznih infor­macijskih sistemov, zlasti za domove za starejše obcane in socialno varstvene zavode; danes jo uporabljajo tudi zasebniki; 
• marec 2021: možen je izpis digitalnega potrdila 
o cepljenju iz zVEM; na osnovi podatkov o opra­
vljenih cepljenjih, ki jih porocajo cepitelji v CRPPin eRCO, je preko portala zVEM možno izpisati 
digitalno potrdilo o cepljenju; 
• maj 2021: razvita je nacionalna enotna spletna re-šitev za narocanje na cepljenje; preko te rešitve se lahko pacienti sami narocijo na cepljenje;
• junij 2021: možen je izpis Evropskega digitalnega 
covid potrdila (EU DCP; NIJZ, 2021d); na osnovi podatkov o prebolevnosti, cepljenju ali testiranju 
je preko portala zVEM možno izpisati EU DCP, 
enotno evropsko potrdilo o prebolevnosti, ceplje­
nosti ali testiranju, ki je veljavno v vseh državah clanicah EU; pacienti lahko EU DCPpridobiva­jo preko spletnega portala ali mobilne aplikacije zVEM, zdravstveni delavci jih lahko za paciente pridobivajo preko obstojecih informacijskih siste­mov pri IZD; 
• 
julij 2021: aplikacija zVEM je na voljo tudi na mobilnih telefonih in sicer pri vseh vecjih sple­tnih trgovinah z aplikacijami. S sodobnim upo­rabniškim vmesnikom, ki se naslanja na primere dobrih praks drugih podobnih aplikacij, ponuja zVEM vse storitve, ki so na voljo na portalu prek racunalnika; v kratkem bomo razvili tudi popol­noma prenovljen vmesnik za uporabo eNapotnic, omogocili potisna sporocila in nadgradili uporab­niško izkušnjo; 

• 
avgust 2021: na voljo je aplikacija za preverjanje EU digitalnih covid potrdil za mobilne naprave; apli­


kacija kontrolorjem omogoca skeniranje kode QR
potrdila EU DCP in preverjanje veljavnosti v njej shranjenih podatkov potrdila z omejenim prikazom 
osebnih podatkov; skladna je z Odlokom o nacinu
ugotavljanja izpolnjevanja pogojev prebolevnosti, cepljenosti in testiranja v zvezi z nalezljivo boleznijo COVID-19, (Ministrstvo za zdravje, 2021b). 
Vse nadgradnje je bilo potrebno razviti in uvesti 
v cim krajšem casu. Za nekatere rešitve smo lahko uporabili že obstojece rešitve s prilagoditvami, neka­tere rešitve je bilo potrebno narediti na novo. Ti ra­
zvojni dosežki ne bi bili mogoci brez preteklega dela pri uvajanju, vzdrževanju in razvoju jedrnih storitev 
CRPP in zVEM. 
4	 RAZPRAVA 
V casu epidemije covid-19 je uporaba rešitev eZ­dravja skokovito narasla in se na nekaterih podrocjih povecala za vec desetkrat (Doraiswamy, Abraham, Mamtani, & Cheema, 2020). Zaradi narašcajocih 
zahtev uporabnikov in potreb sistema (potrebe pa-cientov, javnozdravstvene potrebe, potrebe izvajal­cev zdravstvene dejavnosti, potrebe zdravstvene 
politike) so bile nadgrajene številne obstojece rešitve in razvite številne nove rešitve. Vse to je povzroci-lo velik pritisk na premalo številne kadre; trenutno deluje na podrocju eZdravja 15 zaposlenih. Ta dej­stva mocno vplivajo tudi na proracun eZdravja, saj nadgradnje in razvoj novih storitev terja tako zace­tne investicijske stroške kot tudi dolgorocne stroške za vzdrževanje in zaposlitev novih kadrov, ki bodo 

skrbeli za delovanje teh rešitev. Epidemija covid-19 je nazorno pokazala pomembnost rešitev eZdravja za slovenski zdravstveni sistem, saj je mogoce odgo­vorno trditi, da bi brez uporabe rešitev eZdravja po­samezni segmenti zdravstvenega sistema dobesedno 
razpadli (Lee in Lee, 2021), vecji del zdravstvenega 
sistema pa bi bil zelo resno ohromljen in omejen pri svojem delu. Najvecjo škodo v takšni situaciji bi utr­peli pacienti (Turer et al., 2021; Guitton, 2021). 
Analiza, ki jo je v letu 2019 izvedlo Ministrstvo za zdravje, razkriva, da zdravstveni sistem vsebuje ene­ga izmed najvecjih sklopov informacijskih sistemov v Republiki Sloveniji. Razlicni zdravstveni informa­cijski sistemi (ZIS) se uporabljajo v približno 26 bol­nišnicah, 60 zdravstvenih domovih in vec kot 1500 ambulantah javnega zdravstvenega sistema. Druge države vlagajo v zdravstveno informatiko v povpre-cju štirikrat vec kot Slovenija, delež stroškov za infor­matiko glede na celotne prihodke pri nas je 1 %, med-narodno povprecje je 3,9 %. V letu 2018 je bilo glede na Poslovno porocilo bolnišnic v vseh bolnišnicah v Sloveniji 21.334 zaposlenih, od tega 85 informatikov, kar predstavlja 0,4 % vseh zaposlenih, mednarodno povprecje za zdravstvo znaša 2,8 % kar pomeni, da zelo odstopamo tudi pri strokovnem kadru. 
4.1	 Prioritetne aktivnosti za ohranitev spodbudnega trenda in nadaljnji razvoj 
Podatki na podrocju uporabe rešitev eZdravja so spodbudni, saj kažejo, da se rešitve eZdravja vse bolj 
uveljavljajo v vsakodnevnem poslovanju slovenske­ga zdravstvenega sistema in so nepogrešljive v epi­demioloških razmerah (Sust et al., 2020). Za ohra­nitev spodbudnega trenda ter v luci nadaljnjega ra­zvoja in še bolj ucinkovite uporabe rešitev eZdravja 
v prihodnje je v slovenskem zdravstvenem sistemu potrebno izvesti nadaljnje aktivnosti. 
Prioritetne naloge na podrocju eZdravja so: 

• 
priprava strategije eZdravja (vkljucno s koncep-tom zdravja na daljavo in telemedicine) in preno­va zakonskih podlag za delovanje eZdravja; 

• 
dvigovanje ravni uporabe rešitev eZdravja s stra­


ni koncnih uporabnikov;

• izboljšanje kakovosti delovanja rešitev ter njihovo 
celovito vzdrževanje in nadgrajevanje v skladu z 
zaznanimi potrebami oz. zakonskimi zahtevami; 

• 
razvoj in implementacija novih in dopolnjenih reši­tev eZdravja v skladu z ugotovljenimi potrebami; 

• 
dodelitev dodatnih sredstev (materialni in ka­


drovskih viri) za vzdrževanje in razvoj centralnih 
nacionalnih rešitev eZdravja, ki jih upravlja NIJZ, ter digitalizacijo poslovanja izvajalcev zdravstve­ne dejavnosti; 

• 
vkljucitev koncesionarjev v varno zdravstveno omrežje zNET, ki jim bo omogocilo uporabo reši­tev eZdravja; 

• 
spodbuda vseh IZD k celovitemu in doslednemu pošiljanju vseh dokumentov in podatkov v CRPP (s ciljem oblikovanja in zagotavljanja vseh pred­nosti elektronskega zdravstvenega kartona); 

• 
spodbuda vseh IZD k pošiljanju tocnih podatkov 

o cakalnih dobah v centralni sistem eNarocanja in vzpostavitev info-tock za narocanje pacientov;


• 
promocija eZdravja in priložnosti, ki jih ponujajo 


rešitve eZdravja. 

5	 ZAKLJUCEK 
Rešitve eZdravja v Sloveniji so od zakljucka projek­ta leta 2015 doživele nesluten razvoj. Še posebej je ta razvoj pospešen v zadnjih dveh letih v casu epide­mije covid-19. Nekateri strokovnjaki ocenjujejo, da je informatika v zdravstvu v zadnjih dveh letih napre­
dovala toliko, kot bi v obicajnih razmerah v desetih letih. Niso se razvile le rešitve, vec kot desetkrat se je povecala tudi njihova uporaba. Pri tem so se razga­lile težave, ki so v veliki meri nastale tudi zaradi ne­ustreznih preteklih vlaganj v informatiko; tako v ka­
dre in infrastrukturo kot v razvoj obstojecih in novih 
rešitev. Zelo je bilo izpostavljeno tudi slabo znanje uporabnikov informacijskih rešitev, od najosnovnej­še uporabe racunalniške in telekomunikacijske opre-me, preko racunalniške in informacijske pismenosti, do uporabe racunalniških rešitev samih. 
Potrebno je dvigniti digitalno kulturo v zdra­vstvenih ustanovah in digitalne kompetence vseh zaposlenih. Digitalna kultura je pomembna tudi za tesno sodelovanje med informatiko in ostalimi podrocji dela. Pri tem so zelo pomembne digitalne kompetence vseh zaposlenih. 
Vložiti je potrebno veliko naporov, pa tudi sred­stev, da tudi v prihodnosti ohranimo in nadaljujemo res ogromen napredek v zdravstveni informatiki v zadnjih letih. 
VIRI IN LITERATURA 
[1] Arcury, T. A., Sandberg, J. C., Melius, K. P., Quandt, S. A., Leng, X., Latulipe, C., Miller, D. P., Jr, Smith, D. A., & Berto­ni, A. G. (2020). Older Adult Internet Use and eHealth Litera­cy. Journal of applied gerontology : the official journal of the Southern Gerontological Society, 39(2), 141–150. https://doi. org/10.1177/0733464818807468 
[2] Bokolo A. J. (2021). Application of telemedicine and eHealth technology for clinical services in response to COVID19 pande­mic. Health and technology, 1–8. Advance online publication. 
[3] Doraiswamy, S., Abraham, A., Mamtani, R., & Cheema, S. (2020). Use of telehealth during the COVID-19 pandemic: scoping review. Journal of medical Internet research, 22(12), e24087. 
[4] Doraiswamy, S., Abraham, A., Mamtani, R., & Cheema, S. (2020). Use of Telehealth During the COVID-19 Pandemic: Scoping Review. Journal of medical Internet research, 22(12), e24087. 
[5] European Commission. (2018). Communication from the Commission to the European Parliament, the European Co­uncil, the Council, the European Economic and Social Com­mittee and the Committee of the Regions on enabling the digital transformation of health and care in the Digital Single Market; empowering citizens and building a healthier society. SWD (2018) 126 final. Brussels. 
[6] European Commission. (2019). Digital Economy and Society Index (DESI); 2019 Country Report; Slovenia. Retrieved from https://ec.europa.eu/newsroom/dae/document.cfm?doc_ id=59912 
[7] Glöggler, M., & Ammenwerth, E. (2021). Development and Validation of a Useful Taxonomy of Patient Portals Based on Characteristics of Patient Engagement. Methods of Informa­tion in Medicine, 60(S 01), e44-e55. 
[8] Guitton, M. J. (2021). Something good out of something bad: eHealth and telemedicine in the Post-COVID era. Computers in Human Behavior, 123, 106882. 
[9] Janet, J., & Stanimirovic, D. (2020). Prenova portala zVEM. In 
T. Marcun & E. Dornik (Eds.), Digitalni mostovi v zdravstvu : e­-Kongres MI’2020 : zbornik prispevkov in povzetkov : Ljublja­na, 5. november 2020 (pp. 55–59). SDMI. 
[10] Lee, S. M., & Lee, D. (2021). Opportunities and challenges for contactless healthcare services in the post-COVID-19 Era. Technological Forecasting and Social Change, 167, 120712. 
[11] Ministrstvo za zdravje. (2005). eZdravje2010 Strategija infor­matizacije slovenskega zdravstvenega sistema 2005-2010, Ministrstvo za zdravje. https://joinup.ec.europa.eu/sites/de­fault/files/document/2014-12/e-Zdravje2010%20-%20Stra­tegija%20informatizacije%20slovenskega%20zdravstvene­ga%20sistema%202005-2010.pdf 
[12] Ministrstvo za zdravje (2021a). Pravilnik o pooblastilih za ob-delavo podatkov v Centralnem registru podatkov o pacientih (Uradni list RS, št. 51/16 in 95/21) 
[13] Ministrstvo za zdravje (2021b). Odlok o nacinu ugotavljanja izpolnjevanja pogojev prebolevnosti, cepljenosti in testiranja v zvezi z nalezljivo boleznijo COVID-19 (2021). (Uradni list RS, št. 126/21). 
[14] Ministrstvo za javno upravo (2019). EVALVACIJA UKREPOV IZ ENOTNE ZBIRKE UKREPOV, Vrednotenje ucinkov imple­mentacije projekta eZdravje: eRecept, eNarocanje, https:// www.stopbirokraciji.gov.si/novice/razbremenitve-z-uvedbo--elektronskih-resitev-erecept-in-enarocanje-1 
[15] Mohajan, H. K. (2018). Qualitative research methodology in social sciences and related subjects. Journal of Economic Development, Environment and People, 7(1), 23-48. 
[16] Nacionalni inštitut za javno zdravje (2021a). Rešitve eZdravja. https://www.ezdrav.si/ 
[17] Nacionalni inštitut za javno zdravje (2021b). Statistika zahtev­kov na Prvem nivoju podpore uporabnikom eZdravja. Nacio­nalni inštitut za javno zdravje, Ljubljana. 
[18] Nacionalni inštitut za javno zdravje (2021c). Portal zVEM. https://zvem.ezdrav.si/ 
[19] Nacionalni inštitut za javno zdravje (2021d). EU digitalno CO­VID potrdilo. https://www.ezdrav.si/storitve/digitalno-covid--potrdilo-eu/ 
[20] Petrova, I., Balyka, O., & Kachan, H. (2020). Digital economy, and digital employment appearence. Social and labour relati­ons: theory and practice, 10(2), 10-20. 
[21] Rant, Ž., Stanimirovic, D., Tepej Jocic, L., Žlender, A., Ga-spari, I., Božic, D., Indihar, S., Beštek, M., Simeunovic, B., Vrecko, A., Matetic, V., & Zidarn, J. (2018). Rešitve e-Zdravja. In I. Eržen (Ed.), 30 let Slovenskega društva za medicinsko informatiko : [publikacija ob 30-letnici Slovenskega društva za medicinsko informatiko] (pp. 184–190). Slovensko društvo za medicinsko informatiko. 
[22] Rant, Ž., Stanimirovic, D., & Žlender, A. (2019). Nacionalni Portal zVEM v okviru eZdravja = National portal zVEM within eHealth. In P. Šprajc, I. Podbregar, D. Maletic, & M. Radova­novic (Eds.), Ekosistem organizacij v dobi digitalizacije [Elek­tronski vir] : konferencni zbornik = [Ecosystem of organizati­ons in the digital age : conference proceedings (pp. 873–884). Univerzitetna založba Univerze. 
[23] ZZPPZ. (2021). Zakon o zbirkah podatkov s podrocja zdra­vstvenega varstva (Uradni list RS, št. 65/00, 47/15, 31/18, 152/20 – ZZUOOP, 175/20 – ZIUOPDVE, 203/20 – ZIUPOPD­VE in 112/21 – ZNUPZ) 
[24] Sim, J, Waterfield, J. (2019). Focus group methodology: some ethical challenges. Quality & Quantity. 2019 Jul;53(6):3003-3022. 
[25] Stanimirovic, D., & Matetic, V. (2020). Can the COVID-19 pan­demic boost the global adoption and usage of eHealth soluti­ons? Journal of Global Health [Elektronski Vir], 10(2), 1–5. 
[26] Stanimirovic, D. (2021). eHealth Patient Portal – becoming an indispensable public health tool in the time of Covid-19. In 
J. Mantas (Ed.), Public Health and Informatics : the future of co-created eHealth : 31st Medical Informatics in Europe Con­ference (MIE 2021), online 29-31 May 2021 (Issue 281, pp. 880–884). IOS Press. 
[27] Sust, P. P., Solans, O., Fajardo, J. C., Peralta, M. M., Rode-nas, P., Gabaldŕ, J., ... & Piera-Jimenez, J. (2020). Turning the crisis into an opportunity: digital health strategies deplo­yed during the COVID-19 outbreak. JMIR public health and surveillance, 6(2), e19106. 
[28] Tulu, B., Trapp, A. C., Strong, D. M., Johnson, S. A., Hoque, M., Trudel, J., & Garber, L. (2016). An analysis of patient por­tal utilization: what can we learn about online patient behavior by examining portal click data?. Health Systems, 5(1), 66-79. 
[29] Turer, R. W., DesRoches, C. M., Salmi, L., Helmer, T., & Ro­senbloom, S. T. (2021). Patient Perceptions of Receiving CO­VID-19 Test Results via an Online Patient Portal: An Open Results Survey. Applied Clinical Informatics, 12(04), 954-959. 
[30] van Gemert-Pijnen, J. E., Nijland, N., van Limburg, M., Os-sebaard, H. C., Kelders, S. M., Eysenbach, G., & Seydel, E. 
R. (2011). A holistic framework to improve the uptake and impact of eHealth technologies. Journal of medical Internet research, 13(4), e111. 
[31] Wong, M. Y. Z., Gunasekeran, D. V., Nusinovici, S., Saba-nayagam, C., Yeo, K. K., Cheng, C. Y., & Tham, Y. C. (2021). Telehealth demand trends during the COVID-19 pandemic in the top 50 most affected countries: Infodemiological evalua­tion. JMIR public health and surveillance, 7(2), e24445. 

• 
Mag. Živa Rant je clanica skupine eZdravje na Nacionalnem inštitutu za javno zdravje. Pri eZdravju sodeluje od leta 2009. Bila je vodja projekta izgradnje informacijskega sistema v vec slovenskih podjetjih in je sodelovala pri vec domacih in mednarodnih projektih. Pri svojem strokovnem delu se ukvarja s poslovnimi procesi, prenovo poslovnih procesov, enotnim informacijskim modelom, e-zdravjem kot sistemom. S svojimi prispev­ki redno sodeluje na strokovnih in znanstvenih srecanjih in kot gostujoci predavatelj predava na Univerzah v Ljubljani in Mariboru. 
• 
Doc. dr. Dalibor Stanimirovic je predstojnik Centra za informatiko v zdravstvu na Nacionalnem inštitutu za javno zdravje in sodelavec Univerze v Ljubljani. Je aktiven clan uredniških odborov vec znanstvenih casopisov, rezultati njegovih raziskav so bili objavljeni v razlicnih mednarodnih znan­stvenih casopisih ter predstavljeni na številnih konferencah. Njegovo raziskovalno delo obsega predvsem preucevanje zdravstvenih informacijskih sistemov in poslovno-informacijske arhitekture v javnem sektorju. V zadnjem obdobju kot raziskovalec sodeluje v vec nacionalnih in evropskih projektih. 
• 
Jure Janet je razvojni sodelavec na Centru za informatiko v zdravstvu Nacionalnega inštituta za javno zdravje. Diplomiral je iz prevajalstva, tre­nutno pa se strokovno ukvarja z razvojem portala in aplikacije zVEM in zVEMplus ter nacionalne rešitve za triažiranje eTriaža. 

Problematika ohranjanja zasebnosti pri podatkovnem rudarjenju dokumentov z obcutljivimi podatki 
Matjaž Kragelj, National and University Library, Turjaška 1, 1000 Ljubljana, Slovenia matjaz.kragelj@nuk.uni-lj.si Mirjana Kljajic Borštnar, University of Maribor, Faculty of Organizational Sciences, Kranj, Slovenia, e-mail: Mirjana.Kljajic@um.si Alenka Brezavšcek, University of Maribor, Faculty of Organizational Sciences, Kranj, Slovenia, e-mail: Alenka.Brezavscek@um.si 
Izvlecek 

V prispevku obravnavamo problem, s katerim se soocamo pri uporabi dokumentov, ki poleg vsebinskih podatkov vsebujejo tudi obcu­tljive podatke o posamezniku, ki omogocajo njegovo razkritje tudi, ko to ni zaželeno. Med podrocja, kjer nastane veliko podatkov te vrste, štejemo zdravstveno varstvo, transport, kazenski pregon in nacionalno varnost, izobraževanje, sodobne internetne storitve, podrocje sodobnih aplikacijskih ekosistemov, internet stvari, financni sektor in odprte podatke državne uprave. Cilj je zašcititi zaseb­nost subjekta ter hkrati zagotoviti kakovostne podatke za nadaljnje poglobljene analize in s tem nudenje novih znanj za naprej. Za reševanje omenjenih izzivov na podrocju podatkovnega rudarjenja se je razvilo posebno podpodrocje, imenovano PPDM – Privacy Preserving Data Mining, ki se ukvarja z ohranjanjem zasebnosti pri tem procesu. Sistematicno smo pregledali relevantno literaturo podpodrocja PPDM in opisali glavne metode in tehnike. Tehnike PPDM so zasnovane tako, da zagotavljajo doloceno raven zasebnosti, obenem pa ohranjajo uporabnost podatkov, da se lahko uporaba še vedno ucinkovito izvaja na transformiranih podatkih. Metode, s katerimi dosegamo zašcito posameznika na eni in uporabno vrednost podatkov na drugi strani v grobem delimo na metode razprše­vanja podatkov, metode izkrivljanja (z uporabo anonimizacije, randomizacije, vrtenja in vnašanjem šuma v podatke) ter metode šifri­ranja podatkov. Za doseganje višje zašcite lahko uporabimo tudi kombinacije teh metod. Poleg pregleda metod smo podali nekaj prakticnih primerov ter našteli domene oz. podrocja, kjer se kaže potreba po nadaljnji analizi in ponovni uporabi podatkov, a hkrati potreba po anonimizaciji oz. prikritju lastnika (subjekta) in njegovih podatkov (atributov). 
Kljucne besede: podatkovno rudarjenje, osebni podatki, ohranjanje zasebnosti, metode ohranjanja zasebnosti podatkov, pregled lite­rature, varnost podatkov 
1.	 UVOD 
S pojavom interneta se je pojavila potreba in možnost po orodjih za iskanje, razvršcanje in kasneje analizo 
zbranih digitalnih podatkov. Kot primer lahko nave-demo, da sta še v prejšnjem stoletju Smith & Chang (1997), razvila spletno orodje – WebSeek, ki je (bilo) namenjeno iskanju in sortiranju slik s spleta. Dokler so 
bile kolicine podatkov obvladljive, so bile tudi metode in orodja razmeroma enostavna, v današnjem casu pa 
potreba po zbiranju in obdelavi podatkov strmo na­
rašca [2]. V podjetju IBM ugotavljajo, da je bilo v letih 2012 in 2013 ustvarjeno vec kot 90 % vseh podatkov na 
svetu [3]high energy physics, meteorology, genomics, biological and environmental research in which peta--and Exabyte of data are generated are common doma­in examples. Here even the capture and storage of the data is a challenge. Google implemented hundreds of special-purpose computations that process large amo­unts of raw data, such as crawled documents, Web request logs, etc., to compute various kinds of derived data, such as inverted indices, various representations of the graph structure of Web documents, summaries of the number of pages crawled per host, and the set of most frequent queries in a given day. In this paper big data that is navigating in years from the past to present and to the future is analyzed. To address the problem space of unstructured analytics, Map Reduce with Hadoop distributed File System (HDFS, do leta 2025 pa bo za analizo primernih vec kot 150 zetabaj­tov (109 terabajtov). Z narašcanjem kolicine digitalnih podatkov, ki jih je potrebno obdelati, se je pojavila potreba po vpeljavi naprednejših metod, ki temeljijo 

na principih umetne inteligence in strojnega ucenja, natancneje – podatkovnega rudarjenja. Gre za proces 
pridobivanja implicitnih informacij in znanj, ki bi lah­ko bile koristne, crpanje le-teh pa poteka iz množic­nih, neurejenih, nepopolnih, nejasnih ali nakljucnih, 
ne nujno strukturiranih podatkovnih struktur (Sahu, Shrma & Gondhalakar, 2008). 
Med digitalnimi in digitaliziranimi dokumenti, ki jih rudarimo, so tudi takšni, ki so obcutljive narave in zaradi tega zahtevajo posebno skrb in previdnost pri hranjenju, obdelavi in posredovanju tretjim ose­bam. Neustrezno postopanje pri rudarjenju takih do-kumentov lahko povzroci grožnjo zasebnosti preko razkritja identitete in s tem posredno povezanih po­datkov (atributov), saj atribute navadno povezujemo z lastništvom ravno preko identitete [5]. V skladu z definicijo iz slovarja Cambridge, je zasebnost defini­rana kot pravica posameznika, da obdrži svoje oseb­ne podatke, zadeve in odnose v tajnosti [6]. Definicija sledi 12. clenu Splošne deklaracije o clovekovih pra­vicah, ki pravi, da se ni dovoljeno nikomur samovolj-no vmešavati v zasebno življenje, družino, dom ali dopisovanje, prav tako pa ni dovoljeno žaljenje casti in dobrega imena slehernega posameznika. Vsakdo ima pravico do pravnega varstva pred takšnim vme­šavanjem ali napadi [7]. Težava, ki jo pri rudarjenju dokumentov z obcutljivo vsebino zaznavamo, je na­slednja: analizo želimo izvajati tako, da v popolnosti ohranjamo vrednosti in pomen podatkov, ki pomeni­jo atribute, a hkrati želimo zašcititi obcutljive podat­ke o posamezniku, torej zašcititi njegovo zasebnost. Kot ugotavljajo Gokulnath et al. (2015), je ohranjanje zasebnosti pri rudarjenju obcutljivih in osebnih po­datkov kljucnega pomena za ucinkovito izvedeno podatkovno rudarjenje. 
V drugem poglavju bomo navedli glavna podro-cja, kjer se ustvarjajo podatki in dokumenti z obcu­tljivimi atributi. Med temi podrocji veljajo podatki 
o zdravstvenem varstvu za najpomembnejše, a so 
hkrati najbolj obcutljivi, saj vsebujejo vse zasebne 
podatke, ki so informacije o pacientu, kot so bolezni, podatke o zdravljenju, recept, ime, naslov itd. Takšna zbirka podatkov katerekoli zdravstvene organizaci­
je je dovzetna za razlicne napade [6]. Veliki podatki 
(ang. big data) ponujajo epidemiologom, zdravni­kom in strokovnjakom za zdravstveno politiko ve­liko priložnost za presojo na podlagi analize dosto­pnih podatkov, ki bo scasoma dvignila raven oskrbe 
bolnikov [8]. 


Kot prikazuje slika 1, je izziv iskanje metodologij in tehnik za zašcito zasebnosti in nerazkrivanje ob­cutljivih podatkov na eni strani in nudenje kvalite­tnih podatkov o uporabnikih za raziskave, analizo in ustvarjanje dodane vrednosti z novimi znanji na drugi strani. K reševanju tega izziva je potrebno pri­stopiti skrbno, saj lahko poseganje v same podatke in njihovo preoblikovanje okrni njihovo uporabnost, kar lahko vodi v napacne interpretacije zavajajoce in-formacije ter neustrezne odlocitve [2]. 
Za reševanje te vrste izzivov se je na podrocju po­datkovnega rudarjenja razvilo posebno podpodrocje, ki se ukvarja z ohranjanjem zasebnosti pri rudarjenju dokumentov z obcutljivimi podatki. To podrocje se je v tuji literaturi uveljavilo pod imenom »Privacy preserving data mining« – PPDM [10], [11]. Metodo­logije PPDM so zasnovane tako, da zagotavljajo do-loceno raven zasebnosti, obenem pa ohranjajo upo­rabnost podatkov tako, da lahko rudarjenje še vedno ucinkovito izvajamo na transformiranih podatkih. Da gre za zelo pomembno podrocje, je opozorila tudi Evropska komisija v »Mnenju številka 5« (EK, 2014). PPDM temelji na uporabi razlicnih metod, ki prispe­vajo k ohranjanju zasebnosti, kot npr. anonimizacija, randomizacija, uporaba permutacij, vnašanje šuma v podatke, kriptografske tehnike in druge [5]. Ker je podrocje razmeroma novo, a hkrati zanimivo, poseb-no danes, pri novih izzivih v zdravstvu (Covid19), bomo v nadaljevanju pripravili sistematicen pregled metod, ki se z izbrano problematiko ukvarjajo. 
2.	 PODROCJA UPORABE PPDM 
V tem razdelku bomo navedli podrocja, kjer priha­ja do potreb po rudarjenju podatkov/dokumentov, ki 
so po svoji naravi lahko obcutljivi (Cranor et al., 2016). Ceprav avtorji navajajo domene uporab v ZDA, lah­ko izpostavljena podrocja uporabe preslikamo tudi v našo regijo. Podrocja, kjer je potreba po uporabi me-tod PPDM pogosta in intenzivna, so naslednja: 
• Zdravstveno varstvo. Informatizacija procesov v zdravstvu lahko mocno izboljša zdravstvene sto­ritve, vkljucno z možnostjo natancnejše diagno­stike, omogocanjem bolj prilagojene in usklajene oskrbe, hitrejšega razvoja novih nacinov zdravlje­nja, ucinkovitejšega zdravljenja ob nižjih stroških. Izziv predstavlja razkritje obcutljivih zdravstve­nih podatkov, širjenje le-teh (legalno ali nelegal-no), kar lahko privede do razlicnih neprijetnih in uporabniku škodljivih situacij (npr. do diskrimi­nacije pri zaposlovanju1). 
• Transport. Koristi informacijske tehnologije pri prevozu so lahko v zmanjšanju zastojev, preprece­vanju nesrec, zmanjšanju smrti in poškodb, pove-canju ucinkovitosti porabe goriva, itd. Skrbi glede zasebnosti izvirajo iz možnosti sledenja gibanj po­sameznikov preko navigacijskih sistemov, cestnih senzorjev, prometnih kamer, zbiranja podatkov v avtomobilu in komunikacije med avtomobili. 
• Kazenski pregon in nacionalna varnost. Organi pregona in obvešcevalne agencije zbirajo in anali­zirajo razlicne vrste podatkov (kazenski zapisi in dopolnilne informacije) z namenom ustvarjanja »virtualne slike« posameznika, ki pomaga pri reše­vanju kriminalnih dejanj, preprecevanju napadov in sledenju teroristom. Glede ohranjanja zasebno­sti so glavne skrbi te, da organizacije kot npr. po­licija množicno zbirajo informacije o splošni popu­laciji, kar povecuje možnost nedovoljene uporabe in s tem niža kvaliteto ucinka nadzora zaradi ne­zakonitega odtekanja podatkov. Kot primer lahko navedemo primer delovanja slovenske policije2. 
• Izobraževanje. Informacijska tehnologija in po­datki o izobraževanju lahko izboljšajo izobraževa­
1 Tri tedne po tem, ko je Nydia Velázquez zmagala, kot kandidatka Demokratske stranke v New Yorku za predstavnico v Ameriškem predstavniškem domu, je nekdo iz bolnišnice St. Claire v New Yorku, preko faksa poslal Velázquezino zdravstveno kartoteko casopisu New York Post. V dokumentu je bila podrobno opisana oskrba pacientke, ki je tam pristala zaradi poskusa samomora. Poskus samomora se je zgodil nekaj let pred volitvami, na katerih je zmagala. Povzeto po (Wu and Velázquez, 2000). 
2 Avstrijska nevladna organizacija AlgorithmWatch je v svojem porocilu analize policijske uporabe tehnologije za prepoznavanje obrazov zapisala, da slovenska policija od leta 2014 uporablja doma razvito tehnologijo za prepoznavanje obrazov. Kot navajajo, gre za problem regulacije te tehnologije. Informacijska pooblašcenka je tako med leti 2015 in 2019 izdala vec negativnih mnenj Ministrstvu za notranje zadeve. Slovenska policija in biometrijske metode nadzora https://www.eticen.it/2019/12/12/slovenska-policija-in-biometrijske­metode-nadzora, dostopano: januar 2020 
nje z nudenjem prilagodljivih in prilagojenih vse-
bin in spletnih tecajev. Tveganje glede zasebnosti izhaja iz obcutljivosti podatkov o angažiranosti in uspešnosti uporabnikov (ucenci, dijaki, študenti).
• Sodobne internetne storitve. Iskalniki, družbena omrežja, spletne video storitve in spletni trgovci imajo dostop do bogatega niza podatkov, ki jih je mogoce uporabiti za koristne namene, vkljucno z napredno personalizacijo vsebine in povezova­njem z drugimi (navadno poslovnimi) subjekti. Zaskrbljenost se kaže pri uporabi, zlorabi in sku­pni rabi podatkov za namene izven podrocja na­membnosti. 
• Sodobni aplikacijski ekosistemi. Naprave, kot so pametni telefoni, spletni brskalniki, pametne ure in njihove aplikacije, zagotavljajo uporabni­kom veliko uporabnost (npr. pri športnih aktivno­stih zaradi vgrajenih GPS naprav in pedimetrov), zabavo in funkcionalnost. Kot potencialno težavo lahko navedemo sledljivost uporabnika (zaradi GPS podatkov, ki se zbirajo v aplikaciji). Izziv predstavlja zagotovitev, da aplikacije spoštujejo zasebnost in varnost njihovih uporabnikov. 
• Internet stvari. Pametna mesta, pametne zgrad-be, pametni domovi, pametni hladilniki, televizi­je ipd. omogocajo izboljšanje življenjskih razmer, produktivnosti in kakovosti življenja. Vendar pa se lahko isti podatki uporabijo za sledenje, kdaj so posamezniki doma, katere TV programe gledajo, katera spletna mesta obiskujejo, njihovega urnika spanja in drugega vedenja. Tveganje predstavlja izkorišcanje takšnih podatkov za druge namene, kot npr. zavarovalne police (na voljo so informa­cije o prehrambnih navadah, aktivnostih in s tem tveganjih – profiliranje uporabnikovih navad), nezaželeno oglaševanje ali kriminal.
• Financni sektor. Podatki financnih institucij lah­ko regulatorjem pomagajo pri oceni skladnosti in omogocijo analizo trendov ter opozorijo na nevar­nosti kot npr. prihajajoca financna kriza. Vendar so financni podatki obcutljivi ne le na ravni po­sameznih strank, temvec tudi na ravni institucij, saj razkrivajo lastniške informacije o strategijah in tržnih deležih.
• Odprti podatki državne uprave. Vlade na vseh ravneh sprošcajo velike kolicine podatkov, da bi povecale zaupanje in preglednost ter omogocile inovativne aplikacije. Vendar se te objave podat­kov pogosto nanašajo na obcutljive informacije o 

državljanih. Lahko navedemo nekaj primerov ta­kšnih spletnih storitev pri nas: eDavki3, eUprava4, eVem5, eZdravje6 in drugi. 

3.	 METODE ZA ZAŠCITO OBCUTLJIVIH PODATKOV 
Analitika velikih podatkov (ang. big data) sestoji iz petih stopenj oz. faz, in sicer: pridobivanje podat­kov, shranjevanje podatkov, upravljanje s podatki, analiza podatkov ter vizualizacija podatkov in po­
rocanje. Pri dveh od teh se soocamo z ohranjanjem 
zasebnosti: shranjevanje podatkov in, upravljanje s podatki [8], [13], [14]. Podatki, ki jih pridobivamo, so lahko strukturirani, delno strukturirani, ali pa gre za nestrukturirane podatke. Podatke lahko pridobimo iz ustnih virov (intervju, telefonski pogovor) ali pi-snih virov (npr. anketa, izvid, vprašalnik, diagnoza, mnenje). Pogosto so viri podatkov tudi slikovni ali multimedijski (npr. magnetna resonanca, racunalni­ška tomografija, ultrazvok itd.). Ne nazadnje, v dobi interneta lahko podatke pridobimo tudi iz spletnih 
anket, vprašalnikov, poskusov. Pogosto podatke že 
sami shranjujemo, posredujemo in s tem ponujamo 
v varne ali ne – oblacne storitve (ang. cloud services). 
Gre za podatke, pridobljene iz pametnih naprav, tele­fonov z uporabo aplikacij, kot so npr. Drive, Training Peaks, Polar Flow, Strava, in podobne. 
Glavni nalogi uporabe PPDM, kot ju navedejo Xu, Jiang, Wang, Yuan, & Ren (2014), sta soocanje in raz­reševanje problematike neprimernosti neposredne uporabe obcutljivih, surovih podatkov (npr. številka osebne izkaznice, mobilnega telefona) za rudarjenje ter potreba po izkljucitvi obcutljivih rezultatov ru­darjenja, katerih razkritje bi povzrocilo kršitev za­sebnosti. Pionirsko delo, opis prvih metod rudarjenja obcutljivih podatkov na tem podrocju najdemo v v clankih [16], [17].
Pri rudarjenju podatkov z namenom zašcite za­sebnosti se uporabljajo razlicne metode. Usmerjene so predvsem v omejevanje dostopa in uporabe ob­cutljivih podatkov, ki bi sicer lahko identificirali po­sameznika, za nadaljnjo analizo. Po Abdul, Aldeen, Salleh, & Razzaque (2015), Qi & Zong (2012) in Ta-neja, Khanna, & Tilwalia, (2016) med glavne metode umešcamo:
3 Edavki, https://edavki.durs.si/EdavkiPortal/OpenPortal/CommonPages/ 
Opdynp/PageA.aspx 4 eUprava, https://e-uprava.gov.si 5 eVem, http://evem.gov.si/evem/drzavljani/zacetna.evem 6 eZdravje, https://zvem.ezdrav.si/e-zdravje 
• Razprševanje podatkov (ang. partitioning): po­
datke distribuiramo po eni ali vec podatkovnih 
baz. 

• Izkrivljanje podatkov (ang. data distortion, per­
turbation): pri tem nacinu posegamo v podatke, ki jih želimo uporabiti in katerih vrednost je tista, ki jo želimo zašcititi. Sem umešcamo anonimiza­cijo, randomizacijo, vrtenje, vnašanje šuma v podatke. 

• Kriptografske tehnike šifriranja (ang. crypto­graphic technique): gre za razlicne, pogosto ra-cunsko potratne metode, kjer se podatki s pomo-cjo ustreznega šifrirnega algoritma (simetricnega ali asimetricnega) in šifrirnega kljuca pretvorijo v 
neberljivo obliko. 

V nadaljevanju bomo posamezne metode nekoli­ko podrobneje opisali. 
3.1 Razprševanje podatkov 
O razprševanju podatkov (ang. partitioning) govori-mo, kadar podatke, shranjene v eni podatkovni bazi, porazdelimo (razpršimo) v vec podatkovnih baz. Po-datke lahko razpršimo horizontalno, vertikalno ali funkcionalno. Vse omenjeno lahko pocnemo centra­lizirano (na enem mestu) ali pa distribuirano (na vec 
lokacijah). 
Pri horizontalni razpršitvi podatkov pridobimo razširljivost (ang. scalability) in ucinkovitosti v smi­slu hitrejšega dostopa do podatkov (ang. performan­ce), na varnosti (ang. security) pa precej manj, saj so v posamezni relaciji (povezava med dvema ali vec entitetami) zbrani vsi atributi. Iz vidika varnosti je poskrbljeno zgolj za to, da niso vsi podatki o vseh subjektih zbrani na enem mestu, ampak so razpršeni po vec podatkovnih bazah. 
Pri vertikalni razpršitvi gre za nasproten proces. Hitrost dostopa in uporabe podatkov pada, saj je tre­ba atribute iz vec podatkovnih baz med sabo združi-ti. Pri tem pristopu imamo atribute razdeljene v vec skupin, vsaka izmed skupin pa je v svoji podatkovni bazi. Navadno ima vsaka relacija skupni kljuc, ki po­vezuje podatke med seboj. 
Pri funkcionalni razpršitvi locujemo podatke gle­de na funkcijo, oz. uporabo7 [18], [21]. 
Omeniti je treba, da z razprševanjem samih po­datkov ne spreminjamo, pac pa lahko zgolj ome­
7 Horizontal, vertical, and functional data partitioning, https://docs.microsoft. 
com/en-us/azure/architecture/best-practices/data-partitioning, dostopano 
januar 2010 

jimo dostop do njih. Pri vertikalni razpršitvi lahko uporabniku ponudimo dostop do delov podatkov (atributov, ki jih potrebuje), uporabnik pa si ne more ustvariti »celotne slike«, ker je dostop do celotne vse­bine omejen. Za prikaz celotne slike moramo združi-ti podatke iz razlicnih podatkovnih baz oz. sistemov.
3.2 Izkrivljanje podatkov 
V skupino izkrivljanja podatkov (ang. data perturba­tion) sodijo metode, tehnike in algoritmi, ki podatke spreminjajo, ali pa vanje dodajajo šum. Najvec litera­ture s podrocja PPDM je posveceno ravno temu se­gmentu, ki je tudi najbolj kompleksen. Vecinoma gre za matematicne metode, ki posegajo v podatke in jih 
z uporabo vektorjev, matrik, faktorjev – spreminjajo. 
Na zacetku je bilo implementiranih nekaj metod, ki so temeljile zgolj na nakljucnem seštevanju in mno­ženju, a le-te niso bile imune na prakticno nobeno 
vrsto napada [22]. Cilj izkrivljanja podatkov je ponuditi informaci­
je, ki jih je mogoce uporabiti za rudarjenje na nacin, 
da ostane prikrita identifikacija lastnika (subjekta) atributov. Atribute v grobem delimo v tri skupine: identifikacijski atributi (identificirajo subjekt), javni ali kvazi atributi (njihove vrednosti lahko pridobimo tudi v drugih, javnih bazah podatkov, kot je npr. vo­
lilni imenik, podatki v profilu na socialnih omrežjih 
(letnik ali starost, kraj, naslov, itd.), ter privatni atribu-ti, ki npr. v primeru bolnišnicnega kartona opisujejo 
stanje bolnika, bolezen, zdravljenje. Cilj je zagotoviti 
dostop do privatnih atributov, s pomocjo katerih bi 
radi ugotovili povezave, odvisnosti in s tem prišli do novih spoznanj in znanja, hkrati pa zavarovali infor­macije, ki identificirajo posameznika [23]. 
Medtem, ko pri metodah razprševanja in šifriranja podatke skrivamo, delimo, distribuiramo, jih s pomo-cjo anonimizacijskih tehnik izkrivljamo – z name-nom nudenja nadaljnji uporabi. Obstojece metode na podrocju izkrivljanja podatkov opisujejo Sachan, Roy, & Arun (2013) in Qi & Zong (2012), ki med metoda-mi omenjajo metodo k-anonimnosti, generalizacijo, klasifikacijo, grucenje, povezovalna pravila, poraz­deljeno ohranjanje zasebnosti, l-raznolikost, t-po­dobnost, randomizacijo in drevesno razvršcanje. 
Metode, ki uporabljajo algoritme dodajanja šuma, permutacij in randomizacijske tehnike, imajo pred­nosti, kot so npr. neodvisno izvajanje skozi vse vre­dnosti atributov (neodvisnost) in ohranjanje statistic­ne natancnosti po rekonstrukciji originalnih podat­kov. Med slabosti pa umešcamo zmanjšano uporab­nost atributov pri generalizaciji v intervale, skrivanje robnih podatkov, kar zahteva visoko uporabo šuma 
in s tem znižuje uporabnost podatkov [2]. V clanku 
Li & Sarkar (2006) ponujata izboljšan pristop spre­minjanja podatkov (dodajanja šuma), kot je zgolj 
povecevanje / zmanjševanje numericnih vrednosti 
atributa za isti faktor, vrednost ali rotacijo. Ta temelji na razvršcanju v drevesa in na uporabi najvecje vari­ance vrednosti med atributi. 
Generalizacijo uporabljamo v primeru, ko upo­
rabnik podatkov ne potrebuje natancnih vrednosti 
atributov in lahko le-te posplošimo, npr. v intervale, ki niso nujno vedno enako široki. Pri osebnem do-
hodku na primer lahko za nižje vrednosti uporabimo ožji, pri višjih vrednostih pa širši interval. Namesto 
prave vrednosti ponudimo interval, na katerem vre­
dnost leži. Temu nacinu spreminjanja recemo interval vrednostnih razredov (ang. value-class interval). Drugi nacin je vrednostno izkrivljanje (ang. value distortion). Gre za dodajanje šuma, saj namesto vrednosti xi po­nudimo spremenjeno vrednost Z(i) = xi + r, kjer je r nakljucna vrednost iz nekega intervala [-a, +a], ali pa generirana s pomocjo normalne (Gaussove) poraz­delitve [10]. Pri izkrivljanju podatkov s to metodo, govorimo o izkrivljanju podatkov z dodatnim šu-mom, multiplikativnim šumom ali permutacijo [22], [26]. Kot šum si lahko predstavljamo podatek, ki je spremenjen na nivoju vseh elementov (npr. podatek 
o teži, višini pacientov, je za vse paciente spremenjen za dolocen faktor).
k-anonimizacijo uvršcamo v drugo skupino ano­nimizacijskih tehnik. Cilj te tehnike je anonimizira-ti clana množice ali skupine na nacin generalizacije vrednosti atributov (npr. mesto ali poštno številko z regijo, višino zaokrožiti na desetice, starost v inter­val, itd.). Pristop k-anonimnosti sta prva predlaga-la Samarati & Sweeney v (1998) in Sweeney (2002). Cilj postopka k-anonimizacije je vkljucitev vsakega posameznika, o katerem podatki so nam na voljo, v vecjo skupino, s k-posamezniki in s tem povecati ne­gotovost identifikacije posameznika. Tehnika k-ano­nimizacija ni imuna na uporabo posrednega znanja (ang. background knowledge), ki ga ima napadalec. To nastane zaradi slabo definiranih intervalov ali znanja, ki ga lahko ima napadalec o posamezniku, katerega podatke preiskuje (npr. zaradi atributov, ki niso skriti). Mendes & Vilela (2017) navajata, da sta prednosti metode k-anonimizacija enostavnost defi­

Tabela 1: Originalna tabela s podatki o pacientih Vir: Povzeto po Lin (2016) 
Identif. atributi Atributi kvazi identifikatorji (QI) Obcutljivi atributi 
ID Ime Starost Holesterol Trigliceridi Bolezen 
45435 Janez 22 6 1.8 bolezen srca 
46434 Petra 26 5.9 1.7 rak 
65675 Tilen 36 7 2.3 hipertenzija 
34567 Meta 35 8 3.9 rak 
54345 Andrej 49 6.4 4.3 bolezen srca 
34333 Špela 44 5.5 5.9 hipertenzija 
nicije protokola in velik nabor obstojecih algoritmov 
za doseg k-anonimizacije, kot slabost pa predvideva­nje, da vsak zapis predstavlja podatke o edinstvenem 
posamezniku. Ce ni tako, se razred enakovrednosti s k zapisi ne poveže nujno s k razlicnimi posamezniki. Prav tako privatni (obcutljivi) atributi ne pridejo v poštev za anonimizacijo v primeru, ce imajo vsi po­datki razreda isto vrednost. 
V tabeli 1 in 2 prikazujemo primer originalne in spremenjene tabele s podatki o pacientih. 
V tabeli 1 vidimo namišljene podatke o bolnikih, razdeljene v tri skupine atributov (identifikacijski, kvazi identifikatorji ter obcutljivi ali privatni). Podat­ke bi radi anonimizirali do te mere, da ne bi bilo mo-žno neposredno povezati bolnika z boleznijo, hkrati pa bi zaradi nadaljnje analize radi obdržali cim vec podatkov, zanimivih za raziskave in razvoj znanosti na podrocju medicine. Rezultate modifikacije podat­kov prikazujeta tabeli 2 in 3. 
V tabeli 2 smo odstranili identifikacijske atribute in generalizirali tri druge. Prikazan generalizacijski postopek imenujemo k-anonimizacija [23], [26], [29], [30]. Cilj postopka k-anonimizacije je vkljucitev vsa­kega posameznika, o katerem podatki so nam na vo-
Tabela 2: Spremenjena tabela s podatki o pacientihVir: Povzeto po Lin (2016) 
ljo, v vecjo skupino s k-posamezniki in s tem povecati 
negotovost identifikacije posameznika. V opisanem primeru (v tabelah 1 in 2) prikazujemo 2-anonimnost, saj za vsako kombinacijo generaliziranih kvazi atribu­tov, obstajata vsaj dve bolezni. 
Ena od slabosti opisanega postopka je premajhna vrednost k in dejstvo, da tehnika ne uporablja doda­janja šuma, kot npr. randomizacija. S sklepanjem ali ugibanjem je pri majhnem k verjetnost, da imata osebi eno ali drugo bolezen vecja, kot pri velikem k. Npr., ce vemo, da so v razpredelnici podatki nekoga, za kate­rega približno poznamo kvazi identifikatorje, vemo, da ima bodisi eno ali pa drugo bolezen (pri 2-ano­nimnosti). V clanku Mendes & Vilela (2017), avtorja med prednosti metode k-anonimizacija umešcata:
• 
enostavnost definicije protokola, 

• 
velik nabor obstojecih algoritmov za doseg k-ano­nimizacije, med slabosti pa: 

• 
Predvideva se, da vsak zapis predstavlja podatke 

o edinstvenem posamezniku. Ce ni tako, se ra­zred enakovrednosti s k zapisi ne poveže nujno s k razlicnimi posamezniki.


• 
Privatni (obcutljivi) atributi ne pridejo v poštev za 


anonimizacijo, kar lahko prispeva k razkritju in-

Atributi kvazi identifikatorjev (QI) Obcutljivi atributi 
Starost Holesterol Trigliceridi Bolezen 
[20-29] [5-7] [0-2] bolezen srca 
[20-29] [5-7] [0-2] rak 
[30-39] [7-9] [2-4] hipertenzija 
[30-39] [7-9] [2-4] rak 
[40-49] [5-7] [4-6] bolezen srca 
[40-49] [5-7] [4-6] hipertenzija 
formacije/podatka v primeru, ce imajo vsi podatki 
razreda isto vrednost. 
Uporaba je razširjena predvsem pri podatkih, 
ustvarjenih v zdravstvu in podatkih, ki vkljucujejo 
(geo)lokacijske informacije. 
Nadgradnja k-anonimnosti je l-raznolikost. Do-dana je še ena omejitev, in sicer, da se vsak atribut v ekvivalencnem razredu pojavi vsaj l-krat tako, da je napadalec vedno precej negotov glede atributov tudi, ce ima osnovne informacije o dolocenem po­samezniku, na katerega se nanašajo osebni podatki (Machanavajjhala, Gehrke, Kifer, & Venkitasubrama­niam, 2006). Med slabostmi metode je treba poudariti predvsem dejstvo, da je zahtevna za implementacijo (težko doseci primerno obliko), poleg tega pa se na­padalec, v primeru, da so obcutljivi atributi nekega razreda enaki, nauci / izve vrednost tega atributa za dolocenega posameznika [2], [32].
V tabeli 3 prikazujemo primer l-raznolikosti, kjer je za ceno varnosti zmanjšana zrnatost podatkov. Po-datki so generalizirani do te mere, da je ustvarjena 3-raznolikost, ker obstajajo trije razlicni obcutljivi atri­buti znotraj vsakega bloka (bloka sta dva) v tabeli. S to potezo se zmanjša tveganje identifikacije, a na dru­gi strani bolj generalizira vrednosti kvazi identifika­torjev (povzeto po Machanavajjhala, Gehrke, Kifer, & Venkitasubramaniam (2006). 
Ceprav model l-raznolikost ucinkovito rešuje te­žave, ki obstajajo v modelu k-anonimnosti, se model ne more »upreti« napadom na podobnost (ang. simi­larity attacks). To pomeni, da je delež vrednosti ob­cutljivega atributa prevelik. V tem primeru je velika verjetnost, da bo napadalec razkril zasebnost posa­meznika. Zato je znanstvenik Li Ning Hui predlagal model t-podobnost (ang. t-closeness). Ta zahteva, da vrednost razlike med porazdelitvijo vrednosti obcu­tljivih atributov v enakovrednih razredih in poraz­delitvijo atributa v celotni podatkovni tabeli ni ve-
cja od t. Ce je na primer obcutljivi atribut številski, 
l-raznolikost ne upošteva, da so si nekatere vrednosti lahko zelo podobne (da so si blizu), kar rešuje meto­
da t-podobnost. Ta doloca, da mora biti porazdelitev obcutljivega atributa v vsakem ekvivalencnem razre­du podobna porazdelitvi v celotni tabeli. To lahko prepreci napade na podobnost in dodatno reši teža­ve, ki obstajajo v modelu l-raznolikosti. Model t-po­dobnost je velja za najboljši anonimizacijski model varovanja zasebnosti [26], [31], [33], [34]. 
3.3 Šifriranje podatkov 
Šifriranje obcutljivih podatkov (atributov) je dober 
pristop k procesu varovanju podatkov, saj ne spremi­nja podatkov, ne prihaja do izgube (generalizacije), 
ali šuma. Med slabosti štejemo predvsem težavno 
implementacijo pri velikih zbirkah podatkov, poleg tega pa rezultat (originalni podatki) odkriva tako jav­ne kot skrite atribute [20], [35]. 
Metode šifriranja podatkov lahko uporabimo v kombinaciji z razprševanjem podatkov, in sicer na dva nacina: podatki so lahko razdeljeni vertikalno skozi vec podatkovnih baz (med vec lastniki), kjer so šifrirani zgolj zasebni podatki, lahko pa so šifrirani vsi podatki. V praksi se je razvil model »ohranjanje varnosti na podlagi kontrole dostopa preko vlog« (ang. privacy preserving role based access control approach – PRBAC), ki je ponazorjen na sliki 5. Ta model kombinira vertikalno razprševanje podatkov in tehnologijo šifriranja za dostop do podatkov, ki jih deli na javne in zasebne [36]. 
PRBAC je eden izmed pristopov za zašcito in-formacij v relacijski bazi podatkov, ki uporabnikom 

Tabela 3: dodatno spremenjena tabela s podatki o pacientih Vir: Povzeto po Lin (2016) 
Atributi kvazi identifikatorjev (QI) Obcutljivi atributi 
Starost Holesterol Trigliceridi Bolezen 
< 50 [5-7] [0-6] bolezen srca 
< 50 [5-7] [0-6] rak 
< 50 [5-7] [0-6] hipertenzija 
< 50 [5-9] [2-6] hipertenzija 
< 50 [5-9] [2-6] rak 
< 50 [5-9] [2-6] bolezen srca 

preprecuje pridobivanje dovolj velikih in raznolikih vzorcev baze podatkov. Prav tako onemogoca slede­nje vzorcem, ki jih ne bi smeli razkriti. To omogoca razvršcanje podatkov na javne (neobcutljive) in taj­ne (obcutljive). Slabost metode je casovna potratnost 
(zaradi zahtevnosti postopkov šifriranja in dešifrira­nja) ter cas, potreben za sestavljanje relacije (iz n po­datkovnih baz). Postopek je moc pohitriti z uvedbo 
horizontalnega razprševanja podatkov. Tedaj je iska­na relacija v celoti v eni izmed podatkovnih baz, a je takšna realizacija manj varna [36]. 
Pri uporabi razprševanja podatkov in šifriranja, ali uporabi kombinacije teh dveh metod, podatki ostaja­jo v obliki, kot so nastali. S tem, ko jih ne spreminja-mo ali izkrivljamo, ostajajo za nadaljnjo analizo po­tencialno najustreznejši, a bi pri uporabi lahko prišlo do kršitve ohranjanja zasebnosti, predvsem v prime-ru, ce bi do podatkov lahko dostopali nelegalno ali nepooblašceno. 
Model PRBAC in vertikalno, ter funkcionalno porazdeljene podatkovne baze težavo delno odpra­vljajo, saj je v prvem primeru zagotovljen dostop do podatkov preko vlog dostopa, v drugem pa do pri­dobitve zgolj dela podatkov (dela atributov relacije). Nobeden od teh dveh pristopov ni primeren za nu-denje podatkov v množicno uporabo (npr. za podat­kovno rudarjenje), saj ni poskrbljeno za anonimizaci­jo podatkov oz. za zakritje povezave med lastnikom podatkom in njegovimi atributi v relaciji drugace, kot s ponujanjem dostopa do zgolj dela podatkov koncnemu uporabniku (slika 6).
4.	 ZAKLJUCEK 
Pri iskanju ravnovesja med nudenjem podatkov za analizo, z namenom ustvarjanja dodane vrednosti in 
znanj, je potrebno poskrbeti za zašcito identitete in 
interesov posameznika po anonimnosti. Pri pregledu literature smo zasledili, da se za reševanje omenjenih 

Slika 5: Dešifriranje vertikalno porazdeljenih podatkov Vir: [36] 
izzivov na podrocju podatkovnega rudarjenja raz­vilo posebno podpodrocje, ki se ukvarja z ohranja­njem zasebnosti pri tem procesu. Metode, s katerimi 
dosegamo zašcito posameznika na eni in uporabno 
vrednost podatkov na drugi strani v grobem delimo na metode razprševanja podatkov, metode izkrivljanja in metode šifriranja podatkov. Za doseganje višje zašcite 
lahko uporabimo tudi kombinacije teh metod. 
Za primere iz prakse, kjer bi uporaba tovrstnih metod pripomogla k boljši uporabi (javnih) podat­kov in informacij javnega znacaja, omenimo Zakon 
o dostopu do informacij javnega znacaja (ZDIJZ­-NPB10)8. Ta v šestem clenu navaja izjeme, kjer do-stop do takšnih podatkov ni dovoljen, vecinoma 
zaradi posledic razkritja in s tem kršitve varstva osebnih, ali drugih podatkov. Pri Splošni uredbi o varstvu podatkov (ang. general data protection regu­lation – GDPR9), uredba v 17. clenu doloca Pravico do izbrisa (»pravico do pozabe«), ki doloca pogoje, 
pod katerimi lahko posameznik zahteva izbris oseb­nih podatkov iz dokumentov, ter 28. clen, kjer dolo-ca pristojnosti in omejitve obdelovalca podatkov. Za omogocanje dostopa do dokumentov takšne narave 
sta predlagana šifriranje in revizija dostopov [37] ter izkrivljanje podatkov. Skladno z GDPR se lahko dokumenti objavijo po odstranitvi vseh podatkov, ki identificirajo posameznika [38]. 
Najvec izboljšav in novih metod in algoritmov smo zasledili ravno za podrocje spreminjanja podat­kov (ang. data perturbation). To je edini pristop, ki podatke transformira, a pri tem ohranja (skozi funk-cijo transformacije) možnost rekonstrukcije, podatki pa ohranjajo visoko uporabno vrednost za nadaljnjo uporabo – podatkovno rudarjenje. 
VIRI IN LITERATURA 
[1] J. R. Smith and S.-F. Chang, »New visual information in the form of images Visually Searching the Web for Content,« pp. 12–20, 1997, doi: 10.1080/10413200.2012.704621. 
[2] R. Mendes and J. P. Vilela, »Privacy-Preserving Data Mining: Methods, Metrics, and Applications,« IEEE Access, vol. 5. pp. 10562–10582, 2017, doi: 10.1109/ACCESS.2017.2706947. 
[3] R. Devakunchari, »Analysis on big data over the years,« Inter­national Journal of Scientific and Research Publications, vol. 4, no. 1. pp. 1–7, 2014, [Online]. Available: www.ijsrp.org. 
[4] H. Sahu, S. Shrma, and S. Gondhalakar, »A Brief Overview on Data Mining Survey,« Ijctee, vol. 1, no. 3. pp. 114–121, 2008. 
[5] A. S. Shanthi and M. Karthikeyan, »A review on privacy pre­
8 Zakon o dostopu do informacij javnega znacaja, https://zakonodaja.com/ 
zakon/zdijz, dostopano september 2021 9 GDPR, https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:0201 
6R0679-20160504 , dostopano september 2021 
serving data mining,« 2012 IEEE International Conference on Computational Intelligence and Computing Research, ICCIC 2012. 2012, doi: 10.1109/ICCIC.2012.6510302. 
[6] A. Singh, »Data Publishing Techniques andPrivacy Preser­ving,« Int. J. Inf. Secur. Res., vol. 9, no. 3, pp. 1–23, 2019. 
[7] K. (Eds. . Markov, A., Polak Petric, A., & Nastovska, Splošna deklaracija clovekovih pravic. Ljubljana : Fakulteta za družbe­ne vede, Založba FDV : Ministrstvo za zunanje zadeve Repu­blike Slovenije, 2018, 2018. 
[8] S. SA, »Big Data in Healthcare Management: A Review of Lite­rature,« American Journal of Theoretical and Applied Business, vol. 4, no. 2. p. 57, 2018, doi: 10.11648/j.ajtab.20180402.14. 
[9] L. Cranor, T. Rabin, V. Shmatikov, S. Vadhan, and D. Weit­zner, »Towards a Privacy Research Roadmap for the Com­puting Community,« Http://Cra.Org/Ccc/Resources/Ccc--Led-Whitepapers/. pp. 1–23, 2016, [Online]. Available: http:// arxiv.org/abs/1604.03160. 
[10] R. Agrawal and R. Srikant, »Privacy-preserving data mining,« SIGMOD Rec. (ACM Spec. Interes. Gr. Manag. Data), vol. 29, no. 2, pp. 439–450, Jan. 2000, doi: 10.1145/335191.335438. 
[11] Y. Lindell and B. Pinkas, »Privacy Preserving Data Mining,« pp. 36–54, 2000. 
[12] L. Cranor, T. Rabin, V. Shmatikov, S. Vadhan, and D. Weit­zner, »Towards a Privacy Research Roadmap for the Compu­ting Community,« Http://Cra.Org/Ccc/Resources/Ccc-Led­-Whitepapers/. pp. 1–23, 2016. 
[13] K. Vassakis, E. Petrakis, and I. Kopanakis, »Big Data Analyti­cs: Applications, Prospects and Challenges,« 2018, pp. 3–20. 
[14] A. Pawar, S. Ahirrao, and P. P. Churi, »Anonymization Tech­niques for Protecting Privacy : A Survey.« 
[15] L. Xu, C. Jiang, J. Wang, J. Yuan, and Y. Ren, »Information security in big data: Privacy and data mining,« IEEE Access, vol. 2, no. January, pp. 1151–1178, 2014, doi: 10.1109/ ACCESS.2014.2362522. 
[16] R. Agrawal and R. Srikant, »Privacy-preserving data mining,« SIGMOD Rec. (ACM Spec. Interes. Gr. Manag. Data), vol. 29, no. 2, pp. 439–450, Jan. 2000, doi: 10.1145/335191.335438. 
[17] Y. Lindell and B. Pinkas, »Privacy Preserving Data Mining BT – Advances in Cryptology — CRYPTO 2000,« 2000, pp. 36–54. 
[18] X. Qi and M. Zong, »An Overview of Privacy Preserving Data Mining,« Procedia Environ. Sci., vol. 12, no. Part B, pp. 1341– 1347, Jan. 2012, [Online]. Available: http://10.0.3.248/j.proe­nv.2012.01.432. 
[19] Y. Abdul, A. S. Aldeen, M. Salleh, and M. A. Razzaque, »A comprehensive review on privacy preserving data mining,« Springerplus, 2015, doi: 10.1186/s40064-015-1481-x. 
[20] S. Taneja, S. Khanna, and S. Tilwalia, »A Review on Privacy Preserving Data Mining: Techniques and Research Challen­ges,« vol. 6, no. 3. pp. 35–40, 2016. 
[21] P. P. Panse and P. L. Paikrao, »Survey of Privacy Preserving Techniques and Upcoming Techniques : A Review,« vol. 6, no. 2, pp. 1798–1802, 2017. 
[22] S. Upadhyay, C. Sharma, P. Sharma, P. Bharadwaj, and 
K. R. Seeja, »Privacy preserving data mining with 3-D ro­tation transformation,« J. King Saud Univ. – Comput. Inf. Sci., vol. 30, no. 4, pp. 524–530, 2018, doi: 10.1016/j.jksu­ci.2016.11.009. 
[23] A. Gionis and T. Tassa, »K-anonymization with minimal loss of information,« IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 2. pp. 206–219, 2009, doi: 10.1109/ TKDE.2008.129. 
[24] A. Sachan, D. Roy, and P. V Arun, »An Analysis of Privacy Preservation Techniques in Data Mining BT – Advances in Computing and Information Technology,« 2013, pp. 119–128. 

[25]  X. B. Li and S. Sarkar, »A tree-based data perturbation appro- [33]  G. Hao and X. Ya-Bin, »Research on privacy preserving  
ach for privacy-preserving data mining,« IEEE Transactions  method based on T-closeness model,« in 2017 3rd IEEE  
on Knowledge and Data Engineering, vol. 18, no. 9. pp. 1278–  International Conference on Computer and Communica­ 
1283, 2006, doi: 10.1109/TKDE.2006.136.  tions (ICCC), 2017, pp. 1455–1459, doi: 10.1109/Comp­ 
[26]  EK, »Mnenje št. 5/2014 o anonimizacijskih tehnikah.« Evrop­ Comm.2017.8322783.  
ska komisija, Delovna skupina za varstvo podatkov clena 29,  [34]  P. ( 1 ) Quirós, P. ( 1 ) Alonso, I. ( 2 ) Díaz, and S. ( 3 ) Mon­ 
2014, [Online]. Available: https://ec.europa.eu/justice/arti­ tes, »Protecting data: a fuzzy approach,« Int. J. Com­ 
cle-29/documentation/opinion-recommendation/files/2014/  put. Math., vol. 92, no. 9, pp. 1989–2000, Sep. 2015, doi:  
wp216_sl.pdf.  10.1080/00207160.2014.928700.  
[27]  P. Samarati and L. Sweeney, »Generalizing data to provide  [35]  B. Pinkas, »Cryptographic Techniques for Privacy-Preserving  
anonymity when disclosing information (abstract),« 1998.  Data Mining,« SIGKDD Explor. Newsl., vol. 4, no. 2, pp. 12–  
[28]  L. Sweeney, »K-Anonymity: A Model for Protecting Privacy,«  19, Dec. 2002, doi: 10.1145/772862.772865.  
Int. J. Uncertain. Fuzziness Knowl.-Based Syst., vol. 10, no. 5,  [36]  L. Vasudevan, S. E. D. Sukanya, and N. Aarthi, »Privacy pre- 
pp. 557–570, 2002, doi: 10.1142/S0218488502001648.  serving data mining using cryptographic role based access  
[29]  C. Y. Lin, »A reversible data transform algorithm using integer  control approach,« Imecs 2008: International Multiconference  
transform for privacy-preserving data mining,« J. Syst. Softw.,  of Engineers and Computer Scientists, Vols I and Ii. pp. 474­ 
vol. 117, pp. 104–112, 2016, doi: 10.1016/j.jss.2016.02.005.  479\r2031, 2008.  
[30]  A. Gkoulalas-Divanis and V. S. Verykiosc, »An overview of  [37]  C. Evans, »HOW GDPR WILL SHAKE UP DATA STORAGE.,«  
privacy preserving data mining,« Crossroads, vol. 15, no. 4,  Comput. Wkly., pp. 25–28, Aug. 2017, [Online]. Available:  
pp. 23–26, 2009, doi: 10.1145/1558897.1558903.  http://nukweb.nuk.uni-lj.si/login?url=https://search.ebsco- 
[31]  A. Machanavajjhala, J. Gehrke, D. Kifer, and M. Venkitasu- host.com/login.aspx?direct=true&AuthType=ip,uid&db=f5h&  
bramaniam, »l-Diversity: Privacy beyond k-anonymity,« Pro- AN=124782283&lang=sl&site=eds-live&scope=site.  
ceedings – International Conference on Data Engineering, vol.  [38]  K. Broen, R. Trangucci, and J. Zelner, »Measuring the im­ 
2006. p. 24, 2006, doi: 10.1109/ICDE.2006.1.  pact of spatial perturbations on the relationship between data  
[32]  J. Vasa and P. Modi, »Review of Different Privacy Preserving  privacy and validity of descriptive statistics,« Int. J. Health  
Techniques in PPDP,« International Journal of Engineering  Geogr., vol. 20, no. 1, pp. 1–17, 2021, doi: 10.1186/s12942­ 
Trends and Technology, vol. 59, no. 5. pp. 223–227, 2018,  020-00256-8.  
doi: 10.14445/22315381/ijett-v59p242.  

• 
Matjaž Kragelj Zaposlen v Narodni in univerzitetni knjižnici, zadnje desetletje kot vodja enote za informacijsko tehnologijo in digitalno knjižnico. Njegovo podrocje dela je sticišce racunalništva in knjižnicne stroke. Vecina njegovih dejavnosti vkljucuje nacrtovanje in upravljanje digitalne knji­žnice in spletnih storitev, razvoj in usklajevanje dejavnosti nacionalnega agregatorja e-vsebin na podrocju kulture, izobraževanja in svetovanja na podrocju integriranega upravljanja digitalnih virov, sodelovanje pri razvoju in vzdrževanju celovitih informacijskih rešitev v knjižnici. Sodeluje tudi pri razvoju in vzdrževanju digitalnega arhiva knjižnice in storitev zajema in ohranjanja slovenskega spleta. Sodeluje pri digitalizaciji nacionalne kulturne dedišcine, shranjene v knjižnici, ter na podrocju spremljanja in oblikovanja (mednarodnih) priporocil in smernic na podrocju pridobivanja, dolgorocnega arhiviranja in dostopa do digitalnih virov. Sodeloval je v vec mednarodnih projektih in bil avtor vec clankov s svojega podrocja dela. V zadnjih letih je vec pozornosti namenil vizualizaciji podatkov in rudarjenja besedil, iskanju povezav in vzorcev v podatkih. 
• 
Mirjana Kljajic Borštnar je izredna profesorica za podrocje informacijskih sistemov na Fakulteti za organizacijske vede, Univerze v Mariboru. Njeno raziskovalno delo je usmerjeno v sisteme za podporo odlocanju, odkrivanje znanja v podatkih in organizacijsko ucenje. Izsledke raziskav objavlja v mednarodnih znanstvenih revijah in konferencah, med drugim Expert Systems with Application, PLOS ONE, Industrial Management & Data Systems, System Dynamics Review. Sodeluje v evropskih in domacih projektih. Je sovodja programskega odbora Blejske e-konference in Simpozija o operacijskih raziskavah v Sloveniji ter clanica programskih odborov konferenc DSI, DataScience, WorldCist in drugih. V domacem okolju je aktivna kot predstavnica raziskovalnih organizacij v SRIP PMIS za podrocje Ai, HPC & Big Data, clanica izvršnega odbora pobude AI4Slo­venia in clanica uredniškega odbora revije Uporabna informatika. 
• 
Alenka Brezavšcek je izredni profesor na Fakulteti za organizacijske vede Univerze v Mariboru. Njeno habilitacijsko podrocje so kvantitativne metode v organizacijskih vedah. Ukvarja se z raziskavami na podrocju stohasticnih procesov, zanesljivosti in razpoložljivosti tehnicnih sistemov ter varnosti informacijskih sistemov. 

 Iz Islovarja 

Islovar je spletni terminološki slovar informatike, ki ga objavlja jezikovna sekcija Slovenskega društva INFOR­MATIKA na naslovu http://www.islovar.org. Slovar je javno dostopen za vpoglede in vnašanje novih izrazov. Objavljamo izbor novejših izrazov, ki smo jih vnesli in uredili v Islovarju: 
aplikácijski napád -ega -a m (angl. application attack) porazdeljeni napad onemogocanja storitve, kjer se s posebej skonstruiranimi zahtevami povzroci izpad ali upocasnitev delovanje aplikacije ali strežnika 
izkorišceválec ranljívosti -lca --m (angl. exploit) 
škodljiva koda, ki izkorišca ranljivost 
racunalniškega sistema 
komplét za izkoríšcanje -a -- --m (angl. exploit toolkit, exploit kit) programski paket z razlicnimi orodji za izkorišcanje ranljivosti racunalniških sistemov, npr. brskalnikov, operacijskih sistemov 
módra skupína -e -e ž (angl. blue team) varnostni strokovnjaki, ki branijo informacijski sistem pred napadi; prim. rdeca skupina
podátkovno vr´tanje -ega -a s (angl. data drilling) 
operacije na hierarhicno urejenih podatkih; prim. 
podatkovno rudarjenje 
protokólni napád -ega -a m (angl. protocol attack) 
porazdeljeni napad onemogocanja storitve, kjer 
se izkoristi lastnosti v zasnovah komunikacijskih 
protokolov 
rdéca skupína -e -e ž (angl. red team) varnostni strokovnjaki, ki s testnimi napadi preizkušajo odpornost informacijskega sistema; prim. modra skupina 
rézanje -a s (angl. slice and dice) delitev celotnega nabora podatkov na manjše dele ali poglede 
vr´tanje navzdól -a --s (angl. drill down, drilldown) podatkovno vrtanje, ki vodi od splošnega k podrobnejšemu prikazu podatkov; sin. vrtanje v globino; prim. vrtanje navzgor, vrtanje skozi 
vr´tanje navzgór -a --s (angl. drill up, drillup) podatkovno vrtanje, ki vodi od podrobnega k bolj splošnemu prikazu podatkov; prim. vrtanje navzdol, vrtanje skozi 
vr´tanje skózi -a --s (angl. drill through, drillthrough) podatkovno vrtanje, ki vodi neposredno do dolocene entitete v podatkovni bazi; prim. vrtanje navzgor, vrtanje navzdol 

Izpitni centri ECDL 
ECDL (European Computer Driving License), ki ga v Sloveniji imenujemo evropsko raËunalnipko spriËevalo, je standardni program usposabljanja uporabnikov, ki da zaposlenim potrebno znanje za delo s standardnimi raËunalnipkimi programi na informatiziranem delovnem mestu, delodajalcem pa pomeni dokazilo o usposobljenosti. V Evropi je za uvajanje, usposabljanje in nadzor izvajanja ECDL pooblapËena ustanova ECDL Fundation, v Sloveniji pa je kot Ëlan CEPIS (Council of European Professional Informatics) to pravico pridobilo Slovensko druptvo INFORMATIKA. V drćavah Evropske unije so pri uvajanju ECDL moËno angaćirane srednje in visoke pole, aktivni pa so tudi razliËni vladni resorji. Posebno pomembno je, da velja spriËevalo v 148 drćavah, ki so vkljuËene v program ECDL. Doslej je bilo v svetu v program certificiranja 
ECDL vkljucenih že preko 16 milijonov oseb, ki so uspešno opravile preko 80 milijonov izpitov in pridobile ustrezne certificate. V Sloveniji je bilo doslej v program certificiranja ECDL vkljucenih vec kot 18.000 oseb in opravljenih vec kot 92.000 izpitov. V Sloveniji sta akreditirana dva izpitna centra ECDL, ki imata izpostave po vsej državi. 

Znanstveni prispevki 
Maša Kljun, Matija Teršek, Slavko Žitnik 
Pomenska analiZa kategorij sovražnega govora v obstojecih oZnacenih korPusih 
Jan Bajt, Marko Robnik Šikonja 
strojna analiZa tematik in sentimenta slovenskih novicarskih medijev 
strokovni prispevki 
Alenka Baggia, Robert Leskovar, Branislav Šmitek, Saša Mlakar, Katja Pesjak, Mateja Bahun, Manuel Lillo-Crespo, Jorge Riquelme Galindo, Christine FitzGerald, Liz Kingston, Alice Coffey, Lucia Cadorin, Alvisa Palese, Barbara Narduzzi, 
Sara Scarsini, Uroš Rajkovic 
e-ucilnica Za ucenje na dokaZih PodPrte Zdravstvene nege 
Gregor Polancic, Mateja Kocbek Bule 
stanje in trendi na Podrocju rudarjenja Procesov 
Živa Rant, Dalibor Stanimirovic, Jure Janet 
Funkcionalnosti in uPoraba Portala Za Paciente Zvem in centralnega registra Podatkov o Pacientu 
Prispevki iz konference dnevi slovenske informatike 
Matjaž Kragelj, Mirjana Kljajic Borštnar, Alenka Brezavšcek 
Problematika ohranjanja Zasebnosti Pri Podatkovnem rudarjenju dokumentov Z obcutljivimi Podatki 
informacije 
iZ islovarja