ERK'2020, Portorož, 301-304 301 Ekstrakcija kljuˇ cnih besed filmov iz podnapisov Jan Popiˇ c, Timi Ornik, Nejc Planer, Borko Boˇ skovi´ c, Janez Brest Univerza v Mariboru, Fakulteta za elektrotehniko, raˇ cunalniˇ stvo in informatiko, Koroˇ ska cesta 46, 2000 Maribor E-poˇ sta: jan.popic1@um.si Keyword extraction from movie subtitles With large amounts of video content it is important to have as much metadata as possible. Important metadata in video content includes keywords which summarize the es- sential elements in a given video. In this paper, we present a framework for an automated approach to keyword ex- traction from video content using their associated subtitles. Framework is composed of three primary building blocks: preprocessing, named-entity recognition and keyword ex- traction. The goal of the first two blocks is the removal of information irrelevant to the keywords. In the final stage, the actual keywords are extracted from the preprocessed subtitles. In the experiment, we compare the keywords extracted with our framework to a set of predefined key- words obtained from the Internet Movie Database website. We test our method on Slovene language and compare it to a similar English model. 1 Uvod V danaˇ snjih dneh je na voljo ogromna koliˇ cina video vse- bin, le-te pa postajajo del naˇ sega vsakdana. Ker pa je v tej poplavi vsebin pogosto teˇ zko najti takˇ sno, ki bi nas zanimala, je posebej pomembno, da so dobro oznaˇ cene z metapodatki. Eden izmed kljuˇ cnih metapodatkov o vi- deo vsebini so kljuˇ cne besede. Z avtomatsko ekstrakcijo kljuˇ cnih besed lahko neizmerno pohitrimo sicer roˇ cno oznaˇ cevanje. Kljuˇ cne besede so uporabne predvsem za priporoˇ cilne sisteme, pripise in oznake vsebin in povezo- vanje s socialnimi omreˇ zji. Ekstrakcija kljuˇ cnih besed je definirana kot postopek, ki vhodnemu dokumentu dodeli nekaj besed ali besednih zvez, s katerimi najbolje opiˇ semo njegovo vsebino [1]. Ker ima veˇ cina video vsebin v danaˇ snjih dneh vsaj neko obliko pripadajoˇ cih podnapisov, smo se v naˇ sem delu osre- dotoˇ cili samo na ekstrakcijo kljuˇ cnih besed iz slovenskih podnapisov. Zaradi najlaˇ zjega dostopa do podnapisov in obstojeˇ cih metapodatkov o vsebini, se bomo omejili samo na filme. Enak pristop bi lahko preslikali na vsako video vsebino, ki ima podnapise. 2 Sorodna dela V [2] so se avtorji ukvarjali z ekstrakcijo kljuˇ cnih besed iz prepisov (transkripcije) sestankov. Avtorji so izposta- vili nekaj pomembnih razlik med prepisi govora in nava- dnim pisanim besedilom (knjige, ˇ clanki, prispevki, itd.), ki veljajo tudi za naˇ so domeno analize podnapisov video vsebin: 1. V nenaˇ crtovanem pogovoru sta v stavku povpreˇ cno dve pomenski besedi, za razliko od pisanega bese- dila, kjer je v posameznem stavku od 4 do 6 pomen- skih besed. To lahko predstavlja problem osnovnim algoritmom ekstrakcije kljuˇ cnih besed, ki temeljijo na frekvenci pojavitev. 2. V govorjenem besedilu je pogovor manj struktu- riran. Manjkajo tudi dodatne informacije, ki jih lahko zasledimo v drugih pisanih besedilih (naslovi, odstavki, poglavja, itd.). 3. Za razliko od pisanih besedil, kjer je navadno en sam avtor, imajo v prepisih razliˇ cni govorci razliˇ cne sloge govorjenja in razliˇ cno rabo besed. 4. Ker je struktura govora ohlapna in ni zagotovila, da je pravilna, se lahko pojavijo teˇ zave z oznaˇ cevanjem besednih vrst (angl. POS tagging oz. part-of-speech tagging). Avtorji prispevka [3] so po naˇ sem znanju edini, ki so uporabili dodatne informacije na voljo v podnapisih. Njihov pristop je deljen na 5 osnovnih gradnikov: predob- delava, prepoznava imenskih entitet, loˇ cevanje pogovorov, ekstrakcija kljuˇ cnih besed in prilagoditev uteˇ zi kljuˇ cnih besed. Poroˇ cali so o 11,2 % izboljˇ savi metrikeF1 z algo- ritmom TextRank [4] in uporabo prej navedenih korakov v primerjavi z uporabo algoritma TextRank nad celotno vsebino podnapisov. 3 Zasnova algoritma Naˇ s primarni cilj je bil izdelava sistema za ekstrakcijo kljuˇ cnih besed filmov iz podnapisov, ki so v slovenskem jeziku. Za enostavnejˇ se nadaljnje delo in preprosto ter in- tuitivno uporabo smo ˇ zeleli izdelati ogrodje, ki omogoˇ ca enostavno konfiguracijo komponent (odstranjevanje in spremembo posameznih delov ogrodja). Pri snovanju naˇ sega pristopa smo se zgledovali po podobnem pristopu za angleˇ ski jezik, ki so ga predstavili avtorji v [3]. Vendar naˇ s pristop ne vsebuje loˇ cevanja pogovorov, prav tako se v koraku prepoznave imenskih entitet nismo omejili samo na unikatne besede, ki se nikoli ne pojavijo z malo zaˇ cetnico, temveˇ c smo dovolili malo 302 ˇ stevilo ponovitev zaradi morebitnih slovniˇ cnih in besednih napak v samih podnapisih. Naˇ s pristop je razdeljen na tri osnovne gradnike: a) Predobdelava V tej fazi smo iz podnapisov izloˇ cili nepotrebne informa- cije: vse znaˇ cke HTML (barvne, glasbene, naˇ cin govora, oznaˇ cbe dogajanja), znake, ki nakazujejo spremembo go- vorca (‘-’) in dvojne presledke. Prav tako smo iz vsake datoteke s podnapisa odstranili zadnja dva podnapisa, ker le-ta ponavadi vsebujeta podatke o avtorju prevoda, kar ni pomembno za ekstrakcijo kljuˇ cnih besed. Nato smo odstranili nepomembne in nepotrebne besede s pomoˇ cjo v naprej definiranega NLTK (angl. Natural Language Toolkit) seznama nepomembnih besed [5]. b) Prepoznava imenskih entitet (PIE) V tej fazi smo filtrirali besedne vrste ter loˇ cili imenske entitete (predmete iz resniˇ cnega sveta, na primer osebe ali lokacije, ki jih lahko oznaˇ cimo z lastnimi imeni), ki so primerne za kljuˇ cne besede od tistih, ki to niso. Najprej smo nad vsebino posameznega podnapisa za- gnali algoritem za oznaˇ cevanje besednih vrst, da smo pri- dobili informacije o strukturi stavka. Iz posameznega stavka se nato izbriˇ sejo vse besede, ki ne predstavljajo ˇ zelenih besednih vrst (ˇ zelene besedne vrste so uporabniˇ sko nastavljiv parameter). Izmed besed, ki so ostale v stavku, se kot kandidatke oznaˇ cijo vse besede, ki predstavljajo lastna imena in so se z malo zaˇ cetnico ponovile najveˇ c dvakrat (na ta naˇ cin omilimo morebitne sintaktiˇ cne napake v podnapisih). Za vse kandidatke smo s pomoˇ cjo semantiˇ cnega le- ksikona slovenˇ sˇ cine sloWNet [6] preverili, ali je njihova leksikalna domena na seznamu dovoljenih (dovoljene do- mene so uporabniˇ sko nastavljiv parameter). Vse, ki niso ustrezale seznamu dovoljenih leksikalnih domen, smo od- stranili iz stavkov. c) Ekstrakcija kljuˇ cnih besed Za samo ekstrakcijo kljuˇ cnih besed smo uporabili dva razliˇ cna algoritma (TD-IDF [7] in TextRank), ki smo ju nato med seboj primerjali po uspeˇ snosti. 3.1 Zbiranje podatkov Korak prepoznave imenskih entitet potrebuje nekaj mode- lov in korpusov (nabor besedil) za pravilno deljenje besed (angl. tokenizer), oznaˇ cevanje besednih vrst in leksikalno analizo. Uporabili smo sledeˇ ce modele in korpuse: seznam nepomembnih slovenskih besed iz NLTK, jezikovni model Punkt za deljenje povedi iz NLTK, korpus “MULTEXT-East 1984” za oznaˇ cevanje be- sednih vrst iz NLTK, semantiˇ cni leksikon Open Multilingual Wordnet za dodatne informacije in povezavo s sloWNet iz NLTK, model Word2vec “Slovenian CoNLL17 corpus” iz NLPL [8] za mero podobnosti in semantiˇ cni leksikon slovenˇ sˇ cine za pridobitev do- men in sinonimov sloWNet. Za uspeˇ sno analizo rezultatov potrebujemo dovolj ve- liko testno mnoˇ zico podnapisov in kljuˇ cnih besed, ki pred- stavljajo nabor kljuˇ cnih besed, ki so jih doloˇ cili uporabniki in ocenjevali za najbolj primerne. Nabora kljuˇ cnih besed za filme nismo naˇ sli v slovenskem jeziku, zato smo ga pridobili v angleˇ skem jeziku iz spletne strani IMDb [9] (urejene po ocenah uporabnikov). Kljuˇ cne besede smo nato prevedli v slovenski jezik s pomoˇ cjo prevajalnika Microsoft Translator [10]. Zaradi prevajanja smo morali vse kljuˇ cne besede spremeniti v male ˇ crke. Podnapise smo pridobili iz portala Podnapisi.NET [11], kjer pa ni nujno, da obstaja podnapis za vsak izbran film, ta pa je lahko tudi napaˇ cen. Zaradi samega prevajanja in naˇ cina pridobivanja pod- napisov smo poslediˇ cno uvedli nekaj napak v naˇ s korpus. Dodatne napake se lahko pojavijo tudi v samih podnapisih, navadno tistih, ki ne izhajajo iz uradnih studiov. Izbrali smo 100 najbolje ocenjenih filmov iz IMDb in pridobili en podnapis ter 60 prevedenih kljuˇ cnih besed za vsak film. Primer nekaj kljuˇ cnih besed je viden v tabeli 1. Tabela 1: Primeri kljuˇ cnih besed iz IMDb Film Prevedene kljuˇ cne besede The Matrix (1999) simulirano resniˇ cnost, umetna realnost, pre- rokba, programer, po apokalipsi, borilnih veˇ sˇ cin, hacker, distopija, ˇ cloveˇ stvo v nevar- nosti, tabletke Fight Club (1999) preseneˇ cenje konˇ ca, boj, proti obratu, mul- tiple osebnostne motnje, nespeˇ cnost, proti skladnosti, na podlagi novih, skupinsko zdravljenje, proti kapitalizmu, pretep 4 Eksperiment Naˇ s eksperiment smo zasnovali tako, da smo za vsak film iz podnapisov izluˇ sˇ cili kljuˇ cne besede z naˇ sim algorit- mom, te pa smo nato primerjali s tistimi pridobljenimi iz IMDb. Za pravilno pridobljeno kljuˇ cno besedo smo upoˇ stevali dobesedno ujemanje, sinonime pridobljene iz sloWNet in mero podobnosti. Pri tem nismo preverjali ustreznih velikih zaˇ cetnic, saj ima naˇ sa zbirka pridobljenih kljuˇ cnih besed izkljuˇ cno male ˇ crke. Za ovrednotenje smo naˇ s pristop smatrali kot klasifikator v en razred. Iz matrike klasifikacije (angl. confusion matrix) smo nato izraˇ cunali metrikoF1 , natanˇ cnostP (angl. precision) in priklicR (angl. recall). Analizirali smo kombinacije algoritmov za ekstrakcijo besed (TF-IDF in TextRank) z in brez modula prepoznave imenskih entitetPIE (glej poglavje 3), saj nas je zanimal vpliv tega modula na kvaliteto kljuˇ cnih besed. V modulu PIE smo v tem primeru obdrˇ zali samo la- stna imena, samostalnike, pridevnike in ˇ stevila. Iz lastnih imen smo v nadaljevanju izluˇ sˇ cili samo tiste, ki imajo veliko zaˇ cetnico in se ne pojavijo veˇ c kot dvakrat z malo zaˇ cetnico. Izluˇ sˇ cene besede smo preverili s sloWNet in odstranili vse, ki ne spadajo v izbrano domeno (obdrˇ zane domene geography, chemistry, telecommunication, astro- nomy, politics, animals so bile izbrane s subjektivno oceno primernosti kljuˇ cnih besed). Pri odstranjevanju neˇ zelenih 303 besednih vrst se v povpreˇ cju odstrani 69 % unikatnih be- sed, pri odstranjevanju neˇ zelenih leksikalnih domen - z naˇ simi obdrˇ zanimi domenami - pa 1,5 %. Leksikalne do- mene imajo vpliv predvsem na tip pridobljenih kljuˇ cnih besed (subjektivna definicija kljuˇ cne besede), ne toliko na kvaliteto. Skupno se v povpreˇ cju odstrani 71 % vseh besed (vkljuˇ cno s ponovitvami). Tabela 2: Primerjava razliˇ cnih kombinacij algoritmov v % Metoda F1 P R TF-IDF 1,468 1,468 1,469 TF-IDF + PIE 2,320 2,319 2,321 TF-IDF + PIE + S 8,061 8,061 8,061 TextRank 1,456 1,461 1,452 TextRank + PIE 1,979 1,988 1,969 TextRank + PIE + S 8,770 8,760 8,780 PIE - Prepoznava imenskih entitet, S - Sinonimi Vse kombinacije algoritmov in njihovi rezultati so vidni v tabeli 2. Najveˇ cjo natanˇ cnost brez upoˇ stevanja sinonimov je do- segel algoritem TF-IDF. Brez modula PIE ima algoritem TF-IDF le majhno prednost pred algoritmom TextRank, ˇ ce vkljuˇ cimo modul PIE se oba rezultata izboljˇ sata, raz- lika med rezultatoma obeh algoritmov pa postane bolj oˇ citna. Z upoˇ stevanjem sinonimov pa ima TextRank ˇ se veˇ cjo natanˇ cnost. Nadalje nas je zanimal vpliv nabora besednih vrst, ki se v modulu PIE izbriˇ sejo. Za analizo tega smo iz- brali algoritem TextRank, saj se je izkazalo, da dosega najboljˇ se rezultate za naˇ s problem, filtriranje domen pa smo izkljuˇ cili. Kot je razvidno iz tabele 3, imajo najveˇ cji vpliv na rezultat glagoli, saj se ti v podnapisih velikokrat pojavijo, so pa le redko kljuˇ cne besede. Tabela 3: Vpliv nabora besednih vrst v % Obdrˇ zani ˇ cleni F1 P R Vsi + S 5,435 5,429 5,441 NN, A, NUM, V + S 7,066 6,959 7,176 NN, A, NUM + S 8,660 8,647 8,674 NN, A + S 8,770 8,760 8,780 NN - Samostalniki, A - Pridevniki, NUM - ˇ Stevila, V - Glagoli, S - Sinonimi Na koncu nas je zanimala ˇ se primerjava z upoˇ stevanjem podobnosti izluˇ sˇ cenih kljuˇ cnih besed s pridobljenimi na najboljˇ sih kombinacijah iz prejˇ snjih eksperimentov (algo- ritem TextRank, modul PIE s samostalniki in pridevniki ter upoˇ stevanje sinonimov). Podobnosti besed v vmesnih eksperimentih nismo upoˇ stevali s ciljem veˇ cje natanˇ cnosti izbire in v izogib popaˇ cenja vmesnih rezultatov. Prav tako, bi v eksperi- mentu, kjer smo primerjali besedne vrste, vplival na izbiro besednih vrst, v primeru glagola bi bili rezultati nepra- vilno viˇ sji, saj si je veliko glagolov in samostalnikov zelo podobnih, vendar se glagoli obiˇ cajno ne uporabljajo kot kljuˇ cne besede. Podobnost besed predstavimo s pragom podobnosti pridobljenim s pomoˇ cjo modela Word2vec. S tem ˇ zelimo Tabela 4: Rezultati najboljˇ se kombinacije v % Podobnost F1 P R 1,0 8,770 8,760 8,780 0,7 13,869 13,870 13,869 zgladiti napake pri prevajanju in poskuˇ samo upoˇ stevati subjektivnost in abstraktnost kljuˇ cnih besed. Ta korak je uporabljen izkljuˇ cno za grobo analizo rezultatov in ne vpliva na delovanje algoritma. Prag z vrednostjo 0,7 v tabeli 4 predstavlja vrednost mere podobnosti, nad katero se kljuˇ cna beseda ˇ steje kot pravilni zadetek. Prag 0,7 je bil doloˇ cen s preliminarni poizkusi in predstavlja smiselno vrednost pri kateri se pomensko podobne besede oznaˇ cijo kot sprejete, pomensko razliˇ cne besede pa se ˇ se vedno zavrnejo. Niˇ zji prag bi sicer prinesel boljˇ se kvantitativne rezultate, a same kljuˇ cne besede ne bi bile smiselne. 4.1 Opisna analiza Tabela 5: Primeri izluˇ sˇ cenih kljuˇ cnih besed Film Izluˇ sˇ cene besede The Matrix (1999) vrata, prerokba, morfej, konec, ˇ casa, poveljnik, programer, pro- gram, ˇ clovek, matrico, sion Fight Club (1999) gospod, tyler, ˇ zivljenje, stanovanje, rak, tylerja, daj, singer, ime, pretep Primere izluˇ sˇ cenih kljuˇ cnih besed vidimo v tabeli 5. S krepko so oznaˇ cene besede, ki se v pomenu ujemajo s kljuˇ cnimi besedami iz IMDb. Pojavljajo se imena kljuˇ cnih oseb v filmu, tudi mesta in prostori ter ostale pogoste besede. Vidimo, da so v prevedenih kljuˇ cnih besedah iz zbirke IMDb v tabeli 1, veliko bolj opisne besede, ki se v samih podnapisih nikoli ne pojavijo in jih je z naˇ sim pristopom nemogoˇ ce pridobiti. Te opisujejo dele filma in prizore, npr. presenetljiv konec in grafiˇ cno nasilje, ali pa opisujejo druge podatke o filmu kot npr. “trilogija” ali “ki temelji na romanu”. Kljub temu, je naˇ se subjektivno mnenje, da z naˇ sim pristopom pridobljene besede relativno dobro opisujejo filme, ˇ ceprav je v primerjavi z IMDb majhno ˇ stevilo za- detkov. 4.2 Primerjava Avtorji prispevka [3] so dosegli najboljˇ se rezultate z algo- ritmom TextRank, prepoznavo imenskih entitet in analizo pogovorov. Zaradi razliˇ cnega jezika in korpusov ne moremo nepo- sredno primerjati rezultatov. Vsaka metoda je prilagojena svojemu jeziku a sledi istim naˇ celom ekstrakcije kljuˇ cnih besed. Primerjavo zglajenih rezultatov lahko vidimo v tabeli 6. Tabela 6: Primerjava rezultatov v % Metoda F1 P R Prispevek [3] (angleˇ sˇ cina) 16,99 30,30 11,80 Naˇ s pristop (slovenˇ sˇ cina) 13,869 13,870 13,869 304 4.3 Diskusija Predlagan pristop k ekstrakciji kljuˇ cnih besed ima dve veliki omejitvi: a) Subjektivnost Kljuˇ cne besede za doloˇ cen film so zelo subjektivne narave. Ni standardne definicije kaj je in kaj ni kljuˇ cna beseda, saj je to odvisno od vsakega posameznika. To onemogoˇ ci kvantitativno ocenitev kvalitete algoritmov. Iz tega razloga sta naˇ sa eksperimenta uporabna samo za ocenitev vpliva posameznih delov in ne za ocenitev kvalitete pridobljenih kljuˇ cnih besed. b) Abstraktnost Kljuˇ cne besede pogosto vsebujejo abstraktne pojme, ki opisujejo film (npr. “razmerje oˇ ce-sin”). Te se skoraj nikoli ne pojavijo znotraj govora v filmu, kar onemogoˇ ci ekstrakcijo takˇ snih besed z naˇ sim pristopom. 5 Zakljuˇ cek V prispevku smo predstavili ogrodje za avtomatizirano ek- strakcijo kljuˇ cnih besed filmov iz njihovih podnapisov. V naˇ sem pristopu v prvi fazi odstranimo nepotrebne znaˇ cke HTML, ki jih lahko zasledimo v podnapisih, in besede brez pomena. Nato sledi faza filtriranja, kjer analiziramo in oznaˇ cimo besedne vrste. Posamezne stavke filtriramo tako, da odstranimo besedne vrste za katere ocenimo, da ne predstavljajo dobrih kljuˇ cnih besed. Sledi analiza imen- skih entitet, pri kateri odstranimo vsa lastna imena, ki ne ustrezajo domenam za katere ocenimo, da so nepomembne za kljuˇ cne besede. V zadnji fazi ekstrakcije kljuˇ cnih be- sed z uveljavljenimi algoritmi iz filtriranih podnapisov izluˇ sˇ cimo kljuˇ cne besede filma. Za analizo kvalitete in konfiguracije (izbira besednih vrst za odstranitev, domen imenskih entitet za odstranitev in izbira algoritma) naˇ sega ogrodja smo pridobili sloven- ske podnapise filmov iz Podnapisi.NET in pred-definirane angleˇ ske kljuˇ cne besede posameznih filmov iz baze IMDb. Kljuˇ cne besede smo prevedli v slovenski jezik. Problem ekstrakcije kljuˇ cnih besed smo, za potrebe vrednotenja, obravnavali kot klasifikacijski problem. Kljuˇ cne besede iz zbirke IMDb in njihove sinonime smo obravnavali kot pravilne. Analizirali smo kvaliteto izluˇ sˇ cenih kljuˇ cnih besed z algoritmoma TF-IDF in TextRank, pri ˇ cemer smo dodatno analizirali vpliv faze filtriranja (PIE). Rezultati nakazujejo, da dosega najboljˇ se rezultate kombinacija TextRank + PIE z upoˇ stevanjem sinonimov. Dodatno smo analizirali tudi vpliv nabora besednih vrst, ki se odstranjujejo v fazi PIE. Iz rezultatov je raz- vidno, da daje naˇ s pristop najboljˇ se rezultate, ˇ ce se od- stranijo vse besedne vrste razen lastnih imen (filtriranje domen), samostalnikov in pridevnikov. V povpreˇ cju smo dosegli ujemanje 13,96 kljuˇ cnih be- sed na film, v najslabˇ sem primeru 3 besede, v najboljˇ sem primeru 33 besed. 5.1 Nadaljnje delo Za ovrednotenje kvalitete pridobljenih kljuˇ cnih besed s predlaganim pristopom bi potrebovali subjektivne ocene. Te bi lahko pridobili z izvedbo vpraˇ salnika nad doloˇ ceno populacijo. Predvidevamo, da bi dosegli bolj smiselno razvrˇ sˇ cene kljuˇ cne besede z vpeljavo dodatne faze analize individual- nih pogovorov. V tej fazi bi razdelili podnapise na indivi- dualne pogovore, te pa ovrednotili glede na pomembnost. Kljuˇ cne besede, pridobljene iz pomembnih pogovorov, bi imele veˇ cjo teˇ zo kot tiste pridobljene iz nepomembnih pogovorov. Morebitno izboljˇ sanje bi lahko dosegli tudi z izbiro drugih algoritmov za ekstrakcijo kljuˇ cnih besed in podrob- nejˇ so analizo vplivov naˇ sih parametrov (mnoˇ zica dovo- ljenih leksikalnih domen, najveˇ c dovoljenih ponovitev, ...). Zahvala J. Brest in B. Boˇ skovi´ c priznavata financiranje prispevka s strani Javne agencije za raziskovalno dejavnost Republike Slovenije, raziskovalni program P2-0041 – Raˇ cunalniˇ ski sistemi, metodo- logije in inteligentne storitve. Literatura [1] Slobodan Beliga. Keyword extraction: a review of me- thods and approaches. University of Rijeka, Department of Informatics, Rijeka, pages 1–9, 2014. [2] Fei Liu, Feifan Liu, and Yang Liu. A supervised framework for keyword extraction from meeting transcripts. Audio, Speech, and Language Processing, IEEE Transactions on, 19:538 – 548, 04 2011. [3] Mat´ uˇ s Koˇ s´ ut and Mari´ an ˇ Simko. Improving keyword extraction from movie subtitles by utilizing temporal pro- perties. In R¯ usin ¸ˇ s M¯ artin ¸ˇ s Freivalds, Gregor Engels, and Barbara Catania, editors, SOFSEM 2016: Theory and Prac- tice of Computer Science, pages 544–555, Berlin, Heidel- berg, 2016. Springer Berlin Heidelberg. [4] Rada Mihalcea and Paul Tarau. TextRank: Bringing or- der into text. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pa- ges 404–411, Barcelona, Spain, July 2004. Association for Computational Linguistics. [5] NLTK. NLTK Data. Dostopno nahttps://github. com/nltk/nltk_data, 2019. [Dostopano 5. maja 2020]. [6] Darja Fiˇ ser. Semantic lexicon of slovene sloWNet 3.1, 2015. Slovenian language resource repository CLARIN.SI. [7] Gerard Salton and Christopher Buckley. Term-weighting approaches in automatic text retrieval. Information proces- sing & management, 24(5):513–523, 1988. [8] Nordic Language Processing Laboratory. NLPL word embeddings. Dostopno na http://vectors.nlpl. eu/repository/. [Dostopano 23. junija 2020]. [9] IMDb. https://www.imdb.com/. [Dostopano 18. junija 2020]. [10] Microsoft Translator. https://www.microsoft. com/en-us/translator/. [Dostopano 18. junija 2020]. [11] Podnapisi.NET. https://www.podnapisi.net/. [Dostopano 8. maja 2020].