ERK'2020, Portorož, 301-304 301
Ekstrakcija kljuˇ cnih besed ﬁlmov iz podnapisov
Jan Popiˇ c, Timi Ornik, Nejc Planer, Borko Boˇ skovi´ c, Janez Brest
Univerza v Mariboru, Fakulteta za elektrotehniko, raˇ cunalniˇ stvo in informatiko,
Koroˇ ska cesta 46, 2000 Maribor
E-poˇ sta: jan.popic1@um.si
Keyword extraction from movie subtitles
With large amounts of video content it is important to have
as much metadata as possible. Important metadata in
video content includes keywords which summarize the es-
sential elements in a given video. In this paper, we present
a framework for an automated approach to keyword ex-
traction from video content using their associated subtitles.
Framework is composed of three primary building blocks:
preprocessing, named-entity recognition and keyword ex-
traction. The goal of the ﬁrst two blocks is the removal of
information irrelevant to the keywords. In the ﬁnal stage,
the actual keywords are extracted from the preprocessed
subtitles. In the experiment, we compare the keywords
extracted with our framework to a set of predeﬁned key-
words obtained from the Internet Movie Database website.
We test our method on Slovene language and compare it
to a similar English model.
1 Uvod
V danaˇ snjih dneh je na voljo ogromna koliˇ cina video vse-
bin, le-te pa postajajo del naˇ sega vsakdana. Ker pa je v
tej poplavi vsebin pogosto teˇ zko najti takˇ sno, ki bi nas
zanimala, je posebej pomembno, da so dobro oznaˇ cene
z metapodatki. Eden izmed kljuˇ cnih metapodatkov o vi-
deo vsebini so kljuˇ cne besede. Z avtomatsko ekstrakcijo
kljuˇ cnih besed lahko neizmerno pohitrimo sicer roˇ cno
oznaˇ cevanje. Kljuˇ cne besede so uporabne predvsem za
priporoˇ cilne sisteme, pripise in oznake vsebin in povezo-
vanje s socialnimi omreˇ zji.
Ekstrakcija kljuˇ cnih besed je deﬁnirana kot postopek,
ki vhodnemu dokumentu dodeli nekaj besed ali besednih
zvez, s katerimi najbolje opiˇ semo njegovo vsebino [1].
Ker ima veˇ cina video vsebin v danaˇ snjih dneh vsaj neko
obliko pripadajoˇ cih podnapisov, smo se v naˇ sem delu osre-
dotoˇ cili samo na ekstrakcijo kljuˇ cnih besed iz slovenskih
podnapisov. Zaradi najlaˇ zjega dostopa do podnapisov in
obstojeˇ cih metapodatkov o vsebini, se bomo omejili samo
na ﬁlme. Enak pristop bi lahko preslikali na vsako video
vsebino, ki ima podnapise.
2 Sorodna dela
V [2] so se avtorji ukvarjali z ekstrakcijo kljuˇ cnih besed
iz prepisov (transkripcije) sestankov. Avtorji so izposta-
vili nekaj pomembnih razlik med prepisi govora in nava-
dnim pisanim besedilom (knjige, ˇ clanki, prispevki, itd.),
ki veljajo tudi za naˇ so domeno analize podnapisov video
vsebin:
1. V nenaˇ crtovanem pogovoru sta v stavku povpreˇ cno
dve pomenski besedi, za razliko od pisanega bese-
dila, kjer je v posameznem stavku od 4 do 6 pomen-
skih besed. To lahko predstavlja problem osnovnim
algoritmom ekstrakcije kljuˇ cnih besed, ki temeljijo
na frekvenci pojavitev.
2. V govorjenem besedilu je pogovor manj struktu-
riran. Manjkajo tudi dodatne informacije, ki jih
lahko zasledimo v drugih pisanih besedilih (naslovi,
odstavki, poglavja, itd.).
3. Za razliko od pisanih besedil, kjer je navadno en
sam avtor, imajo v prepisih razliˇ cni govorci razliˇ cne
sloge govorjenja in razliˇ cno rabo besed.
4. Ker je struktura govora ohlapna in ni zagotovila, da
je pravilna, se lahko pojavijo teˇ zave z oznaˇ cevanjem
besednih vrst (angl. POS tagging oz. part-of-speech
tagging).
Avtorji prispevka [3] so po naˇ sem znanju edini, ki
so uporabili dodatne informacije na voljo v podnapisih.
Njihov pristop je deljen na 5 osnovnih gradnikov: predob-
delava, prepoznava imenskih entitet, loˇ cevanje pogovorov,
ekstrakcija kljuˇ cnih besed in prilagoditev uteˇ zi kljuˇ cnih
besed. Poroˇ cali so o 11,2 % izboljˇ savi metrikeF1 z algo-
ritmom TextRank [4] in uporabo prej navedenih korakov
v primerjavi z uporabo algoritma TextRank nad celotno
vsebino podnapisov.
3 Zasnova algoritma
Naˇ s primarni cilj je bil izdelava sistema za ekstrakcijo
kljuˇ cnih besed ﬁlmov iz podnapisov, ki so v slovenskem
jeziku. Za enostavnejˇ se nadaljnje delo in preprosto ter in-
tuitivno uporabo smo ˇ zeleli izdelati ogrodje, ki omogoˇ ca
enostavno konﬁguracijo komponent (odstranjevanje in
spremembo posameznih delov ogrodja).
Pri snovanju naˇ sega pristopa smo se zgledovali po
podobnem pristopu za angleˇ ski jezik, ki so ga predstavili
avtorji v [3]. Vendar naˇ s pristop ne vsebuje loˇ cevanja
pogovorov, prav tako se v koraku prepoznave imenskih
entitet nismo omejili samo na unikatne besede, ki se nikoli
ne pojavijo z malo zaˇ cetnico, temveˇ c smo dovolili malo
302
ˇ stevilo ponovitev zaradi morebitnih slovniˇ cnih in besednih
napak v samih podnapisih. Naˇ s pristop je razdeljen na tri
osnovne gradnike:
a) Predobdelava
V tej fazi smo iz podnapisov izloˇ cili nepotrebne informa-
cije: vse znaˇ cke HTML (barvne, glasbene, naˇ cin govora,
oznaˇ cbe dogajanja), znake, ki nakazujejo spremembo go-
vorca (‘-’) in dvojne presledke. Prav tako smo iz vsake
datoteke s podnapisa odstranili zadnja dva podnapisa, ker
le-ta ponavadi vsebujeta podatke o avtorju prevoda, kar
ni pomembno za ekstrakcijo kljuˇ cnih besed. Nato smo
odstranili nepomembne in nepotrebne besede s pomoˇ cjo
v naprej deﬁniranega NLTK (angl. Natural Language
Toolkit) seznama nepomembnih besed [5].
b) Prepoznava imenskih entitet (PIE)
V tej fazi smo ﬁltrirali besedne vrste ter loˇ cili imenske
entitete (predmete iz resniˇ cnega sveta, na primer osebe ali
lokacije, ki jih lahko oznaˇ cimo z lastnimi imeni), ki so
primerne za kljuˇ cne besede od tistih, ki to niso.
Najprej smo nad vsebino posameznega podnapisa za-
gnali algoritem za oznaˇ cevanje besednih vrst, da smo pri-
dobili informacije o strukturi stavka. Iz posameznega
stavka se nato izbriˇ sejo vse besede, ki ne predstavljajo
ˇ zelenih besednih vrst (ˇ zelene besedne vrste so uporabniˇ sko
nastavljiv parameter).
Izmed besed, ki so ostale v stavku, se kot kandidatke
oznaˇ cijo vse besede, ki predstavljajo lastna imena in so
se z malo zaˇ cetnico ponovile najveˇ c dvakrat (na ta naˇ cin
omilimo morebitne sintaktiˇ cne napake v podnapisih).
Za vse kandidatke smo s pomoˇ cjo semantiˇ cnega le-
ksikona slovenˇ sˇ cine sloWNet [6] preverili, ali je njihova
leksikalna domena na seznamu dovoljenih (dovoljene do-
mene so uporabniˇ sko nastavljiv parameter). Vse, ki niso
ustrezale seznamu dovoljenih leksikalnih domen, smo od-
stranili iz stavkov.
c) Ekstrakcija kljuˇ cnih besed
Za samo ekstrakcijo kljuˇ cnih besed smo uporabili dva
razliˇ cna algoritma (TD-IDF [7] in TextRank), ki smo ju
nato med seboj primerjali po uspeˇ snosti.
3.1 Zbiranje podatkov
Korak prepoznave imenskih entitet potrebuje nekaj mode-
lov in korpusov (nabor besedil) za pravilno deljenje besed
(angl. tokenizer), oznaˇ cevanje besednih vrst in leksikalno
analizo. Uporabili smo sledeˇ ce modele in korpuse:
  seznam nepomembnih slovenskih besed iz NLTK,
  jezikovni model Punkt za deljenje povedi iz NLTK,
  korpus “MULTEXT-East 1984” za oznaˇ cevanje be-
sednih vrst iz NLTK,
  semantiˇ cni leksikon Open Multilingual Wordnet
za dodatne informacije in povezavo s sloWNet iz
NLTK,
  model Word2vec “Slovenian CoNLL17 corpus”
iz NLPL [8] za mero podobnosti in
  semantiˇ cni leksikon slovenˇ sˇ cine za pridobitev do-
men in sinonimov sloWNet.
Za uspeˇ sno analizo rezultatov potrebujemo dovolj ve-
liko testno mnoˇ zico podnapisov in kljuˇ cnih besed, ki pred-
stavljajo nabor kljuˇ cnih besed, ki so jih doloˇ cili uporabniki
in ocenjevali za najbolj primerne. Nabora kljuˇ cnih besed
za ﬁlme nismo naˇ sli v slovenskem jeziku, zato smo ga
pridobili v angleˇ skem jeziku iz spletne strani IMDb [9]
(urejene po ocenah uporabnikov). Kljuˇ cne besede smo
nato prevedli v slovenski jezik s pomoˇ cjo prevajalnika
Microsoft Translator [10]. Zaradi prevajanja smo morali
vse kljuˇ cne besede spremeniti v male ˇ crke. Podnapise smo
pridobili iz portala Podnapisi.NET [11], kjer pa ni nujno,
da obstaja podnapis za vsak izbran ﬁlm, ta pa je lahko tudi
napaˇ cen.
Zaradi samega prevajanja in naˇ cina pridobivanja pod-
napisov smo poslediˇ cno uvedli nekaj napak v naˇ s korpus.
Dodatne napake se lahko pojavijo tudi v samih podnapisih,
navadno tistih, ki ne izhajajo iz uradnih studiov. Izbrali
smo 100 najbolje ocenjenih ﬁlmov iz IMDb in pridobili
en podnapis ter 60 prevedenih kljuˇ cnih besed za vsak ﬁlm.
Primer nekaj kljuˇ cnih besed je viden v tabeli 1.
Tabela 1: Primeri kljuˇ cnih besed iz IMDb
Film Prevedene kljuˇ cne besede
The
Matrix
(1999)
simulirano resniˇ cnost, umetna realnost, pre-
rokba, programer, po apokalipsi, borilnih
veˇ sˇ cin, hacker, distopija, ˇ cloveˇ stvo v nevar-
nosti, tabletke
Fight
Club
(1999)
preseneˇ cenje konˇ ca, boj, proti obratu, mul-
tiple osebnostne motnje, nespeˇ cnost, proti
skladnosti, na podlagi novih, skupinsko
zdravljenje, proti kapitalizmu, pretep
4 Eksperiment
Naˇ s eksperiment smo zasnovali tako, da smo za vsak ﬁlm
iz podnapisov izluˇ sˇ cili kljuˇ cne besede z naˇ sim algorit-
mom, te pa smo nato primerjali s tistimi pridobljenimi
iz IMDb. Za pravilno pridobljeno kljuˇ cno besedo smo
upoˇ stevali dobesedno ujemanje, sinonime pridobljene iz
sloWNet in mero podobnosti. Pri tem nismo preverjali
ustreznih velikih zaˇ cetnic, saj ima naˇ sa zbirka pridobljenih
kljuˇ cnih besed izkljuˇ cno male ˇ crke. Za ovrednotenje smo
naˇ s pristop smatrali kot klasiﬁkator v en razred. Iz matrike
klasiﬁkacije (angl. confusion matrix) smo nato izraˇ cunali
metrikoF1 , natanˇ cnostP (angl. precision) in priklicR
(angl. recall).
Analizirali smo kombinacije algoritmov za ekstrakcijo
besed (TF-IDF in TextRank) z in brez modula prepoznave
imenskih entitetPIE (glej poglavje 3), saj nas je zanimal
vpliv tega modula na kvaliteto kljuˇ cnih besed.
V modulu PIE smo v tem primeru obdrˇ zali samo la-
stna imena, samostalnike, pridevnike in ˇ stevila. Iz lastnih
imen smo v nadaljevanju izluˇ sˇ cili samo tiste, ki imajo
veliko zaˇ cetnico in se ne pojavijo veˇ c kot dvakrat z malo
zaˇ cetnico. Izluˇ sˇ cene besede smo preverili s sloWNet in
odstranili vse, ki ne spadajo v izbrano domeno (obdrˇ zane
domene geography, chemistry, telecommunication, astro-
nomy, politics, animals so bile izbrane s subjektivno oceno
primernosti kljuˇ cnih besed). Pri odstranjevanju neˇ zelenih
303
besednih vrst se v povpreˇ cju odstrani 69 % unikatnih be-
sed, pri odstranjevanju neˇ zelenih leksikalnih domen - z
naˇ simi obdrˇ zanimi domenami - pa 1,5 %. Leksikalne do-
mene imajo vpliv predvsem na tip pridobljenih kljuˇ cnih
besed (subjektivna deﬁnicija kljuˇ cne besede), ne toliko
na kvaliteto. Skupno se v povpreˇ cju odstrani 71 % vseh
besed (vkljuˇ cno s ponovitvami).
Tabela 2: Primerjava razliˇ cnih kombinacij algoritmov v %
Metoda F1 P R
TF-IDF 1,468 1,468 1,469
TF-IDF + PIE 2,320 2,319 2,321
TF-IDF + PIE + S 8,061 8,061 8,061
TextRank 1,456 1,461 1,452
TextRank + PIE 1,979 1,988 1,969
TextRank + PIE + S 8,770 8,760 8,780
PIE - Prepoznava imenskih entitet, S - Sinonimi
Vse kombinacije algoritmov in njihovi rezultati so
vidni v tabeli 2.
Najveˇ cjo natanˇ cnost brez upoˇ stevanja sinonimov je do-
segel algoritem TF-IDF. Brez modula PIE ima algoritem
TF-IDF le majhno prednost pred algoritmom TextRank,
ˇ ce vkljuˇ cimo modul PIE se oba rezultata izboljˇ sata, raz-
lika med rezultatoma obeh algoritmov pa postane bolj
oˇ citna. Z upoˇ stevanjem sinonimov pa ima TextRank ˇ se
veˇ cjo natanˇ cnost.
Nadalje nas je zanimal vpliv nabora besednih vrst,
ki se v modulu PIE izbriˇ sejo. Za analizo tega smo iz-
brali algoritem TextRank, saj se je izkazalo, da dosega
najboljˇ se rezultate za naˇ s problem, ﬁltriranje domen pa
smo izkljuˇ cili. Kot je razvidno iz tabele 3, imajo najveˇ cji
vpliv na rezultat glagoli, saj se ti v podnapisih velikokrat
pojavijo, so pa le redko kljuˇ cne besede.
Tabela 3: Vpliv nabora besednih vrst v %
Obdrˇ zani ˇ cleni F1 P R
Vsi + S 5,435 5,429 5,441
NN, A, NUM, V + S 7,066 6,959 7,176
NN, A, NUM + S 8,660 8,647 8,674
NN, A + S 8,770 8,760 8,780
NN - Samostalniki, A - Pridevniki, NUM -
ˇ
Stevila,
V - Glagoli, S - Sinonimi
Na koncu nas je zanimala ˇ se primerjava z upoˇ stevanjem
podobnosti izluˇ sˇ cenih kljuˇ cnih besed s pridobljenimi na
najboljˇ sih kombinacijah iz prejˇ snjih eksperimentov (algo-
ritem TextRank, modul PIE s samostalniki in pridevniki
ter upoˇ stevanje sinonimov).
Podobnosti besed v vmesnih eksperimentih nismo
upoˇ stevali s ciljem veˇ cje natanˇ cnosti izbire in v izogib
popaˇ cenja vmesnih rezultatov. Prav tako, bi v eksperi-
mentu, kjer smo primerjali besedne vrste, vplival na izbiro
besednih vrst, v primeru glagola bi bili rezultati nepra-
vilno viˇ sji, saj si je veliko glagolov in samostalnikov zelo
podobnih, vendar se glagoli obiˇ cajno ne uporabljajo kot
kljuˇ cne besede.
Podobnost besed predstavimo s pragom podobnosti
pridobljenim s pomoˇ cjo modela Word2vec. S tem ˇ zelimo
Tabela 4: Rezultati najboljˇ se kombinacije v %
Podobnost F1 P R
1,0 8,770 8,760 8,780
0,7 13,869 13,870 13,869
zgladiti napake pri prevajanju in poskuˇ samo upoˇ stevati
subjektivnost in abstraktnost kljuˇ cnih besed. Ta korak
je uporabljen izkljuˇ cno za grobo analizo rezultatov in ne
vpliva na delovanje algoritma. Prag z vrednostjo 0,7 v
tabeli 4 predstavlja vrednost mere podobnosti, nad katero
se kljuˇ cna beseda ˇ steje kot pravilni zadetek. Prag 0,7 je bil
doloˇ cen s preliminarni poizkusi in predstavlja smiselno
vrednost pri kateri se pomensko podobne besede oznaˇ cijo
kot sprejete, pomensko razliˇ cne besede pa se ˇ se vedno
zavrnejo. Niˇ zji prag bi sicer prinesel boljˇ se kvantitativne
rezultate, a same kljuˇ cne besede ne bi bile smiselne.
4.1 Opisna analiza
Tabela 5: Primeri izluˇ sˇ cenih kljuˇ cnih besed
Film Izluˇ sˇ cene besede
The Matrix
(1999)
vrata, prerokba, morfej, konec,
ˇ casa, poveljnik, programer, pro-
gram, ˇ clovek, matrico, sion
Fight Club
(1999)
gospod, tyler, ˇ zivljenje, stanovanje,
rak, tylerja, daj, singer, ime, pretep
Primere izluˇ sˇ cenih kljuˇ cnih besed vidimo v tabeli 5. S
krepko so oznaˇ cene besede, ki se v pomenu ujemajo s
kljuˇ cnimi besedami iz IMDb. Pojavljajo se imena kljuˇ cnih
oseb v ﬁlmu, tudi mesta in prostori ter ostale pogoste
besede. Vidimo, da so v prevedenih kljuˇ cnih besedah iz
zbirke IMDb v tabeli 1, veliko bolj opisne besede, ki se
v samih podnapisih nikoli ne pojavijo in jih je z naˇ sim
pristopom nemogoˇ ce pridobiti. Te opisujejo dele ﬁlma in
prizore, npr. presenetljiv konec in graﬁˇ cno nasilje, ali pa
opisujejo druge podatke o ﬁlmu kot npr. “trilogija” ali “ki
temelji na romanu”.
Kljub temu, je naˇ se subjektivno mnenje, da z naˇ sim
pristopom pridobljene besede relativno dobro opisujejo
ﬁlme, ˇ ceprav je v primerjavi z IMDb majhno ˇ stevilo za-
detkov.
4.2 Primerjava
Avtorji prispevka [3] so dosegli najboljˇ se rezultate z algo-
ritmom TextRank, prepoznavo imenskih entitet in analizo
pogovorov.
Zaradi razliˇ cnega jezika in korpusov ne moremo nepo-
sredno primerjati rezultatov. Vsaka metoda je prilagojena
svojemu jeziku a sledi istim naˇ celom ekstrakcije kljuˇ cnih
besed. Primerjavo zglajenih rezultatov lahko vidimo v
tabeli 6.
Tabela 6: Primerjava rezultatov v %
Metoda F1 P R
Prispevek [3] (angleˇ sˇ cina) 16,99 30,30 11,80
Naˇ s pristop (slovenˇ sˇ cina) 13,869 13,870 13,869
304
4.3 Diskusija
Predlagan pristop k ekstrakciji kljuˇ cnih besed ima dve
veliki omejitvi:
a) Subjektivnost
Kljuˇ cne besede za doloˇ cen ﬁlm so zelo subjektivne narave.
Ni standardne deﬁnicije kaj je in kaj ni kljuˇ cna beseda,
saj je to odvisno od vsakega posameznika. To onemogoˇ ci
kvantitativno ocenitev kvalitete algoritmov. Iz tega razloga
sta naˇ sa eksperimenta uporabna samo za ocenitev vpliva
posameznih delov in ne za ocenitev kvalitete pridobljenih
kljuˇ cnih besed.
b) Abstraktnost
Kljuˇ cne besede pogosto vsebujejo abstraktne pojme, ki
opisujejo ﬁlm (npr. “razmerje oˇ ce-sin”). Te se skoraj
nikoli ne pojavijo znotraj govora v ﬁlmu, kar onemogoˇ ci
ekstrakcijo takˇ snih besed z naˇ sim pristopom.
5 Zakljuˇ cek
V prispevku smo predstavili ogrodje za avtomatizirano ek-
strakcijo kljuˇ cnih besed ﬁlmov iz njihovih podnapisov. V
naˇ sem pristopu v prvi fazi odstranimo nepotrebne znaˇ cke
HTML, ki jih lahko zasledimo v podnapisih, in besede
brez pomena. Nato sledi faza ﬁltriranja, kjer analiziramo
in oznaˇ cimo besedne vrste. Posamezne stavke ﬁltriramo
tako, da odstranimo besedne vrste za katere ocenimo, da
ne predstavljajo dobrih kljuˇ cnih besed. Sledi analiza imen-
skih entitet, pri kateri odstranimo vsa lastna imena, ki ne
ustrezajo domenam za katere ocenimo, da so nepomembne
za kljuˇ cne besede. V zadnji fazi ekstrakcije kljuˇ cnih be-
sed z uveljavljenimi algoritmi iz ﬁltriranih podnapisov
izluˇ sˇ cimo kljuˇ cne besede ﬁlma.
Za analizo kvalitete in konﬁguracije (izbira besednih
vrst za odstranitev, domen imenskih entitet za odstranitev
in izbira algoritma) naˇ sega ogrodja smo pridobili sloven-
ske podnapise ﬁlmov iz Podnapisi.NET in pred-deﬁnirane
angleˇ ske kljuˇ cne besede posameznih ﬁlmov iz baze IMDb.
Kljuˇ cne besede smo prevedli v slovenski jezik. Problem
ekstrakcije kljuˇ cnih besed smo, za potrebe vrednotenja,
obravnavali kot klasiﬁkacijski problem. Kljuˇ cne besede
iz zbirke IMDb in njihove sinonime smo obravnavali kot
pravilne.
Analizirali smo kvaliteto izluˇ sˇ cenih kljuˇ cnih besed z
algoritmoma TF-IDF in TextRank, pri ˇ cemer smo dodatno
analizirali vpliv faze ﬁltriranja (PIE). Rezultati nakazujejo,
da dosega najboljˇ se rezultate kombinacija TextRank + PIE
z upoˇ stevanjem sinonimov.
Dodatno smo analizirali tudi vpliv nabora besednih
vrst, ki se odstranjujejo v fazi PIE. Iz rezultatov je raz-
vidno, da daje naˇ s pristop najboljˇ se rezultate, ˇ ce se od-
stranijo vse besedne vrste razen lastnih imen (ﬁltriranje
domen), samostalnikov in pridevnikov.
V povpreˇ cju smo dosegli ujemanje 13,96 kljuˇ cnih be-
sed na ﬁlm, v najslabˇ sem primeru 3 besede, v najboljˇ sem
primeru 33 besed.
5.1 Nadaljnje delo
Za ovrednotenje kvalitete pridobljenih kljuˇ cnih besed s
predlaganim pristopom bi potrebovali subjektivne ocene.
Te bi lahko pridobili z izvedbo vpraˇ salnika nad doloˇ ceno
populacijo.
Predvidevamo, da bi dosegli bolj smiselno razvrˇ sˇ cene
kljuˇ cne besede z vpeljavo dodatne faze analize individual-
nih pogovorov. V tej fazi bi razdelili podnapise na indivi-
dualne pogovore, te pa ovrednotili glede na pomembnost.
Kljuˇ cne besede, pridobljene iz pomembnih pogovorov, bi
imele veˇ cjo teˇ zo kot tiste pridobljene iz nepomembnih
pogovorov.
Morebitno izboljˇ sanje bi lahko dosegli tudi z izbiro
drugih algoritmov za ekstrakcijo kljuˇ cnih besed in podrob-
nejˇ so analizo vplivov naˇ sih parametrov (mnoˇ zica dovo-
ljenih leksikalnih domen, najveˇ c dovoljenih ponovitev,
...).
Zahvala
J. Brest in B. Boˇ skovi´ c priznavata ﬁnanciranje prispevka s strani
Javne agencije za raziskovalno dejavnost Republike Slovenije,
raziskovalni program P2-0041 – Raˇ cunalniˇ ski sistemi, metodo-
logije in inteligentne storitve.
Literatura
[1] Slobodan Beliga. Keyword extraction: a review of me-
thods and approaches. University of Rijeka, Department of
Informatics, Rijeka, pages 1–9, 2014.
[2] Fei Liu, Feifan Liu, and Yang Liu. A supervised framework
for keyword extraction from meeting transcripts. Audio,
Speech, and Language Processing, IEEE Transactions on,
19:538 – 548, 04 2011.
[3] Mat´ uˇ s Koˇ s´ ut and Mari´ an
ˇ
Simko. Improving keyword
extraction from movie subtitles by utilizing temporal pro-
perties. In R¯ usin ¸ˇ s M¯ artin ¸ˇ s Freivalds, Gregor Engels, and
Barbara Catania, editors, SOFSEM 2016: Theory and Prac-
tice of Computer Science, pages 544–555, Berlin, Heidel-
berg, 2016. Springer Berlin Heidelberg.
[4] Rada Mihalcea and Paul Tarau. TextRank: Bringing or-
der into text. In Proceedings of the 2004 Conference on
Empirical Methods in Natural Language Processing, pa-
ges 404–411, Barcelona, Spain, July 2004. Association for
Computational Linguistics.
[5] NLTK. NLTK Data. Dostopno nahttps://github.
com/nltk/nltk_data, 2019. [Dostopano 5. maja
2020].
[6] Darja Fiˇ ser. Semantic lexicon of slovene sloWNet 3.1,
2015. Slovenian language resource repository CLARIN.SI.
[7] Gerard Salton and Christopher Buckley. Term-weighting
approaches in automatic text retrieval. Information proces-
sing & management, 24(5):513–523, 1988.
[8] Nordic Language Processing Laboratory. NLPL word
embeddings. Dostopno na http://vectors.nlpl.
eu/repository/. [Dostopano 23. junija 2020].
[9] IMDb. https://www.imdb.com/. [Dostopano 18.
junija 2020].
[10] Microsoft Translator. https://www.microsoft.
com/en-us/translator/. [Dostopano 18. junija
2020].
[11] Podnapisi.NET. https://www.podnapisi.net/.
[Dostopano 8. maja 2020].