U P O R A B N A  I N F O R M A T I K A14 2020 - πtevilka 1 - letnik XXVIII
Mladen	Borovič,	Sandi	Majninger,	Jani	Dugonik,	Marko	Ferme,	Milan	Ojsteršek	
Univerza	v	Mariboru,	Fakulteta	za	elektrotehniko,	računalništvo	in	informatiko	Koroška	cesta	46,	2000	Maribor
mladen.borovic@um.si,	sandi.majninger@um.si,	jani.dugonik@um.si,	marko.ferme@um.si,	milan.ojstersek@um.si
	Hibridni	pristop	za	priporočanje	
vrstilcev	univerzalne	decimalne	
klasifikacije
Izvleček
V	prispevku	predstavljamo	hibridni	pristop	za	priporočanje	vrstilcev	univerzalne	decimalne	klasifikacije.	S	pomočjo	takšnega	pristopa	
lahko	knjižničarjem	omogočimo	polavtomatsko	določanje	vrstilcev	univerzalne	de-	cimalne	klasifikacije	iz	vsebine	že	obstoječih	uvr-
ščenih	gradiv.	Hibridni	pristop	deluje	na	podlagi	združevanja	rezultata	metode	BM25	in	naivnega	Bayesovega	klasifikatorja,	kjer	oba	
pristopa	vrneta	seznam	priporočenih	vrstilcev.	Oba	seznama	združimo	v	končni	seznam	priporočil	z	združevalno	funkcijo.	V	prispev-
ku	podrobneje	opišemo	korpus,	obliko	podatkov,	obliko	vrstilcev	univerzalne	decimalne	klasifikacije	in	delovanje	posamezne	metode	
znotraj	hibridnega	pristopa.	Podamo	tudi	rezultate	metrik	natančnosti,	priklica	in	Fß	za	sezname	priporočil	na	korpusu	besedil	iz	
nacionalne	infrastrukture	odprtega	dostopa.
Ključne	besede: digitalne	knjižnice,	hibridni	priporočilni	sistemi,	programska	oprema	v	knjižnicah,	Univer-	zalna	decimalna	klasifikacija
Abstract	
In	this	article	we	present	a	hybrid	approach	to	recommending	the	Universal	Decimal	Classification	notation	for	unclassified	docu-
ments.	By	recommending	Universal	Decimal	Classification	notation	to	librarians,	we	can	enable	them	to	semi-automatically	deter-
mine	the	notation	using	already	classified	documents.	The	hybrid	approach	combines	the	BM25	method	and	the	naive	Bayes	clas-
sifier,	where	both	methods	return	a	list	of	recommended	notations.	Both	lists	are	merged	into	a	final	recommendation	list	using	a	
custom	merge	function.	In	detail	we	present	the	Universal	Decimal	Classification	notation	structure,	the	corpus	of	documents,	the	
inputs	to	our	methods	and	the	inner	workings	of	our	hybrid	approach	consisting	of	both	methods.	We	provide	the	measurement	
results	of	the	recommendation	lists	for	the	corpus	from	the	National	Open-Access	Infrastructure	in	the	form	of	precision,	recall	
and	Fß	metrics.
Keywords: digital	libraries,	hybrid	recommender	systems,	library	software,	Universal	Decimal	Classification
1 UvoD
Z razvojem spletnih iskalnikov sta se področji ra-
čunalništva in knjižničarstva združili v interdisci-
plinarno področje digitalnih knjižnic, ki se ukvarja 
predvsem z organizacijo, skladiščenjem, obdelavo 
in klasifikacijo dokumentov. Predvsem klasifikacija 
dokumentov je raziskovalno zelo aktivno področje. 
Kljub temu, da je na tem področju veliko različnih 
metod, ne obstaja veliko metod za avtomatizirano 
klasificiranje po knjižničarskih klasifikatorjih, kot 
so univerzalna decimalna klasifikacija (UDK) [Sla-
vic, 2004], Deweyjeva decimalna klasifikacija (DDK) 
[Wang, 2009] in klasifikacija Library of Congress 
(LCC) [Godby & Stuler, 2003], [Frank & Paynter, 
2004]. Obstajajo še drugi klasifikacijski sistemi, ki so 
ekskluzivno namenjeni določenim jezikom (npr. v 
Aziji obstajajo Kitajska, Japonska in Korejska knji-
žničarska klasifikacija). Ne glede na sistem klasifi-
kacije se večina gradiv po svetu še vedno klasificira 
ročno ‒ bodisi zaradi nezaupanja v avtomatizirano 
klasifikacijo, bodisi zaradi nezadovoljivega rezulta-
ta le-te.
zNANStVENI prISpEVkI
U P O R A B N A  I N F O R M A T I K A 152020 - πtevilka 1 - letnik XXVIII
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
Problem nezaupanja v avtomatizirano klasifika-
cijo je potrebno s stališča knjižničarjev razumeti, saj 
bodo ob napačni klasifikaciji imeli dodatno delo s 
popravljanjem zapisov v digitalnih knjižnicah, obe-
nem pa takšni zapisi ne bodo zlahka dostopna, saj jih 
uporabniki ne bodo mogli najti s trenutnimi iskalni-
mi postopki. V prispevku se zavedamo tega proble-
ma in v želji po zmanjšanju nezaupanja, poskušamo 
knjižničarjem približati avtomatizirano klasifikacijo 
z uvedbo priporočanja ustreznih vrstilcev klasifika-
cije. Ker knjižničar dobi le priporočilo, katere vrstilce 
naj uporabi, se lahko še vedno odloči drugače - gre 
torej za polavtomatsko klasifikacijo.
V prispevku opisujemo hibridni pristop priporo-
čanja vrstilcev univerzalne decimalne klasifikacije, ki 
uporablja uveljavljeno iskalno metodo BM25 in naiv-
ni Bayesov klasifikator. V drugem poglavju opišemo 
vrste priporočilnih sistemov in uporabo le-teh v digi-
talnih knjižnicah. Tretje poglavje opisuje univerzalno 
decimalno klasifikacijo. V četrtem poglavju opišemo 
obliko, pripravo in obdelavo podatkov korpusa bese-
dil iz nacionalne infrastrukture odprtega dostopa. V 
petem poglavju opisujemo hibridni pristop k pripo-
ročanju z uporabo metode BM25 in naivnega Bayeso-
vega klasifikatorja. Šesto poglavje vsebuje rezultate 
primerjave meritev metrik natančnosti, priklica in Fβ 
med metodo BM25, naivnim Bayesovim klasifikator-
jem in predstavljeno hibridno metodo. V sedmem 
poglavju podamo zaključke in nekaj idej za izboljša-
vo hibridne metode.
2	 PRIPOROčILNI	SISTemI	V	DIgITALNIH	
KNJIžNIcAH
V zadnjih letih smo lahko opazili razmah priporočil-
nih sistemov na veliko področij. Dandanes se najbolj 
uporabljajo v spletnih iskalnikih, družbenih omrežjih 
in raznih multimedijskih storitvah kot so YouTube, 
Netflix, Spotify in Last.fm. Priporočilni sistemi za 
svoje delovanje v glavnem uporabljajo dva tipa filtri-
ranja podatkov. To sta vsebinsko filtriranje (angl. con-
tent-based filtering) in sodelovalno filtriranje (angl. 
collaborative filtering) [Melville & Sindhwani, 2017].
Vsebinsko filtriranje podatkov uporablja opis 
objekta priporočanja v nestrukturirani obliki, kot je 
recimo besedilo, ali pa v strukturirani obliki, kjer 
ima objekt vnaprej znane lastnosti, po katerih defi-
niramo filtre. Ključnega pomena je torej opis objekta 
priporočanja, saj ta metoda z metrikami podobnosti 
išče podobne objekte priporočanja. Kadar imamo 
opravka s podatki v strukturirani obliki, so metrike 
podobnosti navadno kosinusna razdalja, Jaccardov 
indeks in Pearsonova korelacija [Lops et al., 2011]. 
Nestrukturirani podatki so ponavadi podani z be-
sedilom zato so metrike podobnosti v tem primeru 
omejene na metrike podobnosti, ki jih uporabljamo 
v procesiranju naravnega jezika. Natančneje je v tem 
primeru zelo pogosta uporaba utežne sheme tf -idf v 
kombinaciji z razvrščevalno metodo BM25.
Sodelovalno filtriranje se v nasprotju z vsebinskim 
filtriranjem ne osredotoča na sam opis objekta pripo-
ročanja, temveč na uporabniško interakcijo z objekti 
priporočanja. Za ta tip filtriranja je pomembno, ali si 
je uporabnik objekt priporočanja ogledal, koliko časa 
ga je gledal in ali je opravil kakšno pomembnejšo in-
terakcijo s tem objektom. V primeru spletnih trgovin 
je to nakup izdelka, v primeru digitalnih knjižnic pa 
prenos dokumenta na računalnik.
Tako vsebinsko kot sodelovalno filtriranje imata 
svoje slabosti. Glavna slabost sodelovalnega filtrira-
nja je problem hladnega začetka. To je situacija, v ka-
teri se znajdemo čisto na začetku, kadar še nimamo 
aktivnih uporabnikov in posledično nimamo podat-
kov o uporabniški interakciji z objekti priporočanja. 
Slabost vsebinskega priporočanja je prekomerna 
specializacija, kjer priporočilni sistem uporabniku 
priporoča zgolj eno vrsto objektov priporočanja, kar 
pa ni vedno zaželjeno. V tem primeru se poslužimo 
hibridnih priporočilnih sistemov, ki združujejo dve 
ali več metod filtriranja v eno samo z namenom iz-
ogibanja slabostim posamezne metode. Največkrat 
hibridni priporočilni sistemi združujejo sodelovalno 
in vsebinsko filtriranje, odvisno od ciljne uporabe 
priporočilnega sistema pa lahko združujemo tudi 
več tehnik sodelovalnega filtriranja oziroma več teh-
nik vsebinskega filtriranja. V splošnem poznamo več 
načinov hibridizacije [Burke, 2002]. Z utežno hibri-
dizacijo sestavimo oceno podobnosti iz ocen vseh 
vključenih metod. Pri preklopni hibridizaciji sistem 
preklaplja med vključenimi metodami po potrebi 
ali glede na situacijo. Mešana hibridizacija rezultate 
vključenih metod prikaže skupaj v enem seznamu 
priporočil. Hibridizacija s kombinacijo značilk deluje 
tako, da so značilke iz več virov združene in se upo-
rabijo kot vhod v eno tehniko priporočanja. Podobno 
deluje hibridizacija z obogatenjem značilk, kjer se 
ena metoda uporabi za pridobivanje značilk, ki so 
vhod drugi metodi. Kaskadna hibridizacija v delova-
nje vnaša zaporedje uporabe različnih metod. Naza-
U P O R A B N A  I N F O R M A T I K A16 2020 - πtevilka 1 - letnik XXVIII
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
dnje, hibridizacija na meta ravni deluje tako, da ena 
metoda zgradi model, ki je vhod naslednji metodi.
V digitalnih knjižnicah se priporočilni sistemi 
uporabljajo predvsem v namene priporočanja doku-
mentov in dru- gih gradiv, ki jih digitalne knjižnice 
ponujajo [Bai et al., 2019]. Priporočilni sistemi opi-
sani v [Beel et al., 2017] in [Porcel et al., 2009] so bili 
zasnovani specifično za uporabo v digitalnih knjižni-
cah z namenom, da razi- skovalcem pomagajo najti 
zanimive publikacije. Podobno lahko takšne pripo-
ročilne sisteme zasledimo v akademskih družbenih 
omrežjih, kot je na primer Mendeley [Vargas et al., 
2016]. V Sloveniji obstaja hibridni priporočilni sis-
tem, ki deluje na nacionalni infrastrukturi odprtega 
dostopa in navzkrižno priporoča gradiva med digi-
talnimi knjižnicami in repozitoriji slovenskih univerz 
[Ojsteršek et al., 2014]. V tem primeru gre za kaska-
dno hibridizacijo z metodo vsebinskega filtriranja, ki 
ji sledi sodelovalno filtriranje.
3	 UNIVeRzALNA	DecImALNA	KLASIFIKAcIJA
Univerzalna decimalna klasifikacija (v nadaljevanju 
UDK) je knjižnični klasifikacijski sistem, ki služi kot 
orodje za vsebinsko označevanje dokumentov in is-
kanje po njih. Plačljiva licenca za UDK obsega več kot 
70.000 vrstilcev.Obstaja tudi zastonjska različica, ki 
pa je močno okrnjena na okoli 2500 vrstilcev. Z upo-
rabo tega klasifikacijskega sistema se lahko vsakemu 
dokumentu določi vrstilec, ki dokument uvršča v po-
dročje. UDK sestavljajo glavne tabele in pomožne ta-
bele, kjer glavne tabele določajo področja človeškega 
znanja, pomožne pa dodatne informacije o področju 
(npr. čas, kraj, jezik in obliko). Izraz UDK je lahko 
preprost ali sestavljen. V slednjem primeru se upora-
bijo znaki za povezovanje, ki opisujejo tip povezave 
med vrstilci. Tako lahko z izrazom UDK opisujemo 
tudi interdisciplinarne dokumente. V tabelah 1-3 so 
podani zgledi vrstilcev in izrazov UDK.
Vrstilec Področja	
0 Znanost	in	znanje.	Organizacije.	Informacije.	Dokumentacija.	Bibliotekarstvo.	Institucije.	Publikacije.
1 Filozofija.	Psihologija.
2 Teologija.	Verstva.
3 Družbene	vede.	Politika.	Ekonomija.	Pravo.	Izobraževanje.
5 Matematika.	Naravoslovje.
6 Uporabne	znanosti.	Medicina.	Tehnika.
7 Umetnost.	Arhitektura.	Fotografija.	Glasba.	Šport.
8 Jezik.	Književnost
9 Geografija.	Biografija.	Zgodovina.
Tabela	1:	Vrstilci	vrhnjih	področij	univerzalne	decimalne	klasifikacije.
Vrstilec Opis	področja
004 Računalniška	znanost	in	tehnologija.	Računalništvo.	Obdelava	podatkov
004.7 Računalniške	komunikacije.	Računalniška	omrežja
004.73 Omrežja	glede	na	prostranost
004.738 Medsebojno	povezovanje	omrežij.	Medomrežanje
Tabela	2:	Hierarhična	struktura	vrstilcev	univerzalne	decimalne	klasifikacije	za	področje	Računalništvo	(004),	veja	Računalniške	komunikacije,	
Računalniška	omrežja	(004.7).
Vrstilec Izkax	UDK
Preprost 519.85(043.2)
Sestavljen 336.778(043.2):336.713/.717(497.4)
Tabela	3:	Primer	preprostega	in	sestavljenega	izraza	UDK.	Preprost	izraz	vsebuje	splošni	privesni	vrstilec	za	obliko	(043.2).	Sestavljen	izraz	vsebuje	
enostaven	odnos	(znak	„:“),	zaporedno	razširitev	(znak	„/“),	splošni	privesni	vrstilec	za	obliko	(043.2)	in	splošni	privesni	vrstilec	za	kraj	(497.4).
U P O R A B N A  I N F O R M A T I K A 172020 - πtevilka 1 - letnik XXVIII
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
Za pridobitev izraza UDK je potrebna katalogiza-
cija oziroma zahteva knjižničarjem v primerih, ko gre 
za zaključna dela. Knjižničarji z uporabo geslovnika 
ugotovijo, katere vrstilce naj dodajo v izraz UDK 
tako, da v geslovnik [Zalokar, Matjaž, 2002b], [Zalo-
kar, Matjaž, 2002a] vnesejo ključne besede oziroma 
predmetne oznake. V primeru zaključnih del mora 
avtor knjižničarjem posredovati naslov, mentorja, 
ključne besede, povzetek in kazalo. Knjižničarji nato 
iz naslova in ključnih besed pridobijo vhod za ge-
slovnik, na podlagi povzetka, kazala in mentorja pa 
se dokončno odločijo za primerne vrstilce UDK. Ce-
loten proces pridobitve izraza UDK ponavadi traja 
do 2 dni. Kvaliteta izraza UDK je odvisna od geslov-
nika in števila vrstilcev UDK, ki jih imajo knjižničarji 
na voljo.
4	 KORPUS	beSeDIL	IN	ObDeLAVA	PODATKOV
V prispevku uporabljamo korpus besedil pridobljen 
iz nacionalne infrastrukture odprtega dostopa [Oj-
steršek et al., 2014], ki se je izvedla v letu 2013 in obse-
ga zaključna dela in znanstvene publika- cije iz vseh 
slovenskih univerz. Gre za obširen korpus besedil v 
slovenščini, ki obsega okoli 200.000 dokumentov in 
je segmentiran na ključne besede, naslove, povzetke, 
polno besedilo in vsebuje dodatne informacije o be-
sedilih - med njimi tudi izraze UDK. Ker vsa besedila 
v korpusu nacionalne infrastrukture nimajo vseh in-
formacij na voljo, smo uporabili filtrirano podmno-
žico 10.000 besedil, v kateri so vsa besedila, ki imajo 
podatek o naslovu, ključnih besedah, polnem besedi-
lu in izrazu UDK. V nadaljnji obdelavi podatkov smo 
delali s polnimi besedili, kjer smo dodatno utežili be-
sede v naslovih in ključnih besedah.
4.1	 Predobdelava	besedil
Iz vseh besedil smo najprej tvorili besedne uni-, bi- 
in tri-grame ter izvedli vse možne permutacije med 
njimi. Nad besednimi n-grami smo uporabili tudi 
postopek lematizacije tako, da smo hkrati hranili 
lematizirane in nelematizirane besedne n-grame. 
Nato smo za to množico izračunali uteži tf in idf . 
Utež tf predstavlja frekvenco določenega besedne-
ga n-grama v dokumentu, utež idf pa pomembnost 
besednega n-grama glede na celotno zbirko doku-
mentov. Tako smo dobili sezname vseh možnih be-
sednih n-gramov in njihove pojavitve v dokumen-
tih, kot tudi število dokumentov v katerih se po-
javljajo. Z enoličnim identifikatorjem dokumenta 
smo lahko dostopali tudi do njegovega izraza UDK 
in s tem povezali izraze UDK s pripadajočimi bese-
dnimi n-grami.
4.2	 Razpoznavalnik	izrazov	UDK
Ker je v korpusu besedil veliko takšnih, ki imajo 
sestavljen izraz UDK, smo zasnovali preprost raz-
poznavalnik izrazov UDK, ki zna iz sestavljenega 
izraza UDK vrniti vse vrstilce UDK. Pri tem smo 
upoštevali priredno in zaporedno razširitev, eno-
stavne odnose, in podrobno delitev. Ostalih zna-
kov za povezovanje nismo obravnavali, saj je bilo 
število dokumentov s temi znaki za povezovanje 
zanemarljivo. Prav tako nismo upoštevali splošnih 
privesnih vrstilcev.
Za povezavo z UDK smo uporabili brezplačno 
slovensko različico UDK v obliki povezanih odpr-
tih podatkov (angl. linked open data) [UDC Con-
sortium (UDCC), 2012]. Le-ta obsega 1445 vrstilcev 
UDK s slovenskim prevodom. Ta zbirka je v obliki 
parov (vrstilec, prevod). Zaradi omejenega števila 
brezplačnih vrstilcev je razpoznavanje v nekaterih 
Vhod Izhod
[004.94:621.952.8]+658.8(043.2) 004.94
621.9
658.
003.63	8
711.4:711.1:158.937:003.63(497.4Slovenska	
Bistrica)(043.2)
711.4
711.1
158.937
Tabela	4:	Primer	delovanja	razpoznavalnika	izrazov	UDK.	Vrstilec	
621.952.8	je	bil	razpoznan	kot	621.9.
primerih omejeno po globini univerzalne decimalne 
klasifikacije, kot je razvidno v tabeli 4.
Po obdelavi z razpoznavalnikom izrazov UDK 
smo preverili, kakšna je porazdelitev razpoznanih 
izrazov UDK v izbranem korpusu besedil. Preverili 
smo dolžino razpoznanih izrazov, saj dolžina izraza 
predstavlja globino v hierarhiji UDK in neposredno 
vpliva na specifičnost kategorizacije. Manjša dolžina 
izraza UDK pomeni splošnejšo kategorizacijo, večja 
dolžina izraza UDK pa specifično kategorizacijo (ta-
beli 1 in 2). Dolžino razpoznanega izraza UDK smo v 
meritvah uporabljali kot parameter. Tako smo lahko 
preverili, kako se uporabljene metode obnesejo na 
različnih nivojih specifičnosti hierarhičnih področij 
UDK. Slika 1 prikazuje odstotke razpoznanih izra-
U P O R A B N A  I N F O R M A T I K A18 2020 - πtevilka 1 - letnik XXVIII
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
Slika	1:	Porazdelitev	razpoznanih	izrazov	UDK	v	izbranem	in	celotnem	korpusu	glede	na	vrhnja	področja.
Slika	2:	Porazdelitev	razpoznanih	izrazov	UDK	v	izbranem	in	celotnem	korpusu	glede	na	dolžino	izraza	UDK.
zov UDK v izbranem in celotnem korpusu glede na 
njihovo vrhnje področje. Slika 2 prikazuje odstotke 
razpoznanih izrazov UDK v izbranem in celotnem 
korpusu glede na njihovo dolžino.
5 HIbRIDNI	PRISTOP	K	PRIPOROčANJU
V našem hibridnem pristopu uporabljamo dve me-
todi, ki ju uvrščamo med metode vsebinskega filtri-
ranja. Uporabljamo metodo BM25 in naivni Bayesov 
klasifikator. Vhod v hibridno metodo je iskalni niz (tj. 
naslov, ključne besede, predmetne oznake), izhod pa 
je seznam najbolj ustreznih vrstilcev UDK, ki ga pri-
kažemo knjižničarju. Ideja hibridnega pristopa je, da z 
obema metodama poiščemo k najbolj ustreznih vrstil-
cev UDK, nato pa rezultate združimo v končni seznam 
ustreznih vrstilcev UDK. BM25 in njene različice so že 
vrsto let najbolj uporabljene metode v implementaci-
U P O R A B N A  I N F O R M A T I K A 192020 - πtevilka 1 - letnik XXVIII
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
 
jah iskalnikov (angl. full-text search) in se pojavljajo v 
različnih komercialnih rešitvah kot so Microsoft SQL 
Server, MySQL, Elasticsearch, Xapian, Solr in Lucene. 
Naivni Bayesov klasifikator je uveljavljena metoda na 
področju kategorizacije in klasifikacije besedil. V na-
šem hibridnem pristopu ta metoda služi za uvrščanje 
določenih vrstilcev UDK v končni seznam priporočil, 
ki bi jih metoda BM25 morda izpustila.
5.1	 bm25
BM25 (Best Match 25) [Robertson & Zaragoza, 2009] 
je metoda razvrščanja, ki omogoča razvrščanje doku- 
mentov po podobnosti na podlagi besednih n-gra-
mov, ki se pojavljajo v dokumentih. Začetki razvoja 
segajo med 1970 in 1980, ko sta avtorja začela raz-
vijati ogrodje za pridobivanje informacij na podlagi 
verjetnosti. BM25 ni samo ena metoda temveč druži-
na več metod, ki se razlikujejo po utežnih shemah in 
vrednostih parametrov pomembnosti za uteži. Naj-
večkrat se uporabljata uteži tf in idf . Danes obstaja 
veliko različic BM25, ki doprinesejo manjše izboljša-
ve v specifičnih primerih [Trotman et al., 2014], [Lv 
& Zhai, 2011a], [Lv & Zhai, 2011b]. Različica BM25, 
ki jo uporabljamo se izračuna kot:
s(d, Q) = Σ idf (qi) ∙ 
tf (qi, d) ∙ (k1 + 1)
tf (qi, d) + k1 ∙ B
 , qi ∈ Q, d ∈ Di = 1
||Q||
       (1)
Za enačbo 1 velja:
 tf (qi, d) je utež tf v dokumentu d za besedni n-
-gram qi iskalnega niza Q. Vrednost je število po-
javitev besednega n-grama qi v dokumentu d.
 k1 je parameter s privzeto vrednostjo k1 = 1.2. 
[Manning, Christopher D. and Raghavan, Prab-
hakar and Schütze, H
 idf (qi) je utež idf za besedni n-gram qi. Vrednost 
je število pojavitev besednega n-grama qi v celot-
nem korpusu D. Izračun uteži idf (qi) je podan z 
enačbo 2
 kjer je ||D|| število vseh dokumentov v korpusu D, 
n(qi) pa število dokumentov, ki vsebujejo besedni
 n-gram qi.
 B je normalizacijski faktor dan z enačbo 3
 kjer ld predstavlja dolžino dokumenta d, avgdl pa 
povprečno dolžino dokumenta glede na celoten 
kor- pus D. Dolžina dokumenta je izražena s šte-
vilom besed v dokumentu. Parameter b ima pri-
vzeto vre- dnost b = 0.75 [Manning, Christopher 
D. and Raghavan, Prabhakar and Schütze, Hinri-
ch, 2008].
Ključno vlogo imata parametra k1 in b, ki urav-
navata težo uteži tf in težo dolžine dokumentov v 
končnem izračunu. Dolžina dokumentov se meri s 
številom besednih n-gramov. Parametra upoštevata 
dve predpostavki o značilnostih, ki se pojavljajo pri 
pisanju dokumentov [He & Ounis, 2003]. Predpo-
stavka o širini vsebine dokumenta (angl. verbosity 
hypothesis) govori o tem, da je lahko dokument daljši 
zaradi uporabe nepomembnih ali redundantnih be-
sed, medtem ko predpostavka o obsegu dokumenta 
(angl. scope hypothesis) govori o daljših dokumen-
tih zaradi uporabe več besed s kontekstom, ki tvori-
jo vsebino dokumenta. V praksi gre za kombinacijo 
teh dveh predpostavk, zato potrebujemo ustrezno 
normalizacijo. Dolžino vsakega dokumenta lahko 
normaliziramo s povprečno dolžino dokumentov. 
Nadalje lahko to normalizacijo reguliramo s parame-
trom b, kot kaže enačba 3, v enačbi 1 pa vidimo, da 
uporabimo funkcijo normalizacije B za normalizacijo 
uteži tf v navezi s parametrom k1.
Parameter k1 uravnava pomembnost uteži tf , 
parameter b pa pomembnost dolžine dokumentov. 
V interesu nam je, da sestavimo takšno funkcijo, ki 
bo delovala najbolje na različnih dokumentih v zbir-
ki. To pomeni, da je treba ugotoviti katere vrednosti 
parametrov k1 in b so najboljše za dano zbirko [He 
& Ounis, 2005]. Vrednosti teh dveh parametrov niso 
strogo definirane, navadno pa se uporabijo vrednosti 
k1 [1.2, 2.0] in b = [0, 1] [Manning, Christopher D. and 
Raghavan, Prabhakar and Schütze, Hinrich, 2008].
Nad izbranim korpusom dokumentov smo iz-
računali uteži tf in idf ter za vsak par dokumentov 
idf (qi) = log 
||D|| − n(q1) + 0,5
n(q1) + 0,5
       (2)
B = 1 − b + b ∙ 
ld
avgdl         (3)
U P O R A B N A  I N F O R M A T I K A20 2020 - πtevilka 1 - letnik XXVIII
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
izračunali vrednosti BM25 z upoštevanjem privzetih 
vrednosti za parametra k1 in b. Z metodo BM25 nato 
poiščemo vhodnemu besedilu najbolj podobne do-
kumente, vzamemo njihove izraze UDK in z razpo-
znavalnikom pridobimo vrstilce UDK. Vrstilce nato 
uredimo v seznam po frekvenci pojavljanja in vrne-
mo prvih k elementov tega seznama (enačbi 4 in 5).
5.2	 Naivni	bayesov	klasifikator
Naivni Bayesov klasifikator smo naučili nad polnim 
besedilom s podatkom o enoličnem identifikatorju 
dokumenta in pripadajočih vrstilcih UDK. Izbran 
korpus, opisan v poglavju 4, smo naključno razdelili 
na učno množico, ki je obsegala 7.000 gradiv in testno 
množico, ki je obsegala 3.000 gradiv. Učna in testna 
množica sta imeli obliko trojic (identifikator, vrstilec, 
besedni n-gram). Vrstilci UDK predstavljajo razrede 
za klasifikacijo, saj želimo klasificirati nove primerke 
v vrstilce UDK. Pri izračunu verjetnosti uporabljamo 
metodo MLE (angl. maximum likelihood estimati-
on) in Laplaceovo (znano tudi kot Add-one) glajenje 
(enačbi 6 in 7). Nc predstavlja število dokumentov, 
ki spadajo v razred c, N je število vseh dokumentov, 
Tct predstavlja število pojavljanj besednega n-grama 
t v dokumentih iz razreda c, V predstavlja množico 
vseh besednih n-gramov, m pa število vseh besednih 
n-gramov, ki se pojavijo v vhodnem nizu. Na koncu 
s pomočjo naučenega modela pridobimo seznam k 
najbolj verjetnih vrstilcev za dan vhod (enačba 8).
5.3	 Priporočanje	z	mešano	hibridizacijo
V našem pristopu hibridnega priporočanja smo se 
odločili za tip mešane hibridizacije, ki združi re-
zultate dveh tehnik vsebinskega filtriranja (slika 3). 
Pristop mešane hibridizacije smo uporabili zato, ker 
želimo v končnem seznamu pridobiti čim več rele-
vantnih vrstilcev UDK. ČCˇ e v skladu s pristopom 
mešane hibridizacije združujemo rezultate večih 
tehnik vsebinskega filtriranja, lahko v končnem se-
znamu pričakujemo vrstilce UDK, ki bi jih izpustili 
z uporabo zgolj ene metode vsebinskega filtriranja.
Gre torej za povečanje nabora priporočenih vrstil-
cev UDK v končnem seznamu priporočenih vrstilcev 
UDK. Seznama vrstilcev UDK, pridobljena z meto-
dama BM25 in naivnim Bayesovim klasifikatorjem, 
združimo v končni seznam z združevalno funkcijo 
M , ki jo definiramo s psevdokodom 1.
Slika	3:	Shematika	procesa	priporočanja	z	mešano	hibridizacijo.
Rx = RBM25 = {udk[r]}, ∀ r ∈ R
       (4)
P̂ (c) = 
Nc
N
P̂ (t|c) = 
Tct + 1
Σt' ∈ VTct' +1
Ry = RBayes = arg max {log P̂ (c) + Σ log P̂ (ti|c)}k i = 1
m
       (6)
       (8)
       (7)
       (5)
R = arg max {s(dj, Q)}, j ∈ [1...||D||]k
U P O R A B N A  I N F O R M A T I K A 212020 - πtevilka 1 - letnik XXVIII
Ko sta na voljo seznama RX in RY , ki sta rezul-
tat obeh metod vsebinskega filtriranja, ju je potreb-
no združiti z združevalno funkcijo M . Združeval-
na funkcija, ki jo uporabljamo, deluje na principu 
povprečnega ranga. V obeh seznamih iščemo enake 
vrstilce UDK in povprečimo njihove pozicije. Če se 
vrstilec pojavi v enem seznamu, v drugem pa ne, je 
njegov rang enak vsoti dolžin seznamov RX in RY. 
Takšna združevalna funkcija daje prednost tistim 
vrstilcem, ki so bili pridobljeni z obema metodama. 
Dodatno omogočimo tudi uteževanje kazenskih vre-
dnosti na rang v primeru, da ena metoda vrne ele-
ment, ki ga druga ne. Uteži kazenskih vrednosti wX 
in wY imata vrednosti med 0 in 1, kjer 0 ponazar-
ja uteževanje brez vrednosti kazni, 1 pa uteževanje 
s polno vrednostjo kazni. Končno uteževanje lahko 
popolnoma spremenimo s spreminjanjem združeval-
ne funkcije M .
6	 eVALVAcIJA	IN	RezULTATI
Merjenja uspešnosti priporočilnih sistemov se lahko 
lotimo na veliko načinov, saj ima vsak priporočilni 
sistem različen namen. Obstaja kar nekaj metod za 
evalvacijo priporočilnih sistemov [Pu et al., 2011], 
[Shani & Gunawardana, 2011], [Monti et al., 2019], 
[Bogaert et al., 2019], [Krauss et al., 2019]. Pred eval- 
vacijo se moramo vprašati po rezultatu, ki ga želimo 
s priporočilnim sistemom doseči [Rendle et al., 2019].
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
U P O R A B N A  I N F O R M A T I K A22 2020 - πtevilka 1 - letnik XXVIII
V našem primeru gre za vsebinsko priporočanje, 
saj uporabljamo korpus besedil s katerim poskušamo 
najti vhodu podobne vrstilce UDK. Intuitivno lahko 
uporabljamo metrike kot sta natančnost in priklic, ki 
sta zelo znani na področjih iskalnikov in iskanju in-
formacij [Hand & Christen, 2018], [Derczynski, 2016]. 
Čeprav ti dve metodi ocenjujeta uspešnost iskalnega 
sistema, vendarle nista zmožni oceniti uporabniške 
izkušnje, ki se pri priporočilnih sistemih ponavadi 
ocenjuje. Glavni problem knjižničarjev pri katalogi-
ziranju je v tem, da je vrstilcev UDK veliko, hkrati 
pa je potrebno izbrati ustreznega. V veliki množici 
vrstilcev UDK je to lahko zahtevno in časovno po-
tratno. Tako so knjižničarji zadovoljni že, če dobijo 
manjšo množico relevantnih vrstilcev UDK. Izmed 
vseh možnih vrstilcev UDK si želijo pridobiti torej 
samo najbolj ustrezne vrstilce UDK v pomoč, da ka-
sneje ročno med njimi izberejo ustrezne. Zadovoljivo 
je tudi že, če dobijo na voljo vrhnje področje, od ko-
der nato dalje samostojno določajo vrstilce UDK. Z 
vidika področja iskanja informacij gre pravzaprav za 
metriko priklica, ki v našem primeru meri razmer-
je moči množice preseka ustreznih vrstilcev UDK U 
in vseh vrnjenih vrstilcev UDK V , z močjo množice 
ustreznih vrstilcev UDK.
V našem primeru je torej metrika priklica po-
membnejša od metrike natančnosti, saj gre za pripo-
ročilni sistem, ki nudi podporo pri polavtomatskem 
določanju vrstilcev UDK. Metrike, ki jih uporablja-
mo, zajemajo priklic (enačba 9), natančnost (enačba 
10) in Fβ metriko (enačba 11) za vrednosti β = 1 in β 
= 50. Pri vrednosti β = 1 sta natančnost in priklic ena-
kovredno uteženi, pri vrednosti β = 50 pa ima priklic 
50-krat večjo težo kot natančnost.
vzeli tista besedila, ki so bila v množici besedil, ki 
smo jih uporabili za učenje naivnega Bayesovega 
klasifikatorja in izračun uteži tf in idf . Meritve smo 
opravili za metodo BM25, naivni Bayesov klasifika-
tor in hibridno metodo, ki združuje obe prej omenje-
ni metodi. Meritve smo ponovili pri različnih vre-
dnostih za parameter kmax, ki predstavlja število vr-
njenih vrstilcev. Pri tem smo se omejili na vrednosti 
kmax = [5, 10, 15]. V kombinaciji s parametrom kmax 
smo meritve ponovili tudi pri različnih vrednostih za 
globino hierarhije vrstilcev UDK. Globino hierarhije 
vrstilcev UDK udcp smo koračno po 2 znaka spremi-
njali na intervalu od 1 do 11 znakov. Dodatno smo v 
hibridni metodi spreminjali utež kazenskih vredno-
sti metode BM25 med 0.25 in 1 po koraku 0.25. Tabele 
5, 6 in 7 vsebujejo rezultate meritev.
S hibridno metodo smo želeli povečati priklic ob 
predpostavki, da v našem scenariju uporabe metri-
ka natanč- nosti ni pomembna za končnega upo-
rabnika. Iz meritev je razvidno, da hibridna meto-
da v večini primerov dosega enake oziroma boljše 
vrednosti za metriko priklica in metriko Fβ=50 kot 
posamično uporabljeni metodi BM25 in Bayesov 
klasifikator. Opazimo, da je metoda BM25 tista, ki 
zagotavlja hkrati dobro natančnost in dober priklic, 
neodvisno od vseh preverjenih parametrov. Baye-
sov klasifikator je za vse preverjene vrednosti pa-
rametra kmax uporaben samo za vrhnja področja 
UDK (udcp = 1).
V scenariju, kadar vrnemo 5 priporočenih vrstil-
cev UDK (kmax = 5), hibridna metoda po metriki 
Fβ=50 dosega boljše vrednosti, kar je najbolj razvi-
dno v primeru vrhnjih področij UDK (udcp = 1), za 
vse ostale preverjene globine hierarhije UDK pa je 
enakovredna metodi BM25. Največja izboljšava je pri 
vrhnjih področjih UDK. Kadar vrnemo 10 priporo-
čenih vrstilcev UDK (kmax = 10) se hibridna meto-
da po metriki Fβ=50 znova obnese bolje kot metoda 
BM25. Izboljšava je vidna za vse preverjene globine 
hierarhije UDK, največja izboljšava pa je znova pri 
vrhnjih področjih UDK (udcp = 1). Kadar vrnemo 15 
priporočenih vrstilcev UDK (kmax = 15), se po me-
triki Fβ=50 najbolje izkaže hibridna metoda na vseh 
globinah hierarhije UDK. Za vrhnja področja (udcp = 
1) se tudi Bayesov klasifikator izkaže podobno dobro 
kot hibridna metoda.
Primerjali smo tudi delovanje hibridne metode 
ob različnih utežeh kazenskih vrednosti. V meritve 
in primerjavo smo vključili samo variante, kjer manj-
R = |U| ∩ |V|
|U|
P = 
|U| ∩ |V|
|V|
F (β) = (1 + β2) 
(PR)
(β2P) + R
       (9)
       (10)
       (11 )
Evalvacijo priporočanja vrstilcev UDK smo izve-
dli nad korpusom 10.000 besedil v slovenskem jeziku 
iz nacionalne infrastrukture odprtega dostopa, ki so 
imela podatek o klasifikaciji UDK. Pri tem smo iz-
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
U P O R A B N A  I N F O R M A T I K A 232020 - πtevilka 1 - letnik XXVIII
Tabela	5:	Rezultati	meritev	za	uporabljene	metode	pri	kmax	=	5.	Najvišje	vrednosti	so	označene	s	krepko	pisavo.
kmax =	5 metoda P r Fß=1 Fß=50
udcp = 1
BM25 0.882 0.852 0.842 0.852
Bayes 0.248 0.836 0.371 0.835
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.267 0.891 0.399 0.890
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.267 0.891 0.399 0.890
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.267 0.891 0.399 0.890
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.267 0.891 0.399 0.890
udcp = 3
BM25 0.859 0.908 0.863 0.908
Bayes 0.097 0.343 0.147 0.343
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.281 0.912 0.416 0.911
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.284 0.916 0.420 0.915
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.286 0.921 0.422 0.920
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.286 0.921 0.422 0.920
udcp =	5
BM25 0.853 0.919 0.865 0.919
Bayes 0.032 0.105 0.048 0.105
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.277 0.903 0.411 0.902
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.286 0.918 0.423 0.917
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.287 0.919 0.424 0.918
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.287 0.919 0.424 0.918
udcp = 7
BM25 0.844 0.922 0.864 0.922
Bayes 0.049 0.154 0.072 0.154
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.279 0.904 0.414 0.903
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.289 0.922 0.426 0.921
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.289 0.922 0.426 0.921
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.289 0.922 0.426 0.921
udcp = 9
BM25 0.844 0.922 0.864 0.922
Bayes 0.051 0.161 0.075 0.161
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.281 0.906 0.416 0.905
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.290 0.926 0.427 0.925
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.290 0.926 0.427 0.925
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.290 0.926 0.427 0.925
udcp = 11
BM25 0.844 0.922 0.864 0.922
Bayes 0.050 0.156 0.073 0.156
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.280 0.905 0.415 0.904
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.290 0.926 0.427 0.925
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.290 0.926 0.427 0.925
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.290 0.926 0.427 0.925
šamo kazensko utež metodi BM25, ne pa tudi Baye-
sovemu klasifikatorju. Tako smo se odločili zato, ker 
manjšanje kazenskih uteži Bayesovemu klasifikator-
ju ne vodi v izboljšanje rezultatov metrik natančno-
sti, priklica, Fβ=1 in Fβ=50. Iz rezultatov meritev vi-
dimo, da se manjšanje kazenskih uteži metodi BM25 
splača vsaj do polovične vrednosti kazenske uteži 
(wBM25 = 0.5) za 5 vrnjenih zadetkov in vsaj do tri-
četrt vrednosti kazenske uteži (wBM25 = 0.75) za 10 
in 15 vrnjenih zadetkov.
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
U P O R A B N A  I N F O R M A T I K A24 2020 - πtevilka 1 - letnik XXVIII
Tabela	6:	Rezultati	meritev	za	uporabljene	metode	pri	kmax	=	10.	Najvišje	vrednosti	so	označene	s	krepko	pisavo.
kmax =	10 metoda P r Fß=1 Fß=50
udcp = 1
BM25 0.880 0.852 0.840 0.852
Bayes 0.146 0.902 0.245 0.900
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.147 0.906 0.247 0.904
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.147 0.906 0.247 0.904
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.147 0.906 0.247 0.904
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.147 0.906 0.247 0.904
udcp = 3
BM25 0.855 0.914 0.859 0.914
Bayes 0.062 0.439 0.107 0.438
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.134 0.921 0.242 0.919
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.144 0.923 0.243 0.921
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.144 0.927 0.244 0.925
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.144 0.927 0.244 0.925
udcp =	5
BM25 0.848 0.920 0.859 0.920
Bayes 0.032 0.212 0.055 0.212
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.144 0.925 0.411 0.902
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.145 0.926 0.245 0.923
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.145 0.926 0.245 0.924
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.145 0.926 0.245 0.924
udcp = 7
BM25 0.841 0.925 0.859 0.925
Bayes 0.035 0.217 0.059 0.217
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.145 0.930 0.246 0.928
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.146 0.932 0.247 0.930
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.146 0.933 0.248 0.931
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.146 0.933 0.248 0.931
udcp = 9
BM25 0.840 0.925 0.859 0.925
Bayes 0.033 0.209 0.056 0.209
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.146 0.932 0.247 0.905
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.128 0.824 0.217 0.822
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.146 0.933 0.248 0.931
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.146 0.933 0.248 0.931
udcp = 11
BM25 0.840 0.925 0.858 0.925
Bayes 0.032 0.203 0.055 0.203
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.146 0.932 0.247 0.930
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.146 0.932 0.247 0.930
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.146 0.933 0.248 0.931
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.146 0.933 0.248 0.931
Glede na porazdelitev razpoznanih izrazov UDK 
na hierarhično globino UDK (slika 2) smo ugotovili, 
da v primeru manjšega števila vrnjenih zadetkov ni 
bistvene razlike med uporabo BM25 in predlagane 
hibridne metode, kadar govorimo o odstotkovno naj-
večji pokritosti izbranega korpusa besedil, ki nastopi 
pri vrednostih parametra udcp = 5 in udcp = 7 ter 
metrikah priklica in Fβ=50. V splošnem smo ugotovi-
li, da so vrednosti izbranih metrik približno enake za 
hierarhično globino UDK nad 7 znakov. Kadar pa se 
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
U P O R A B N A  I N F O R M A T I K A 252020 - πtevilka 1 - letnik XXVIII
Tabela	7:	Rezultati	meritev	za	uporabljene	metode	pri	kmax	=	15.	Najvišje	vrednosti	so	označene	s	krepko	pisavo.
kmax =	15 metoda P r Fß=1 Fß=50
udcp = 1
BM25 0.880 0.852 0.840 0.852
Bayes 0.146 0.902 0.245 0.900
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.146 0.906 0.247 0.904
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.146 0.906 0.247 0.904
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.146 0.906 0.247 0.904
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.146 0.906 0.247 0.904
udcp = 3
BM25 0.854 0.916 0.857 0.916
Bayes 0.047 0.485 0.084 0.483
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.096 0.930 0.172 0.927
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.097 0.931 0.172 0.928
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.097 0.931 0.172 0.928
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.097 0.931 0.172 0.928
udcp =	5
BM25 0.846 0.921 0.857 0.921
Bayes 0.038 0.361 0.067 0.360
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.097 0.936 0.174 0.933
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.098 0.938 0.174 0.935
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.098 0.938 0.174 0.935
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.098 0.938 0.174 0.935
udcp = 7
BM25 0.839 0.929 0.857 0.929
Bayes 0.025 0.231 0.044 0.230
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.098 0.936 0.174 0.933
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.098 0.935 0.174 0.932
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.098 0.939 0.175 0.936
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.098 0.939 0.175 0.936
udcp = 9
BM25 0.838 0.925 0.856 0.925
Bayes 0.024 0.223 0.042 0.222
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.098 0.936 0.174 0.933
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.098 0.936 0.174 0.933
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.098 0.936 0.174 0.933
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.098 0.936 0.174 0.933
udcp = 11
BM25 0.838 0.925 0.856 0.925
Bayes 0.023 0.217 0.041 0.216
Hybrid	wBM25 = 1.0,	wBayes = 1.0 0.098 0.936 0.174 0.933
Hybrid	wBM25	=	0.75,	wBayes = 1.0 0.098 0.936 0.174 0.933
Hybrid	wBM25	=	0.5,	wBayes = 1.0 0.098 0.936 0.174 0.933
Hybrid	wBM25	=	0.25,	wBayes = 1.0 0.098 0.936 0.174 0.933
število vrnjenih zadetkov poveča, predlagana hibri-
dna metoda konstantno vrača višje vrednosti izbra-
nih metrik neodvisno od izbrane hierarhične globine 
UDK. Zaključujemo torej, da je uporaba predlagane 
hibridne metode ustrezna za polavtomatsko določa-
nje vrstilcev UDK v obliki priporočilnega sistema, 
kjer knjižničarji dobijo predlagane vrstilce UDK na 
podlagi vhodnega besedila, med katerimi nato ročno 
izberejo ustrezne.
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
U P O R A B N A  I N F O R M A T I K A26 2020 - πtevilka 1 - letnik XXVIII
7 SKleP
V članku smo predstavili hibridni pristop za pripo-
ročanje vrstilcev univerzalne decimalne klasifikacije. 
Opisali smo izbran korpus in predobdelavo besedil 
za uporabo v predlagani hibridni metodi. Prikazali 
smo kako z mešano hibridizacijo uporabimo metodi 
BM25 in naivni Bayesov klasifikator ter opisali pre-
prosto združevalno funkcijo, ki oblikuje končni re-
zultat. Izvedli smo evalvacijo hibridne metode, meto-
de BM25 in naivnega Bayesovega klasifikatorja, kjer 
smo ugotovili, da se hibridna metoda obnese bolje 
za metriki priklica in Fβ=50, ki sta bolj relevantni kot 
metrika natančnosti za scenarij uporabe sistema kot 
orodja za knjižničarje.
Predstavljen hibridni pristop lahko spreminja-
mo na več načinov in na več mestih. Ena izmed mo-
žnosti izboljšave je uporaba licenčne različice UDK 
vrstilcev, saj bi tako uspešno razpoznali večji delež 
izrazov UDK, še posebej na višji hierarhični globini 
UDK. Prav tako bi lahko izvedli optimizacijo metode 
BM25 za korpus, ki smo ga uporabljali, kjer bi z op-
timiziranjem parametrov k1 in b lahko iskali manjše 
izboljšave. Podobno bi lahko optimizirali vrednosti 
uteži kazenskih vrednosti. Hibridni pristop je vedno 
možno izboljšati s spreminjanjem združevalne funk-
cije M glede na potrebe končnega uporabnika ali pa z 
različnim načinom hibridizacije. Pri tem bi bila zani-
miva predvsem utežni in kaskadni tip hibridizacije. 
Predstavljen hibridni pristop je prav tako ustrezen 
za uporabo pri določanju kandidatov dokumentov 
za podrobnejše preverjanje v sistemu za detekcijo 
podobnih vsebin. Nazadnje bi bilo zanimivo videti 
tudi, kako se na tem področju obnesejo nevronske 
mreže s povratno zanko, ki so v zadnjem obdobju 
zelo napredovale na področjih besedilnega rudarje-
nja in obdelave naravnega jezika.
LITeRATURA
[1]  Bai, X., Wang, M., Lee, I., Yang, Z., Kong, X., & Xia, F. (2019). 
Scientific Paper Recommendation: A Survey. IEEE Access, 7, 
9324–9339.
[2]  Beel, J., Aizawa, A., Breitinger, C., & Gipp, B. (2017). Mr. 
DLib: Recommendations-as-a-Service (RaaS) for Acade-
mia. In 2017 ACM/IEEE Joint Conference on Digital Libraries 
(JCDL) (pp. 1–2).
[3]  Bogaert, M., Lootens, J., den Poel, D. V., & Ballings, M. 
(2019). Evaluating multi-label classifiers and recommender 
systems in the financial service sector. European Journal of 
Operational Research, 279(2), 620 – 634.
[4]  Burke, R. (2002). Hybrid Recommender Systems: Survey and 
Experiments. User Modeling and User-Adapted Interaction, 
12(4), 331–370.
[5]  Derczynski, L. (2016). Complementarity, F-score, and NLP 
Evaluation. In Proceedings of the Tenth International Confe-
rence on Language Resources and Evaluation (LREC 2016) 
(pp. 261–266). Portorož, Slovenia: European Language Reso-
urces Association (ELRA).
[6]  Frank, E. & Paynter, G. W. (2004). Predicting Library of Con-
gress Classifications from Library of Congress Subject Hea-
dings. J. Am. Soc. Inf. Sci. Technol., 55(3), 214–227.
[7]  Godby, C. J. & Stuler, J. (2003). The Library of Congress Clas-
sification as a Knowledge Base for Automatic Subject Cate-
gorization. In Subject Retrieval in a Networked Environment:
 Proceedings of the IFLA Satellite Meeting held in Dublin, 
OH,14-16 August 2001 and sponsored by the IFLA Classifi-
cation and Indexing Section, the IFLA Information Technolo-
gy Section and OCLC (pp. 163–169).
[8]  Hand, D. & Christen, P. (2018). A note on using the F-measure 
for evaluating record linkage algorithms. Statistics and Com-
puting, 28(3), 539–547.
[9]  He, B. & Ounis, I. (2003). A Study of Parameter Tuning for 
Term Frequency Normalization. In Proceedings of the Twelfth 
International Conference on Information and Knowledge Ma-
nagement, CIKM ’03 (pp. 10–16). New York, NY, USA: ACM.
[10]  He, B. & Ounis, I. (2005). Term Frequency Normalisation Tu-
ning for BM25 and DFR Models. In D. E. Losada & J. M. Fer-
nández-Luna (Eds.), Advances in Information Retrieval (pp. 
200–214). Berlin, Heidelberg: Springer Berlin Heidelberg.
[11]  Krauss, C., Merceron, A., & Arbanowski, S. (2019). The Time-
liness Deviation: A Novel Approach to Evaluate Educational 
Recommender Systems for Closed-Courses. In Proceedings 
of the 9th International Conference on Learning Analytics & 
Knowledge, LAK19 (pp. 195–204). New York, NY, USA: ACM.
[12]  Lops, P., de Gemmis, M., & Semeraro, G. (2011). Content-
-based Recommender Systems: State of the Art and Trends, 
(pp. 73–105). Springer US: Boston, MA.
[13]  Lv, Y. & Zhai, C. (2011a). Adaptive Term Frequency Normali-
zation for BM25. In Proceedings of the 20th ACM Internatio-
nal Conference on Information and Knowledge Management, 
CIKM ’11 (pp. 1985–1988). New York, NY, USA: ACM.
[14]  Lv, Y. & Zhai, C. (2011b). Lower-bounding Term Frequency 
Normalization. In Proceedings of the 20th ACM International 
Conference on Information and Knowledge Management, 
CIKM ’11 (pp. 7–16). New York, NY, USA: ACM.
[15] Manning, Christopher D. and Raghavan, Prabhakar and 
Schütze, Hinrich (2008). Introduction to Information Retrieval. 
New York, NY, USA: Cambridge University Press.
[16]  Melville, P. & Sindhwani, V. (2017). Recommender Systems, 
(pp. 1056–1066). Springer US: Boston, MA.
[17]  Monti, D., Palumbo, E., Rizzo, G., & Morisio, M. (2019). 
Sequeval: An Offline Evaluation Framework for Sequence-
-Based Recommender Systems. Information, 10, 174.
[18]  Ojsteršek, M., Brezovnik, J., Kotar, M., Ferme, M., Hrovat, 
G., Bregant, A., & Borovič, M. (2014). Establishing of a Slo-
venian open access infrastructure: a technical point of view. 
Program, 48(4), 394–412.
[19]  Porcel, C., Moreno, J., & Herrera-Viedma, E. (2009). A multi-
-disciplinar recommender system to advice research resour-
ces in University Digital Libraries. Expert Systems with Appli-
cations, 36(10), 12520–12528.
[20]  Pu, P., Chen, L., & Hu, R. (2011). A User-centric Evaluation 
Framework for Recommender Systems. In Proceedings of the 
Fifth ACM Conference on Recommender Systems, RecSys 
’11 (pp. 157–164). New York, NY, USA: ACM.
[21]  Rendle, S., Zhang, L., & Koren, Y. (2019). On the Difficulty 
of Evaluating Baselines: A Study on Recommender Systems. 
ArXiv, abs/1905.01395.
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije
U P O R A B N A  I N F O R M A T I K A 272020 - πtevilka 1 - letnik XXVIII
[22]  Robertson, S. & Zaragoza, H. (2009). The Probabilistic Rele-
vance Framework. now.
[23]  Shani, G. & Gunawardana, A. (2011). Evaluating Recommen-
dation Systems, (pp. 257–297). Springer US: Boston, MA.
[24]  Slavic, A. (2004). UDC implementation: From library shelves 
to a structured indexing language. In International Catalogu-
ing and Bibliographic Control., volume 33.3 (pp. 60–65).
[25]  Trotman, A., Puurula, A., & Burgess, B. (2014). Improvements 
to BM25 and Language Models Examined. In Proceedings 
of the 2014 Australasian Document Computing Symposium, 
ADCS ’14 (pp. 58:58–58:65). New York, NY, USA: ACM.
[26]  UDC Consortium (UDCC) (2012). Multilingual Universal Deci-
mal Classifi- cation Summary (UDCC Publication No. 088).

mladen	borovič	 je	doktorski	študent	 in	asistent	na	Fakulteti	za	elektrotehniko,	računalništvo	 in	 informatiko	na	Univerzi	v	Mariboru.	Njegovo	
raziskovalno	delo	obsega	področja	priporočilnih	sistemov,	iskalnih	sistemov,	porazdeljenih	računalniških	sistemov,	odkrivanja	podobnih	vsebin,	
besedilnega	rudarjenja	in	obdelave	naravnega	jezika.	Še	posebej	se	ukvarja	s	hibridnimi	priporočilnimi	sistemi	in	uporabo	metod	umetne
inteligence	v	besedilnem	rudarjenju.

Sandi	majninger	je	doktorski	študent	in	asistent	na	Fakulteti	za	elektrotehniko,	računalništvo	in	informatiko	na	Univerzi	v	Mariboru.	Raziskovalno	
je	aktiven	na	področju	obdelave	naravnega	jezika,	odkrivanja	podobnih	vsebin	ter	ugotavljanju	pomena	iz	besedil.	Med	drugim	se	ukvarja	tudi	z	
avtomatskim	ocenjevanjem	pomenske	pravilnosti	odgovorov	na	vprašanja	odprtega	tipa	in	avtomatskim	ocenjevanjem	daljših	pisnih	sestavkov	
ter	esejev.

Jani	Dugonik	je	doktorski	študent	in	asistent	na	Fakulteti	za	elektrotehniko,	računalništvo	in	informatiko.	Nje-	gova	raziskovalna	področja	vključu-
jejo	evolucijsko	računanje,	optimizacijske	metode,	procesiranje	naravnega	jezika	in	globoko	učenje.
Marko	Ferme	je	raziskovalec	na	Fakulteti	za	elektrotehniko,	računalništvo	in	informatiko	na	Univerzi	v	Mariboru.	Njegova	raziskovalna	področja	
obsegajo	procesiranje	naravnega	jezika,	sisteme	za	odgovarjanje	na	vprašanja	v	naravnem	jeziku,	ontologije	in	semantični	splet,	aktiven	pa	je	tudi	
na	več	raziskovalnih	in	komercialnih	projektih	na	področju	digitalnih	knjižnic.ziskovalnih	projektih	s	področja	strateškega	planiranja,	metodologij	
razvoja	informacijskih	sistemov,	uporabe	inteligentnih	sistemov,	avtomatizacije	poslovnih	procesov	in	obvladovanja	ter	porazdelitve	velike	količine	
podatkov.

milan	Ojsteršek	je	raziskovalec	na	Fakulteti	za	elektrotehniko,	računalništvo	in	informatiko	na	Univerzi	v	Mariboru.	Njegova	raziskovalna	področja	
zajemajo	heterogene	računalniške	sisteme,	digitalne	knjižnice,	semantični	splet	in	storitveno	usmerjene	arhitekture.Marko	Ferme	je	razisko-
valec	na	Fakulteti	za	elektrotehniko,	računalništvo	in	informatiko	na	Univerzi	v	Mariboru.	Njegova	raziskovalna	področja	obsegajo	procesiranje	
naravnega	jezika,	sisteme	za	odgovarjanje	na	vprašanja	v	naravnem	jeziku,	ontologije	in	semantični	splet,	aktiven	pa	je	tudi	na	več	raziskovalnih	
in	komercialnih	projektih	na	področju	digitalnih	knjižnic.ziskovalnih	projektih	s	področja	strateškega	planiranja,	metodologij	razvoja	informacijskih	
sistemov,	uporabe	inteligentnih	sistemov,	avtomatizacije	poslovnih	procesov	in	obvladovanja	ter	porazdelitve	velike	količine	podatkov.
[27]  Vargas, S., Hristakeva, M., & Jack, K. (2016). Mendeley: Re-
commendations for Researchers. In RecSys ’16 Proceedings 
of the 10th ACM Conference on Recommender Systems (pp. 
365–365). Boston, MA, USA.
[28]  Wang, J. (2009). An extensive study on automated Dewey 
Decimal Classification. Journal of the American Society for 
Information Science and Technology, 60(11), 2269–2286.
[29]  Zalokar, Matjaž (2002a). Spletni splošni slovenski geslovnik. 
http://old.nuk.uni-lj.si/ssg/geslovnik.html.
[30]  Zalokar, Matjaž (2002b). Splošni slovenski geslovnik. Organi-
zacija znanja, 7, 3–4.
Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije