U P O R A B N A I N F O R M A T I K A14 2020 - πtevilka 1 - letnik XXVIII Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko Koroška cesta 46, 2000 Maribor mladen.borovic@um.si, sandi.majninger@um.si, jani.dugonik@um.si, marko.ferme@um.si, milan.ojstersek@um.si Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije Izvleček V prispevku predstavljamo hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije. S pomočjo takšnega pristopa lahko knjižničarjem omogočimo polavtomatsko določanje vrstilcev univerzalne de- cimalne klasifikacije iz vsebine že obstoječih uvr- ščenih gradiv. Hibridni pristop deluje na podlagi združevanja rezultata metode BM25 in naivnega Bayesovega klasifikatorja, kjer oba pristopa vrneta seznam priporočenih vrstilcev. Oba seznama združimo v končni seznam priporočil z združevalno funkcijo. V prispev- ku podrobneje opišemo korpus, obliko podatkov, obliko vrstilcev univerzalne decimalne klasifikacije in delovanje posamezne metode znotraj hibridnega pristopa. Podamo tudi rezultate metrik natančnosti, priklica in Fß za sezname priporočil na korpusu besedil iz nacionalne infrastrukture odprtega dostopa. Ključne besede: digitalne knjižnice, hibridni priporočilni sistemi, programska oprema v knjižnicah, Univer- zalna decimalna klasifikacija Abstract In this article we present a hybrid approach to recommending the Universal Decimal Classification notation for unclassified docu- ments. By recommending Universal Decimal Classification notation to librarians, we can enable them to semi-automatically deter- mine the notation using already classified documents. The hybrid approach combines the BM25 method and the naive Bayes clas- sifier, where both methods return a list of recommended notations. Both lists are merged into a final recommendation list using a custom merge function. In detail we present the Universal Decimal Classification notation structure, the corpus of documents, the inputs to our methods and the inner workings of our hybrid approach consisting of both methods. We provide the measurement results of the recommendation lists for the corpus from the National Open-Access Infrastructure in the form of precision, recall and Fß metrics. Keywords: digital libraries, hybrid recommender systems, library software, Universal Decimal Classification 1 UvoD Z razvojem spletnih iskalnikov sta se področji ra- čunalništva in knjižničarstva združili v interdisci- plinarno področje digitalnih knjižnic, ki se ukvarja predvsem z organizacijo, skladiščenjem, obdelavo in klasifikacijo dokumentov. Predvsem klasifikacija dokumentov je raziskovalno zelo aktivno področje. Kljub temu, da je na tem področju veliko različnih metod, ne obstaja veliko metod za avtomatizirano klasificiranje po knjižničarskih klasifikatorjih, kot so univerzalna decimalna klasifikacija (UDK) [Sla- vic, 2004], Deweyjeva decimalna klasifikacija (DDK) [Wang, 2009] in klasifikacija Library of Congress (LCC) [Godby & Stuler, 2003], [Frank & Paynter, 2004]. Obstajajo še drugi klasifikacijski sistemi, ki so ekskluzivno namenjeni določenim jezikom (npr. v Aziji obstajajo Kitajska, Japonska in Korejska knji- žničarska klasifikacija). Ne glede na sistem klasifi- kacije se večina gradiv po svetu še vedno klasificira ročno ‒ bodisi zaradi nezaupanja v avtomatizirano klasifikacijo, bodisi zaradi nezadovoljivega rezulta- ta le-te. zNANStVENI prISpEVkI U P O R A B N A I N F O R M A T I K A 152020 - πtevilka 1 - letnik XXVIII Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije Problem nezaupanja v avtomatizirano klasifika- cijo je potrebno s stališča knjižničarjev razumeti, saj bodo ob napačni klasifikaciji imeli dodatno delo s popravljanjem zapisov v digitalnih knjižnicah, obe- nem pa takšni zapisi ne bodo zlahka dostopna, saj jih uporabniki ne bodo mogli najti s trenutnimi iskalni- mi postopki. V prispevku se zavedamo tega proble- ma in v želji po zmanjšanju nezaupanja, poskušamo knjižničarjem približati avtomatizirano klasifikacijo z uvedbo priporočanja ustreznih vrstilcev klasifika- cije. Ker knjižničar dobi le priporočilo, katere vrstilce naj uporabi, se lahko še vedno odloči drugače - gre torej za polavtomatsko klasifikacijo. V prispevku opisujemo hibridni pristop priporo- čanja vrstilcev univerzalne decimalne klasifikacije, ki uporablja uveljavljeno iskalno metodo BM25 in naiv- ni Bayesov klasifikator. V drugem poglavju opišemo vrste priporočilnih sistemov in uporabo le-teh v digi- talnih knjižnicah. Tretje poglavje opisuje univerzalno decimalno klasifikacijo. V četrtem poglavju opišemo obliko, pripravo in obdelavo podatkov korpusa bese- dil iz nacionalne infrastrukture odprtega dostopa. V petem poglavju opisujemo hibridni pristop k pripo- ročanju z uporabo metode BM25 in naivnega Bayeso- vega klasifikatorja. Šesto poglavje vsebuje rezultate primerjave meritev metrik natančnosti, priklica in Fβ med metodo BM25, naivnim Bayesovim klasifikator- jem in predstavljeno hibridno metodo. V sedmem poglavju podamo zaključke in nekaj idej za izboljša- vo hibridne metode. 2 PRIPOROčILNI SISTemI V DIgITALNIH KNJIžNIcAH V zadnjih letih smo lahko opazili razmah priporočil- nih sistemov na veliko področij. Dandanes se najbolj uporabljajo v spletnih iskalnikih, družbenih omrežjih in raznih multimedijskih storitvah kot so YouTube, Netflix, Spotify in Last.fm. Priporočilni sistemi za svoje delovanje v glavnem uporabljajo dva tipa filtri- ranja podatkov. To sta vsebinsko filtriranje (angl. con- tent-based filtering) in sodelovalno filtriranje (angl. collaborative filtering) [Melville & Sindhwani, 2017]. Vsebinsko filtriranje podatkov uporablja opis objekta priporočanja v nestrukturirani obliki, kot je recimo besedilo, ali pa v strukturirani obliki, kjer ima objekt vnaprej znane lastnosti, po katerih defi- niramo filtre. Ključnega pomena je torej opis objekta priporočanja, saj ta metoda z metrikami podobnosti išče podobne objekte priporočanja. Kadar imamo opravka s podatki v strukturirani obliki, so metrike podobnosti navadno kosinusna razdalja, Jaccardov indeks in Pearsonova korelacija [Lops et al., 2011]. Nestrukturirani podatki so ponavadi podani z be- sedilom zato so metrike podobnosti v tem primeru omejene na metrike podobnosti, ki jih uporabljamo v procesiranju naravnega jezika. Natančneje je v tem primeru zelo pogosta uporaba utežne sheme tf -idf v kombinaciji z razvrščevalno metodo BM25. Sodelovalno filtriranje se v nasprotju z vsebinskim filtriranjem ne osredotoča na sam opis objekta pripo- ročanja, temveč na uporabniško interakcijo z objekti priporočanja. Za ta tip filtriranja je pomembno, ali si je uporabnik objekt priporočanja ogledal, koliko časa ga je gledal in ali je opravil kakšno pomembnejšo in- terakcijo s tem objektom. V primeru spletnih trgovin je to nakup izdelka, v primeru digitalnih knjižnic pa prenos dokumenta na računalnik. Tako vsebinsko kot sodelovalno filtriranje imata svoje slabosti. Glavna slabost sodelovalnega filtrira- nja je problem hladnega začetka. To je situacija, v ka- teri se znajdemo čisto na začetku, kadar še nimamo aktivnih uporabnikov in posledično nimamo podat- kov o uporabniški interakciji z objekti priporočanja. Slabost vsebinskega priporočanja je prekomerna specializacija, kjer priporočilni sistem uporabniku priporoča zgolj eno vrsto objektov priporočanja, kar pa ni vedno zaželjeno. V tem primeru se poslužimo hibridnih priporočilnih sistemov, ki združujejo dve ali več metod filtriranja v eno samo z namenom iz- ogibanja slabostim posamezne metode. Največkrat hibridni priporočilni sistemi združujejo sodelovalno in vsebinsko filtriranje, odvisno od ciljne uporabe priporočilnega sistema pa lahko združujemo tudi več tehnik sodelovalnega filtriranja oziroma več teh- nik vsebinskega filtriranja. V splošnem poznamo več načinov hibridizacije [Burke, 2002]. Z utežno hibri- dizacijo sestavimo oceno podobnosti iz ocen vseh vključenih metod. Pri preklopni hibridizaciji sistem preklaplja med vključenimi metodami po potrebi ali glede na situacijo. Mešana hibridizacija rezultate vključenih metod prikaže skupaj v enem seznamu priporočil. Hibridizacija s kombinacijo značilk deluje tako, da so značilke iz več virov združene in se upo- rabijo kot vhod v eno tehniko priporočanja. Podobno deluje hibridizacija z obogatenjem značilk, kjer se ena metoda uporabi za pridobivanje značilk, ki so vhod drugi metodi. Kaskadna hibridizacija v delova- nje vnaša zaporedje uporabe različnih metod. Naza- U P O R A B N A I N F O R M A T I K A16 2020 - πtevilka 1 - letnik XXVIII Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije dnje, hibridizacija na meta ravni deluje tako, da ena metoda zgradi model, ki je vhod naslednji metodi. V digitalnih knjižnicah se priporočilni sistemi uporabljajo predvsem v namene priporočanja doku- mentov in dru- gih gradiv, ki jih digitalne knjižnice ponujajo [Bai et al., 2019]. Priporočilni sistemi opi- sani v [Beel et al., 2017] in [Porcel et al., 2009] so bili zasnovani specifično za uporabo v digitalnih knjižni- cah z namenom, da razi- skovalcem pomagajo najti zanimive publikacije. Podobno lahko takšne pripo- ročilne sisteme zasledimo v akademskih družbenih omrežjih, kot je na primer Mendeley [Vargas et al., 2016]. V Sloveniji obstaja hibridni priporočilni sis- tem, ki deluje na nacionalni infrastrukturi odprtega dostopa in navzkrižno priporoča gradiva med digi- talnimi knjižnicami in repozitoriji slovenskih univerz [Ojsteršek et al., 2014]. V tem primeru gre za kaska- dno hibridizacijo z metodo vsebinskega filtriranja, ki ji sledi sodelovalno filtriranje. 3 UNIVeRzALNA DecImALNA KLASIFIKAcIJA Univerzalna decimalna klasifikacija (v nadaljevanju UDK) je knjižnični klasifikacijski sistem, ki služi kot orodje za vsebinsko označevanje dokumentov in is- kanje po njih. Plačljiva licenca za UDK obsega več kot 70.000 vrstilcev.Obstaja tudi zastonjska različica, ki pa je močno okrnjena na okoli 2500 vrstilcev. Z upo- rabo tega klasifikacijskega sistema se lahko vsakemu dokumentu določi vrstilec, ki dokument uvršča v po- dročje. UDK sestavljajo glavne tabele in pomožne ta- bele, kjer glavne tabele določajo področja človeškega znanja, pomožne pa dodatne informacije o področju (npr. čas, kraj, jezik in obliko). Izraz UDK je lahko preprost ali sestavljen. V slednjem primeru se upora- bijo znaki za povezovanje, ki opisujejo tip povezave med vrstilci. Tako lahko z izrazom UDK opisujemo tudi interdisciplinarne dokumente. V tabelah 1-3 so podani zgledi vrstilcev in izrazov UDK. Vrstilec Področja 0 Znanost in znanje. Organizacije. Informacije. Dokumentacija. Bibliotekarstvo. Institucije. Publikacije. 1 Filozofija. Psihologija. 2 Teologija. Verstva. 3 Družbene vede. Politika. Ekonomija. Pravo. Izobraževanje. 5 Matematika. Naravoslovje. 6 Uporabne znanosti. Medicina. Tehnika. 7 Umetnost. Arhitektura. Fotografija. Glasba. Šport. 8 Jezik. Književnost 9 Geografija. Biografija. Zgodovina. Tabela 1: Vrstilci vrhnjih področij univerzalne decimalne klasifikacije. Vrstilec Opis področja 004 Računalniška znanost in tehnologija. Računalništvo. Obdelava podatkov 004.7 Računalniške komunikacije. Računalniška omrežja 004.73 Omrežja glede na prostranost 004.738 Medsebojno povezovanje omrežij. Medomrežanje Tabela 2: Hierarhična struktura vrstilcev univerzalne decimalne klasifikacije za področje Računalništvo (004), veja Računalniške komunikacije, Računalniška omrežja (004.7). Vrstilec Izkax UDK Preprost 519.85(043.2) Sestavljen 336.778(043.2):336.713/.717(497.4) Tabela 3: Primer preprostega in sestavljenega izraza UDK. Preprost izraz vsebuje splošni privesni vrstilec za obliko (043.2). Sestavljen izraz vsebuje enostaven odnos (znak „:“), zaporedno razširitev (znak „/“), splošni privesni vrstilec za obliko (043.2) in splošni privesni vrstilec za kraj (497.4). U P O R A B N A I N F O R M A T I K A 172020 - πtevilka 1 - letnik XXVIII Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije Za pridobitev izraza UDK je potrebna katalogiza- cija oziroma zahteva knjižničarjem v primerih, ko gre za zaključna dela. Knjižničarji z uporabo geslovnika ugotovijo, katere vrstilce naj dodajo v izraz UDK tako, da v geslovnik [Zalokar, Matjaž, 2002b], [Zalo- kar, Matjaž, 2002a] vnesejo ključne besede oziroma predmetne oznake. V primeru zaključnih del mora avtor knjižničarjem posredovati naslov, mentorja, ključne besede, povzetek in kazalo. Knjižničarji nato iz naslova in ključnih besed pridobijo vhod za ge- slovnik, na podlagi povzetka, kazala in mentorja pa se dokončno odločijo za primerne vrstilce UDK. Ce- loten proces pridobitve izraza UDK ponavadi traja do 2 dni. Kvaliteta izraza UDK je odvisna od geslov- nika in števila vrstilcev UDK, ki jih imajo knjižničarji na voljo. 4 KORPUS beSeDIL IN ObDeLAVA PODATKOV V prispevku uporabljamo korpus besedil pridobljen iz nacionalne infrastrukture odprtega dostopa [Oj- steršek et al., 2014], ki se je izvedla v letu 2013 in obse- ga zaključna dela in znanstvene publika- cije iz vseh slovenskih univerz. Gre za obširen korpus besedil v slovenščini, ki obsega okoli 200.000 dokumentov in je segmentiran na ključne besede, naslove, povzetke, polno besedilo in vsebuje dodatne informacije o be- sedilih - med njimi tudi izraze UDK. Ker vsa besedila v korpusu nacionalne infrastrukture nimajo vseh in- formacij na voljo, smo uporabili filtrirano podmno- žico 10.000 besedil, v kateri so vsa besedila, ki imajo podatek o naslovu, ključnih besedah, polnem besedi- lu in izrazu UDK. V nadaljnji obdelavi podatkov smo delali s polnimi besedili, kjer smo dodatno utežili be- sede v naslovih in ključnih besedah. 4.1 Predobdelava besedil Iz vseh besedil smo najprej tvorili besedne uni-, bi- in tri-grame ter izvedli vse možne permutacije med njimi. Nad besednimi n-grami smo uporabili tudi postopek lematizacije tako, da smo hkrati hranili lematizirane in nelematizirane besedne n-grame. Nato smo za to množico izračunali uteži tf in idf . Utež tf predstavlja frekvenco določenega besedne- ga n-grama v dokumentu, utež idf pa pomembnost besednega n-grama glede na celotno zbirko doku- mentov. Tako smo dobili sezname vseh možnih be- sednih n-gramov in njihove pojavitve v dokumen- tih, kot tudi število dokumentov v katerih se po- javljajo. Z enoličnim identifikatorjem dokumenta smo lahko dostopali tudi do njegovega izraza UDK in s tem povezali izraze UDK s pripadajočimi bese- dnimi n-grami. 4.2 Razpoznavalnik izrazov UDK Ker je v korpusu besedil veliko takšnih, ki imajo sestavljen izraz UDK, smo zasnovali preprost raz- poznavalnik izrazov UDK, ki zna iz sestavljenega izraza UDK vrniti vse vrstilce UDK. Pri tem smo upoštevali priredno in zaporedno razširitev, eno- stavne odnose, in podrobno delitev. Ostalih zna- kov za povezovanje nismo obravnavali, saj je bilo število dokumentov s temi znaki za povezovanje zanemarljivo. Prav tako nismo upoštevali splošnih privesnih vrstilcev. Za povezavo z UDK smo uporabili brezplačno slovensko različico UDK v obliki povezanih odpr- tih podatkov (angl. linked open data) [UDC Con- sortium (UDCC), 2012]. Le-ta obsega 1445 vrstilcev UDK s slovenskim prevodom. Ta zbirka je v obliki parov (vrstilec, prevod). Zaradi omejenega števila brezplačnih vrstilcev je razpoznavanje v nekaterih Vhod Izhod [004.94:621.952.8]+658.8(043.2) 004.94 621.9 658. 003.63 8 711.4:711.1:158.937:003.63(497.4Slovenska Bistrica)(043.2) 711.4 711.1 158.937 Tabela 4: Primer delovanja razpoznavalnika izrazov UDK. Vrstilec 621.952.8 je bil razpoznan kot 621.9. primerih omejeno po globini univerzalne decimalne klasifikacije, kot je razvidno v tabeli 4. Po obdelavi z razpoznavalnikom izrazov UDK smo preverili, kakšna je porazdelitev razpoznanih izrazov UDK v izbranem korpusu besedil. Preverili smo dolžino razpoznanih izrazov, saj dolžina izraza predstavlja globino v hierarhiji UDK in neposredno vpliva na specifičnost kategorizacije. Manjša dolžina izraza UDK pomeni splošnejšo kategorizacijo, večja dolžina izraza UDK pa specifično kategorizacijo (ta- beli 1 in 2). Dolžino razpoznanega izraza UDK smo v meritvah uporabljali kot parameter. Tako smo lahko preverili, kako se uporabljene metode obnesejo na različnih nivojih specifičnosti hierarhičnih področij UDK. Slika 1 prikazuje odstotke razpoznanih izra- U P O R A B N A I N F O R M A T I K A18 2020 - πtevilka 1 - letnik XXVIII Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije Slika 1: Porazdelitev razpoznanih izrazov UDK v izbranem in celotnem korpusu glede na vrhnja področja. Slika 2: Porazdelitev razpoznanih izrazov UDK v izbranem in celotnem korpusu glede na dolžino izraza UDK. zov UDK v izbranem in celotnem korpusu glede na njihovo vrhnje področje. Slika 2 prikazuje odstotke razpoznanih izrazov UDK v izbranem in celotnem korpusu glede na njihovo dolžino. 5 HIbRIDNI PRISTOP K PRIPOROčANJU V našem hibridnem pristopu uporabljamo dve me- todi, ki ju uvrščamo med metode vsebinskega filtri- ranja. Uporabljamo metodo BM25 in naivni Bayesov klasifikator. Vhod v hibridno metodo je iskalni niz (tj. naslov, ključne besede, predmetne oznake), izhod pa je seznam najbolj ustreznih vrstilcev UDK, ki ga pri- kažemo knjižničarju. Ideja hibridnega pristopa je, da z obema metodama poiščemo k najbolj ustreznih vrstil- cev UDK, nato pa rezultate združimo v končni seznam ustreznih vrstilcev UDK. BM25 in njene različice so že vrsto let najbolj uporabljene metode v implementaci- U P O R A B N A I N F O R M A T I K A 192020 - πtevilka 1 - letnik XXVIII Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije jah iskalnikov (angl. full-text search) in se pojavljajo v različnih komercialnih rešitvah kot so Microsoft SQL Server, MySQL, Elasticsearch, Xapian, Solr in Lucene. Naivni Bayesov klasifikator je uveljavljena metoda na področju kategorizacije in klasifikacije besedil. V na- šem hibridnem pristopu ta metoda služi za uvrščanje določenih vrstilcev UDK v končni seznam priporočil, ki bi jih metoda BM25 morda izpustila. 5.1 bm25 BM25 (Best Match 25) [Robertson & Zaragoza, 2009] je metoda razvrščanja, ki omogoča razvrščanje doku- mentov po podobnosti na podlagi besednih n-gra- mov, ki se pojavljajo v dokumentih. Začetki razvoja segajo med 1970 in 1980, ko sta avtorja začela raz- vijati ogrodje za pridobivanje informacij na podlagi verjetnosti. BM25 ni samo ena metoda temveč druži- na več metod, ki se razlikujejo po utežnih shemah in vrednostih parametrov pomembnosti za uteži. Naj- večkrat se uporabljata uteži tf in idf . Danes obstaja veliko različic BM25, ki doprinesejo manjše izboljša- ve v specifičnih primerih [Trotman et al., 2014], [Lv & Zhai, 2011a], [Lv & Zhai, 2011b]. Različica BM25, ki jo uporabljamo se izračuna kot: s(d, Q) = Σ idf (qi) ∙ tf (qi, d) ∙ (k1 + 1) tf (qi, d) + k1 ∙ B , qi ∈ Q, d ∈ Di = 1 ||Q|| (1) Za enačbo 1 velja:  tf (qi, d) je utež tf v dokumentu d za besedni n- -gram qi iskalnega niza Q. Vrednost je število po- javitev besednega n-grama qi v dokumentu d.  k1 je parameter s privzeto vrednostjo k1 = 1.2. [Manning, Christopher D. and Raghavan, Prab- hakar and Schütze, H  idf (qi) je utež idf za besedni n-gram qi. Vrednost je število pojavitev besednega n-grama qi v celot- nem korpusu D. Izračun uteži idf (qi) je podan z enačbo 2 kjer je ||D|| število vseh dokumentov v korpusu D, n(qi) pa število dokumentov, ki vsebujejo besedni n-gram qi.  B je normalizacijski faktor dan z enačbo 3 kjer ld predstavlja dolžino dokumenta d, avgdl pa povprečno dolžino dokumenta glede na celoten kor- pus D. Dolžina dokumenta je izražena s šte- vilom besed v dokumentu. Parameter b ima pri- vzeto vre- dnost b = 0.75 [Manning, Christopher D. and Raghavan, Prabhakar and Schütze, Hinri- ch, 2008]. Ključno vlogo imata parametra k1 in b, ki urav- navata težo uteži tf in težo dolžine dokumentov v končnem izračunu. Dolžina dokumentov se meri s številom besednih n-gramov. Parametra upoštevata dve predpostavki o značilnostih, ki se pojavljajo pri pisanju dokumentov [He & Ounis, 2003]. Predpo- stavka o širini vsebine dokumenta (angl. verbosity hypothesis) govori o tem, da je lahko dokument daljši zaradi uporabe nepomembnih ali redundantnih be- sed, medtem ko predpostavka o obsegu dokumenta (angl. scope hypothesis) govori o daljših dokumen- tih zaradi uporabe več besed s kontekstom, ki tvori- jo vsebino dokumenta. V praksi gre za kombinacijo teh dveh predpostavk, zato potrebujemo ustrezno normalizacijo. Dolžino vsakega dokumenta lahko normaliziramo s povprečno dolžino dokumentov. Nadalje lahko to normalizacijo reguliramo s parame- trom b, kot kaže enačba 3, v enačbi 1 pa vidimo, da uporabimo funkcijo normalizacije B za normalizacijo uteži tf v navezi s parametrom k1. Parameter k1 uravnava pomembnost uteži tf , parameter b pa pomembnost dolžine dokumentov. V interesu nam je, da sestavimo takšno funkcijo, ki bo delovala najbolje na različnih dokumentih v zbir- ki. To pomeni, da je treba ugotoviti katere vrednosti parametrov k1 in b so najboljše za dano zbirko [He & Ounis, 2005]. Vrednosti teh dveh parametrov niso strogo definirane, navadno pa se uporabijo vrednosti k1 [1.2, 2.0] in b = [0, 1] [Manning, Christopher D. and Raghavan, Prabhakar and Schütze, Hinrich, 2008]. Nad izbranim korpusom dokumentov smo iz- računali uteži tf in idf ter za vsak par dokumentov idf (qi) = log ||D|| − n(q1) + 0,5 n(q1) + 0,5 (2) B = 1 − b + b ∙ ld avgdl (3) U P O R A B N A I N F O R M A T I K A20 2020 - πtevilka 1 - letnik XXVIII Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije izračunali vrednosti BM25 z upoštevanjem privzetih vrednosti za parametra k1 in b. Z metodo BM25 nato poiščemo vhodnemu besedilu najbolj podobne do- kumente, vzamemo njihove izraze UDK in z razpo- znavalnikom pridobimo vrstilce UDK. Vrstilce nato uredimo v seznam po frekvenci pojavljanja in vrne- mo prvih k elementov tega seznama (enačbi 4 in 5). 5.2 Naivni bayesov klasifikator Naivni Bayesov klasifikator smo naučili nad polnim besedilom s podatkom o enoličnem identifikatorju dokumenta in pripadajočih vrstilcih UDK. Izbran korpus, opisan v poglavju 4, smo naključno razdelili na učno množico, ki je obsegala 7.000 gradiv in testno množico, ki je obsegala 3.000 gradiv. Učna in testna množica sta imeli obliko trojic (identifikator, vrstilec, besedni n-gram). Vrstilci UDK predstavljajo razrede za klasifikacijo, saj želimo klasificirati nove primerke v vrstilce UDK. Pri izračunu verjetnosti uporabljamo metodo MLE (angl. maximum likelihood estimati- on) in Laplaceovo (znano tudi kot Add-one) glajenje (enačbi 6 in 7). Nc predstavlja število dokumentov, ki spadajo v razred c, N je število vseh dokumentov, Tct predstavlja število pojavljanj besednega n-grama t v dokumentih iz razreda c, V predstavlja množico vseh besednih n-gramov, m pa število vseh besednih n-gramov, ki se pojavijo v vhodnem nizu. Na koncu s pomočjo naučenega modela pridobimo seznam k najbolj verjetnih vrstilcev za dan vhod (enačba 8). 5.3 Priporočanje z mešano hibridizacijo V našem pristopu hibridnega priporočanja smo se odločili za tip mešane hibridizacije, ki združi re- zultate dveh tehnik vsebinskega filtriranja (slika 3). Pristop mešane hibridizacije smo uporabili zato, ker želimo v končnem seznamu pridobiti čim več rele- vantnih vrstilcev UDK. ČCˇ e v skladu s pristopom mešane hibridizacije združujemo rezultate večih tehnik vsebinskega filtriranja, lahko v končnem se- znamu pričakujemo vrstilce UDK, ki bi jih izpustili z uporabo zgolj ene metode vsebinskega filtriranja. Gre torej za povečanje nabora priporočenih vrstil- cev UDK v končnem seznamu priporočenih vrstilcev UDK. Seznama vrstilcev UDK, pridobljena z meto- dama BM25 in naivnim Bayesovim klasifikatorjem, združimo v končni seznam z združevalno funkcijo M , ki jo definiramo s psevdokodom 1. Slika 3: Shematika procesa priporočanja z mešano hibridizacijo. Rx = RBM25 = {udk[r]}, ∀ r ∈ R (4) P̂ (c) = Nc N P̂ (t|c) = Tct + 1 Σt' ∈ VTct' +1 Ry = RBayes = arg max {log P̂ (c) + Σ log P̂ (ti|c)}k i = 1 m (6) (8) (7) (5) R = arg max {s(dj, Q)}, j ∈ [1...||D||]k U P O R A B N A I N F O R M A T I K A 212020 - πtevilka 1 - letnik XXVIII Ko sta na voljo seznama RX in RY , ki sta rezul- tat obeh metod vsebinskega filtriranja, ju je potreb- no združiti z združevalno funkcijo M . Združeval- na funkcija, ki jo uporabljamo, deluje na principu povprečnega ranga. V obeh seznamih iščemo enake vrstilce UDK in povprečimo njihove pozicije. Če se vrstilec pojavi v enem seznamu, v drugem pa ne, je njegov rang enak vsoti dolžin seznamov RX in RY. Takšna združevalna funkcija daje prednost tistim vrstilcem, ki so bili pridobljeni z obema metodama. Dodatno omogočimo tudi uteževanje kazenskih vre- dnosti na rang v primeru, da ena metoda vrne ele- ment, ki ga druga ne. Uteži kazenskih vrednosti wX in wY imata vrednosti med 0 in 1, kjer 0 ponazar- ja uteževanje brez vrednosti kazni, 1 pa uteževanje s polno vrednostjo kazni. Končno uteževanje lahko popolnoma spremenimo s spreminjanjem združeval- ne funkcije M . 6 eVALVAcIJA IN RezULTATI Merjenja uspešnosti priporočilnih sistemov se lahko lotimo na veliko načinov, saj ima vsak priporočilni sistem različen namen. Obstaja kar nekaj metod za evalvacijo priporočilnih sistemov [Pu et al., 2011], [Shani & Gunawardana, 2011], [Monti et al., 2019], [Bogaert et al., 2019], [Krauss et al., 2019]. Pred eval- vacijo se moramo vprašati po rezultatu, ki ga želimo s priporočilnim sistemom doseči [Rendle et al., 2019]. Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije U P O R A B N A I N F O R M A T I K A22 2020 - πtevilka 1 - letnik XXVIII V našem primeru gre za vsebinsko priporočanje, saj uporabljamo korpus besedil s katerim poskušamo najti vhodu podobne vrstilce UDK. Intuitivno lahko uporabljamo metrike kot sta natančnost in priklic, ki sta zelo znani na področjih iskalnikov in iskanju in- formacij [Hand & Christen, 2018], [Derczynski, 2016]. Čeprav ti dve metodi ocenjujeta uspešnost iskalnega sistema, vendarle nista zmožni oceniti uporabniške izkušnje, ki se pri priporočilnih sistemih ponavadi ocenjuje. Glavni problem knjižničarjev pri katalogi- ziranju je v tem, da je vrstilcev UDK veliko, hkrati pa je potrebno izbrati ustreznega. V veliki množici vrstilcev UDK je to lahko zahtevno in časovno po- tratno. Tako so knjižničarji zadovoljni že, če dobijo manjšo množico relevantnih vrstilcev UDK. Izmed vseh možnih vrstilcev UDK si želijo pridobiti torej samo najbolj ustrezne vrstilce UDK v pomoč, da ka- sneje ročno med njimi izberejo ustrezne. Zadovoljivo je tudi že, če dobijo na voljo vrhnje področje, od ko- der nato dalje samostojno določajo vrstilce UDK. Z vidika področja iskanja informacij gre pravzaprav za metriko priklica, ki v našem primeru meri razmer- je moči množice preseka ustreznih vrstilcev UDK U in vseh vrnjenih vrstilcev UDK V , z močjo množice ustreznih vrstilcev UDK. V našem primeru je torej metrika priklica po- membnejša od metrike natančnosti, saj gre za pripo- ročilni sistem, ki nudi podporo pri polavtomatskem določanju vrstilcev UDK. Metrike, ki jih uporablja- mo, zajemajo priklic (enačba 9), natančnost (enačba 10) in Fβ metriko (enačba 11) za vrednosti β = 1 in β = 50. Pri vrednosti β = 1 sta natančnost in priklic ena- kovredno uteženi, pri vrednosti β = 50 pa ima priklic 50-krat večjo težo kot natančnost. vzeli tista besedila, ki so bila v množici besedil, ki smo jih uporabili za učenje naivnega Bayesovega klasifikatorja in izračun uteži tf in idf . Meritve smo opravili za metodo BM25, naivni Bayesov klasifika- tor in hibridno metodo, ki združuje obe prej omenje- ni metodi. Meritve smo ponovili pri različnih vre- dnostih za parameter kmax, ki predstavlja število vr- njenih vrstilcev. Pri tem smo se omejili na vrednosti kmax = [5, 10, 15]. V kombinaciji s parametrom kmax smo meritve ponovili tudi pri različnih vrednostih za globino hierarhije vrstilcev UDK. Globino hierarhije vrstilcev UDK udcp smo koračno po 2 znaka spremi- njali na intervalu od 1 do 11 znakov. Dodatno smo v hibridni metodi spreminjali utež kazenskih vredno- sti metode BM25 med 0.25 in 1 po koraku 0.25. Tabele 5, 6 in 7 vsebujejo rezultate meritev. S hibridno metodo smo želeli povečati priklic ob predpostavki, da v našem scenariju uporabe metri- ka natanč- nosti ni pomembna za končnega upo- rabnika. Iz meritev je razvidno, da hibridna meto- da v večini primerov dosega enake oziroma boljše vrednosti za metriko priklica in metriko Fβ=50 kot posamično uporabljeni metodi BM25 in Bayesov klasifikator. Opazimo, da je metoda BM25 tista, ki zagotavlja hkrati dobro natančnost in dober priklic, neodvisno od vseh preverjenih parametrov. Baye- sov klasifikator je za vse preverjene vrednosti pa- rametra kmax uporaben samo za vrhnja področja UDK (udcp = 1). V scenariju, kadar vrnemo 5 priporočenih vrstil- cev UDK (kmax = 5), hibridna metoda po metriki Fβ=50 dosega boljše vrednosti, kar je najbolj razvi- dno v primeru vrhnjih področij UDK (udcp = 1), za vse ostale preverjene globine hierarhije UDK pa je enakovredna metodi BM25. Največja izboljšava je pri vrhnjih področjih UDK. Kadar vrnemo 10 priporo- čenih vrstilcev UDK (kmax = 10) se hibridna meto- da po metriki Fβ=50 znova obnese bolje kot metoda BM25. Izboljšava je vidna za vse preverjene globine hierarhije UDK, največja izboljšava pa je znova pri vrhnjih področjih UDK (udcp = 1). Kadar vrnemo 15 priporočenih vrstilcev UDK (kmax = 15), se po me- triki Fβ=50 najbolje izkaže hibridna metoda na vseh globinah hierarhije UDK. Za vrhnja področja (udcp = 1) se tudi Bayesov klasifikator izkaže podobno dobro kot hibridna metoda. Primerjali smo tudi delovanje hibridne metode ob različnih utežeh kazenskih vrednosti. V meritve in primerjavo smo vključili samo variante, kjer manj- R = |U| ∩ |V| |U| P = |U| ∩ |V| |V| F (β) = (1 + β2) (PR) (β2P) + R (9) (10) (11 ) Evalvacijo priporočanja vrstilcev UDK smo izve- dli nad korpusom 10.000 besedil v slovenskem jeziku iz nacionalne infrastrukture odprtega dostopa, ki so imela podatek o klasifikaciji UDK. Pri tem smo iz- Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije U P O R A B N A I N F O R M A T I K A 232020 - πtevilka 1 - letnik XXVIII Tabela 5: Rezultati meritev za uporabljene metode pri kmax = 5. Najvišje vrednosti so označene s krepko pisavo. kmax = 5 metoda P r Fß=1 Fß=50 udcp = 1 BM25 0.882 0.852 0.842 0.852 Bayes 0.248 0.836 0.371 0.835 Hybrid wBM25 = 1.0, wBayes = 1.0 0.267 0.891 0.399 0.890 Hybrid wBM25 = 0.75, wBayes = 1.0 0.267 0.891 0.399 0.890 Hybrid wBM25 = 0.5, wBayes = 1.0 0.267 0.891 0.399 0.890 Hybrid wBM25 = 0.25, wBayes = 1.0 0.267 0.891 0.399 0.890 udcp = 3 BM25 0.859 0.908 0.863 0.908 Bayes 0.097 0.343 0.147 0.343 Hybrid wBM25 = 1.0, wBayes = 1.0 0.281 0.912 0.416 0.911 Hybrid wBM25 = 0.75, wBayes = 1.0 0.284 0.916 0.420 0.915 Hybrid wBM25 = 0.5, wBayes = 1.0 0.286 0.921 0.422 0.920 Hybrid wBM25 = 0.25, wBayes = 1.0 0.286 0.921 0.422 0.920 udcp = 5 BM25 0.853 0.919 0.865 0.919 Bayes 0.032 0.105 0.048 0.105 Hybrid wBM25 = 1.0, wBayes = 1.0 0.277 0.903 0.411 0.902 Hybrid wBM25 = 0.75, wBayes = 1.0 0.286 0.918 0.423 0.917 Hybrid wBM25 = 0.5, wBayes = 1.0 0.287 0.919 0.424 0.918 Hybrid wBM25 = 0.25, wBayes = 1.0 0.287 0.919 0.424 0.918 udcp = 7 BM25 0.844 0.922 0.864 0.922 Bayes 0.049 0.154 0.072 0.154 Hybrid wBM25 = 1.0, wBayes = 1.0 0.279 0.904 0.414 0.903 Hybrid wBM25 = 0.75, wBayes = 1.0 0.289 0.922 0.426 0.921 Hybrid wBM25 = 0.5, wBayes = 1.0 0.289 0.922 0.426 0.921 Hybrid wBM25 = 0.25, wBayes = 1.0 0.289 0.922 0.426 0.921 udcp = 9 BM25 0.844 0.922 0.864 0.922 Bayes 0.051 0.161 0.075 0.161 Hybrid wBM25 = 1.0, wBayes = 1.0 0.281 0.906 0.416 0.905 Hybrid wBM25 = 0.75, wBayes = 1.0 0.290 0.926 0.427 0.925 Hybrid wBM25 = 0.5, wBayes = 1.0 0.290 0.926 0.427 0.925 Hybrid wBM25 = 0.25, wBayes = 1.0 0.290 0.926 0.427 0.925 udcp = 11 BM25 0.844 0.922 0.864 0.922 Bayes 0.050 0.156 0.073 0.156 Hybrid wBM25 = 1.0, wBayes = 1.0 0.280 0.905 0.415 0.904 Hybrid wBM25 = 0.75, wBayes = 1.0 0.290 0.926 0.427 0.925 Hybrid wBM25 = 0.5, wBayes = 1.0 0.290 0.926 0.427 0.925 Hybrid wBM25 = 0.25, wBayes = 1.0 0.290 0.926 0.427 0.925 šamo kazensko utež metodi BM25, ne pa tudi Baye- sovemu klasifikatorju. Tako smo se odločili zato, ker manjšanje kazenskih uteži Bayesovemu klasifikator- ju ne vodi v izboljšanje rezultatov metrik natančno- sti, priklica, Fβ=1 in Fβ=50. Iz rezultatov meritev vi- dimo, da se manjšanje kazenskih uteži metodi BM25 splača vsaj do polovične vrednosti kazenske uteži (wBM25 = 0.5) za 5 vrnjenih zadetkov in vsaj do tri- četrt vrednosti kazenske uteži (wBM25 = 0.75) za 10 in 15 vrnjenih zadetkov. Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije U P O R A B N A I N F O R M A T I K A24 2020 - πtevilka 1 - letnik XXVIII Tabela 6: Rezultati meritev za uporabljene metode pri kmax = 10. Najvišje vrednosti so označene s krepko pisavo. kmax = 10 metoda P r Fß=1 Fß=50 udcp = 1 BM25 0.880 0.852 0.840 0.852 Bayes 0.146 0.902 0.245 0.900 Hybrid wBM25 = 1.0, wBayes = 1.0 0.147 0.906 0.247 0.904 Hybrid wBM25 = 0.75, wBayes = 1.0 0.147 0.906 0.247 0.904 Hybrid wBM25 = 0.5, wBayes = 1.0 0.147 0.906 0.247 0.904 Hybrid wBM25 = 0.25, wBayes = 1.0 0.147 0.906 0.247 0.904 udcp = 3 BM25 0.855 0.914 0.859 0.914 Bayes 0.062 0.439 0.107 0.438 Hybrid wBM25 = 1.0, wBayes = 1.0 0.134 0.921 0.242 0.919 Hybrid wBM25 = 0.75, wBayes = 1.0 0.144 0.923 0.243 0.921 Hybrid wBM25 = 0.5, wBayes = 1.0 0.144 0.927 0.244 0.925 Hybrid wBM25 = 0.25, wBayes = 1.0 0.144 0.927 0.244 0.925 udcp = 5 BM25 0.848 0.920 0.859 0.920 Bayes 0.032 0.212 0.055 0.212 Hybrid wBM25 = 1.0, wBayes = 1.0 0.144 0.925 0.411 0.902 Hybrid wBM25 = 0.75, wBayes = 1.0 0.145 0.926 0.245 0.923 Hybrid wBM25 = 0.5, wBayes = 1.0 0.145 0.926 0.245 0.924 Hybrid wBM25 = 0.25, wBayes = 1.0 0.145 0.926 0.245 0.924 udcp = 7 BM25 0.841 0.925 0.859 0.925 Bayes 0.035 0.217 0.059 0.217 Hybrid wBM25 = 1.0, wBayes = 1.0 0.145 0.930 0.246 0.928 Hybrid wBM25 = 0.75, wBayes = 1.0 0.146 0.932 0.247 0.930 Hybrid wBM25 = 0.5, wBayes = 1.0 0.146 0.933 0.248 0.931 Hybrid wBM25 = 0.25, wBayes = 1.0 0.146 0.933 0.248 0.931 udcp = 9 BM25 0.840 0.925 0.859 0.925 Bayes 0.033 0.209 0.056 0.209 Hybrid wBM25 = 1.0, wBayes = 1.0 0.146 0.932 0.247 0.905 Hybrid wBM25 = 0.75, wBayes = 1.0 0.128 0.824 0.217 0.822 Hybrid wBM25 = 0.5, wBayes = 1.0 0.146 0.933 0.248 0.931 Hybrid wBM25 = 0.25, wBayes = 1.0 0.146 0.933 0.248 0.931 udcp = 11 BM25 0.840 0.925 0.858 0.925 Bayes 0.032 0.203 0.055 0.203 Hybrid wBM25 = 1.0, wBayes = 1.0 0.146 0.932 0.247 0.930 Hybrid wBM25 = 0.75, wBayes = 1.0 0.146 0.932 0.247 0.930 Hybrid wBM25 = 0.5, wBayes = 1.0 0.146 0.933 0.248 0.931 Hybrid wBM25 = 0.25, wBayes = 1.0 0.146 0.933 0.248 0.931 Glede na porazdelitev razpoznanih izrazov UDK na hierarhično globino UDK (slika 2) smo ugotovili, da v primeru manjšega števila vrnjenih zadetkov ni bistvene razlike med uporabo BM25 in predlagane hibridne metode, kadar govorimo o odstotkovno naj- večji pokritosti izbranega korpusa besedil, ki nastopi pri vrednostih parametra udcp = 5 in udcp = 7 ter metrikah priklica in Fβ=50. V splošnem smo ugotovi- li, da so vrednosti izbranih metrik približno enake za hierarhično globino UDK nad 7 znakov. Kadar pa se Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije U P O R A B N A I N F O R M A T I K A 252020 - πtevilka 1 - letnik XXVIII Tabela 7: Rezultati meritev za uporabljene metode pri kmax = 15. Najvišje vrednosti so označene s krepko pisavo. kmax = 15 metoda P r Fß=1 Fß=50 udcp = 1 BM25 0.880 0.852 0.840 0.852 Bayes 0.146 0.902 0.245 0.900 Hybrid wBM25 = 1.0, wBayes = 1.0 0.146 0.906 0.247 0.904 Hybrid wBM25 = 0.75, wBayes = 1.0 0.146 0.906 0.247 0.904 Hybrid wBM25 = 0.5, wBayes = 1.0 0.146 0.906 0.247 0.904 Hybrid wBM25 = 0.25, wBayes = 1.0 0.146 0.906 0.247 0.904 udcp = 3 BM25 0.854 0.916 0.857 0.916 Bayes 0.047 0.485 0.084 0.483 Hybrid wBM25 = 1.0, wBayes = 1.0 0.096 0.930 0.172 0.927 Hybrid wBM25 = 0.75, wBayes = 1.0 0.097 0.931 0.172 0.928 Hybrid wBM25 = 0.5, wBayes = 1.0 0.097 0.931 0.172 0.928 Hybrid wBM25 = 0.25, wBayes = 1.0 0.097 0.931 0.172 0.928 udcp = 5 BM25 0.846 0.921 0.857 0.921 Bayes 0.038 0.361 0.067 0.360 Hybrid wBM25 = 1.0, wBayes = 1.0 0.097 0.936 0.174 0.933 Hybrid wBM25 = 0.75, wBayes = 1.0 0.098 0.938 0.174 0.935 Hybrid wBM25 = 0.5, wBayes = 1.0 0.098 0.938 0.174 0.935 Hybrid wBM25 = 0.25, wBayes = 1.0 0.098 0.938 0.174 0.935 udcp = 7 BM25 0.839 0.929 0.857 0.929 Bayes 0.025 0.231 0.044 0.230 Hybrid wBM25 = 1.0, wBayes = 1.0 0.098 0.936 0.174 0.933 Hybrid wBM25 = 0.75, wBayes = 1.0 0.098 0.935 0.174 0.932 Hybrid wBM25 = 0.5, wBayes = 1.0 0.098 0.939 0.175 0.936 Hybrid wBM25 = 0.25, wBayes = 1.0 0.098 0.939 0.175 0.936 udcp = 9 BM25 0.838 0.925 0.856 0.925 Bayes 0.024 0.223 0.042 0.222 Hybrid wBM25 = 1.0, wBayes = 1.0 0.098 0.936 0.174 0.933 Hybrid wBM25 = 0.75, wBayes = 1.0 0.098 0.936 0.174 0.933 Hybrid wBM25 = 0.5, wBayes = 1.0 0.098 0.936 0.174 0.933 Hybrid wBM25 = 0.25, wBayes = 1.0 0.098 0.936 0.174 0.933 udcp = 11 BM25 0.838 0.925 0.856 0.925 Bayes 0.023 0.217 0.041 0.216 Hybrid wBM25 = 1.0, wBayes = 1.0 0.098 0.936 0.174 0.933 Hybrid wBM25 = 0.75, wBayes = 1.0 0.098 0.936 0.174 0.933 Hybrid wBM25 = 0.5, wBayes = 1.0 0.098 0.936 0.174 0.933 Hybrid wBM25 = 0.25, wBayes = 1.0 0.098 0.936 0.174 0.933 število vrnjenih zadetkov poveča, predlagana hibri- dna metoda konstantno vrača višje vrednosti izbra- nih metrik neodvisno od izbrane hierarhične globine UDK. Zaključujemo torej, da je uporaba predlagane hibridne metode ustrezna za polavtomatsko določa- nje vrstilcev UDK v obliki priporočilnega sistema, kjer knjižničarji dobijo predlagane vrstilce UDK na podlagi vhodnega besedila, med katerimi nato ročno izberejo ustrezne. Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije U P O R A B N A I N F O R M A T I K A26 2020 - πtevilka 1 - letnik XXVIII 7 SKleP V članku smo predstavili hibridni pristop za pripo- ročanje vrstilcev univerzalne decimalne klasifikacije. Opisali smo izbran korpus in predobdelavo besedil za uporabo v predlagani hibridni metodi. Prikazali smo kako z mešano hibridizacijo uporabimo metodi BM25 in naivni Bayesov klasifikator ter opisali pre- prosto združevalno funkcijo, ki oblikuje končni re- zultat. Izvedli smo evalvacijo hibridne metode, meto- de BM25 in naivnega Bayesovega klasifikatorja, kjer smo ugotovili, da se hibridna metoda obnese bolje za metriki priklica in Fβ=50, ki sta bolj relevantni kot metrika natančnosti za scenarij uporabe sistema kot orodja za knjižničarje. Predstavljen hibridni pristop lahko spreminja- mo na več načinov in na več mestih. Ena izmed mo- žnosti izboljšave je uporaba licenčne različice UDK vrstilcev, saj bi tako uspešno razpoznali večji delež izrazov UDK, še posebej na višji hierarhični globini UDK. Prav tako bi lahko izvedli optimizacijo metode BM25 za korpus, ki smo ga uporabljali, kjer bi z op- timiziranjem parametrov k1 in b lahko iskali manjše izboljšave. Podobno bi lahko optimizirali vrednosti uteži kazenskih vrednosti. Hibridni pristop je vedno možno izboljšati s spreminjanjem združevalne funk- cije M glede na potrebe končnega uporabnika ali pa z različnim načinom hibridizacije. Pri tem bi bila zani- miva predvsem utežni in kaskadni tip hibridizacije. Predstavljen hibridni pristop je prav tako ustrezen za uporabo pri določanju kandidatov dokumentov za podrobnejše preverjanje v sistemu za detekcijo podobnih vsebin. Nazadnje bi bilo zanimivo videti tudi, kako se na tem področju obnesejo nevronske mreže s povratno zanko, ki so v zadnjem obdobju zelo napredovale na področjih besedilnega rudarje- nja in obdelave naravnega jezika. LITeRATURA [1] Bai, X., Wang, M., Lee, I., Yang, Z., Kong, X., & Xia, F. (2019). Scientific Paper Recommendation: A Survey. IEEE Access, 7, 9324–9339. [2] Beel, J., Aizawa, A., Breitinger, C., & Gipp, B. (2017). Mr. DLib: Recommendations-as-a-Service (RaaS) for Acade- mia. In 2017 ACM/IEEE Joint Conference on Digital Libraries (JCDL) (pp. 1–2). [3] Bogaert, M., Lootens, J., den Poel, D. V., & Ballings, M. (2019). Evaluating multi-label classifiers and recommender systems in the financial service sector. European Journal of Operational Research, 279(2), 620 – 634. [4] Burke, R. (2002). Hybrid Recommender Systems: Survey and Experiments. User Modeling and User-Adapted Interaction, 12(4), 331–370. [5] Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation. In Proceedings of the Tenth International Confe- rence on Language Resources and Evaluation (LREC 2016) (pp. 261–266). Portorož, Slovenia: European Language Reso- urces Association (ELRA). [6] Frank, E. & Paynter, G. W. (2004). Predicting Library of Con- gress Classifications from Library of Congress Subject Hea- dings. J. Am. Soc. Inf. Sci. Technol., 55(3), 214–227. [7] Godby, C. J. & Stuler, J. (2003). The Library of Congress Clas- sification as a Knowledge Base for Automatic Subject Cate- gorization. In Subject Retrieval in a Networked Environment: Proceedings of the IFLA Satellite Meeting held in Dublin, OH,14-16 August 2001 and sponsored by the IFLA Classifi- cation and Indexing Section, the IFLA Information Technolo- gy Section and OCLC (pp. 163–169). [8] Hand, D. & Christen, P. (2018). A note on using the F-measure for evaluating record linkage algorithms. Statistics and Com- puting, 28(3), 539–547. [9] He, B. & Ounis, I. (2003). A Study of Parameter Tuning for Term Frequency Normalization. In Proceedings of the Twelfth International Conference on Information and Knowledge Ma- nagement, CIKM ’03 (pp. 10–16). New York, NY, USA: ACM. [10] He, B. & Ounis, I. (2005). Term Frequency Normalisation Tu- ning for BM25 and DFR Models. In D. E. Losada & J. M. Fer- nández-Luna (Eds.), Advances in Information Retrieval (pp. 200–214). Berlin, Heidelberg: Springer Berlin Heidelberg. [11] Krauss, C., Merceron, A., & Arbanowski, S. (2019). The Time- liness Deviation: A Novel Approach to Evaluate Educational Recommender Systems for Closed-Courses. In Proceedings of the 9th International Conference on Learning Analytics & Knowledge, LAK19 (pp. 195–204). New York, NY, USA: ACM. [12] Lops, P., de Gemmis, M., & Semeraro, G. (2011). Content- -based Recommender Systems: State of the Art and Trends, (pp. 73–105). Springer US: Boston, MA. [13] Lv, Y. & Zhai, C. (2011a). Adaptive Term Frequency Normali- zation for BM25. In Proceedings of the 20th ACM Internatio- nal Conference on Information and Knowledge Management, CIKM ’11 (pp. 1985–1988). New York, NY, USA: ACM. [14] Lv, Y. & Zhai, C. (2011b). Lower-bounding Term Frequency Normalization. In Proceedings of the 20th ACM International Conference on Information and Knowledge Management, CIKM ’11 (pp. 7–16). New York, NY, USA: ACM. [15] Manning, Christopher D. and Raghavan, Prabhakar and Schütze, Hinrich (2008). Introduction to Information Retrieval. New York, NY, USA: Cambridge University Press. [16] Melville, P. & Sindhwani, V. (2017). Recommender Systems, (pp. 1056–1066). Springer US: Boston, MA. [17] Monti, D., Palumbo, E., Rizzo, G., & Morisio, M. (2019). Sequeval: An Offline Evaluation Framework for Sequence- -Based Recommender Systems. Information, 10, 174. [18] Ojsteršek, M., Brezovnik, J., Kotar, M., Ferme, M., Hrovat, G., Bregant, A., & Borovič, M. (2014). Establishing of a Slo- venian open access infrastructure: a technical point of view. Program, 48(4), 394–412. [19] Porcel, C., Moreno, J., & Herrera-Viedma, E. (2009). A multi- -disciplinar recommender system to advice research resour- ces in University Digital Libraries. Expert Systems with Appli- cations, 36(10), 12520–12528. [20] Pu, P., Chen, L., & Hu, R. (2011). A User-centric Evaluation Framework for Recommender Systems. In Proceedings of the Fifth ACM Conference on Recommender Systems, RecSys ’11 (pp. 157–164). New York, NY, USA: ACM. [21] Rendle, S., Zhang, L., & Koren, Y. (2019). On the Difficulty of Evaluating Baselines: A Study on Recommender Systems. ArXiv, abs/1905.01395. Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije U P O R A B N A I N F O R M A T I K A 272020 - πtevilka 1 - letnik XXVIII [22] Robertson, S. & Zaragoza, H. (2009). The Probabilistic Rele- vance Framework. now. [23] Shani, G. & Gunawardana, A. (2011). Evaluating Recommen- dation Systems, (pp. 257–297). Springer US: Boston, MA. [24] Slavic, A. (2004). UDC implementation: From library shelves to a structured indexing language. In International Catalogu- ing and Bibliographic Control., volume 33.3 (pp. 60–65). [25] Trotman, A., Puurula, A., & Burgess, B. (2014). Improvements to BM25 and Language Models Examined. In Proceedings of the 2014 Australasian Document Computing Symposium, ADCS ’14 (pp. 58:58–58:65). New York, NY, USA: ACM. [26] UDC Consortium (UDCC) (2012). Multilingual Universal Deci- mal Classifi- cation Summary (UDCC Publication No. 088).  mladen borovič je doktorski študent in asistent na Fakulteti za elektrotehniko, računalništvo in informatiko na Univerzi v Mariboru. Njegovo raziskovalno delo obsega področja priporočilnih sistemov, iskalnih sistemov, porazdeljenih računalniških sistemov, odkrivanja podobnih vsebin, besedilnega rudarjenja in obdelave naravnega jezika. Še posebej se ukvarja s hibridnimi priporočilnimi sistemi in uporabo metod umetne inteligence v besedilnem rudarjenju.  Sandi majninger je doktorski študent in asistent na Fakulteti za elektrotehniko, računalništvo in informatiko na Univerzi v Mariboru. Raziskovalno je aktiven na področju obdelave naravnega jezika, odkrivanja podobnih vsebin ter ugotavljanju pomena iz besedil. Med drugim se ukvarja tudi z avtomatskim ocenjevanjem pomenske pravilnosti odgovorov na vprašanja odprtega tipa in avtomatskim ocenjevanjem daljših pisnih sestavkov ter esejev.  Jani Dugonik je doktorski študent in asistent na Fakulteti za elektrotehniko, računalništvo in informatiko. Nje- gova raziskovalna področja vključu- jejo evolucijsko računanje, optimizacijske metode, procesiranje naravnega jezika in globoko učenje. Marko Ferme je raziskovalec na Fakulteti za elektrotehniko, računalništvo in informatiko na Univerzi v Mariboru. Njegova raziskovalna področja obsegajo procesiranje naravnega jezika, sisteme za odgovarjanje na vprašanja v naravnem jeziku, ontologije in semantični splet, aktiven pa je tudi na več raziskovalnih in komercialnih projektih na področju digitalnih knjižnic.ziskovalnih projektih s področja strateškega planiranja, metodologij razvoja informacijskih sistemov, uporabe inteligentnih sistemov, avtomatizacije poslovnih procesov in obvladovanja ter porazdelitve velike količine podatkov.  milan Ojsteršek je raziskovalec na Fakulteti za elektrotehniko, računalništvo in informatiko na Univerzi v Mariboru. Njegova raziskovalna področja zajemajo heterogene računalniške sisteme, digitalne knjižnice, semantični splet in storitveno usmerjene arhitekture.Marko Ferme je razisko- valec na Fakulteti za elektrotehniko, računalništvo in informatiko na Univerzi v Mariboru. Njegova raziskovalna področja obsegajo procesiranje naravnega jezika, sisteme za odgovarjanje na vprašanja v naravnem jeziku, ontologije in semantični splet, aktiven pa je tudi na več raziskovalnih in komercialnih projektih na področju digitalnih knjižnic.ziskovalnih projektih s področja strateškega planiranja, metodologij razvoja informacijskih sistemov, uporabe inteligentnih sistemov, avtomatizacije poslovnih procesov in obvladovanja ter porazdelitve velike količine podatkov. [27] Vargas, S., Hristakeva, M., & Jack, K. (2016). Mendeley: Re- commendations for Researchers. In RecSys ’16 Proceedings of the 10th ACM Conference on Recommender Systems (pp. 365–365). Boston, MA, USA. [28] Wang, J. (2009). An extensive study on automated Dewey Decimal Classification. Journal of the American Society for Information Science and Technology, 60(11), 2269–2286. [29] Zalokar, Matjaž (2002a). Spletni splošni slovenski geslovnik. http://old.nuk.uni-lj.si/ssg/geslovnik.html. [30] Zalokar, Matjaž (2002b). Splošni slovenski geslovnik. Organi- zacija znanja, 7, 3–4. Mladen Borovič, Sandi Majninger, Jani Dugonik, Marko Ferme, Milan Ojsteršek: Hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije