URN_NBN_SI_doc-CKREDCV0

111 KRNJENJE SLOVENSKIH BESEDIL S PODROČJA BIBLIOTEKARSTVA 1 Polona Vilar Jasna Maver Oddano: 11.04.2002 – Sprejeto: 06.05.2002 Izvirni znanstveni članek UDK 001.4 : 02 : 004.021 Izvleček Prispevek predstavlja pripravo algoritma za krnjenje slovenskih besedil s področja bib- liotekarstva, ki je potekal v treh fazah: učni, testni in evalvacijski. Predstavljena je prip- rava oz. učenje Optimalnega algoritma za krnjenje bibliotekarskih besedil, njegovo testi- ranje in primerjava z dvema drugima algoritmoma za krnjenje, imenovanima Popovičev in Generični. Za učenje je bil uporabljen korpus 790.000 besed s področja bibliotekarst- va. Zgrajeni so bili seznami krnov, besednih končnic ter blokiranih besed. Testna faza je obsegala testiranje algoritma, predvsem zgrajenih sestavnih delov, z dodatnim kor- pusom, obsegajočim 167.000 besed. V evalvacijski fazi je bila izvedena primerjava delovanja omenjenih treh algoritmov na istem korpusu. Rezultati delovanja algoritmov so primerjani z intelektualno pripravljenim kontrolnim rezultatom. V njem so množice semantično povezanih besed, zastopane s krni. Spremljano je premalo natačno krnjenje – koliko krnov za semantično povezane besede izdela posamezen algoritem. Rezultati so statistično obdelani s Kruskal-Wallisovim testom. Optimalni algoritem daje najboljše rezultate. Največkrat doseže popolno ujemanje s kontrolnim rezultatom in hkrati izde- la najmanj krnov za en pomen. Sledi Popovičev z majhnim odstopanjem. Najmanj na- tančen je Generični. Opisani postopki lahko predstavljajo izhodišče za nadaljnjo grad- njo orodij za avtomatsko indeksiranje dokumentov s področja bibliotekarstva in poiz- vedovanje po njih. Ključne besede: avtomatsko krnjenje, algoritmi, slovenski jezik, bibliotekarstvo VILAR, Polona; Jasna MAVER: Stemming of Slovenian library science texts. Knjižnica, Ljubljana, 46(2002)1-2, 111-136 1 Prispevek opisuje eksperiment, ki je v letih 2000 in 2001 potekal na Oddelku za bibliotekarstvo, informacijsko znanost in knjigarstvo na Filozofski fakulteti v Ljubljani, in je podrobneje opisan v magistrskem delu “Krnjenje slovenskih besedil s področja bibliotekarstva” (Vilar, 2001).

RkJQdWJsaXNoZXIy