219Jezikoslovni zapiski 22  2016  2
Janoš JeŽovnik
oRodja in metode za ustvaRjanje inovativnih 
e-slOvaRjev, ljubljana, 17.–20. maj 2016
Cobiss: 1.25
Od 17. do 20. maja 2016 je v Ljubljani v okviru dejavnosti Evropske mreže za 
e-lek sikografijo (ENeL) potekalo izobraževanje Orodja in metode za ustvarjanje 
inovativnih e-slovarjev, ki sta ga soorganizirala Center za jezikovne vire in tehno-
logije Univerze v Ljubljani in Trojina, zavod za uporabno slovenistiko. Udeležilo 
se ga je 28 udeležencev z raziskovalnih ustanov iz 14 različnih držav, med njimi 
tudi štirje sodelavci Inštituta za slovenski jezik Frana Ramovša ZRC SAZU v Ljub-
ljani. Namen izobraževanja je bil udeležence seznaniti z nekaterimi načini gradnje 
in analize korpusov, avtomatskega izvoza in urejanja podatkov, potrebnih za obli-
kovanje slovarskega sestavka, ter objave urejenih slovarskih sestavkov s pomočjo 
spletnih in drugih slovaropisnih sistemov, in sicer tako v teoriji kot v praksi.
Dogodek se je začel z uvodnim nagovorom in predstavitvijo izvajalcev po-
sameznih delavnic ter s kratko predstavitvijo vsakega od udeležencev. Zatem sta 
Carole Tiberius (Inštitut za nizozemsko leksikologijo, Leiden) in Simon Krek (In-
stitut »Jožef Stefan«, Ljubljana) predstavila slovarska projekta, izdelana na pod-
lagi korpusne metode, in sicer Nizozemski splošni slovar (Algemeen Nederlands 
Woordenboek, ANW) oziroma Slovensko leksikalno bazo (SLB). V popoldan-
skem delu je Egon Stemle (Inštitut za specializirano komunikacijo in večjezičnost, 
EURAC, Bolzano/Bozen) predstavil koncept svetovnega spleta kot korpusa (Web 
as Corpus) ter metode avtomatskega pridobivanja korpusnega gradiva s spleta na 
podlagi ključnih besed in njegove obdelave (izločanje korpusnega šuma, čiščenje 
odvečnih vsebin ...), ki smo jih udeleženci v praktičnem delu tudi preizkusili.
Drugi dan je bil namenjen spoznavanju oblikovanja in analize pridobljenih 
podatkov. Carole Tiberius je uvodoma predstavila načela načrtovanja strukture 
slovarskih sestavkov in njenega prikaza s pomočjo diagramskega jezika UML. 
Sledila je predstavitev razširljivega označevalnega jezika XML, v katerem je na-
pisana glavnina shem sodobnih e-slovarjev, in standarda TEI, ki opisuje nabor in 
načela uporabe oznak v jeziku XML za potrebe oblikovanja različnih strojno ber-
ljivih besedil, tudi e-slovarjev. Michal Měchura (Univerza Dublin City, Dublin) 
je predstavil Lexonomy, spletno okolje za pisanje in objavljanje e-slovarjev. Ta 
uporabniku omogoča enostavno oblikovanje slovarske sheme, vnos in obliko-
vanje slovarskih sestavkov ter njihovo objavo, podpira pa tudi avtomatski uvoz 
podatkov v ustreznem formatu. Brezplačni sistem, ki zahteva le registracijo pri 
220 Janoš Ježovnik  OrOdja in metOde za ustvarjanje inOvativnih e-slOvarjev ...
avtorju in se bo v prihodnosti še dograjeval, je intuitiven in uporaben za različne 
vrste leksikografskih projektov, ne omogoča pa (še) podvajanja gnezdenih oznak 
XML, kar nekoliko zmanjšuje preglednost ustvarjene sheme. 
V praktičnem delu smo udeleženci oblikovali svojo slovarsko shemo in jo 
vnesli v lasten slovarski projekt v sistemu Lexonomy. Sledila je predstavitev 
sistemov za korpusne analize in poizvedbe. Miloš Jakubíček (Lexical Compu-
ting, Brighton – Brno) je predstavil arhitekturo in delovanje korpusnega orodja 
SketchEngine, skupaj s Carole Tiberius pa v nadaljevanju jezik za korpusne po-
izvedbe CQL (Corpus Query Language) in načela za pisanje slovnice besednih 
skic v tem jeziku. Besedne skice so razširitev orodja SketchEngine in omogočajo 
prikaz kolokacij iskane besede, ki se pojavljajo v korpusu, glede na slovnične re-
lacije, vnaprej definirane s slovnico besednih skic; kolokacije je mogoče razvrstiti 
tako po pogostnosti kot po relativni statistični relevantnosti. V zaključnem delu 
drugega dneva je Iztok Kosem (Trojina, Ljubljana) opisal delovanje in uporabo 
orodja GDEX (Good Dictionary EXample), prav tako implementiranega v okolje 
SketchEngine, ki služi razvrščanju konkordanc glede na njihovo primernost za 
vključitev v slovarski sestavek. Stavčni zgledi v slovarju bi morali težiti k čim več-
ji avtentičnosti, informativnosti in razumljivosti ter k prikazu čim bolj tipične rabe 
slovarske iztočnice. GDEX zglede v konkordancah ovrednoti po vnaprej določenih 
merilih (npr. dolžina povedi, pojavljanje pogosto ali redko rabljenih besed, število 
velikih začetnic, položaj leme v stavku itd.) in bolje ocenjene konkordance uvrsti na 
vrh seznama, s čimer leksikografu olajša iskanje ustreznih stavčnih zgledov.
V naslednjem delu smo udeleženci spoznavali avtomatsko luščenje podatkov 
iz besedil. Izvajalci so predstavili nekaj idej in pobud na tem področju ter njihov 
potencial za uporabo v e-leksikografiji:
 prizadevanja delovne skupine, ki se znotraj ENeL ukvarja s t. i. inovativnimi 
e-slovarji; 
 platformo za obdelavo strukturiranih in nestrukturiranih podatkov velike-
ga obsega v realnem času QMiner in njeno implementacijo na spletni strani 
EventRegistry (http://eventregistry.org), ki iz novičarskih spletnih virov v več 
jezikih pridobiva podatke v realnem času in ponuja strnjene opise različnih 
svetovnih dogodkov; 
 projekt v nastajanju Elexis, v okviru katerega bi povezali obstoječe e-slovar-
ske opise in njihove dele ter jih integrirali v obliki portala z multimedijskim 
prikazom rabe besed, temelječim na prepletu podatkov iz več jezikov; 
 opis dejavnosti akcije PARSEME, ki deluje v okviru iniciative COST in se 
ukvarja z razčlenjevanjem naravnih jezikov in večbesednimi izrazi, in sku-
pnega srečanja predstavnikov PARSEME in ENeL, namenjenega vzpostavit-
vi interdisciplinarnega sodelovanja med obema akcijama.
Po predstavitvah smo spoznali še eno od orodij okolja SketchEngine, ki omo-
goča enostavno izbiro slovarskih zgledov s klikanjem (TickBox lexicography, v 
221Jezikoslovni zapiski 22  2016  2
slovenskem prostoru t. i. kliksikografija) in njihov avtomatski izvoz v poljubno 
ciljno delovno okolje. Dotaknili smo se tudi naprednejše metode izvoza korpusnih 
podatkov v surovi obliki s pomočjo formata JSON.
Sklepni dan izobraževanja je bil namenjen seznanjanju z načini in načeli ob-
javljanja e-slovarjev. Michal Měchura je uvodoma izpostavil posebnosti, na katere 
je treba biti pozoren pri oblikovanju spletnega slovarja ali slovarskega portala. Pri-
kazal je uvoz slovarskih podatkov v spletno okolje Lexonomy in njihovo nadaljnje 
oblikovanje. Udeleženci smo podatke, ki smo jih avtomatsko izvozili prejšnji dan, 
uvozili v slovarske sheme, oblikovane drugi dan izobraževanja. V nadaljevanju 
smo spoznali še postopek objave tako ustvarjenega spletnega slovarja na portalu 
Lexonomy. Kot zaključek izobraževanja sta sledila predstavitev rezultatov udele-
žencev in podajanje povratne informacije izvajalcem.
Izobraževanje s strukturirano predstavitvijo tako osnovnih kot naprednejših 
metod in načel e-leksikografije je kljub različnim izhodiščnim ravnem znanja in 
področjem zanimanja udeležencev poskrbelo za kvalitetno seznanitev s sodobnimi 
težnjami na omenjenem področju ali vsaj za osvežitev že obstoječega znanja.