Izpitni centri ECDL ECDL (European Computer Driving License), ki ga v Sloveniji imenujemo evropsko raËunalni.ko spriËevalo, je standardni program usposabljanja uporabnikov, ki da zaposlenim potrebno znanje za delo s standardnimi raËunalni.kimi programi na informatiziranem delovnem mestu, delodajalcem pa pomeni dokazilo o usposobljenosti. V Evropi je za uvajanje, usposabljanje in nadzor izvajanja ECDL poobla.Ëena ustanova ECDL Fundation, v Sloveniji pa je kot Ëlan CEPIS (Council of European Professional Informatics) to pravico pridobilo Slovensko dru.tvo INFORMATIKA. V draavah Evropske unije so pri uvajanju ECDL moËno angaairane srednje in visoke .ole, aktivni pa so tudi razliËni vladni resorji. Posebno pomembno je, da velja spriËevalo v 148 draavah, ki so vkljuËene v program ECDL. Doslej je bilo v svetu izdanih ae veË kot 11,6 milijona indeksov, v Sloveniji veË kot 17.000, in podeljenih veË kot 11.000 spriËeval. Za izpitne centre v Sloveniji je usposobljenih sedem organizacij, katerih logotipe objavljamo. LJUDSKA UNIVERZA MURSKA SOBOTA VSEBINA UPORABNA INFORMATIKA 2013 ©TEVILKA 3 OKT/NOV/DEC LETNIK XXI ISSN 1318-1882 Uvodnik Znanstveni prispevki Tomaž Erjavec: Posodabljanje starejše slovenšËine 186 Peter Holozan: Uporaba strojnega uËenja za postavljanje vejic v slovenšËini 196 Gregor Donaj, Andrej Žgank, Mirjam Sepesy MauËec: Govorni in jezikovni viri slovenšËine za samodejno razpoznavanje tekoËega govora 210 Špela Vintar: Sodobne prevajalske tehnologije in prihodnost prevajalskega poklica 221 Strokovni prispevki Katarina Puc,TomažTurk: Na poti do Islovarja 3.0 228 Informacije Iz Islovarja 233 Koledar prireditev 236 INFORMATIKA 2013 ©TEVILKA 4 OKT/NOV/DEC LETNIK XXI ISSN 1318-1882 Ustanovitelj in izdajatelj Slovensko dru.tvo INFORMATIKA Litostrojska cesta 54, 1000 Ljubljana Predstavnik Niko Schlamberger Odgovorni urednik Jurij JakliË GostujoËa urednica Špela Vintar Uredni.ki odbor Marko Bajec,Vesna BosiljVuk.iE, Sjaak Brinkkemper,Gregor Hauc, Jurij JakliË, Andrej KovaËiË, Jan von Knop, Jan Mendling, Miodrag PopoviE, Katarina Puc, Vladislav RajkoviË, Ivan Rozman, Pedro Simoes Coelho, JohnTaylor, Mirko Vintar,TatjanaWelzerDruaovec Recenzenti Marko Bajec, Vladimir Batagelj, Jaroslav Berce, Igor Bernik, KsenËa Bokovec,Vesna BosiljVuk.iE, AlenkaBrezav.Ëek, Bo.tjan Brumen, Mitja Cerov.ek,Tomaa Erjavec, Miro Gradi.ar, Marko Hölbl, Mojca Indihar ©temberger, Jurij JakliË, Sa.a JavoriË, Matjaa B. JuriË, Aleksandar Juri.iE,Tomaa Kern, Bo.tjan Keamah, Andrej KovaËiË, MihaelKro.l, Franci Pivec,VesnaPrijatelj, Katarina Puc, Andreja Pucihar, Uro. RajkoviË, Vladislav RajkoviË, Heinrich Reinermann, Ivan Rozman, Rok Rupnik, Niko Schlamberger, Ana ©a.a Bastinos, LjupËoTodorovski, DenisTrËek, PeterTrkman, TomaaTurk, Mirko Vintar, SmiljanaVonËina Slavec,TatjanaWelzer Druaovec, Ale. AivkoviË TehniËna urednica MiraTurk ©kraba Lektoriranje MiraTurk ©kraba (slov.) Špela Vintar (angl.) Oblikovanje KOFEIN DIZAJN, d. o. o. Prelom in tisk Boex DTP, d. o. o., Ljubljana Naklada 600 izvodov Naslov uredni.tva Slovensko dru.tvo INFORMATIKA Uredni.tvorevije Uporabna informatika Litostrojska cesta 54, 1000 Ljubljana www.uporabna-informatika.si Revija izhaja Ëetrtletno. Cena posamezne .tevilke je 20,00 EUR. Letna naroËnina za podjetja 85,00 EUR, za vsak nadaljni izvod 60,00 EUR, za posameznike 35,00 EUR, za .tudente in seniorje 15,00EUR.Vcenoje vkljuËenDDV. Izdajanjerevije Uporabna informatikav letu 2013 sofinancira Javna agencija za raziskovalno dejavnost Republike Slovenije. Revija Uporabna informatikajeod .tevilke 4/VII vkljuËena v mednarodno bazo INSPEC. Revija Uporabna informatikajepod zaporedno .tevilko666 vpisana v razvid medijev,kiga vodi Ministrstvo zakulturo RS. Revija Uporabna informatika je vkljuËena v Digitalno knjianico Slovenije (dLib.si). YSlovensko dru.tvo INFORMATIKA Vabilo avtorjem Vreviji Uporabna informatika objavljamo kakovostne izvirne Ëlanke domaËih in tujih av­torjevznaj.ir.egapodroËjainformatikevposlovanju podjetij,javniupraviin zasebnem aivljenju na znanstveni, strokovni in informativni ravni; .e posebno spodbujamo objavo interdisciplinarnih Ëlankov. Zato vabimo avtorje, da prispevke, ki ustrezajo omenjenim usmeritvam, po.ljejo uredni.tvu revije po elektronski po.ti na naslov ui@drustvo­-informatika.si. Avtorjeprosimo,dapri pripravi prispevka upo.tevajo navodila, objavljenav nadaljeva­ nju ter na naslovu http://www.uporabna-informatika.si. Za kakovost prispevkov skrbi mednarodni uredni.ki odbor. »lanki so anonimnorecen­zirani, o objavi pa na podlagi recenzij samostojno odloËa uredni.ki odbor. Recenzenti lahko zahtevajo, da avtorji besedilo spremenijo v skladu s priporoËili in da popravljeni Ëlanek ponovno prejmejo v pregled. Uredni.tvo pa lahko .e pred recenzijo zavrne objavo prispevka,Ëe njegova vsebinane ustreza vsebinski usmeritvirevijealiËeËlanek ne ustreza kriterijem za objavovreviji. Pred objavo Ëlanka mora avtor podpisati izjavoo avtorstvu,s kateropotrjuje original­nost Ëlanka in dovoljuje prenos materialnih avtorskih pravic. NenaroËenih prispevkov ne vraËamoinne honoriramo. Avtorjiprejmejo enoletno naroËninonarevijo Uporabna informatika, ki vkljuËuje avtorski izvod revije in .e nadaljnje tri zaporedne .tevilke. Ssvojim prispevkomvreviji Uporabna informatika boste prispevalik.irjenju znanja na podroËju informatike. AelimosiËimveË prispevkovz raznolikoin zanimivo tematikoin se jih ae vnaprej veselimo. Uredni.tvorevije Navodila avtorjem Ëlankov »lanke objavljamo pravilomav sloven.Ëini, Ëlanke tujih avtorjevpav angle.Ëini. Bese­dilonajbo jezikovno skrbno pripravljeno.PriporoËamo zmernostpri uporabitujkin‡ kjerje mogoËe‡njihovo zamenjavos slovenskimi izrazi.VpomoËpri iskanju sloven­skih ustreznic priporoËamo uporabo spletnega terminolo.kega slovarja Slovenskega dru.tva Informatika Islovar (www.islovar.org). Znanstveni Ëlanek naj obsega najveË 40.000 znakov, strokovni Ëlanki do 30.000 zna­kov, obvestila in poroËila pa do 8.000 znakov. »laneknajbo pravilomapredloaenvurejevalniku besedilWord (*.docali *.docx)v enojnem razmaku, brez posebnih znakov ali poudarjenih Ërk. Za loËilom na koncu stav­ka napravite samo en prazen prostor, pri odstavkih ne uporabljajte zamika. NaslovuËlankanajsledizavsakegaavtorjapolnoime, ustanova,vkaterijezaposlen, naslovin elektronski naslov. Sledinaj povzetekvsloven.Ëinivobsegu8do10 vrsticin seznamod5do8kljuËnih besed,ki najbolje opredeljujejo vsebinski okvir Ëlanka.Pred povzetkomvangle.Ëininajbo.e angle.kiprevod naslova, prav takopanaj bodo doda­ne kljuËne besedevangle.Ëini. Obratno veljavprimerupredloaitve Ëlankavangle.Ëini. Razdelkinaj bodo naslovljeniin o.tevilËeniz arabskimi .tevilkami. Slike in tabele vkljuËite v besedilo. Opremite jih z naslovom in o.tevilËite z arabskimi .tevilkami. Vsako sliko in tabelo razloaite tudi v besedilu Ëlanka. »e v Ëlanku upora­bljate slike ali tabele drugih avtorjev, navedite vir pod sliko oz. tabelo. Revijo tiskamo v Ërno-beli tehniki, zato barvne slike ali fotografije kot original niso primerne. Slik zaslonov ne objavljamo, razen Ëe so nujno potrebne za razumevanje besedila. Slike, grafikoni, organizacijske sheme ipd. naj imajo belo podlago. EnaËbe o.tevilËite v okle­pajih desno od enaËbe. Vbesediluse sklicujtena navedeno literaturo skladnos pravili sistemaAPAnavajanja bibliografskihreferenc, najpogosteje torejv obliki: (Novak&KovaË, 2008, str. 235). Na koncu Ëlanka navedite samo v Ëlanku uporabljeno literaturo in vire v enotnem seznamupo abecednemredu avtorjev, prav takov skladus praviliAPA.VeËoAPA sistemu, katerega uporabo omogoËa tudi urejevalnik besedil Word2007, najdete na strani http://owl.english.purdue.edu/owl/resource/560/01/. »lanku dodajte kratek aivljenjepis vsakega avtorjav obsegudo8 vrstic,v katerem poudarite predvsem strokovne doseake. UVODNIK Spo.tovane bralke in spo.tovani bralci, tokratna številka revije Uporabna informatika je posveËena podroËju jezikovnih tehnologij. Pomena jezika kot osnovnega sredstva sporazumevanja med ljudmi in temeljnega nosilca kulturne identitete verjetno ni treba posebej izpostavljati, saj se ti dve vlogi skozi zgodovino Ëloveštva nista bistveno spreminjali. V sodobnem svetu poteka velik del sporoËanja prek digitalnih medijev, ne komuniciramo le z ljudmi, ampak tudi z napravami, potreba po medkulturnem in medjezikovnem prenosu informacij pa je veËja kot kadar koli prej. Jezikovne tehnologije so tako tesno prepletene z razvojem informacij­skih tehnologij in pomembno vplivajo na številna podroËja Ëlovekovega delovanja od pisanja in branja besedil v mater­nem in tujih jezikih, iskanja podatkov na spletu, govornega upravljanja naprav in raËunalniškega prevajanja, pa vse do rudarjenja podatkov in odkrivanja novega znanja v besedilih. Tematska številka o jezikovnih tehnologijah se Ëasovno umešËa v prelomno leto za jezikovnotehnološki razvoj v sloven­skem prostoru, saj je bila julija letos sprejeta resolucija o nacionalnem programu za jezikovno politiko 2014‡2018, ki zagotavljanje tehnološko podprtih jezikovnih virov in orodij umešËa med najvišje prioritete, v tem okviru pa med drugim predvideva vrsto ukrepov za boljšo opremljenost slovenšËine s prosto dostopnimi digitalnimi korpusi, leksikoni, slovarji in orodji za raËunalniško obdelavo jezika v eno- in veËjeziËnem kontekstu, v razliËnih medijih (govorni, pisni, znakovni) in za razliËne potrebe uporabnikov. V tej številki objavljeni prispevki naslavljajo razliËne jezikovnotehnološke vidike, pri tem pa so pregledno zajeta podroËja jezikovnih virov, terminologije, temeljnih jezikovnih pripomoËkov ter govornih in prevajalskih tehnologij. Prispevek To­maža Erjavca se ukvarja z jezikovnotehnološko obdelavo starejših besedil, kar je pomemben vidik digitalizacije slovenske besedilne dedišËine in zagotavljanja iskanja po polnih besedilih naše zgodovine. Peter Holozan se v svojem prispevku posveËa samodejnemu pregledovanju in postavljanju vejic v slovenšËini, hkrati pa Ëlanek daje tudi vpogled v dva glavna pristopa k modeliranju jezika, s pravili in s statistiËnimi metodami. Gregor Donaj s sodelavci pregledno predstavlja vire in tehnologije za razpoznavanje govorjene slovenšËine, kar je ena od najbolj zahtevnih, obenem pa tudi zelo potrebnih jezikovnih aplikacij. Prispevek Špele Vintar pregledno predstavlja sodobne tehnologije za prevajanje, ki korenito spremi­njajo ne le vidik veËjeziËnosti v informacijski družbi, ampak tudi poklicni profil prevajalcev. Strokovni prispevek Tomaža Turka in Katarine Puc pa posega v podroËje terminografije, in sicer avtorja opisujeta razvojno pot najveËjega slovenskega slovarja informatike Islovar, ki bo v kratkem zaživel v novi podobi in s sodobnejšo spletno programsko rešitvijo. Jezikovna industrija je ena najhitreje rastoËih na svetu, informacijska podpora za slovenšËino pa kljuËni dejavnik za pre­poznavnost države in kulturno, znanstveno in gospodarsko uspešnost njenih prebivalcev. V beli knjigi Slovenski jezik v digitalni dobi,1 ki je izšla lani pod avtorstvom Simona Kreka v okviru evropskega projekta META-NET, so predstavljeni primerljivi podatki o jezikovni opremljenosti in jezikovnih tehnologijah za vseh (tedanjih) 23 uradnih evropskih jezikov in za še nekatere druge. SlovenšËina se uvršËa med slabše opremljene jezike, pri Ëemer je kakovost obstojeËih virov sicer zadovoljiva, kot najveËjo težavo pa študija izpostavlja manjkajoËe vire in orodja ter težave pri njihovem dolgoroËnem vzdrževanju in distribuciji. Ob izidu tematske Uporabne informatike si lahko zato le zaželimo, da bi bile jezikovne tehnologije za slovenšËino v prihodnosti vse bolj uporabne, dostopne in kakovostne, to pa bo uresniËljivo le ob ustrezni razvojni politiki države in usklajenih naporih raziskovalcev, razvijalcev in uporabnikov. Špela Vintar, gostujoËa urednica Bela knjiga je dostopna na http://www.meta-net.eu/whitepapers/volumes/slovene. Posodabljanje starejše slovenšËine Tomaž Erjavec, Institut Jožef Stefan, Odsek za tehnologije znanja, Jamova cesta 39, 1000 Ljubljana tomaz.erjavec@ijs.si IzvleËek V prispevku obravnavamo metodo za posodabljanje besed v starejših slovenskih besedilih, ki vkljuËuje posodabljanje besednih oblik s pomoËjo raËunalniških leksikonov in pravil za transkripcijo, oblikoskladenjsko oznaËevanje in lematizacijo. Posodabljanje je koristno predvsem pri iskanju po polnem besedilu digitalnih knjižnic našekulturne dedišËine,pa tudi kot naËin,da starejša besedila približamo sodobnemu bralcu.Program zapo­sodabljanje uporablja jezikovne vire starejše slovenšËine IMP, ki vkljuËujejo roËno oznaËeni korpus besedil in leksikon starejše slovenšËine, za oblikoskladenjsko oznaËevanje in lematizacijo pa modele, nauËene na virih sodobne slovenšËine, razvitih v okviru projekta Sporazumevanje v slo­venskemjeziku.Prispevekpredstavi uporabljenevire,programza jezikoslovno oznaËevanjeToTrTaLe, evalvacijo natanËnostiprogramain smernice za nadaljnje delo. KljuËne besede: starejša slovenšËina, jezikovne tehnologije, jezikovni viri za slovenski jezik. Abstract Modernizing Historical Slovene The paper presents a method for modernising words in historical Slovene texts, which includes modernising word-forms with the help of com­putational lexicons and transcription rules, morphosyntactic tagging, and lemmatisation. Modernisation is useful for full-text search in cultural heritagedigital librariesaswellasawaytomakeoldertextsmore accessibletotoday’sreaders.TheprogramformodernisationusestheIMP languageresourcesfor historical Slovene, which includeahand-annotated text corpusandalexiconof historical Slovene, while morphosyntactic tagging and lemmatizationrely on models trained onresources for contemporarySlovene, which were developedin the scopeof the “Commu­nicationin Slovene”project. The paper introduces the languageresources, theToTrTaLeprogram for linguistic annotation, an evaluationof the accuracyof theprogram and directions for futureresearch. Key words: historical Slovene, language technologies, languageresources for Slovene. 1 UVOD Vzadnjih letih smo priËa hitremu razmahu digitalnih knjižnic, pri Ëemer je veliko dostopnih besedil starejšega datuma, saj ni ovir za njihovo razširjanje, ker so jim potekle avtorske pravice, ob tem pa so taka besedila zanimiva za seznanjanje in preuËevanje kulturne dedišËine posameznih narodov. Za slovenski jezik sta najveËji digitalni knjižnici dLib.si (KrstuloviE in Šetinc, 2005) in projekt Googlovih knjig. Ta dela so tipiËno dostopna predvsem kot faksimili,vnajboljšem primeruspredogledom avtomatsko razpoznanega besedila,v katerempaje zaradi poškodb papirja, starega tiskain upora­be bohoriËice veliko napak. Besedila tudi niso strukturno oznaËena, kar onemogoËa npr. generiranje kazala in stavlje­nje besedila. Obstaja tudi veË manjših, a zato bolj natanËno obdelanih digitalnih knjižnic slovenske pisne kulturne dediš­Ëine,1 na prvem mestu projekt .Slovenska leposlovna klasi­ * Delo, objavljeno v tem Ëlanku, sta podprla projekt EU IP IMPACT Improving Access to Text in nagrada Google Developing Language Models of Historical Slovene ter raziskovalni program P2-0103Tehnologije znanja. 1 Podroben, Ëeprav že rahlo zastarel pregled je podan v Hladnik (2009). ka« na Wikiviru, kot tudi portal Sistory (Šorn in Hadalin, 2010), knjižnica eZISS (Ogrin in Erjavec, 2009) in veliko pro­jektov posameznih knjižnic. Za iskanje po polnem besedilu digitalnih knjižnic je, vsaj za jezike z bogato morfologijo, kot je sloven­šËina, zelo koristno besedila predhodno lematizirati, torej vsaki besedi pripisati njeno osnovno obliko, npr. .ljubezen« za besedne oblike .ljubezni«, .ljubeznijo« itd. Šele tako bo namreË poizvedba za .ljubezen« vrnila tudi besedila s katero koli pregibno obliko te besede. Za sodobno standardno slovenšËino je bilo razvitih že veË lematizatorjev, tudi prosto dostopnih (Erjavec in Džeroski, 2004; JuršiË idr., 2010; Logar Berginc idr., 2012), pri Ëemer bolj kakovostni najprej opravijo oblikoskladenjsko oznaËevanje, pri Ëemer vsaki besedni pojavnici pripišejo njene oblikoskla­denjske lastnosti, npr. .obËi samostalnik moškega spola v orodniku ednine«, saj je v splošnem šele s to informacijo mogoËe neko besedno obliko tudi pravil­no lematizirati. Tako je npr. za besedno obliko hotela treba vedeti, ali je glagol ali samostalnik, da ji lahko pripišemo bodisi lemo hoteti bodisi lemo hotel. Za pravilno lematizacijo neznanih besed pa je obliko­skladenjska oznaka še posebno potrebna. Sodobni lematizatorji in oblikoskladenjski ozna­Ëevalniki se modela jezika nauËijo samodejno na podlagi vnaprej pripravljenih jezikovnih virov. Za razliko od roËno napisanih pravil imajo induktivno nauËeni modeli prednost, da so bolj robustni in lahko (razmeroma) uspešno obdelajo tudi neznane besede, zato pa potrebujejo za uËne množice roËno izdela­ne jezikovne vire, tj. leksikone za lematizatorje in oznaËene korpuse za oblikoskladenjske oznaËeval­nike. Izdelava dovolj natanËnih, obsežnih in razno­vrstnih jezikovnih virov za posamezen jezik je drag in dolgotrajen postopek, vendar je za slovenšËino v zadnjem Ëasu postalo dostopnih veËje število takšnih virov, predvsem v okviru projektov Jezikoslovno oznaËevanje slovenskega jezika (JOS) in Sporazu­mevanje v slovenskem jeziku (SSJ), tako da izdela­va induktivnih orodij ni veË nepremostljiva težava; kot omenjeno, sedaj obstajajo tudi že vnaprej nauËe­ni prostodostopni lematizatorji in oblikoskladenjski oznaËevalniki za sodobno standardno slovenšËino. Stanje pa je drugaËno za raËunalniško obravnavo starejše slovenšËine, saj se ta razlikuje od sodobne­ga jezika, zaradi Ëesar z obstojeËimi programi zanjo dobimo zelo slabe rezultate. Besede so se vËasih pi­sale drugaËe, njihov zapis se je skozi zgodovino tudi spreminjal, ob tem pa pisni jezik ni bil standardiziran, tako da lahko za isto besedo tudi v istem Ëasovnem obdobju najdemo veË zapisov. »e k temu prištejemo še bohoriËico, ki so jo uporabljali do srede devetnaj­stega stoletja, ima lahko posamezna lema zelo veliko število oblik, ki so težko predvidljive vnaprej. Tako za lemo ljubezen v korpusu starejših besedil poleg so­dobnih oblik ljubezen, ljubezni in ljubeznijo najdemo še ljubesni, ljubesin, lube.n, lubesen, lubesni, ljubesen, lube.ne, lube.ni, ljubesnijo, ljubezin, lubesnio, lubesne, lubesn, lubiesn in lubiesen. Dodaten problem so bese­de, ki jih ne uporabljamo veË, kot npr. .bukvovez«, ki je danes knjigovez, saj od uporabnika, ki bi rad iskal po besedilih digitalne knjižnice, težko priËakujemo, da se bo zavedal vseh zastarelih ustreznic sodobnim besedam. V prispevku predstavimo program, ki starejše slovenske besede posodobi, jih oblikoskladenjsko oznaËi in lematizira. V drugem razdelku najprej predstavimo jezikovne vire, ki so omogoËili izdela­vo programa, v tretjem razdelku opišemo delovanje programa, v Ëetrtem ocenimo njegovo toËnost in v petem razdelku podamo sklepe in smernice za na­daljnje delo. 2 UPORaBLjENI jEZIKOVNI VIRI Za oznaËevanje starejših besed uporabljamo veË je­zikovnih virov, bodisi neposredno ali pa za uËenje modelov za posamezne ravni jezikoslovne analize. V tem razdelku opišemo te vire, ki so uporabni tudi zu­naj konteksta posodabljanja starejših besedil. Vsi so zapisani po mednarodnih standardih in priporoËilih in prosto dostopni pod eno od licenc Creative Com­mons, tako da so Ëim bolj odprti (Erjavec, 2009) in lahko v najveËji meri spodbujajo napredek jezikov­nih tehnologij za slovenski jezik. VeËina predstavljenih virov je zapisana skladno s smernicami za zapis besedil TEI, Text Encoding Ini­tiative Guidelines (TEI, 2007). Smernice temeljijo na XML, opredeljujejo formalni zapis besedil za znanstve­ne namene in se uporabljajo za veËino kompleksnejših izdaj v digitalnih knjižnicah, za jezikoslovno oznaËene korpuse, za raËunalniške slovarje itd. Smernice TEI in s tem spodaj našteti viri so usklajeni z ustreznimi stan­dardi W3C, ISO in IANA, npr. pri kodah za oznaËeva­nje Ëasov in jezikov. Kot primer izpostavimo oznako za bohoriËico, ki do sedaj ni imela svoje standardizirane kode. V postopku izdelave virov starejše slovenšËine smo na IANA (Internet Assigned Numbers Authority) prijavili kodo za podjezik .sl­bohoric«, ki je namenjena za oznaËevanje slovenskih besedil, zapisanih v boho­riËici, in ‡ Ëeprav naši viri ne vsebujejo teh pisav2 ‡ še za .sl­metelko« in .sl­dajnko«. 2.1 Zbirka starejših slovenskih besedil IMP Podlaga za izdelavo vseh drugih jezikovnih virov starejše slovenšËine (Erjavec, 2012a) je zbirka besedil, imenovana IMP, ki je zasnovana kot digitalna knjiž­nica. Zbirka vsebuje tiskana besedila, veËinoma ce­lotne knjige, ki so predstavljene tako s faksimili kot z roËno pregledanimi in oznaËenimi prepisi besedil. IMP trenutno vsebuje 658 del oz. okoli 46.000 strani ali 14 milijonov besed. S par izjemami obsegajo dela obdobje od konca 18. stoletja do leta 1918, veËina pa jih je iz druge polovice 19. stoletja. 2 Zbirka IMP sicer vsebuje knjigo »elarstvo (»ebelarstvo) Petra Dajnka (1831), ki je zapisana v dajnËici, vendar v prepisu uporabljamo gajico, saj za dajnËico ne obstajajo znaki unikod niti ustrezni fonti za prikaz. Stopnja oznaËevanja TEI se razlikuje glede na digi­talni vir posameznega dela, v vseh primerih pa vsebu­je metapodatke (kolofon TEI), prelome strani s kazalci na faksimile, naslove razdelkov in odstavke, tipiËno pa tudi oznake za posebne dele besedila, kot so ver­zi, opombe, tiskarska znamenja, uredniški popravki, tuje besede itd. Na spletu je zbirka dostopna v obliki digitalne knjižnice z veË kazali, pri Ëemer je vsaka eno­ta svoja datoteka HTML, samodejno prevedena s stili TEI XSLT iz izvornega zapisa zbirke v XML/TEI. Na sliki 1 ilustriramo iztržek ene od knjig iz zbir­ke IMP v zapisu TEI, pri Ëemer element po­meni prelom strani, nato se zaËne razdelek besedila (
), ki vsebuje naslov () in zaËetek prve kitice (); ta je nato sestavljena iz vrstic (), ki lahko vsebujejo tudi opombe (). Elementi imajo tudi atribute, ki vsebujejo npr. identifikator (@ xml:id), preko katerega je mogoËe kazati na doloËen element, opis prikaza elementa (@rend), kazalko na faksimile (pb/@facs) ali dejstvo, da je opomba avtor­jeva (note[@type=«authorial«]) in ne uredniška.
1. Dershi ali vmirajozha .kopo.t. DershiDershi, Pa.ko: pe.je iména, Hundsnahmen mie z. B. Phylar. , ker je v’ neki nozhi Ne sati.nil .vojih ózhi, Da je sve.ti varih bil; … Slika 1: Zapis TEI iztržka besedila iz zbirke besedil IMP 2.2 RoËno oznaËeni korpus starejših slovenskih besedil goo300k Iz zbirke IMP smo vzorËili 1.100 strani iz 90 enot in vsako besedno pojavnico (nekaj manj kot 300.000) roËno oznaËili z veË jezikoslovnimi lastnostmi, s Ëi­mer smo dobili referenËni korpus starejše sloven­šËine po imenu goo300k (Erjavec, 2012b). OznaËene jezikoslovne lastnosti so: 1. sodobna ustreznica, torej besedna oblika, kot se piše danes, napisana z malimi Ërkami, pri Ëemer za zastarele (izumrle) besedne oblike upoštevamo pravila sodobnega pravopisa; 2. lema oz. osnovna oblika sodobne ustreznice; 3. najbližje sodobne ustreznice oz. kratka razlaga pomena (samo za zastarele besede); 4. leksikalni del oblikoskladenjske oznake JOS (raz­loženo v nadaljevanju). Zapis korpusa ponazarja slika 2 z besedilom, ki se glasi: .Pri vkvartirjanju ni drugaËi.« Ta stavek () ima oznaËene besede (), loËila () in presled­ke (), besede pa nosijo informacijo o lemi (w/@ lemma) in oblikoskladenjski oznaki (w/@ana). V primerih, ko se posodobljena beseda (ki je vedno napisana z malimi Ërkami) razlikuje od besedne oblike iz korpusa, se lahko odloËimo (), ali želimo upoštevati izvorno () ali posodobljeno obliko (). Pri zastarelih besedah je dodan opis (), sestavljen iz sodobne ustreznice oz. razlage () in vira te razlage (); v podanem pri­meru je bil to kar (širši) kontekst, v katerem se je poja­vila beseda .vkvartirjanju«. Zapis je bolj kompleksen, kot se zdi potrebno, vendar mora zajeti tudi primere, ko je ena zgodovinska beseda pisana kot veË sodob­nih ali obratno, npr. .po noËi« proti .ponoËi«. Pri pri vkvartirjanju ukvartiranju prenoËevanjekontekst ni drugaËidrugaËe . Slika 2: Primer iz roËno oznaËenega korpusa goo300k »eprav je natanËna definicija vsake od oznak kompleksna, saj v jeziku vedno sreËujemo mejne pri­mere, je osnovni pomen vsake od njih vseeno intui­tivno jasen. Izjema so oblikoskladenjske oznake, zato jih podrobneje opišemo v nadaljevanju. Oblikoskladenjske oznake JOS so kratki nizi (npr. .Ggdn«), ki jih lahko pripišemo posamezni besedni pojavnici v korpusu (ali besedni obliki v leksikonu) in kodirajo oblikoskladenjske lastnosti (npr. .glagol, vrsta=glavni, vid=dovršni, oblika=nedoloËnik«). Nabor teh oznak (preko 1.900) za slovenski jezik in njihova preslikava v lastnosti so definirane v obli­koskladenjskih specifikacijah JOS (Erjavec in Krek, 2008). Na spletu so dostopne celotne specifikacije tako v izvornem zapisu TEI kot v izvedenem HTML, na voljo pa so tudi tabele, ki oznake preslikajo v lastno­sti oz. iz slovenskega v angleški jezik (npr. .Ggdn« . .Vmen« . .Verb, Type=main, Aspect=perfective, VForm=infinitive«). Oznake JOS uporabljajo razno­vrstni viri sodobne slovenšËine, med drugim v na­daljevanju opisana raËunalniški leksikon Sloleks in uËni korpus ssj500k. Pri izdelavi jezikovnih virov starejše slovenšËi­ne je bil poudarek na roËnem oznaËevanju sodobne oblike in leme, ne pa oblikoskladenjskih lastnosti, kar je zelo zamudno delo. Vseeno smo želeli imeti roËno preverjene vsaj leksikalne lastnosti posame­znih lem, zato smo kompleksen nabor vseh oznak JOS reducirali s skoraj dva tisoË na 32. V naboru JOS je tako npr. za besedno pojavnico .ni« zapisano, da je .glagol vrsta=pomožni oblika=sedanjik oseba=tretja število=ednina nikalnost=zanikani«, v goo300k pa samo .glagol vrsta=pomožni« oz. .Va«, ker uporab­ljamo angleške oznake. Specifikacije oblikoslovnih lastnosti in oznak IMP so, tako kot JOS, tudi formal­no zapisane in dostopne na spletu. 2.3 Leksikon starejše slovenšËine IMP Leksikon vsebuje zajete podatke iz korpusa, sestav­ljen pa je iz gesel, pri Ëemer posamezno geslo vsebuje lemo, njene oblikoskladenjske lastnosti in (za zasta­rele besede) sodobne ustreznice, nato seznam sodob­nih besednih oblik, za vsako od teh njene zgodovin­ske ustreznice in nekaj primerov (konkordanc) iz besedil. Leksikon je pretvorjen iz korpusa goo300k, poleg tega pa dopolnjen z roËno obdelanimi pogo­stejšimi besedami iz veËje podmnožice zbirke IMP. Ker leksikon izvira iz oznaËenih korpusnih prime­rov, so v njem zajete samo dejansko izpriËane oblike oz. njihove oznake, zato leksikon tipiËno ne vsebu­je celotnih pregibnih paradigem (tj. vseh besednih oblik) posameznih lem. Leksikon vsebuje veË kot 80.000 zgodovinskih oblik, 58.000 sodobnih besednih oblik in 28.000 lem. Štete so tudi .besede«, kot so cifre, zatipkane in tuje besede, pa tudi besede, ki so enake tistim v sodobni slovenšËini. »e štejemo samo vnose, ki imajo vsaj eno besedno obliko razliËno od sodobne, dobimo okoli 36.000 zgodovinskih oblik, 25.000 sodobnih oblik in 12.000 lem, med katerimi je 4.000 lem zastarelih, zato imajo tudi dodano razlago. Leksikon je dostopen na spletu v formatu HTML, ki je s posebej zato napisa­nim slogom XSLT pretvorjen iz izvornega TEI/XML. 2.4 Oblikoslovni leksikon sodobne slovenšËine Sloleks Za posodabljanje in lematizacijo potrebujemo tudi leksikon sodobne slovenšËine, pri Ëemer uporablja­mo oblikoskladenjski leksikon sodobne slovenšËine Sloleks (Arhar, 2009), ki vsebuje okoli 100.000 lem, vse njihove pregibne oblike z oblikoskladenjskimi lastnostmi in s številom pojavitev v korpusu Gigafi­da, vsega skupaj skoraj 2,800.000 oblik. Leksikon za razliko od drugih naštetih virov ni zapisan v shemi TEI, temveË po XML, ki sledi LMF (Lexicon Markup Framework), standardu ISO 24613:2008 za predsta­vitev raËunalniških leksikonov. Ker je struktura LMF razmeroma zahtevna za uporabo, vsebuje pa tudi podatke, ki jih mnoge aplikacije ne potrebujejo, smo leksikon pretvorili še v preprost tabelariËni format, v katerem je vsak vnos (vrstica) sestavljen iz besedne oblike, leme, oblikoskladenjske oznake in frekvence tega trojËka na milijon besed. Kot primer podamo v sliki 3 paradigmo samostalnika .skopost«, pri Ëemer frekvenca niË pomeni, da tega trojËka program ni identificiral v korpusu. skopostih skopost Ncfdl 0.000000 skopostih skopost Ncfpl 0.000000 skopostim skopost Ncfpd 0.000000 skoposti skopost Ncfdn 0.000000 skoposti skopost Ncfdg 0.000000 skoposti skopost Ncfda 0.000000 skoposti skopost Ncfsd 0.000010 skoposti skopost Ncfsl 0.000088 skoposti skopost Ncfsg 0.000131 skoposti skopost Ncfpn 0.000001 skoposti skopost Ncfpg 0.000003 skoposti skopost Ncfpa 0.000004 skopostjo skopost Ncfsi 0.000037 skopostma skopost Ncfdd 0.000000 skopostma skopost Ncfdi 0.000000 skopostmi skopost Ncfpi 0.000000 skopost skopost Ncfsn 0.000179 skopost skopost Ncfsa 0.000092 Slika 3: Paradigme ene besede iz leksikona Sloleksv tabelariËnem formatu 2.5 UËni korpus sodobne slovenšËine ssj500k Za oblikoskladenjsko oznaËevanje potrebujemo uËni korpus, za kar uporabimo korpus sodobne sloven­šËine ssj500k (Arhar, 2009). Korpus vsebuje 500.000 besednih pojavnic; vsaka je roËno oznaËena z obliko­skladenjsko lastnostjo in lemo. Korpus je tudi delno oznaËen s skladenjskimi analizami in imenskimi enti­tetami, vendar tu ne uporabljamo teh informacij. Za­pis je podoben kot za korpus starejše slovenšËine, ven­dar preprostejši, saj ne vsebuje posodabljanja besed. 3 PROGRaM ToTrTaLe Program za jezikoslovno oznaËevanje starejših bese­dil ToTrTaLe, katerega prva razliËica je predstavljena v Erjavec (2011), implementira cevovod, ki iz vhod­nega dokumenta TEI izlušËi besedilo, nato pa nad njim enega za drugim pokliËe posamezne module za oznaËevanje. Za osnovo mu služi program ToTaLe (Erjavec idr., 2005), ki razdeli besedilo na pojavnice (tokenizacija), te oblikoskladenjsko oznaËi (tagiranje) in jim pripiše osnovno obliko (lematizacija). Pro­gram, ki ga predstavljamo, doda prepis starinskih oblik v sodobne (transkripcija) takoj za tokenizacijo in se zato imenuje ToTrTaLe. Program na izhod izpiše dokument TEI, v katerem so vhodnim oznakam TEI dodane jezikoslovne oznake, kot so bile prikazane na primeru roËno oznaËenega korpusa goo300k na sliki 2; izhod iz programa na delËku besedila iz slike 1 je prikazan na sliki 3.
1. Dershi drži ali vmirajozha umirajoËa .kopo.t skopost . Slika 4: Primer besedila, oznaËenegasToTrTaLe Program je v glavnem jezikovno neodvisen, saj uporablja zunanja pravila in modele, ki jih je mogoËe napisati oz. se jih induktivno nauËiti za veËino evrop­skih jezikov, Ëeprav je mišljen predvsem za jezike z bogato morfologijo, kot je slovenšËina. Program je napisan v programskem jeziku Perl, vendar je glavni program v resnici samo ovojnica, ki kliËe druge pro­grame in nato kombinira njihove rezultate. V nada­ljevanju razdelka predstavimo posamezne module ToTrTaLe, pri Ëemer se najbolj posvetimo specifikam obdelave starejše slovenšËine. 3.1 Tokenizacija Za razdelitev besedila na stavke, besede, loËila in pre­sledke uporabljamo veËjeziËni tokenizator mlToken, ki je del paketa To(Tr)TaLe. Program jezikovno od­visne podatke hrani v loËenih datotekah, predvsem seznam okrajšav (besede, ki se konËajo s piko in ne konËajo nujno stavka), seznam veËbesednih enot (po­javnice, ki so sestavljene iz veË s presledki loËenih be­sed) in seznam levih ali desnih naslonk (besed, ki jih je treba obravnavati kot del neke pojavnice). V kon­tekstu posodabljanja starejše slovenšËine sta posebno zanimiva seznama veËbesednih enot in naslonk, saj se precej besed, ki so se vËasih pisale skupaj, sedaj piše narazen oz. obratno, npr. .nemore« proti .ne more« oz. .še le« proti .šele«. Te besede so dodane v ustrezen seznam, tako da že mlToken poskrbi za njihovo tokenizacijo v skladu s sodobno normo. Po­trebni seznami za tokenizacijo starejše slovenšËine za ToTrTaLe niso napisani posebej za to orodje, paË pa so zajeti neposredno iz leksikona IMP. Trenutni pristop k reševanju teh posebnih pojav­nic ima dve slabosti. • Tokenizator pozna samo tiste posebne pojavnice, ki so v leksikonu, in torej ne obravnava pravilno novih, neznanih okrajšav, veËbesednih enot oz. naslonk. Problem je posebno opazen pri presež­niku pridevnikov, ki so se vËasih pisali narazen (npr. .nar veËji«), saj bomo s leksikonom težko zajeli vse oblike vseh stopnjevanih pridevnikov. • Kot pri vseh drugih jezikoslovnih analizah se tudi pri posebnih pojavnicah sreËamo s problemom dvoumnosti, pri Ëemer je klasifikacija neke pojav­nice ali kombinacije pojavnic odvisna od sobesedi­la, npr. .Vesoljni potop je po tem vso deželo poto­pil«, kjer mora biti sodobna oblika .potem«, in .To se vidi tudi po tem, da vse tuje bolj ceni«, kjer pa mora biti .po tem«. Da vsaj deloma rešimo ta pro­blem, v leksikon vedno vkljuËimo oba primera, to­rej ne samo, ko se starinski .po tem« piše sodobno .potem«, temveË tudi ko so piše .po tem«. V toke­nizator nato dodamo posebne primere samo tam, kjer je njihova frekvenca višja od navadnih, torej nezdruženih oz. nerazdeljenih pojavnic. 3.3 Transkripcija Transkripcija zgodovinskih besednih oblik v sodob­ne je kljuËni modul za procesiranje starejšega jezika. Pri posodabljanju besednih oblik so le­te najprej nor­malizirane, tj. zapisane z malimi Ërkami, odstranje­na pa so tudi naglasna znamenja nad samoglasniki; naglase so namreË pogosto, a neenotno uporabljali predvsem v 19. stoletju, v sodobni normi pa jih sko­raj ni zaslediti. V procesu iskanja sodobne ustreznice program najprej išËe normalizirano zgodovinsko besedno obliko v leksikonu IMP; Ëe jo najde, je s tem našel tudi sodobno ustreznico, Ëe ne, pa besedno obliko išËe v Sloleksu. »e nobeden od leksikonov ne vsebu­je iskane oblike, program njen sodobni zapis skuša najti s pomoËjo t. i. transkripcijskih vzorcev. Veliko sprememb v pisavi lahko namreË izrazimo v obliki pravil, ki podajo vzorec, v katerem se sodob­na beseda razlikuje od zgodovinske, npr. .r ›er« za pare kot je .brž › berž«, .srce › serce«, pri Ëemer je na levi sodobni in na desni zgodovinski zapis. Pri uporabljenem pristopu v leksikonu sodobnih oblik Sloleks skušamo najti tiste, ki jih je mogoËe izpeljati iz zgodovinske oblike z uporabo enega ali veË takih pravil. Ta pristop je tipiËen za posodabljanje starejših besedil (Pilz idr., 2008; Gotscharek idr., 2009; Bennett idr., 2010; Sánchez­Marco idr., 2010), se pa pristopi razlikujejo v tehnologiji, ki jo uporabljajo za prever­janje ujemanja zgodovinske oblike s sodobnimi obli­kami s pomoËjo takšnih vzorcev. V paketu ToTrTaLe ujemanje prek transkripcij­skih vzorcev implementira knjižnica Vaam, Variant aware approximate matching (Gotscharek idr., 2009; Reffle, 2011), ki jih modelira kot (razširjene) konËne avtomate, zaradi Ëesar je prostorsko, predvsem pa Ëasovno nezahtevna. Seznam sodobnih kandidatov, ki ga vrne za posamezno zgodovinsko besedo, je ure­jen glede na število vzorcev, ki jih je bilo treba upo­rabiti. Proces doloËanja sodobnih ustreznic je torej nedeterministiËen, je pa v danem kontekstu seveda pravilna samo ena posodobitev. Trenutno modul za transkripcijo izbere tistega kandidata, ki ima v leksi­konu Sloleks najvišjo frekvenco, vendar so mogoËi tudi kompleksnejši modeli, ki bi odložili izbiro naj­boljšega kandidata, dokler nista opravljena še obli­koskladenjsko oznaËevanje in lematizacija vseh (va­riant) pojavnic, saj bi s tem imeli veË informacij za pravilno odloËitev. Za posodabljanje trenutno uporabljamo okoli sto vzorcev, ki smo jih doloËili s pomoËjo roËno oznaËe­nega korpusa goo300k; razdeljeni so na vzorce za starejša besedila v gajici (torej sodobni abecedi) in na vzorce za bohoriËico. Razlog za dve množici ni samo razlika v pisavah, temveË so v besedilih izpred leta 1850 vzorci pogosto drugaËni. 3.4 Oblikoskladenjsko oznaËevanje V naslednji stopnji oznaËevanja program pripiše vsa­ki besedni pojavnici njeno (od konteksta odvisno) oblikoskladenjsko oznako JOS. Sodobni oblikoskla­denjski oznaËevalniki se modela jezika nauËijo iz roËno oznaËenega korpusa, vendar pa je razvoj do­volj velikega korpusa dolgotrajen in drag proces, ki bi ga težko ponovili za zgodovinski jezik. Ker so bile besedne oblike v predhodnem koraku posodobljene, lahko oznaËevalniku kot vhod ponudimo posodo­bljeno besedilo in nato uporabimo model, nauËen na sodobnem jeziku. Seveda model še vedno deluje slabše kot nad sodobnim jezikom, saj so zgodovinska besedila drugaËna ne samo v pisavi posameznih be­sed, temveË tudi na skladenjski ravni, pa tudi neka­tere besedne oblike, kot npr. deležja na ­vši, so bila v preteklosti bistveno bolj pogosta, kot so danes. Za oblikoskladenjsko oznaËevanje uporabljamo program TnT, Tri­grams and tags (Brants, 2000), ki je robusten in hiter trigramski oznaËevalnik, oznaËe­vati pa zna tudi neznane besede, Ëeprav je tu na­tanËnost manjša kot za znane. Model oznaËevanja je bil nauËen na uËnem korpusu sodobne slovenšËine ssj500k, pri Ëemer je kot zaledni leksikon uporabljen Sloleks. 3.5 Lematizacija Zadnja stopnja jezikoslovne obdelave je pripis osnovne oblike vsaki besedni pojavnici. Kot pri obli­koslovnem oznaËevanju se tudi pri tem veËina so­dobnih lematizatorjev nauËi modela jezika iz vnaprej pripravljenih jezikovnih virov, v tem primeru iz le­ksikona sodobnih besednih oblik, v našem primeru Sloleksa. Seveda bi lahko leme besednih oblik, vse­bovanih v leksikonu Sloleks, preprosto prepisali iz leksikona, vendar imajo lematizatorji to prednost, da znajo lematizirati tudi neznane besede. »e je bese­da pravilno posodobljena in ji je pripisana pravilna oblikoskladenjska oznaka, deluje lematizator s precej visoko stopnjo natanËnosti. Kot lematizator uporabljamo CLOG (Erjavec in Džeroski, 2004), ki se na podlagi vhodnih primerov (parov besedna oblika ‡ lema, pri Ëemer je model za vsako oblikoskladenjsko oznako obravnavan pose­bej) nauËi odloËitvene sezname prvega reda, pri Ëe­mer je definirana operacija povezovanje nizov. Na­uËene strukture so predikati v programskem jeziku Prolog, vendar jih za lažjo povezljivost s ToTrTaLe prevedemo v Perl. Zanimiva lastnost lematizatorja CLOG je, da mu ne uspe lematizirati poljubnega para oblika ‡ obli­koskladenjska oznaka. Pri starejših besedilih so taki primeri skoraj vedno zastarele besede, ki niso bile pravilno posodobljene, tako da so nelematizirane besede dobri kandidati za dodajanje v leksikon IMP. 3.6 Izhod TEI Zadnja stopnja obdelave je zapis oznaËenega bese­dila v dokument TEI, kar dosežemo s kombinacijo obdelave v jeziku Perl s skriptami XSLT, Ëemur sle­di še validacija dobljenega dokumenta XML glede na shemo TEI, pri Ëemer je ta izražena v Relax NG (ISO/IEC 19757­2). »e pride pri validaciji do napak, je to indikator, da vhodni dokument krši (mogoËe implicitne) predpostavke oznaËevanja; v tem prime­ru je treba bodisi popraviti oznake v vhodnem do­kumentu ali pa ‡ Ëe je bilo uporabljeno oznaËevanje smiselno ‡ dopolniti program ToTrTaLe, da bo zajel tudi takšne primere. OznaËevanje v dokumentih TEI je namreË lahko zelo kompleksno, zato je v splošnem težko zagotoviti, da vstavljanje novih (jezikoslovnih) oznak v tak dokument ne privede do nepravilnih struktur. Vendar je ToTrTaLe razmeroma robusten, saj oznaËi vseh 658 del iz zbirke IMP tako, da je iz­hod pravilen TEI. 4 EVaLVacIja OZNa»EVaNja V tem razdelku poskusimo odgovoriti na vprašanje, kako dobro ToTrTaLe posodablja, lematizira in obli­koskladenjsko oznaËuje neznane besedne oblike gle­de na Ëasovno obdobje, v katerem je nastalo besedilo. Kot je bilo omenjeno v razdelku 2.3, je leksikon zgodovinskih besednih oblik IMP sestavljen iz: 1. vseh besednih oblik iz korpusa goo300k, 2. besednih oblik z roËno preverjenimi oznakami iz vzorca celotne zbirke besedil IMP; ta vzorec tu poimenujemo korpus IMPtest. Za eksperiment smo programu ToTrTaLe dali na voljo samo prvi leksikon, drugi leksikon pa smo upo­rabili kot testno množico. Povedano bolj natanËno, korpus IMPtest smo najprej razdelili v tri podkorpu­se, vsakega za eno Ëasovno obdobje, in sicer za dru­go polovico 18. stoletja (18B), prvo polovico 19. sto­letja (19A) in drugo polovico 19. stoletja (19B). Nato smo vsakega od podkorpusov oznaËili s ToTrTaLe in iz njih izloËili leksikon roËno pregledanih besednih oblik, skupaj z njihovimi roËnimi ter avtomatskimi oznakami za posodobljeno obliko, lemo in obliko­skladenjsko oznako. V tabeli 1 podamo nekaj kvantitativnih podatkov o tem testnem leksikonu. V tabeli posebej izposta­vimo zgodovinske in sodobne oblike, pri Ëemer kot sodobne štejemo tiste, v katerih je besedna oblika iz Tabela 1:Velikost testnega leksikona besedila enaka kot sodobna, Ëetudi s transliteracijo iz bohoriËice v gajico, kot zgodovinske pa vse ostale. Tako kot sodobno štejemo npr. bojiš ›bojiš kot tudi boji.h ›bojiš, za zgodovinsko pa npr. boh ›bog. Za zgodovinske, sodobne in vse oblike podamo število vseh vnosov v leksikonu, število razliËnih besednih oblik, število razliËnih posodobljenih besed in število razliËnih lem. Obdobje Zgodovinske oblike Sodobne oblike Vse oblike Vnosov Oblik Poso. Lem Vnosov Oblik Poso. Lem Vnosov Oblik Poso. Lem 18B 3.400 3.224 2.843 1.885 1.105 1.090 1.090 902 4.505 4.270 3.841 2.535 19a 3.484 3.366 3.168 2.228 3.385 3.326 3.298 2.483 6.820 6.572 6.245 4.166 19B 2.104 2.040 2.012 1.581 10.668 10.320 10.320 7.677 12.745 12.220 12.078 8.596 . 8.790 8.407 7.209 4.629 14.677 14.239 13.932 9.660 23.341 22.270 20.050 12.288 Kot je razvidno iz tabele, ima leksikon nekaj Ëez 23.000 vnosov oz. 22.000 besednih oblik, 20.000 po­sodobljenih oblik in 12.000 lem. Od tega je v 18B sodobnih okoli 25 odstotkov besednih oblik, v 19A jih je 50 odstotkov, v 19B pa 85 oz. 64 odstotkov, ne glede na Ëasovno obdobje; tolikšna bi bila torej tudi natanËnost identifikacije sodobnih besednih oblik sistema, ki ne bi opravljal posodabljanja. V tabeli 2 podamo toËnost ToTrTaLe z leksikonom goo300k nad leksikonom neznanih besednih oblik iz tabele 1. ToËnost posodabljanja Ëez vsa obdobja je okoli 70 odstotkov, kar vkljuËuje tako sodobne kot zgodovinske besede. Samo za zgodovinske je toËnost pod 30 odstotki za besedne oblike in neko­liko veËja za lematizacijo. Zanimivo je, da je toËnost posodabljanja najveËja pri najstarejših besedilih, pri katerih je nekaj manj kot 35­odstotna. Obratno, kar je tudi priËakovano, pa toËnost oblikoskladenjskega oznaËevanja pada s starostjo besedil, od skoraj 70 pri 19B do 57 odstotkov pri 19B. Za sodobne oblike morda preseneËa, da je toËnost .posodabljanja« manjša od sto odstotkov, za 18B je napaka celo štiriodstotna. Te napake so posledica dejstva, da sodobni leksikon Sloleks ne vsebuje po­sodobitev vseh besed, ki jih najdemo v testnem leksi­konu ‡ v takih primerih sistem poskusi posodobiti neznano (sodobno) besedo, pri Ëemer mu to v neka­terih primerih tudi uspe, vendar dobimo kot rezultat napaËno obliko. Tabela 2:ToËnost posodabljanja, lematizacije in oblikoskladenjskega oznaËevanja testnega leksikona Obdobje Zgodovinske oblike Sodobne oblike Vse oblike Poso. Lem. Oblikoskl. Poso. Lem. Oblikoskl. Poso. Lem. Oblikoskl. 18B 34,7 % 38,5 % 56,8 % 96,2 % 87,7 % 79,3 % 49,8 % 50,6 % 62,3 % 19a 26,5 % 31,1 % 57,8 % 97,3 % 90,8 % 84,4 % 61,3 % 60,5 % 70,8 % 19B 24,2 % 32,2 % 68,6 % 99,3 % 93,0 % 85,1 % 86,9 % 82,9 % 82,4 % . 28,8 % 33,9 % 59,9 % 98,6 % 92,0 % 84,3 % 72,4 % 70,2 % 75,1 % Kot je razvidno iz rezultatov, je toËnost sistema vilke. Predstavili smo namreË rezultate na neznanih trenutno razmeroma slaba, vendar se je treba zave­besedah, ne na vseh, pri tem pa ima produkcijski To­dati, da je posodabljanje kompleksen proces, pa tudi TrTaLe na voljo ves leksikon, vkljuËno s testnim, ki da sistem v praksi deluje bolje, kot nakazujejo šte­smo ga tu izloËili, zaradi Ëesar je njegova toËnost na 2013 - .tevilka 4 - letnik XXI UPORABNA INFORMATIKA 193 vseh besedah bistveno boljša. Predstavljeni rezultati LITERaTURa so slabši tudi zaradi tega, ker testni leksikon vsebuje besede, ki jih ‡ vsaj trenutno ‡ program ne more naj­ti v Sloleksu, tj. zastarele besede, tujke in zatipkane besede, ki skupaj sestavljajo veË kot deset odstotkov vnosov v testnem leksikonu. SKLEP V prispevku smo predstavili metodologijo, jezikov­ne vire in program za posodabljanje, lematizacijo in oblikoskladenjsko oznaËevanje starejših besedil ter izvedli poskus, s katerim smo ocenili toËnost pro­grama na neznanih besedah. Rezultati kažejo, da je toËnost mogoËe še zelo poveËati, kar lahko doseže­mo na veË naËinov, ki ostajajo za nadaljnje delo. Naj­bolj preprosto (pa tudi najbolj zamudno oz. drago) bi bilo dodajati nove besede in njihove posodobitve v leksikon IMP, v katerem so nato neposredno do­stopne. Zelo koristno, vendar prav tako zamudno, bi bilo dodajati nove besede tudi v leksikon sodobnih besed, saj analiza napak posodabljanja pokaže, da bi vzorci vËasih pravilno predvideli sodobno obliko, a te ni Sloleksu. Ravno tako bi bilo dobro v leksikon so­dobnih oblik dodati tudi (najpogostejše) tuje besede, predvsem v latinšËini, nemšËini in francošËini. VeË dela bi lahko vložili tudi v transkripcijske vzorce, saj nismo pokrili vseh regularnih sprememb. Vendar se ob tem pojavi problem lažnih ustreznic, saj s preveË pravili hitro najdemo neko sodobno besedo za skoraj poljubno zgodovinsko obliko, zaradi Ëesar je treba nove vzorce dodajati s sprotnim testiranjem njihove­ga uËinka na veËji testni množici. Zadnja od možnosti za izboljšavo sistema bi bila uporaba povsem drugaËnega naËina posodabljanja, ki je že dalo spodbudne rezultate (Scherrer in Erja­vec, 2013), pri katerem uËno množico (leksikon iz go­o300k) izkoristimo za uËenje statistiËnega strojnega prevajanja na ravni posameznih Ërk v besedi. Princip strojnega prevajanja bi lahko razširili tudi na preva­janje celotnih besedil, pri Ëemer bi za uËno množico potrebovali izvorno besedilo (ali besedilo, posodob­ljeno na ravni posameznih besed), ki je poravnano s .prevodom« tega besedila v sodobno slovenšËino. S takim pristopom bi lahko zajeli tudi spremembe na skladenjski ravni, vendar je pri tem pristopu najveËja težava pridobivanje zadosti velike in splošne uËne množice. [1] Arhar, Š. (2009). UËni korpus SSJ in leksikon besednih oblik za slovenšËino. Jezik in slovstvo, 54(3‡4), str. 43‡56. URL: http://www.jezikinslovstvo.com/pdf/2009-03-04-Razprave­-Spela-Arhar.pdf. [2] Bennett,P., Durrell, D., Scheible, S., Whitt, R. J. (2010). An­notatinga historical corpusof German:A case study. Proce­edings of the LREC 2010 workshop on Language Resources and Language Technology Standards.Valletta, Malta, 18 May 2010. str. 64‡68. [3] Erjavec,T. (2009). Odprtost jezikovnih virov za slovenšËino.V: Infrastruktura slovenšËine in slovenistike (Obdobja, Simpozij, = Symposium, 28). Ljubljana: Znanstvena založba Filozofske fakultete, str. 115‡121. URL: http://www.centerslo.net/files/ file/simpozij/simp28/Erjavec.pdf. [4] Erjavec, T. (2011). Automatic linguistic annotation of histori­cal language:ToTrTaLe and XIX century Slovene.V: LaTeCH 2011: The 5th Workshop on Language Technology for Cul­tural Heritage, Social Sciences, and Humanities. Portland, ZDA. Portland: Association for Computational Linguistics, str. 33‡38. URL: http://aclweb.org/anthology-new/W/W11/W11­1505.pdf. [5] Erjavec, T. (2012a). Jezikoslovni viri starejše slovenšËine. Knjižnica, 56(3), str. 205‡221. [6] Erjavec,T. (2012b). The goo300k corpus of historical Slove­ne.V:Eight International Conference on Language Resources and Evaluation (LREC’12), Istanbul. European Language Re­sources Association (ELRA). URL: http://www.lrec-conf.org/ proceedings/lrec2012/summaries/445.html . [7] Erjavec,T., Džeroski,S. (2004). Machine Learningof Langua­ge Structure: Lemmatising Unknown SloveneWords. Applied Artificial Intelligence, 18(1):17‡41. [8] Erjavec, T., Ignat, C., Pouliquen, B., Steinberger, R. (2005). Massive Multi-Lingual Corpus Compilation: Acquis Commu­nautaire andToTaLe.V: Proceedings of the 2nd Language & Technology Conference, April 21-23, 2005, Poznan, Poljska. str. 32‡36. [9] Erjavec, T. in Krek. S. (2008). Oblikoskladenjske specifika­cije in oznaËeni korpusi JOS. V: Zbornik Šeste konference Jezikovne tehnologije. Ljubljana, Inštitut Jožef Stefan. URL: http://nl.ijs.si/jos/bib/jos_isltc08.pdf. [10] Gotscharek, A., Neumann, A., Reffle, U., Ringlstetter, C., Schulz, K. U. (2009). Enabling Information Retrieval on Hi­storical Document Collections ‡ the Role of Matching Pro­cedures and Special Lexica. Proceedings of the ACM SIGIR 2009 Workshop on Analytics for Noisy Unstructured Text Data (AND09), Barcelona. [11] Hladnik, M. (2009). Infrastruktura slovenistiËne literarne vede. V: Obdobja 28 ‡ Infrastruktura slovenšËine in slovenistike, str. 161‡169. URL: http://www.centerslo.net/files/file/simpozij/ simp28/Hladnik.pdf. [12] JuršiË, M., MozetiË, I., Erjavec,T., LavraË, N. (2010) Lemma-Gen: multilingual lemmatisation with induced Ripple-Down rules. Journal of universal computing science. 16/9, str. 1190‡1214. [13] KrstuloviE, Z. in Šetinc, L. (2005). Digitalna knjižnica Slovenije ‡ dLib.si. Informatika kot temelj povezovanja: zbornik posve­tovanja, str. 683‡689. [14] Logar Berginc, N., GrËar, M., Brakus, M., Erjavec, T., Arhar Holdt, Š., Krek, S. (2012) Korpusi slovenskega jezika Gigafi­da, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba. (Zbirka Sporazumevanje). Ljubljana: Trojina, zavod za upo­rabno slovenistiko: Fakulteta za družbene vede, 2012. [15] Pilz, T. Ernst-Gerlach, A. Kempken, S., Rayson P., Archer, D. [19] Scherrer, Y., Erjavec, T. (2013). Modernising historical Slo­ (2008). The Identification of Spelling Variants in English and vene words with character-based SMT. Proceedings of the German Historical Texts: Manual or Automatic? Literary and ACL Workshop on Balto-Slavic Natural Language Processing, Linguistic Computing, 23/1, str. 65‡72. BSNLP 2013. Sofija, Bulgarija. [16] Ogrin, M., Erjavec, T. (2009). Ekdotika in tehnologija: elektron­ [20] Šorn, M. in Hadalin, J. (2010). Spletni portal SIstory: prost ske znanstvenokritiËne izdaje slovenskega slovstva. Jezik in dostop do dosežkov slovenskega zgodovinopisja. Zbornik slovstvo, 54/6, str. 57‡72. prispevkov 4. skupnega posvetovanja Sekcije za specialne [17] Reffle, U. (2011). Efficiently generating correction sugge­ knjižnice in Sekcije za visokošolske knjižnice Zveze bibliote­ stions for garbled tokens of historical language, Journal of karskih društev Slovenije, Ljubljana, 27. in 28. oktober 2010, Natural Language Engineering, Special Issue on Finite State str. 103‡107. Methods and Models in Natural Language Processing. [21] TEI (2007). TEI P5: Guidelines for Electronic Text Encoding [18] Sánchez-Marco, C., Boleda, G., Maria Fontana, J., Domingo, and Interchange. URL http://www.tei-c.org/Guidelines/P5/. J. (2010). Annotation and Representation of a Diachronic Cor­ pus of Spanish. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC’10). ELRA, Pariz. • Tomaž Erjavecje višji raziskovalni sodelavec na Odseku za tehnologije znanja na Institutu Jožef Stefan. PodroËja njegovega raziskovanja so jezikovne tehnologije in digitalna humanistikas poudarkomna izdelaviin oznaËevanjuterpredstavitvi jezikovnihvirov slovenskega jezika.NapodroËjih jezikovnih tehnologijinkorpus­nega jezikoslovjaje pouËevalna univerzahvNovi GoriciinvGradcuterna mednarodni podiplomskišoli Jožefa Stefana.JeËlanuredniških odborovrevijJournal forLanguage Resourcesand Evaluation, Journalof Corpus Linguisticsin SlovenšËina 2.0: empiriËne, aplikativnein interdisciplinarne raziskave;bilje ustanovni predsednik slovenskega Društva za jezikovne tehnologije, Ëlan svetov European Chapter of the Association for Computational Linguistics inText Encoding Initiative Consortium ter sodeluje pri izdelavi standardov za zapis jezikovnih virov pri SIST in ISO TC 37. Uporaba strojnega uËenja za postavljanje vejicv slovenšËini Peter Holozan, Amebis, d. o. o., Kamnik, Bakovnik 3, 1241 Kamnik peter.holozan@amebis.si IzvleËek Za slovenšËino obstajata dva programa, ki postavljata vejice v besedilo s pomoËjo pravil, ni pa še bilo preizkušeno strojno uËenje, ki je že bilo uspešno uporabljenoza postavljanjevejicvdrugihjezikih.Zapreizkušanjejebil uporabljen seznamprimerovznapakamiprivejicahizkorpusaŠolar (209.156 besed).Vprvem deluje bilostrojno uËenje uporabljenozaproblem iskanja vseh vejic, doseženirezultatje primerljivzdrugimi jeziki (natanËnost 0,861in priklic 0,641)insprogramomas pravili, najboljširezultatje bil doseženz uporabo skladenjskega analizatorja, lematizator, oblikoslovni oznaËevalnikin skladenjski analizatorpa so bili nauËeniz uËno množicobrez vejic, uporabljenje bil klasifikator ADTree.Preizkušenaje bila še uspešnost popravljanja realnih napak v besedilu, pri Ëemer je bil rezultat slabši (natanËnost 0,676 in priklic 0,545 za manjkajoËe vejice). KljuËne besede: postavljanje vejic, popravljanje napaËnih vejic, slovenšËina, strojno uËenje, ADTree. Abstract Using MachineLearning for comma Placingin Slovene Forthe Slovenelanguagetherecurrentlyexisttwosoftware solutionsabletoplace commasintotextusingrules, however MachineLearning thathasalreadybeen successfullyusedforcommaplacinginotherlanguageshasneverbeentriedwithSlovene.Fortesting,alistofexamples with comma mistakes from the corpus Šolar (209156 words), was used. In the first part of the experiment machine learning was used for searchingall commas,the obtainedresultis comparablewith other languages(precision 0.861andrecall0.641)andtherule-basedprograms. The best result was achieved using the syntax analyser. The lemmatiser, the PoS tagger and the syntax analyser were trained on a corpus wi­thout commas,theADTree classifierwasused.Real comma mistakeswerealsotestedbuttheresultswere worse(precision0.676andrecall 0.545 for missing commas). Key words: comma placing, comma error correction, Slovene, machine learning, ADTree. 1 UVOD Program,kibi pravilno postavljal vejicev besedilo,ni upora­ben le za pisce, ki tipkajo besedila in pri tem spregledajo kakšno vejico (postavljanje vejic povzroËa hude težave celo bodoËim uËiteljem na razredni stopnji (Šek Mertük, 2011)), temveË tudi za druge namene. Pravilno postavljene vejice tako npr. izboljšajo oblikoslovno oznaËevanje besedil (Hillard idr., 2006), pomembne pa so tudi pri sistemih za razpoznavo govora, ki le iz govora ne morejo pravilno postaviti vejic (Hu­ang&Zweig, 2002). Za slovenšËinože obstajatadva programa (Besana1inLangu­ageTool2), ki postavljata manjkajoËe vejice; oba temeljita na roËno napisanih pravilih (Holozan, 2012). NihËe pa za slo­venšËino še ni preizkusil, kako uspešne so pri tem statistiËne metode, ki uporabljajo strojno uËenje iz primerov za izpeljavo pravil za vejice. Strojno uËenje zahteva veliko število prime­ 1 http://besana.amebis.si 2 http://www.languagetool.org/ rov, iz katerih lahko izpelje pravila; taki primeri napaËne oz. pravilne rabe vejic so zdaj na voljo v korpusu Šolar, v kate­rem so zbrana besedila, ki so jih napisali uËenci in dijaki, skupaj z uËiteljskimi popravki. 2 PREDHODNE RaZISKaVE Strojno uËenje je bilo že veËkrat uporabljeno za uËe­nje postavljanja vejic v drugih jezikih, veËinoma pa so raziskovali problem, ko je treba v besedilo posta­viti vse vejice (oz. nekateri celo vsa loËila), kar je po­membno predvsem pri sistemih za razpoznavo go­vora (Huang & Zweig, 2002). Beeferman idr. (1998) so preizkušali postavljanje vejic v anglešËini s pomoËjo skritega markovskega modela in z uporabo Viterbijevega algoritma. Hardt (2001) je preizkušal postavljanje vejic v dan­šËini, in sicer z uporabo Brillovega oznaËevalnika, vendar se je omejil le na ugotavljanje odveËnih vejic, pri Ëemer so bile odveËne vejice dodane nakljuËno. Zhang idr. (2002) so preizkušali strojno uËenje za vejice v anglešËini in nemšËini, in sicer z odloËitveni­mi drevesi z uporabo skladenjskih podatkov. Shieber in Tao (2003) sta preizkušala postavljanje vejic za anglešËino; pomembna je njuna ugotovitev, da je smiselno nauËiti statistiËni oznaËevalnik na uËnem korpusu brez vejic. Alegria idr. (2006) so preizkušali strojno uËenje v baskovšËini. Uporabili so program WEKA3 in preiz­kušali razliËne metode strojnega uËenja. Israel idr. (2012) so se ob problemu postavljanja vseh vejic v anglešËini lotili tudi problema poprav­ljanja napaËnih (manjkajoËih in odveËnih) vejic v be­sedilu. Programa za postavljanje vejic v slovenšËini je preizkusil Holozan (2012), in to za problem, ko je tre­ba popraviti napaËne vejice v besedilu. Uporabljen je bil vzorec, narejen iz korpusa Šolar, ki vsebuje napa­ke, ki so jih naredili uËenci osnovnih in srednjih šol. 3 ZaSNOVa POSKUSa Namen poskusa je preizkusiti metode strojnega uËe­nja v slovenšËini, in sicer najprej za problem postav­ljanja vseh vejic (na kar je bila osredinjena do zdaj veËina tujih raziskav in kar je uporabno pri razpo­znavi govora), potem pa še za problem popravljanja napaËnih vejic (kar je uporabno v slovniËnih pregle­dovalnikih, ki tako pomagajo piscem besedil postav­ljati vejice). Osnova ideja poskusa postavljanja vseh vejic je povzeta po Alegria idr. (2006) in je taka, da uporabi­mo korpus s pravilno postavljenimi vejicami, ga obli­koskladenjsko oznaËimo, lematiziramo in skladenj­sko razËlenimo (pri Ëemer je treba upoštevati, da pri praktiËni uporabi nimamo vejic vnaprej, zato je treba preizkusiti oznaËevanje tudi brez vejic, na kar sta opozorila že Shieber in Tao (2003), medtem ko Ale­gria idr. (2006) tega niso posebej preizkušali). Vsako besedo z doloËenim okoliškim oknom pretvorimo v seznam atributov in dodamo atribut, ali ji sledi vejica (ta atribut je potem razred pri klasifikacijskem pro­blemu). Tako zapisane besede uvozimo v program za strojno uËenje, v katerem izvedemo eksperimente. Enako kot pri Alegria idr. (2006) je bil uporabljen program WEKA, ki ima vgrajeno veliko klasifikator­jev. Preizkušeno je bilo veËje število klasifikatorjev, potem pa izbranih nekaj najboljših (pri Ëemer smo upoštevali, da so Ëim bolj razliËni), ki so bili potem uporabljeni v nadaljnjih preizkusih, v katerih so bili preizkušeni razliËni atributi, velikost okna, vpliv oznaËevanja in parametri klasifikatorja. Za preizkušanje je bilo uporabljeno desetkratno preËno preverjanje, pri Ëemer primere razdelimo na deset delov, devet delov uporabimo za uËenje, pre­ostali del pa za preizkušanje, kar ponovimo deset­krat z razliËnim delom za preizkušanje in izraËuna­mo povpreËni priklic in natanËnost. Za primerjavo sta bila na isti nalogi preizkušena še Besana in LanguageTool. Drugi poskus je prenos ugotovitev iz prvega po­skusa v popravljanje napaËnih vejic in primerjava s programoma Besana in LanguageTool. Preizkušanje v tem poskusu je namreË bolj zapleteno, zato je naj­boljšo kombinacijo za strojno uËenje laže poiskati pri problemu iskanja vseh vejic in jo potem uporabiti še pri popravljanju napaËnih vejic. 3.1 Korpus V raziskavi je bila uporabljena posodobljena verzija korpusa (popravljenih je bilo nekaj napaËnih vejic), ki je bil uporabljen v Holozan (2012). To je podkorpus, narejen iz korpusa Šolar,4 ki je zbirka besedil, ki so jih napisali uËenci v šoli, in ki vkljuËuje tudi popravke napak. Ta podkorpus vsebuje le povedi z napaËnimi vejicami (bodisi manjkajoËimi bodisi odveËnimi), pri Ëemer so mesta manjkajoËih vejic oznaËena z znakom ¤, odveËne vejice pa so nadomešËene z znakom ÷; ve­likost tega podkorpusa je 209.156 besed (vkljuËno z loËili, razen vejic), v podkorpusu je 11.892 pravilno postavljenih vejic, 11.399 manjkajoËih vejic in 2709 odveËnih vejic. Za problem postavljanja vseh vejic (in tudi za uËe­nje pri popravljanju vejic) je bil korpus predelan tako, da so bile vse vejice popravljene (znaki ¤ zamenjani z vejicami, znaki ÷ pa pobrisani), s Ëimer je bil narejen korpus s pravilno postavljenimi vejicami. Predvsem za ta problem postavljanja vseh vejic (pa tudi za realno natanËnost pri popravljanju na­paËnih vejic, Ëeprav je tu težava, da je ta odvisna od deleža napak v korpusu in se je tako težko odloËiti, katera besedila vsebujejo povpreËno število napaËnih vejic) bi bilo sicer bolje uporabiti korpus, ki bi vse­boval tudi povedi s pravilno postavljenimi vejicami, vendar takega korpusa ob izvajanju poskusa ni bilo 3 http://www.cs.waikato.ac.nz/ml/weka/ 4 http://www.slovenscina.eu/korpusi/solar na voljo. Tudi popravki v korpusu Šolar namreË niso povsem natanËni, zato so bili primeri v podkorpusu roËno preverjeni in ustrezno popravljeni. Druga možnost za postavljanje vseh vejic bi bila uporaba dela katerega od obstojeËih korpusov (npr. Gigafide),5 vendar se tu postavi vprašanje, kako na­tanËno so lektorirana besedila, vkljuËena v korpuse. Se je pa za to rešitev odloËila veËina tujih raziskoval­cev (tudi Alegria idr. (2006), ki so med drugim upo­rabili Ëasopisna besedila). 3.1.1 OznaËevanje Tako Hardt (2001) kot tudi Alegria idr. (2006) so eks­perimentirali z oznaËenimi korpusi, saj lahko pravil­ne oblikoskladenjske oznake in poznavanje strukture povedi pomagajo pri postavljanju vejic. Zato je bilo tudi za slovenšËino uporabljeno oznaËevanje, in sicer oblikoslovni oznaËevalnik in lematizator Obeliks6 ter skladenjski razËlenjevalnik,7 ki sta bila razvita v okviru projekta Sporazumevanje v slovenskem jeziku.8 Pri poskusih za baskovšËino in danšËino ni pose­bej specificirano, ali so oznaËevali korpus s pravilno ali z napaËno postavljenimi vejicami, zdi se, da so uporabili razliËico s pravilno postavljenimi vejicami. Ker pa pravilnost vejic lahko vpliva na natanËnost oznaËevalnika (Hillard idr., 2006) in ker pri praktiËni uporabi (npr. popravljanju napaËnih vejic v besedilu) ni mogoËe vnaprej imeti pravilno postavljenih vejic, sta bili preizkušeni obe razliËici oznaËevanja. 3.2 Ocenjevanje rezultatov Za ocenjevanje rezultatov sta bili uporabljeni metriki natanËnost (delež pravilno postavljenih vejic) in pri­klic (delež odkritih manjkajoËih vejic) ter metrika F1, ki je harmoniËna sredina natanËnosti in priklica in se izraËuna kot 2 * natanËnost * priklic / (natanËnost + priklic). Problem postavljanja vejic predstavimo z razredom, ki pove, ali neki besedi sledi vejica. V kor­pusu je 23.291 mest, kjer mora biti vejica, vejica torej mora biti za 11,1 odstotka besed, veËinski razred pa je, da besedi ne sledi vejica, kar je v 88,9 odstotka pri­merov. Program WEKA je rezultate izraËunal tako za pri­mer, ko ni vejice, kot za primere, ko vejica je. Ker je 5 http://www.gigafida.net 6 http://www.slovenscina.eu/tehnologije/oznacevalnik 7 http://www.slovenscina.eu/tehnologije/razclenjevalnik 8 http://www.slovenscina.eu cilj postaviti vejice v besedilo, je zanimiv predvsem rezultat pri primerih, ko vejica je, saj nam to pove, ko­liko manjkajoËih vejic bi odkrila metoda. NatanËnost je pomembnejša od priklica, ker npr. pri slovniËnem pregledovalniku noËemo preveË lažnih opozoril, se­veda pa tudi priklic ne sme biti premajhen (npr. vsaj 50 %), da je metoda uporabna, zato je pomemben tudi rezultat za F1, ki ga prav tako izraËunava pro­gram WEKA. Rezultati so izraËunani na besede, ker je beseda (z okoliškim oknom) element pri strojnem uËenju. ReferenËna vrednost uspešnosti je rezultat, ki ga dosežeta programa, ki postavljata vejice s pomoËjo pra­vil. Programa sicer nista namenjena za reševanje pro­blema, ko je treba postaviti vse vejice, vendar je vseeno zanimivo videti, kako dobro poišËeta vse vejice. 3.3 Priprava podatkov Program WEKA potrebuje podatke v formatu ARFF, v katerem glavi z opisom atributov sledi podatkovni del, v katerem vsaka vrstica predstavlja en primer. Rezultat oznaËevanja besedil je v formatu XML­TEI,9 zato je bil napisan za pretvorbo program v Perlu. Ta za vsako besedo doloËi atribute, potem pa pri izvo­zu v ARFF ob sami besedi izpiše še atribute za prej­šnje in naslednje besede glede na nastavitev okna (privzeta vrednost je ‡5 +5, torej pet besed spredaj in pet besed zadaj, s Ëimer so zaËeli tudi Alegria idr. (2006)). Vejice niso besede, ampak le atribut je-vejica na besedi neposredno pred vejico. Ta atribut je potem uporabljen kot razred pri strojnem uËenju. Program za izvoz v ARFF izvozi vse atribute (ra­zen podatka o obstoju vejice) kot nize, s Ëimer pa veËina klasifikatorjev ne zna delati, zato jih je treba najprej spremeniti v nominalne atribute, pri Ëemer je pri definiciji atributa našteta zaloga možnih vredno­sti. V ta namen je bil v programu WEKA uporabljen filter StringToNominal. 3.3.1 atributi Osnovni atributi za vsako besedo so oblika (sama be­seda, taka kot je napisana, npr. mize), lema (osnov­na oblika besede, npr. miza) in oblikoskladenjska oznaka (ali MSD ‡ morpho­syntactic descriptor, npr. Sozer) po oblikoskladenjskih specifikacijah JOS,10 ki pove besedno vrsto, podatke o sklonu, spolu, številu 9 http://www.tei-c.org/Guidelines/P5/ 10 http://nl.ijs.si/jos/msd/html-sl/index.html ipd. Ker loËila nimajo oblikoskladenjskih oznak, jim je bila pripisana oznaka Y, da jih lahko obravnava­mo enako kot besede. NeobstojeËim besedam znotraj okna so bili vsi atributi nastavljeni na *, vsak stavek je enota zase in okno ne sega na sosednje stavke. Atributi so našteti tako, da so najprej atributi za samo besedo (položaj 0), temu sledijo atributi za predhodne besede (od ­1 do ­5) in temu atributi za naslednje besede (od +1 do +5). Po celotnem MSD je bil narejen še poskus z del­nim MSD, v katerem so atributi loËeno prvi znak MSD, drugi znak MSD in pri samostalnikih še sklon. Delni MSD2 je bil poskus, kako Ëim bolj prene­sti informacije iz MSD in se izogniti uporabi celot­nega MSD (zaradi predpostavke, da veliko število razliËnih MSD lahko ovira uËenje). Vsak MSD bil raz­deljen v dva atributa, prvi je kot prvo Ërko vseboval besedno vrsto, druga Ërka pa je bila vrsta pri posa­mezni besedni vrsti (pri samostalnikih, pridevnikih, glagolih, zaimkih, števnikih in veznikih). Drugi atri­but je vseboval sklon pri samostalnikih, pridevnikih, zaimkih, predlogih in števnikih, sicer pa **. Naslednji poskus je bil uporaba podatkov skla­denjskega razËlenjevalnika, pri katerem pa je re­zultate teže pretvoriti v atribute kot pri oblikoslov­nem oznaËevalniku in lematizatorju, saj so rezultat skladenjskega razËlenjevalnika povezave, ki gradijo drevo. Slika 1: Rezultat skladenjskega razËlenjevalnika Slika 1 kaže rezultat skladenjske razËlembe za ki kažejo na osebke, predmete in prislovna doloËila, poved .Ko MatiËek to izve, sklene ukrepati«. Za po­pri Ëemer nas pri modrih in rdeËih povezavah zanima stavljanje vejic so pomembne predvsem povezave11 zaËetek bloka, zato mora upoštevati še vse naslednje .vez«, ki kaže na veznike, .modra«, ki kaže na del po­povezave, da pridemo do zaËetka tega bloka. vedi, in rdeËe povezave .ena«, .dve«, .tri« in .štiri«, Rezultat razËlenjevalnika (skupaj z rezultatom le­ matizatorja in oblikoskladenjskega analizatorja) je za­pisan v formatu XML, kot prikazujemo na sliki 2 (iz­ 11 Vsi tipi povezav so opisani na http://www.slovenscina.eu/tehnologije/ razclenjevalnik. pušËene so znaËke .«, ki oznaËujejo presledke). Ko MatiËek to izve , sklene ukrepati . Slika 2: Zapis oznaËevanjain skladenjske razËlembev formatu XML Slika 2 je primer, zapisan v formatu XML, ki je • je vez: beseda, na katero kaže povezava “vez”; rezultat oznaËevanja in skladenjskega razËlenjeval­• zaËetek modrega bloka: prva beseda v bloku, na nika. ZnaËke “