Posodabljanje starejše slovenšËine Tomaž Erjavec, Institut Jožef Stefan, Odsek za tehnologije znanja, Jamova cesta 39, 1000 Ljubljana tomaz.erjavec@ijs.si IzvleËek V prispevku obravnavamo metodo za posodabljanje besed v starejših slovenskih besedilih, ki vkljuËuje posodabljanje besednih oblik s pomoËjo raËunalniških leksikonov in pravil za transkripcijo, oblikoskladenjsko oznaËevanje in lematizacijo. Posodabljanje je koristno predvsem pri iskanju po polnem besedilu digitalnih knjižnic našekulturne dedišËine,pa tudi kot naËin,da starejša besedila približamo sodobnemu bralcu.Program zapo­sodabljanje uporablja jezikovne vire starejše slovenšËine IMP, ki vkljuËujejo roËno oznaËeni korpus besedil in leksikon starejše slovenšËine, za oblikoskladenjsko oznaËevanje in lematizacijo pa modele, nauËene na virih sodobne slovenšËine, razvitih v okviru projekta Sporazumevanje v slo­venskemjeziku.Prispevekpredstavi uporabljenevire,programza jezikoslovno oznaËevanjeToTrTaLe, evalvacijo natanËnostiprogramain smernice za nadaljnje delo. KljuËne besede: starejša slovenšËina, jezikovne tehnologije, jezikovni viri za slovenski jezik. Abstract Modernizing Historical Slovene The paper presents a method for modernising words in historical Slovene texts, which includes modernising word-forms with the help of com­putational lexicons and transcription rules, morphosyntactic tagging, and lemmatisation. Modernisation is useful for full-text search in cultural heritagedigital librariesaswellasawaytomakeoldertextsmore accessibletotoday’sreaders.TheprogramformodernisationusestheIMP languageresourcesfor historical Slovene, which includeahand-annotated text corpusandalexiconof historical Slovene, while morphosyntactic tagging and lemmatizationrely on models trained onresources for contemporarySlovene, which were developedin the scopeof the “Commu­nicationin Slovene”project. The paper introduces the languageresources, theToTrTaLeprogram for linguistic annotation, an evaluationof the accuracyof theprogram and directions for futureresearch. Key words: historical Slovene, language technologies, languageresources for Slovene. 1 UVOD Vzadnjih letih smo priËa hitremu razmahu digitalnih knjižnic, pri Ëemer je veliko dostopnih besedil starejšega datuma, saj ni ovir za njihovo razširjanje, ker so jim potekle avtorske pravice, ob tem pa so taka besedila zanimiva za seznanjanje in preuËevanje kulturne dedišËine posameznih narodov. Za slovenski jezik sta najveËji digitalni knjižnici dLib.si (KrstuloviE in Šetinc, 2005) in projekt Googlovih knjig. Ta dela so tipiËno dostopna predvsem kot faksimili,vnajboljšem primeruspredogledom avtomatsko razpoznanega besedila,v katerempaje zaradi poškodb papirja, starega tiskain upora­be bohoriËice veliko napak. Besedila tudi niso strukturno oznaËena, kar onemogoËa npr. generiranje kazala in stavlje­nje besedila. Obstaja tudi veË manjših, a zato bolj natanËno obdelanih digitalnih knjižnic slovenske pisne kulturne dediš­Ëine,1 na prvem mestu projekt .Slovenska leposlovna klasi­ * Delo, objavljeno v tem Ëlanku, sta podprla projekt EU IP IMPACT Improving Access to Text in nagrada Google Developing Language Models of Historical Slovene ter raziskovalni program P2-0103Tehnologije znanja. 1 Podroben, Ëeprav že rahlo zastarel pregled je podan v Hladnik (2009). ka« na Wikiviru, kot tudi portal Sistory (Šorn in Hadalin, 2010), knjižnica eZISS (Ogrin in Erjavec, 2009) in veliko pro­jektov posameznih knjižnic. Za iskanje po polnem besedilu digitalnih knjižnic je, vsaj za jezike z bogato morfologijo, kot je sloven­šËina, zelo koristno besedila predhodno lematizirati, torej vsaki besedi pripisati njeno osnovno obliko, npr. .ljubezen« za besedne oblike .ljubezni«, .ljubeznijo« itd. Šele tako bo namreË poizvedba za .ljubezen« vrnila tudi besedila s katero koli pregibno obliko te besede. Za sodobno standardno slovenšËino je bilo razvitih že veË lematizatorjev, tudi prosto dostopnih (Erjavec in Džeroski, 2004; JuršiË idr., 2010; Logar Berginc idr., 2012), pri Ëemer bolj kakovostni najprej opravijo oblikoskladenjsko oznaËevanje, pri Ëemer vsaki besedni pojavnici pripišejo njene oblikoskla­denjske lastnosti, npr. .obËi samostalnik moškega spola v orodniku ednine«, saj je v splošnem šele s to informacijo mogoËe neko besedno obliko tudi pravil­no lematizirati. Tako je npr. za besedno obliko hotela treba vedeti, ali je glagol ali samostalnik, da ji lahko pripišemo bodisi lemo hoteti bodisi lemo hotel. Za pravilno lematizacijo neznanih besed pa je obliko­skladenjska oznaka še posebno potrebna. Sodobni lematizatorji in oblikoskladenjski ozna­Ëevalniki se modela jezika nauËijo samodejno na podlagi vnaprej pripravljenih jezikovnih virov. Za razliko od roËno napisanih pravil imajo induktivno nauËeni modeli prednost, da so bolj robustni in lahko (razmeroma) uspešno obdelajo tudi neznane besede, zato pa potrebujejo za uËne množice roËno izdela­ne jezikovne vire, tj. leksikone za lematizatorje in oznaËene korpuse za oblikoskladenjske oznaËeval­nike. Izdelava dovolj natanËnih, obsežnih in razno­vrstnih jezikovnih virov za posamezen jezik je drag in dolgotrajen postopek, vendar je za slovenšËino v zadnjem Ëasu postalo dostopnih veËje število takšnih virov, predvsem v okviru projektov Jezikoslovno oznaËevanje slovenskega jezika (JOS) in Sporazu­mevanje v slovenskem jeziku (SSJ), tako da izdela­va induktivnih orodij ni veË nepremostljiva težava; kot omenjeno, sedaj obstajajo tudi že vnaprej nauËe­ni prostodostopni lematizatorji in oblikoskladenjski oznaËevalniki za sodobno standardno slovenšËino. Stanje pa je drugaËno za raËunalniško obravnavo starejše slovenšËine, saj se ta razlikuje od sodobne­ga jezika, zaradi Ëesar z obstojeËimi programi zanjo dobimo zelo slabe rezultate. Besede so se vËasih pi­sale drugaËe, njihov zapis se je skozi zgodovino tudi spreminjal, ob tem pa pisni jezik ni bil standardiziran, tako da lahko za isto besedo tudi v istem Ëasovnem obdobju najdemo veË zapisov. »e k temu prištejemo še bohoriËico, ki so jo uporabljali do srede devetnaj­stega stoletja, ima lahko posamezna lema zelo veliko število oblik, ki so težko predvidljive vnaprej. Tako za lemo ljubezen v korpusu starejših besedil poleg so­dobnih oblik ljubezen, ljubezni in ljubeznijo najdemo še ljubesni, ljubesin, lube.n, lubesen, lubesni, ljubesen, lube.ne, lube.ni, ljubesnijo, ljubezin, lubesnio, lubesne, lubesn, lubiesn in lubiesen. Dodaten problem so bese­de, ki jih ne uporabljamo veË, kot npr. .bukvovez«, ki je danes knjigovez, saj od uporabnika, ki bi rad iskal po besedilih digitalne knjižnice, težko priËakujemo, da se bo zavedal vseh zastarelih ustreznic sodobnim besedam. V prispevku predstavimo program, ki starejše slovenske besede posodobi, jih oblikoskladenjsko oznaËi in lematizira. V drugem razdelku najprej predstavimo jezikovne vire, ki so omogoËili izdela­vo programa, v tretjem razdelku opišemo delovanje programa, v Ëetrtem ocenimo njegovo toËnost in v petem razdelku podamo sklepe in smernice za na­daljnje delo. 2 UPORaBLjENI jEZIKOVNI VIRI Za oznaËevanje starejših besed uporabljamo veË je­zikovnih virov, bodisi neposredno ali pa za uËenje modelov za posamezne ravni jezikoslovne analize. V tem razdelku opišemo te vire, ki so uporabni tudi zu­naj konteksta posodabljanja starejših besedil. Vsi so zapisani po mednarodnih standardih in priporoËilih in prosto dostopni pod eno od licenc Creative Com­mons, tako da so Ëim bolj odprti (Erjavec, 2009) in lahko v najveËji meri spodbujajo napredek jezikov­nih tehnologij za slovenski jezik. VeËina predstavljenih virov je zapisana skladno s smernicami za zapis besedil TEI, Text Encoding Ini­tiative Guidelines (TEI, 2007). Smernice temeljijo na XML, opredeljujejo formalni zapis besedil za znanstve­ne namene in se uporabljajo za veËino kompleksnejših izdaj v digitalnih knjižnicah, za jezikoslovno oznaËene korpuse, za raËunalniške slovarje itd. Smernice TEI in s tem spodaj našteti viri so usklajeni z ustreznimi stan­dardi W3C, ISO in IANA, npr. pri kodah za oznaËeva­nje Ëasov in jezikov. Kot primer izpostavimo oznako za bohoriËico, ki do sedaj ni imela svoje standardizirane kode. V postopku izdelave virov starejše slovenšËine smo na IANA (Internet Assigned Numbers Authority) prijavili kodo za podjezik .sl­bohoric«, ki je namenjena za oznaËevanje slovenskih besedil, zapisanih v boho­riËici, in ‡ Ëeprav naši viri ne vsebujejo teh pisav2 ‡ še za .sl­metelko« in .sl­dajnko«. 2.1 Zbirka starejših slovenskih besedil IMP Podlaga za izdelavo vseh drugih jezikovnih virov starejše slovenšËine (Erjavec, 2012a) je zbirka besedil, imenovana IMP, ki je zasnovana kot digitalna knjiž­nica. Zbirka vsebuje tiskana besedila, veËinoma ce­lotne knjige, ki so predstavljene tako s faksimili kot z roËno pregledanimi in oznaËenimi prepisi besedil. IMP trenutno vsebuje 658 del oz. okoli 46.000 strani ali 14 milijonov besed. S par izjemami obsegajo dela obdobje od konca 18. stoletja do leta 1918, veËina pa jih je iz druge polovice 19. stoletja. 2 Zbirka IMP sicer vsebuje knjigo »elarstvo (»ebelarstvo) Petra Dajnka (1831), ki je zapisana v dajnËici, vendar v prepisu uporabljamo gajico, saj za dajnËico ne obstajajo znaki unikod niti ustrezni fonti za prikaz. Stopnja oznaËevanja TEI se razlikuje glede na digi­talni vir posameznega dela, v vseh primerih pa vsebu­je metapodatke (kolofon TEI), prelome strani s kazalci na faksimile, naslove razdelkov in odstavke, tipiËno pa tudi oznake za posebne dele besedila, kot so ver­zi, opombe, tiskarska znamenja, uredniški popravki, tuje besede itd. Na spletu je zbirka dostopna v obliki digitalne knjižnice z veË kazali, pri Ëemer je vsaka eno­ta svoja datoteka HTML, samodejno prevedena s stili TEI XSLT iz izvornega zapisa zbirke v XML/TEI. Na sliki 1 ilustriramo iztržek ene od knjig iz zbir­ke IMP v zapisu TEI, pri Ëemer element po­meni prelom strani, nato se zaËne razdelek besedila (
), ki vsebuje naslov () in zaËetek prve kitice (); ta je nato sestavljena iz vrstic (), ki lahko vsebujejo tudi opombe (). Elementi imajo tudi atribute, ki vsebujejo npr. identifikator (@ xml:id), preko katerega je mogoËe kazati na doloËen element, opis prikaza elementa (@rend), kazalko na faksimile (pb/@facs) ali dejstvo, da je opomba avtor­jeva (note[@type=«authorial«]) in ne uredniška.
1. Dershi ali vmirajozha .kopo.t. DershiDershi, Pa.ko: pe.je iména, Hundsnahmen mie z. B. Phylar. , ker je v’ neki nozhi Ne sati.nil .vojih ózhi, Da je sve.ti varih bil; … Slika 1: Zapis TEI iztržka besedila iz zbirke besedil IMP 2.2 RoËno oznaËeni korpus starejših slovenskih besedil goo300k Iz zbirke IMP smo vzorËili 1.100 strani iz 90 enot in vsako besedno pojavnico (nekaj manj kot 300.000) roËno oznaËili z veË jezikoslovnimi lastnostmi, s Ëi­mer smo dobili referenËni korpus starejše sloven­šËine po imenu goo300k (Erjavec, 2012b). OznaËene jezikoslovne lastnosti so: 1. sodobna ustreznica, torej besedna oblika, kot se piše danes, napisana z malimi Ërkami, pri Ëemer za zastarele (izumrle) besedne oblike upoštevamo pravila sodobnega pravopisa; 2. lema oz. osnovna oblika sodobne ustreznice; 3. najbližje sodobne ustreznice oz. kratka razlaga pomena (samo za zastarele besede); 4. leksikalni del oblikoskladenjske oznake JOS (raz­loženo v nadaljevanju). Zapis korpusa ponazarja slika 2 z besedilom, ki se glasi: .Pri vkvartirjanju ni drugaËi.« Ta stavek () ima oznaËene besede (), loËila () in presled­ke (), besede pa nosijo informacijo o lemi (w/@ lemma) in oblikoskladenjski oznaki (w/@ana). V primerih, ko se posodobljena beseda (ki je vedno napisana z malimi Ërkami) razlikuje od besedne oblike iz korpusa, se lahko odloËimo (), ali želimo upoštevati izvorno () ali posodobljeno obliko (). Pri zastarelih besedah je dodan opis (), sestavljen iz sodobne ustreznice oz. razlage () in vira te razlage (); v podanem pri­meru je bil to kar (širši) kontekst, v katerem se je poja­vila beseda .vkvartirjanju«. Zapis je bolj kompleksen, kot se zdi potrebno, vendar mora zajeti tudi primere, ko je ena zgodovinska beseda pisana kot veË sodob­nih ali obratno, npr. .po noËi« proti .ponoËi«. Pri pri vkvartirjanju ukvartiranju prenoËevanjekontekst ni drugaËidrugaËe . Slika 2: Primer iz roËno oznaËenega korpusa goo300k »eprav je natanËna definicija vsake od oznak kompleksna, saj v jeziku vedno sreËujemo mejne pri­mere, je osnovni pomen vsake od njih vseeno intui­tivno jasen. Izjema so oblikoskladenjske oznake, zato jih podrobneje opišemo v nadaljevanju. Oblikoskladenjske oznake JOS so kratki nizi (npr. .Ggdn«), ki jih lahko pripišemo posamezni besedni pojavnici v korpusu (ali besedni obliki v leksikonu) in kodirajo oblikoskladenjske lastnosti (npr. .glagol, vrsta=glavni, vid=dovršni, oblika=nedoloËnik«). Nabor teh oznak (preko 1.900) za slovenski jezik in njihova preslikava v lastnosti so definirane v obli­koskladenjskih specifikacijah JOS (Erjavec in Krek, 2008). Na spletu so dostopne celotne specifikacije tako v izvornem zapisu TEI kot v izvedenem HTML, na voljo pa so tudi tabele, ki oznake preslikajo v lastno­sti oz. iz slovenskega v angleški jezik (npr. .Ggdn« . .Vmen« . .Verb, Type=main, Aspect=perfective, VForm=infinitive«). Oznake JOS uporabljajo razno­vrstni viri sodobne slovenšËine, med drugim v na­daljevanju opisana raËunalniški leksikon Sloleks in uËni korpus ssj500k. Pri izdelavi jezikovnih virov starejše slovenšËi­ne je bil poudarek na roËnem oznaËevanju sodobne oblike in leme, ne pa oblikoskladenjskih lastnosti, kar je zelo zamudno delo. Vseeno smo želeli imeti roËno preverjene vsaj leksikalne lastnosti posame­znih lem, zato smo kompleksen nabor vseh oznak JOS reducirali s skoraj dva tisoË na 32. V naboru JOS je tako npr. za besedno pojavnico .ni« zapisano, da je .glagol vrsta=pomožni oblika=sedanjik oseba=tretja število=ednina nikalnost=zanikani«, v goo300k pa samo .glagol vrsta=pomožni« oz. .Va«, ker uporab­ljamo angleške oznake. Specifikacije oblikoslovnih lastnosti in oznak IMP so, tako kot JOS, tudi formal­no zapisane in dostopne na spletu. 2.3 Leksikon starejše slovenšËine IMP Leksikon vsebuje zajete podatke iz korpusa, sestav­ljen pa je iz gesel, pri Ëemer posamezno geslo vsebuje lemo, njene oblikoskladenjske lastnosti in (za zasta­rele besede) sodobne ustreznice, nato seznam sodob­nih besednih oblik, za vsako od teh njene zgodovin­ske ustreznice in nekaj primerov (konkordanc) iz besedil. Leksikon je pretvorjen iz korpusa goo300k, poleg tega pa dopolnjen z roËno obdelanimi pogo­stejšimi besedami iz veËje podmnožice zbirke IMP. Ker leksikon izvira iz oznaËenih korpusnih prime­rov, so v njem zajete samo dejansko izpriËane oblike oz. njihove oznake, zato leksikon tipiËno ne vsebu­je celotnih pregibnih paradigem (tj. vseh besednih oblik) posameznih lem. Leksikon vsebuje veË kot 80.000 zgodovinskih oblik, 58.000 sodobnih besednih oblik in 28.000 lem. Štete so tudi .besede«, kot so cifre, zatipkane in tuje besede, pa tudi besede, ki so enake tistim v sodobni slovenšËini. »e štejemo samo vnose, ki imajo vsaj eno besedno obliko razliËno od sodobne, dobimo okoli 36.000 zgodovinskih oblik, 25.000 sodobnih oblik in 12.000 lem, med katerimi je 4.000 lem zastarelih, zato imajo tudi dodano razlago. Leksikon je dostopen na spletu v formatu HTML, ki je s posebej zato napisa­nim slogom XSLT pretvorjen iz izvornega TEI/XML. 2.4 Oblikoslovni leksikon sodobne slovenšËine Sloleks Za posodabljanje in lematizacijo potrebujemo tudi leksikon sodobne slovenšËine, pri Ëemer uporablja­mo oblikoskladenjski leksikon sodobne slovenšËine Sloleks (Arhar, 2009), ki vsebuje okoli 100.000 lem, vse njihove pregibne oblike z oblikoskladenjskimi lastnostmi in s številom pojavitev v korpusu Gigafi­da, vsega skupaj skoraj 2,800.000 oblik. Leksikon za razliko od drugih naštetih virov ni zapisan v shemi TEI, temveË po XML, ki sledi LMF (Lexicon Markup Framework), standardu ISO 24613:2008 za predsta­vitev raËunalniških leksikonov. Ker je struktura LMF razmeroma zahtevna za uporabo, vsebuje pa tudi podatke, ki jih mnoge aplikacije ne potrebujejo, smo leksikon pretvorili še v preprost tabelariËni format, v katerem je vsak vnos (vrstica) sestavljen iz besedne oblike, leme, oblikoskladenjske oznake in frekvence tega trojËka na milijon besed. Kot primer podamo v sliki 3 paradigmo samostalnika .skopost«, pri Ëemer frekvenca niË pomeni, da tega trojËka program ni identificiral v korpusu. skopostih skopost Ncfdl 0.000000 skopostih skopost Ncfpl 0.000000 skopostim skopost Ncfpd 0.000000 skoposti skopost Ncfdn 0.000000 skoposti skopost Ncfdg 0.000000 skoposti skopost Ncfda 0.000000 skoposti skopost Ncfsd 0.000010 skoposti skopost Ncfsl 0.000088 skoposti skopost Ncfsg 0.000131 skoposti skopost Ncfpn 0.000001 skoposti skopost Ncfpg 0.000003 skoposti skopost Ncfpa 0.000004 skopostjo skopost Ncfsi 0.000037 skopostma skopost Ncfdd 0.000000 skopostma skopost Ncfdi 0.000000 skopostmi skopost Ncfpi 0.000000 skopost skopost Ncfsn 0.000179 skopost skopost Ncfsa 0.000092 Slika 3: Paradigme ene besede iz leksikona Sloleksv tabelariËnem formatu 2.5 UËni korpus sodobne slovenšËine ssj500k Za oblikoskladenjsko oznaËevanje potrebujemo uËni korpus, za kar uporabimo korpus sodobne sloven­šËine ssj500k (Arhar, 2009). Korpus vsebuje 500.000 besednih pojavnic; vsaka je roËno oznaËena z obliko­skladenjsko lastnostjo in lemo. Korpus je tudi delno oznaËen s skladenjskimi analizami in imenskimi enti­tetami, vendar tu ne uporabljamo teh informacij. Za­pis je podoben kot za korpus starejše slovenšËine, ven­dar preprostejši, saj ne vsebuje posodabljanja besed. 3 PROGRaM ToTrTaLe Program za jezikoslovno oznaËevanje starejših bese­dil ToTrTaLe, katerega prva razliËica je predstavljena v Erjavec (2011), implementira cevovod, ki iz vhod­nega dokumenta TEI izlušËi besedilo, nato pa nad njim enega za drugim pokliËe posamezne module za oznaËevanje. Za osnovo mu služi program ToTaLe (Erjavec idr., 2005), ki razdeli besedilo na pojavnice (tokenizacija), te oblikoskladenjsko oznaËi (tagiranje) in jim pripiše osnovno obliko (lematizacija). Pro­gram, ki ga predstavljamo, doda prepis starinskih oblik v sodobne (transkripcija) takoj za tokenizacijo in se zato imenuje ToTrTaLe. Program na izhod izpiše dokument TEI, v katerem so vhodnim oznakam TEI dodane jezikoslovne oznake, kot so bile prikazane na primeru roËno oznaËenega korpusa goo300k na sliki 2; izhod iz programa na delËku besedila iz slike 1 je prikazan na sliki 3.
1. Dershi drži ali vmirajozha umirajoËa .kopo.t skopost . Slika 4: Primer besedila, oznaËenegasToTrTaLe Program je v glavnem jezikovno neodvisen, saj uporablja zunanja pravila in modele, ki jih je mogoËe napisati oz. se jih induktivno nauËiti za veËino evrop­skih jezikov, Ëeprav je mišljen predvsem za jezike z bogato morfologijo, kot je slovenšËina. Program je napisan v programskem jeziku Perl, vendar je glavni program v resnici samo ovojnica, ki kliËe druge pro­grame in nato kombinira njihove rezultate. V nada­ljevanju razdelka predstavimo posamezne module ToTrTaLe, pri Ëemer se najbolj posvetimo specifikam obdelave starejše slovenšËine. 3.1 Tokenizacija Za razdelitev besedila na stavke, besede, loËila in pre­sledke uporabljamo veËjeziËni tokenizator mlToken, ki je del paketa To(Tr)TaLe. Program jezikovno od­visne podatke hrani v loËenih datotekah, predvsem seznam okrajšav (besede, ki se konËajo s piko in ne konËajo nujno stavka), seznam veËbesednih enot (po­javnice, ki so sestavljene iz veË s presledki loËenih be­sed) in seznam levih ali desnih naslonk (besed, ki jih je treba obravnavati kot del neke pojavnice). V kon­tekstu posodabljanja starejše slovenšËine sta posebno zanimiva seznama veËbesednih enot in naslonk, saj se precej besed, ki so se vËasih pisale skupaj, sedaj piše narazen oz. obratno, npr. .nemore« proti .ne more« oz. .še le« proti .šele«. Te besede so dodane v ustrezen seznam, tako da že mlToken poskrbi za njihovo tokenizacijo v skladu s sodobno normo. Po­trebni seznami za tokenizacijo starejše slovenšËine za ToTrTaLe niso napisani posebej za to orodje, paË pa so zajeti neposredno iz leksikona IMP. Trenutni pristop k reševanju teh posebnih pojav­nic ima dve slabosti. • Tokenizator pozna samo tiste posebne pojavnice, ki so v leksikonu, in torej ne obravnava pravilno novih, neznanih okrajšav, veËbesednih enot oz. naslonk. Problem je posebno opazen pri presež­niku pridevnikov, ki so se vËasih pisali narazen (npr. .nar veËji«), saj bomo s leksikonom težko zajeli vse oblike vseh stopnjevanih pridevnikov. • Kot pri vseh drugih jezikoslovnih analizah se tudi pri posebnih pojavnicah sreËamo s problemom dvoumnosti, pri Ëemer je klasifikacija neke pojav­nice ali kombinacije pojavnic odvisna od sobesedi­la, npr. .Vesoljni potop je po tem vso deželo poto­pil«, kjer mora biti sodobna oblika .potem«, in .To se vidi tudi po tem, da vse tuje bolj ceni«, kjer pa mora biti .po tem«. Da vsaj deloma rešimo ta pro­blem, v leksikon vedno vkljuËimo oba primera, to­rej ne samo, ko se starinski .po tem« piše sodobno .potem«, temveË tudi ko so piše .po tem«. V toke­nizator nato dodamo posebne primere samo tam, kjer je njihova frekvenca višja od navadnih, torej nezdruženih oz. nerazdeljenih pojavnic. 3.3 Transkripcija Transkripcija zgodovinskih besednih oblik v sodob­ne je kljuËni modul za procesiranje starejšega jezika. Pri posodabljanju besednih oblik so le­te najprej nor­malizirane, tj. zapisane z malimi Ërkami, odstranje­na pa so tudi naglasna znamenja nad samoglasniki; naglase so namreË pogosto, a neenotno uporabljali predvsem v 19. stoletju, v sodobni normi pa jih sko­raj ni zaslediti. V procesu iskanja sodobne ustreznice program najprej išËe normalizirano zgodovinsko besedno obliko v leksikonu IMP; Ëe jo najde, je s tem našel tudi sodobno ustreznico, Ëe ne, pa besedno obliko išËe v Sloleksu. »e nobeden od leksikonov ne vsebu­je iskane oblike, program njen sodobni zapis skuša najti s pomoËjo t. i. transkripcijskih vzorcev. Veliko sprememb v pisavi lahko namreË izrazimo v obliki pravil, ki podajo vzorec, v katerem se sodob­na beseda razlikuje od zgodovinske, npr. .r ›er« za pare kot je .brž › berž«, .srce › serce«, pri Ëemer je na levi sodobni in na desni zgodovinski zapis. Pri uporabljenem pristopu v leksikonu sodobnih oblik Sloleks skušamo najti tiste, ki jih je mogoËe izpeljati iz zgodovinske oblike z uporabo enega ali veË takih pravil. Ta pristop je tipiËen za posodabljanje starejših besedil (Pilz idr., 2008; Gotscharek idr., 2009; Bennett idr., 2010; Sánchez­Marco idr., 2010), se pa pristopi razlikujejo v tehnologiji, ki jo uporabljajo za prever­janje ujemanja zgodovinske oblike s sodobnimi obli­kami s pomoËjo takšnih vzorcev. V paketu ToTrTaLe ujemanje prek transkripcij­skih vzorcev implementira knjižnica Vaam, Variant aware approximate matching (Gotscharek idr., 2009; Reffle, 2011), ki jih modelira kot (razširjene) konËne avtomate, zaradi Ëesar je prostorsko, predvsem pa Ëasovno nezahtevna. Seznam sodobnih kandidatov, ki ga vrne za posamezno zgodovinsko besedo, je ure­jen glede na število vzorcev, ki jih je bilo treba upo­rabiti. Proces doloËanja sodobnih ustreznic je torej nedeterministiËen, je pa v danem kontekstu seveda pravilna samo ena posodobitev. Trenutno modul za transkripcijo izbere tistega kandidata, ki ima v leksi­konu Sloleks najvišjo frekvenco, vendar so mogoËi tudi kompleksnejši modeli, ki bi odložili izbiro naj­boljšega kandidata, dokler nista opravljena še obli­koskladenjsko oznaËevanje in lematizacija vseh (va­riant) pojavnic, saj bi s tem imeli veË informacij za pravilno odloËitev. Za posodabljanje trenutno uporabljamo okoli sto vzorcev, ki smo jih doloËili s pomoËjo roËno oznaËe­nega korpusa goo300k; razdeljeni so na vzorce za starejša besedila v gajici (torej sodobni abecedi) in na vzorce za bohoriËico. Razlog za dve množici ni samo razlika v pisavah, temveË so v besedilih izpred leta 1850 vzorci pogosto drugaËni. 3.4 Oblikoskladenjsko oznaËevanje V naslednji stopnji oznaËevanja program pripiše vsa­ki besedni pojavnici njeno (od konteksta odvisno) oblikoskladenjsko oznako JOS. Sodobni oblikoskla­denjski oznaËevalniki se modela jezika nauËijo iz roËno oznaËenega korpusa, vendar pa je razvoj do­volj velikega korpusa dolgotrajen in drag proces, ki bi ga težko ponovili za zgodovinski jezik. Ker so bile besedne oblike v predhodnem koraku posodobljene, lahko oznaËevalniku kot vhod ponudimo posodo­bljeno besedilo in nato uporabimo model, nauËen na sodobnem jeziku. Seveda model še vedno deluje slabše kot nad sodobnim jezikom, saj so zgodovinska besedila drugaËna ne samo v pisavi posameznih be­sed, temveË tudi na skladenjski ravni, pa tudi neka­tere besedne oblike, kot npr. deležja na ­vši, so bila v preteklosti bistveno bolj pogosta, kot so danes. Za oblikoskladenjsko oznaËevanje uporabljamo program TnT, Tri­grams and tags (Brants, 2000), ki je robusten in hiter trigramski oznaËevalnik, oznaËe­vati pa zna tudi neznane besede, Ëeprav je tu na­tanËnost manjša kot za znane. Model oznaËevanja je bil nauËen na uËnem korpusu sodobne slovenšËine ssj500k, pri Ëemer je kot zaledni leksikon uporabljen Sloleks. 3.5 Lematizacija Zadnja stopnja jezikoslovne obdelave je pripis osnovne oblike vsaki besedni pojavnici. Kot pri obli­koslovnem oznaËevanju se tudi pri tem veËina so­dobnih lematizatorjev nauËi modela jezika iz vnaprej pripravljenih jezikovnih virov, v tem primeru iz le­ksikona sodobnih besednih oblik, v našem primeru Sloleksa. Seveda bi lahko leme besednih oblik, vse­bovanih v leksikonu Sloleks, preprosto prepisali iz leksikona, vendar imajo lematizatorji to prednost, da znajo lematizirati tudi neznane besede. »e je bese­da pravilno posodobljena in ji je pripisana pravilna oblikoskladenjska oznaka, deluje lematizator s precej visoko stopnjo natanËnosti. Kot lematizator uporabljamo CLOG (Erjavec in Džeroski, 2004), ki se na podlagi vhodnih primerov (parov besedna oblika ‡ lema, pri Ëemer je model za vsako oblikoskladenjsko oznako obravnavan pose­bej) nauËi odloËitvene sezname prvega reda, pri Ëe­mer je definirana operacija povezovanje nizov. Na­uËene strukture so predikati v programskem jeziku Prolog, vendar jih za lažjo povezljivost s ToTrTaLe prevedemo v Perl. Zanimiva lastnost lematizatorja CLOG je, da mu ne uspe lematizirati poljubnega para oblika ‡ obli­koskladenjska oznaka. Pri starejših besedilih so taki primeri skoraj vedno zastarele besede, ki niso bile pravilno posodobljene, tako da so nelematizirane besede dobri kandidati za dodajanje v leksikon IMP. 3.6 Izhod TEI Zadnja stopnja obdelave je zapis oznaËenega bese­dila v dokument TEI, kar dosežemo s kombinacijo obdelave v jeziku Perl s skriptami XSLT, Ëemur sle­di še validacija dobljenega dokumenta XML glede na shemo TEI, pri Ëemer je ta izražena v Relax NG (ISO/IEC 19757­2). »e pride pri validaciji do napak, je to indikator, da vhodni dokument krši (mogoËe implicitne) predpostavke oznaËevanja; v tem prime­ru je treba bodisi popraviti oznake v vhodnem do­kumentu ali pa ‡ Ëe je bilo uporabljeno oznaËevanje smiselno ‡ dopolniti program ToTrTaLe, da bo zajel tudi takšne primere. OznaËevanje v dokumentih TEI je namreË lahko zelo kompleksno, zato je v splošnem težko zagotoviti, da vstavljanje novih (jezikoslovnih) oznak v tak dokument ne privede do nepravilnih struktur. Vendar je ToTrTaLe razmeroma robusten, saj oznaËi vseh 658 del iz zbirke IMP tako, da je iz­hod pravilen TEI. 4 EVaLVacIja OZNa»EVaNja V tem razdelku poskusimo odgovoriti na vprašanje, kako dobro ToTrTaLe posodablja, lematizira in obli­koskladenjsko oznaËuje neznane besedne oblike gle­de na Ëasovno obdobje, v katerem je nastalo besedilo. Kot je bilo omenjeno v razdelku 2.3, je leksikon zgodovinskih besednih oblik IMP sestavljen iz: 1. vseh besednih oblik iz korpusa goo300k, 2. besednih oblik z roËno preverjenimi oznakami iz vzorca celotne zbirke besedil IMP; ta vzorec tu poimenujemo korpus IMPtest. Za eksperiment smo programu ToTrTaLe dali na voljo samo prvi leksikon, drugi leksikon pa smo upo­rabili kot testno množico. Povedano bolj natanËno, korpus IMPtest smo najprej razdelili v tri podkorpu­se, vsakega za eno Ëasovno obdobje, in sicer za dru­go polovico 18. stoletja (18B), prvo polovico 19. sto­letja (19A) in drugo polovico 19. stoletja (19B). Nato smo vsakega od podkorpusov oznaËili s ToTrTaLe in iz njih izloËili leksikon roËno pregledanih besednih oblik, skupaj z njihovimi roËnimi ter avtomatskimi oznakami za posodobljeno obliko, lemo in obliko­skladenjsko oznako. V tabeli 1 podamo nekaj kvantitativnih podatkov o tem testnem leksikonu. V tabeli posebej izposta­vimo zgodovinske in sodobne oblike, pri Ëemer kot sodobne štejemo tiste, v katerih je besedna oblika iz Tabela 1:Velikost testnega leksikona besedila enaka kot sodobna, Ëetudi s transliteracijo iz bohoriËice v gajico, kot zgodovinske pa vse ostale. Tako kot sodobno štejemo npr. bojiš ›bojiš kot tudi boji.h ›bojiš, za zgodovinsko pa npr. boh ›bog. Za zgodovinske, sodobne in vse oblike podamo število vseh vnosov v leksikonu, število razliËnih besednih oblik, število razliËnih posodobljenih besed in število razliËnih lem. Obdobje Zgodovinske oblike Sodobne oblike Vse oblike Vnosov Oblik Poso. Lem Vnosov Oblik Poso. Lem Vnosov Oblik Poso. Lem 18B 3.400 3.224 2.843 1.885 1.105 1.090 1.090 902 4.505 4.270 3.841 2.535 19a 3.484 3.366 3.168 2.228 3.385 3.326 3.298 2.483 6.820 6.572 6.245 4.166 19B 2.104 2.040 2.012 1.581 10.668 10.320 10.320 7.677 12.745 12.220 12.078 8.596 . 8.790 8.407 7.209 4.629 14.677 14.239 13.932 9.660 23.341 22.270 20.050 12.288 Kot je razvidno iz tabele, ima leksikon nekaj Ëez 23.000 vnosov oz. 22.000 besednih oblik, 20.000 po­sodobljenih oblik in 12.000 lem. Od tega je v 18B sodobnih okoli 25 odstotkov besednih oblik, v 19A jih je 50 odstotkov, v 19B pa 85 oz. 64 odstotkov, ne glede na Ëasovno obdobje; tolikšna bi bila torej tudi natanËnost identifikacije sodobnih besednih oblik sistema, ki ne bi opravljal posodabljanja. V tabeli 2 podamo toËnost ToTrTaLe z leksikonom goo300k nad leksikonom neznanih besednih oblik iz tabele 1. ToËnost posodabljanja Ëez vsa obdobja je okoli 70 odstotkov, kar vkljuËuje tako sodobne kot zgodovinske besede. Samo za zgodovinske je toËnost pod 30 odstotki za besedne oblike in neko­liko veËja za lematizacijo. Zanimivo je, da je toËnost posodabljanja najveËja pri najstarejših besedilih, pri katerih je nekaj manj kot 35­odstotna. Obratno, kar je tudi priËakovano, pa toËnost oblikoskladenjskega oznaËevanja pada s starostjo besedil, od skoraj 70 pri 19B do 57 odstotkov pri 19B. Za sodobne oblike morda preseneËa, da je toËnost .posodabljanja« manjša od sto odstotkov, za 18B je napaka celo štiriodstotna. Te napake so posledica dejstva, da sodobni leksikon Sloleks ne vsebuje po­sodobitev vseh besed, ki jih najdemo v testnem leksi­konu ‡ v takih primerih sistem poskusi posodobiti neznano (sodobno) besedo, pri Ëemer mu to v neka­terih primerih tudi uspe, vendar dobimo kot rezultat napaËno obliko. Tabela 2:ToËnost posodabljanja, lematizacije in oblikoskladenjskega oznaËevanja testnega leksikona Obdobje Zgodovinske oblike Sodobne oblike Vse oblike Poso. Lem. Oblikoskl. Poso. Lem. Oblikoskl. Poso. Lem. Oblikoskl. 18B 34,7 % 38,5 % 56,8 % 96,2 % 87,7 % 79,3 % 49,8 % 50,6 % 62,3 % 19a 26,5 % 31,1 % 57,8 % 97,3 % 90,8 % 84,4 % 61,3 % 60,5 % 70,8 % 19B 24,2 % 32,2 % 68,6 % 99,3 % 93,0 % 85,1 % 86,9 % 82,9 % 82,4 % . 28,8 % 33,9 % 59,9 % 98,6 % 92,0 % 84,3 % 72,4 % 70,2 % 75,1 % Kot je razvidno iz rezultatov, je toËnost sistema vilke. Predstavili smo namreË rezultate na neznanih trenutno razmeroma slaba, vendar se je treba zave­besedah, ne na vseh, pri tem pa ima produkcijski To­dati, da je posodabljanje kompleksen proces, pa tudi TrTaLe na voljo ves leksikon, vkljuËno s testnim, ki da sistem v praksi deluje bolje, kot nakazujejo šte­smo ga tu izloËili, zaradi Ëesar je njegova toËnost na 2013 - .tevilka 4 - letnik XXI UPORABNA INFORMATIKA 193 vseh besedah bistveno boljša. Predstavljeni rezultati LITERaTURa so slabši tudi zaradi tega, ker testni leksikon vsebuje besede, ki jih ‡ vsaj trenutno ‡ program ne more naj­ti v Sloleksu, tj. zastarele besede, tujke in zatipkane besede, ki skupaj sestavljajo veË kot deset odstotkov vnosov v testnem leksikonu. SKLEP V prispevku smo predstavili metodologijo, jezikov­ne vire in program za posodabljanje, lematizacijo in oblikoskladenjsko oznaËevanje starejših besedil ter izvedli poskus, s katerim smo ocenili toËnost pro­grama na neznanih besedah. Rezultati kažejo, da je toËnost mogoËe še zelo poveËati, kar lahko doseže­mo na veË naËinov, ki ostajajo za nadaljnje delo. Naj­bolj preprosto (pa tudi najbolj zamudno oz. drago) bi bilo dodajati nove besede in njihove posodobitve v leksikon IMP, v katerem so nato neposredno do­stopne. Zelo koristno, vendar prav tako zamudno, bi bilo dodajati nove besede tudi v leksikon sodobnih besed, saj analiza napak posodabljanja pokaže, da bi vzorci vËasih pravilno predvideli sodobno obliko, a te ni Sloleksu. Ravno tako bi bilo dobro v leksikon so­dobnih oblik dodati tudi (najpogostejše) tuje besede, predvsem v latinšËini, nemšËini in francošËini. VeË dela bi lahko vložili tudi v transkripcijske vzorce, saj nismo pokrili vseh regularnih sprememb. Vendar se ob tem pojavi problem lažnih ustreznic, saj s preveË pravili hitro najdemo neko sodobno besedo za skoraj poljubno zgodovinsko obliko, zaradi Ëesar je treba nove vzorce dodajati s sprotnim testiranjem njihove­ga uËinka na veËji testni množici. Zadnja od možnosti za izboljšavo sistema bi bila uporaba povsem drugaËnega naËina posodabljanja, ki je že dalo spodbudne rezultate (Scherrer in Erja­vec, 2013), pri katerem uËno množico (leksikon iz go­o300k) izkoristimo za uËenje statistiËnega strojnega prevajanja na ravni posameznih Ërk v besedi. Princip strojnega prevajanja bi lahko razširili tudi na preva­janje celotnih besedil, pri Ëemer bi za uËno množico potrebovali izvorno besedilo (ali besedilo, posodob­ljeno na ravni posameznih besed), ki je poravnano s .prevodom« tega besedila v sodobno slovenšËino. S takim pristopom bi lahko zajeli tudi spremembe na skladenjski ravni, vendar je pri tem pristopu najveËja težava pridobivanje zadosti velike in splošne uËne množice. [1] Arhar, Š. (2009). UËni korpus SSJ in leksikon besednih oblik za slovenšËino. Jezik in slovstvo, 54(3‡4), str. 43‡56. URL: http://www.jezikinslovstvo.com/pdf/2009-03-04-Razprave­-Spela-Arhar.pdf. [2] Bennett,P., Durrell, D., Scheible, S., Whitt, R. J. (2010). An­notatinga historical corpusof German:A case study. Proce­edings of the LREC 2010 workshop on Language Resources and Language Technology Standards.Valletta, Malta, 18 May 2010. str. 64‡68. [3] Erjavec,T. (2009). Odprtost jezikovnih virov za slovenšËino.V: Infrastruktura slovenšËine in slovenistike (Obdobja, Simpozij, = Symposium, 28). Ljubljana: Znanstvena založba Filozofske fakultete, str. 115‡121. URL: http://www.centerslo.net/files/ file/simpozij/simp28/Erjavec.pdf. [4] Erjavec, T. (2011). Automatic linguistic annotation of histori­cal language:ToTrTaLe and XIX century Slovene.V: LaTeCH 2011: The 5th Workshop on Language Technology for Cul­tural Heritage, Social Sciences, and Humanities. Portland, ZDA. Portland: Association for Computational Linguistics, str. 33‡38. URL: http://aclweb.org/anthology-new/W/W11/W11­1505.pdf. [5] Erjavec, T. (2012a). Jezikoslovni viri starejše slovenšËine. Knjižnica, 56(3), str. 205‡221. [6] Erjavec,T. (2012b). The goo300k corpus of historical Slove­ne.V:Eight International Conference on Language Resources and Evaluation (LREC’12), Istanbul. European Language Re­sources Association (ELRA). URL: http://www.lrec-conf.org/ proceedings/lrec2012/summaries/445.html . [7] Erjavec,T., Džeroski,S. (2004). Machine Learningof Langua­ge Structure: Lemmatising Unknown SloveneWords. Applied Artificial Intelligence, 18(1):17‡41. [8] Erjavec, T., Ignat, C., Pouliquen, B., Steinberger, R. (2005). Massive Multi-Lingual Corpus Compilation: Acquis Commu­nautaire andToTaLe.V: Proceedings of the 2nd Language & Technology Conference, April 21-23, 2005, Poznan, Poljska. str. 32‡36. [9] Erjavec, T. in Krek. S. (2008). Oblikoskladenjske specifika­cije in oznaËeni korpusi JOS. V: Zbornik Šeste konference Jezikovne tehnologije. Ljubljana, Inštitut Jožef Stefan. URL: http://nl.ijs.si/jos/bib/jos_isltc08.pdf. [10] Gotscharek, A., Neumann, A., Reffle, U., Ringlstetter, C., Schulz, K. U. (2009). Enabling Information Retrieval on Hi­storical Document Collections ‡ the Role of Matching Pro­cedures and Special Lexica. Proceedings of the ACM SIGIR 2009 Workshop on Analytics for Noisy Unstructured Text Data (AND09), Barcelona. [11] Hladnik, M. (2009). Infrastruktura slovenistiËne literarne vede. V: Obdobja 28 ‡ Infrastruktura slovenšËine in slovenistike, str. 161‡169. URL: http://www.centerslo.net/files/file/simpozij/ simp28/Hladnik.pdf. [12] JuršiË, M., MozetiË, I., Erjavec,T., LavraË, N. (2010) Lemma-Gen: multilingual lemmatisation with induced Ripple-Down rules. Journal of universal computing science. 16/9, str. 1190‡1214. [13] KrstuloviE, Z. in Šetinc, L. (2005). Digitalna knjižnica Slovenije ‡ dLib.si. Informatika kot temelj povezovanja: zbornik posve­tovanja, str. 683‡689. [14] Logar Berginc, N., GrËar, M., Brakus, M., Erjavec, T., Arhar Holdt, Š., Krek, S. (2012) Korpusi slovenskega jezika Gigafi­da, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba. (Zbirka Sporazumevanje). Ljubljana: Trojina, zavod za upo­rabno slovenistiko: Fakulteta za družbene vede, 2012. [15] Pilz, T. Ernst-Gerlach, A. Kempken, S., Rayson P., Archer, D. [19] Scherrer, Y., Erjavec, T. (2013). Modernising historical Slo­ (2008). The Identification of Spelling Variants in English and vene words with character-based SMT. Proceedings of the German Historical Texts: Manual or Automatic? Literary and ACL Workshop on Balto-Slavic Natural Language Processing, Linguistic Computing, 23/1, str. 65‡72. BSNLP 2013. Sofija, Bulgarija. [16] Ogrin, M., Erjavec, T. (2009). Ekdotika in tehnologija: elektron­ [20] Šorn, M. in Hadalin, J. (2010). Spletni portal SIstory: prost ske znanstvenokritiËne izdaje slovenskega slovstva. Jezik in dostop do dosežkov slovenskega zgodovinopisja. Zbornik slovstvo, 54/6, str. 57‡72. prispevkov 4. skupnega posvetovanja Sekcije za specialne [17] Reffle, U. (2011). Efficiently generating correction sugge­ knjižnice in Sekcije za visokošolske knjižnice Zveze bibliote­ stions for garbled tokens of historical language, Journal of karskih društev Slovenije, Ljubljana, 27. in 28. oktober 2010, Natural Language Engineering, Special Issue on Finite State str. 103‡107. Methods and Models in Natural Language Processing. [21] TEI (2007). TEI P5: Guidelines for Electronic Text Encoding [18] Sánchez-Marco, C., Boleda, G., Maria Fontana, J., Domingo, and Interchange. URL http://www.tei-c.org/Guidelines/P5/. J. (2010). Annotation and Representation of a Diachronic Cor­ pus of Spanish. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC’10). ELRA, Pariz. • Tomaž Erjavecje višji raziskovalni sodelavec na Odseku za tehnologije znanja na Institutu Jožef Stefan. PodroËja njegovega raziskovanja so jezikovne tehnologije in digitalna humanistikas poudarkomna izdelaviin oznaËevanjuterpredstavitvi jezikovnihvirov slovenskega jezika.NapodroËjih jezikovnih tehnologijinkorpus­nega jezikoslovjaje pouËevalna univerzahvNovi GoriciinvGradcuterna mednarodni podiplomskišoli Jožefa Stefana.JeËlanuredniških odborovrevijJournal forLanguage Resourcesand Evaluation, Journalof Corpus Linguisticsin SlovenšËina 2.0: empiriËne, aplikativnein interdisciplinarne raziskave;bilje ustanovni predsednik slovenskega Društva za jezikovne tehnologije, Ëlan svetov European Chapter of the Association for Computational Linguistics inText Encoding Initiative Consortium ter sodeluje pri izdelavi standardov za zapis jezikovnih virov pri SIST in ISO TC 37.