Izpitni centri ECDL 

ECDL (European Computer Driving License), ki ga v Sloveniji imenujemo evropsko raËunalni.ko spriËevalo, je standardni program usposabljanja uporabnikov, ki da zaposlenim potrebno znanje za delo s standardnimi raËunalni.kimi programi na informatiziranem delovnem mestu, delodajalcem pa pomeni dokazilo o usposobljenosti. V Evropi je za uvajanje, usposabljanje in nadzor izvajanja ECDL poobla.Ëena ustanova ECDL Fundation, v Sloveniji pa je kot Ëlan CEPIS (Council of European Professional Informatics) to pravico pridobilo Slovensko dru.tvo INFORMATIKA. V draavah Evropske unije so pri uvajanju ECDL moËno angaairane srednje in visoke .ole, aktivni pa so tudi razliËni vladni resorji. Posebno pomembno je, da velja spriËevalo v 148 draavah, ki so vkljuËene v program ECDL. Doslej je bilo v svetu izdanih ae veË kot 11,6 milijona indeksov, v Sloveniji veË kot 17.000, in podeljenih veË kot 11.000 spriËeval. Za izpitne centre v Sloveniji je usposobljenih sedem organizacij, katerih logotipe objavljamo. 


LJUDSKA UNIVERZA
 MURSKA SOBOTA 





VSEBINA 

UPORABNA 
INFORMATIKA 

2013 ©TEVILKA 3 OKT/NOV/DEC  LETNIK XXI ISSN 1318-1882 



Uvodnik 

Znanstveni prispevki 

Tomaž Erjavec: 
Posodabljanje starejše slovenšËine	 186 

Peter Holozan: 
Uporaba strojnega uËenja za postavljanje vejic v slovenšËini	 196 

Gregor Donaj, Andrej Žgank, Mirjam Sepesy MauËec: 
Govorni in jezikovni viri slovenšËine za samodejno razpoznavanje tekoËega govora	 210 

Špela Vintar: 
Sodobne prevajalske tehnologije in prihodnost prevajalskega poklica	 221 


Strokovni prispevki 

Katarina Puc,TomažTurk: 
Na poti do Islovarja 3.0	 228 

Informacije 

Iz Islovarja	 233 
Koledar prireditev	 236 
INFORMATIKA 
2013 ©TEVILKA 4 OKT/NOV/DEC LETNIK XXI ISSN 1318-1882 
Ustanovitelj in izdajatelj 
Slovensko dru.tvo INFORMATIKA Litostrojska cesta 54, 1000 Ljubljana 

Predstavnik 
Niko Schlamberger 

Odgovorni urednik 
Jurij JakliË 

GostujoËa urednica 
Špela Vintar 

Uredni.ki odbor 
Marko Bajec,Vesna BosiljVuk.iE, Sjaak Brinkkemper,Gregor Hauc, Jurij JakliË, Andrej KovaËiË, Jan von Knop, Jan Mendling, Miodrag PopoviE, Katarina Puc, Vladislav RajkoviË, Ivan Rozman, Pedro Simoes Coelho, JohnTaylor, Mirko Vintar,TatjanaWelzerDruaovec 

Recenzenti 
Marko Bajec, Vladimir Batagelj, Jaroslav Berce, Igor Bernik, KsenËa Bokovec,Vesna BosiljVuk.iE, AlenkaBrezav.Ëek, Bo.tjan Brumen, Mitja Cerov.ek,Tomaa Erjavec, Miro Gradi.ar, Marko Hölbl, Mojca Indihar ©temberger, Jurij JakliË, Sa.a JavoriË, Matjaa 
B. JuriË, Aleksandar Juri.iE,Tomaa Kern, Bo.tjan Keamah, Andrej KovaËiË, MihaelKro.l, Franci Pivec,VesnaPrijatelj, Katarina Puc, Andreja Pucihar, Uro. RajkoviË, Vladislav RajkoviË, Heinrich Reinermann, Ivan Rozman, Rok Rupnik, Niko Schlamberger, Ana ©a.a Bastinos, LjupËoTodorovski, DenisTrËek, PeterTrkman, TomaaTurk, Mirko Vintar, SmiljanaVonËina Slavec,TatjanaWelzer Druaovec, Ale. AivkoviË 

TehniËna urednica 
MiraTurk ©kraba 

Lektoriranje 
MiraTurk ©kraba (slov.) Špela Vintar (angl.) 

Oblikovanje 
KOFEIN DIZAJN, d. o. o. 

Prelom in tisk 
Boex DTP, d. o. o., Ljubljana 

Naklada 
600 izvodov 

Naslov uredni.tva 
Slovensko dru.tvo INFORMATIKA Uredni.tvorevije Uporabna informatika Litostrojska cesta 54, 1000 Ljubljana www.uporabna-informatika.si 
Revija izhaja Ëetrtletno. Cena posamezne .tevilke je 20,00 EUR. Letna naroËnina za podjetja 85,00 EUR, za vsak nadaljni izvod 60,00 EUR, za posameznike 35,00 EUR, za .tudente in seniorje 15,00EUR.Vcenoje vkljuËenDDV. 
Izdajanjerevije Uporabna informatikav letu 2013 sofinancira Javna agencija za raziskovalno dejavnost Republike Slovenije. 
Revija Uporabna informatikajeod .tevilke 4/VII vkljuËena v mednarodno bazo INSPEC. 
Revija Uporabna informatikajepod zaporedno .tevilko666 vpisana v razvid medijev,kiga vodi Ministrstvo zakulturo RS. 
Revija Uporabna informatika je vkljuËena v Digitalno knjianico Slovenije (dLib.si). 
YSlovensko dru.tvo INFORMATIKA 




Vabilo avtorjem 
Vreviji Uporabna informatika objavljamo kakovostne izvirne Ëlanke domaËih in tujih av­torjevznaj.ir.egapodroËjainformatikevposlovanju podjetij,javniupraviin zasebnem aivljenju na znanstveni, strokovni in informativni ravni; .e posebno spodbujamo objavo interdisciplinarnih Ëlankov. Zato vabimo avtorje, da prispevke, ki ustrezajo omenjenim usmeritvam, po.ljejo uredni.tvu revije po elektronski po.ti na naslov ui@drustvo­-informatika.si. 
Avtorjeprosimo,dapri pripravi prispevka upo.tevajo navodila, objavljenav nadaljeva­
nju ter na naslovu http://www.uporabna-informatika.si. Za kakovost prispevkov skrbi mednarodni uredni.ki odbor. »lanki so anonimnorecen­zirani, o objavi pa na podlagi recenzij samostojno odloËa uredni.ki odbor. Recenzenti lahko zahtevajo, da avtorji besedilo spremenijo v skladu s priporoËili in da popravljeni Ëlanek ponovno prejmejo v pregled. Uredni.tvo pa lahko .e pred recenzijo zavrne objavo prispevka,Ëe njegova vsebinane ustreza vsebinski usmeritvirevijealiËeËlanek ne ustreza kriterijem za objavovreviji. Pred objavo Ëlanka mora avtor podpisati izjavoo avtorstvu,s kateropotrjuje original­nost Ëlanka in dovoljuje prenos materialnih avtorskih pravic. NenaroËenih prispevkov ne vraËamoinne honoriramo. Avtorjiprejmejo enoletno naroËninonarevijo Uporabna informatika, ki vkljuËuje avtorski izvod revije in .e nadaljnje tri zaporedne .tevilke. 
Ssvojim prispevkomvreviji Uporabna informatika boste prispevalik.irjenju znanja na podroËju informatike. AelimosiËimveË prispevkovz raznolikoin zanimivo tematikoin se jih ae vnaprej veselimo. 
Uredni.tvorevije 


Navodila avtorjem Ëlankov 
»lanke objavljamo pravilomav sloven.Ëini, Ëlanke tujih avtorjevpav angle.Ëini. Bese­dilonajbo jezikovno skrbno pripravljeno.PriporoËamo zmernostpri uporabitujkin‡ kjerje mogoËe‡njihovo zamenjavos slovenskimi izrazi.VpomoËpri iskanju sloven­skih ustreznic priporoËamo uporabo spletnega terminolo.kega slovarja Slovenskega dru.tva Informatika Islovar (www.islovar.org). Znanstveni Ëlanek naj obsega najveË 40.000 znakov, strokovni Ëlanki do 30.000 zna­kov, obvestila in poroËila pa do 8.000 znakov. 
»laneknajbo pravilomapredloaenvurejevalniku besedilWord (*.docali *.docx)v enojnem razmaku, brez posebnih znakov ali poudarjenih Ërk. Za loËilom na koncu stav­ka napravite samo en prazen prostor, pri odstavkih ne uporabljajte zamika. NaslovuËlankanajsledizavsakegaavtorjapolnoime, ustanova,vkaterijezaposlen, naslovin elektronski naslov. Sledinaj povzetekvsloven.Ëinivobsegu8do10 vrsticin seznamod5do8kljuËnih besed,ki najbolje opredeljujejo vsebinski okvir Ëlanka.Pred povzetkomvangle.Ëininajbo.e angle.kiprevod naslova, prav takopanaj bodo doda­ne kljuËne besedevangle.Ëini. Obratno veljavprimerupredloaitve Ëlankavangle.Ëini. Razdelkinaj bodo naslovljeniin o.tevilËeniz arabskimi .tevilkami. Slike in tabele vkljuËite v besedilo. Opremite jih z naslovom in o.tevilËite z arabskimi .tevilkami. Vsako sliko in tabelo razloaite tudi v besedilu Ëlanka. »e v Ëlanku upora­bljate slike ali tabele drugih avtorjev, navedite vir pod sliko oz. tabelo. Revijo tiskamo v Ërno-beli tehniki, zato barvne slike ali fotografije kot original niso primerne. Slik zaslonov ne objavljamo, razen Ëe so nujno potrebne za razumevanje besedila. Slike, grafikoni, organizacijske sheme ipd. naj imajo belo podlago. EnaËbe o.tevilËite v okle­pajih desno od enaËbe. 
Vbesediluse sklicujtena navedeno literaturo skladnos pravili sistemaAPAnavajanja bibliografskihreferenc, najpogosteje torejv obliki: (Novak&KovaË, 2008, str. 235). Na koncu Ëlanka navedite samo v Ëlanku uporabljeno literaturo in vire v enotnem seznamupo abecednemredu avtorjev, prav takov skladus praviliAPA.VeËoAPA sistemu, katerega uporabo omogoËa tudi urejevalnik besedil Word2007, najdete na strani http://owl.english.purdue.edu/owl/resource/560/01/. 
»lanku dodajte kratek aivljenjepis vsakega avtorjav obsegudo8 vrstic,v katerem poudarite predvsem strokovne doseake. 

UVODNIK 

Spo.tovane bralke in spo.tovani bralci, 
tokratna številka revije Uporabna informatika je posveËena podroËju jezikovnih tehnologij. Pomena jezika kot osnovnega sredstva sporazumevanja med ljudmi in temeljnega nosilca kulturne identitete verjetno ni treba posebej izpostavljati, saj se ti dve vlogi skozi zgodovino Ëloveštva nista bistveno spreminjali. V sodobnem svetu poteka velik del sporoËanja prek digitalnih medijev, ne komuniciramo le z ljudmi, ampak tudi z napravami, potreba po medkulturnem in medjezikovnem prenosu informacij pa je veËja kot kadar koli prej. Jezikovne tehnologije so tako tesno prepletene z razvojem informacij­skih tehnologij in pomembno vplivajo na številna podroËja Ëlovekovega delovanja od pisanja in branja besedil v mater­nem in tujih jezikih, iskanja podatkov na spletu, govornega upravljanja naprav in raËunalniškega prevajanja, pa vse do rudarjenja podatkov in odkrivanja novega znanja v besedilih. 
Tematska številka o jezikovnih tehnologijah se Ëasovno umešËa v prelomno leto za jezikovnotehnološki razvoj v sloven­skem prostoru, saj je bila julija letos sprejeta resolucija o nacionalnem programu za jezikovno politiko 2014‡2018, ki zagotavljanje tehnološko podprtih jezikovnih virov in orodij umešËa med najvišje prioritete, v tem okviru pa med drugim predvideva vrsto ukrepov za boljšo opremljenost slovenšËine s prosto dostopnimi digitalnimi korpusi, leksikoni, slovarji in orodji za raËunalniško obdelavo jezika v eno- in veËjeziËnem kontekstu, v razliËnih medijih (govorni, pisni, znakovni) in za razliËne potrebe uporabnikov. 
V tej številki objavljeni prispevki naslavljajo razliËne jezikovnotehnološke vidike, pri tem pa so pregledno zajeta podroËja jezikovnih virov, terminologije, temeljnih jezikovnih pripomoËkov ter govornih in prevajalskih tehnologij. Prispevek To­maža Erjavca se ukvarja z jezikovnotehnološko obdelavo starejših besedil, kar je pomemben vidik digitalizacije slovenske besedilne dedišËine in zagotavljanja iskanja po polnih besedilih naše zgodovine. Peter Holozan se v svojem prispevku posveËa samodejnemu pregledovanju in postavljanju vejic v slovenšËini, hkrati pa Ëlanek daje tudi vpogled v dva glavna pristopa k modeliranju jezika, s pravili in s statistiËnimi metodami. Gregor Donaj s sodelavci pregledno predstavlja vire in tehnologije za razpoznavanje govorjene slovenšËine, kar je ena od najbolj zahtevnih, obenem pa tudi zelo potrebnih jezikovnih aplikacij. Prispevek Špele Vintar pregledno predstavlja sodobne tehnologije za prevajanje, ki korenito spremi­njajo ne le vidik veËjeziËnosti v informacijski družbi, ampak tudi poklicni profil prevajalcev. Strokovni prispevek Tomaža Turka in Katarine Puc pa posega v podroËje terminografije, in sicer avtorja opisujeta razvojno pot najveËjega slovenskega slovarja informatike Islovar, ki bo v kratkem zaživel v novi podobi in s sodobnejšo spletno programsko rešitvijo. 
Jezikovna industrija je ena najhitreje rastoËih na svetu, informacijska podpora za slovenšËino pa kljuËni dejavnik za pre­poznavnost države in kulturno, znanstveno in gospodarsko uspešnost njenih prebivalcev. V beli knjigi Slovenski jezik v digitalni dobi,1 ki je izšla lani pod avtorstvom Simona Kreka v okviru evropskega projekta META-NET, so predstavljeni primerljivi podatki o jezikovni opremljenosti in jezikovnih tehnologijah za vseh (tedanjih) 23 uradnih evropskih jezikov in za še nekatere druge. SlovenšËina se uvršËa med slabše opremljene jezike, pri Ëemer je kakovost obstojeËih virov sicer zadovoljiva, kot najveËjo težavo pa študija izpostavlja manjkajoËe vire in orodja ter težave pri njihovem dolgoroËnem vzdrževanju in distribuciji. 
Ob izidu tematske Uporabne informatike si lahko zato le zaželimo, da bi bile jezikovne tehnologije za slovenšËino v prihodnosti vse bolj uporabne, dostopne in kakovostne, to pa bo uresniËljivo le ob ustrezni razvojni politiki države in usklajenih naporih raziskovalcev, razvijalcev in uporabnikov. 
Špela Vintar, gostujoËa urednica 

Bela knjiga je dostopna na http://www.meta-net.eu/whitepapers/volumes/slovene. 





Posodabljanje starejše slovenšËine 

Tomaž Erjavec, Institut Jožef Stefan, Odsek za tehnologije znanja, Jamova cesta 39, 1000 Ljubljana tomaz.erjavec@ijs.si 
IzvleËek 

V prispevku obravnavamo metodo za posodabljanje besed v starejših slovenskih besedilih, ki vkljuËuje posodabljanje besednih oblik s pomoËjo raËunalniških leksikonov in pravil za transkripcijo, oblikoskladenjsko oznaËevanje in lematizacijo. Posodabljanje je koristno predvsem pri iskanju po polnem besedilu digitalnih knjižnic našekulturne dedišËine,pa tudi kot naËin,da starejša besedila približamo sodobnemu bralcu.Program zapo­sodabljanje uporablja jezikovne vire starejše slovenšËine IMP, ki vkljuËujejo roËno oznaËeni korpus besedil in leksikon starejše slovenšËine, za oblikoskladenjsko oznaËevanje in lematizacijo pa modele, nauËene na virih sodobne slovenšËine, razvitih v okviru projekta Sporazumevanje v slo­venskemjeziku.Prispevekpredstavi uporabljenevire,programza jezikoslovno oznaËevanjeToTrTaLe, evalvacijo natanËnostiprogramain smernice za nadaljnje delo. KljuËne besede: starejša slovenšËina, jezikovne tehnologije, jezikovni viri za slovenski jezik. 

Abstract 

Modernizing Historical Slovene 

The paper presents a method for modernising words in historical Slovene texts, which includes modernising word-forms with the help of com­putational lexicons and transcription rules, morphosyntactic tagging, and lemmatisation. Modernisation is useful for full-text search in cultural heritagedigital librariesaswellasawaytomakeoldertextsmore accessibletotoday’sreaders.TheprogramformodernisationusestheIMP languageresourcesfor historical Slovene, which includeahand-annotated text corpusandalexiconof historical Slovene, while morphosyntactic tagging and lemmatizationrely on models trained onresources for contemporarySlovene, which were developedin the scopeof the “Commu­nicationin Slovene”project. The paper introduces the languageresources, theToTrTaLeprogram for linguistic annotation, an evaluationof the accuracyof theprogram and directions for futureresearch. Key words: historical Slovene, language technologies, languageresources for Slovene. 
1	 UVOD Vzadnjih letih smo priËa hitremu razmahu digitalnih knjižnic, pri Ëemer je veliko dostopnih besedil starejšega datuma, saj ni ovir za njihovo razširjanje, ker so jim potekle avtorske pravice, ob tem pa so taka besedila zanimiva za seznanjanje in preuËevanje kulturne dedišËine posameznih narodov. Za slovenski jezik sta najveËji digitalni knjižnici dLib.si (KrstuloviE in Šetinc, 2005) in projekt Googlovih knjig. Ta dela so tipiËno dostopna predvsem kot faksimili,vnajboljšem primeruspredogledom avtomatsko razpoznanega besedila,v katerempaje zaradi poškodb papirja, starega tiskain upora­be bohoriËice veliko napak. Besedila tudi niso strukturno oznaËena, kar onemogoËa npr. generiranje kazala in stavlje­nje besedila. Obstaja tudi veË manjših, a zato bolj natanËno obdelanih digitalnih knjižnic slovenske pisne kulturne dediš­Ëine,1 na prvem mestu projekt .Slovenska leposlovna klasi­
*	 Delo, objavljeno v tem Ëlanku, sta podprla projekt EU IP IMPACT Improving Access to Text in nagrada Google Developing Language Models of Historical Slovene ter raziskovalni program P2-0103Tehnologije znanja. 
1	 
Podroben, Ëeprav že rahlo zastarel pregled je podan v Hladnik (2009). 
ka« na Wikiviru, kot tudi portal Sistory (Šorn in Hadalin, 2010), knjižnica eZISS (Ogrin in Erjavec, 2009) in veliko pro­jektov posameznih knjižnic. 
Za iskanje po polnem besedilu digitalnih knjižnic je, vsaj za jezike z bogato morfologijo, kot je sloven­šËina, zelo koristno besedila predhodno lematizirati, torej vsaki besedi pripisati njeno osnovno obliko, npr. .ljubezen« za besedne oblike .ljubezni«, .ljubeznijo« itd. Šele tako bo namreË poizvedba za .ljubezen« vrnila tudi besedila s katero koli pregibno obliko te besede. Za sodobno standardno slovenšËino je bilo razvitih že veË lematizatorjev, tudi prosto dostopnih (Erjavec in Džeroski, 2004; JuršiË idr., 2010; Logar Berginc idr., 2012), pri Ëemer bolj kakovostni najprej opravijo oblikoskladenjsko oznaËevanje, pri Ëemer vsaki besedni pojavnici pripišejo njene oblikoskla­denjske lastnosti, npr. .obËi samostalnik moškega spola v orodniku ednine«, saj je v splošnem šele s to informacijo mogoËe neko besedno obliko tudi pravil­no lematizirati. Tako je npr. za besedno obliko hotela treba vedeti, ali je glagol ali samostalnik, da ji lahko pripišemo bodisi lemo hoteti bodisi lemo hotel. Za pravilno lematizacijo neznanih besed pa je obliko­skladenjska oznaka še posebno potrebna. 

Sodobni lematizatorji in oblikoskladenjski ozna­Ëevalniki se modela jezika nauËijo samodejno na podlagi vnaprej pripravljenih jezikovnih virov. Za razliko od roËno napisanih pravil imajo induktivno nauËeni modeli prednost, da so bolj robustni in lahko (razmeroma) uspešno obdelajo tudi neznane besede, zato pa potrebujejo za uËne množice roËno izdela­ne jezikovne vire, tj. leksikone za lematizatorje in oznaËene korpuse za oblikoskladenjske oznaËeval­nike. Izdelava dovolj natanËnih, obsežnih in razno­vrstnih jezikovnih virov za posamezen jezik je drag in dolgotrajen postopek, vendar je za slovenšËino v zadnjem Ëasu postalo dostopnih veËje število takšnih virov, predvsem v okviru projektov Jezikoslovno oznaËevanje slovenskega jezika (JOS) in Sporazu­mevanje v slovenskem jeziku (SSJ), tako da izdela­va induktivnih orodij ni veË nepremostljiva težava; kot omenjeno, sedaj obstajajo tudi že vnaprej nauËe­ni prostodostopni lematizatorji in oblikoskladenjski oznaËevalniki za sodobno standardno slovenšËino. 
Stanje pa je drugaËno za raËunalniško obravnavo starejše slovenšËine, saj se ta razlikuje od sodobne­ga jezika, zaradi Ëesar z obstojeËimi programi zanjo dobimo zelo slabe rezultate. Besede so se vËasih pi­sale drugaËe, njihov zapis se je skozi zgodovino tudi spreminjal, ob tem pa pisni jezik ni bil standardiziran, tako da lahko za isto besedo tudi v istem Ëasovnem obdobju najdemo veË zapisov. »e k temu prištejemo še bohoriËico, ki so jo uporabljali do srede devetnaj­stega stoletja, ima lahko posamezna lema zelo veliko število oblik, ki so težko predvidljive vnaprej. Tako za lemo ljubezen v korpusu starejših besedil poleg so­dobnih oblik ljubezen, ljubezni in ljubeznijo najdemo še ljubesni, ljubesin, lube.n, lubesen, lubesni, ljubesen, lube.ne, lube.ni, ljubesnijo, ljubezin, lubesnio, lubesne, lubesn, lubiesn in lubiesen. Dodaten problem so bese­de, ki jih ne uporabljamo veË, kot npr. .bukvovez«, ki je danes knjigovez, saj od uporabnika, ki bi rad iskal po besedilih digitalne knjižnice, težko priËakujemo, da se bo zavedal vseh zastarelih ustreznic sodobnim besedam. 
V prispevku predstavimo program, ki starejše slovenske besede posodobi, jih oblikoskladenjsko oznaËi in lematizira. V drugem razdelku najprej predstavimo jezikovne vire, ki so omogoËili izdela­vo programa, v tretjem razdelku opišemo delovanje programa, v Ëetrtem ocenimo njegovo toËnost in v petem razdelku podamo sklepe in smernice za na­daljnje delo. 

2	 UPORaBLjENI	jEZIKOVNI	VIRI 
Za oznaËevanje starejših besed uporabljamo veË je­zikovnih virov, bodisi neposredno ali pa za uËenje modelov za posamezne ravni jezikoslovne analize. V tem razdelku opišemo te vire, ki so uporabni tudi zu­naj konteksta posodabljanja starejših besedil. Vsi so zapisani po mednarodnih standardih in priporoËilih in prosto dostopni pod eno od licenc Creative Com­mons, tako da so Ëim bolj odprti (Erjavec, 2009) in lahko v najveËji meri spodbujajo napredek jezikov­nih tehnologij za slovenski jezik. 
VeËina predstavljenih virov je zapisana skladno s smernicami za zapis besedil TEI, Text Encoding Ini­tiative Guidelines (TEI, 2007). Smernice temeljijo na XML, opredeljujejo formalni zapis besedil za znanstve­ne namene in se uporabljajo za veËino kompleksnejših izdaj v digitalnih knjižnicah, za jezikoslovno oznaËene korpuse, za raËunalniške slovarje itd. Smernice TEI in s tem spodaj našteti viri so usklajeni z ustreznimi stan­dardi W3C, ISO in IANA, npr. pri kodah za oznaËeva­nje Ëasov in jezikov. Kot primer izpostavimo oznako za bohoriËico, ki do sedaj ni imela svoje standardizirane kode. V postopku izdelave virov starejše slovenšËine smo na IANA (Internet Assigned Numbers Authority) prijavili kodo za podjezik .sl­bohoric«, ki je namenjena za oznaËevanje slovenskih besedil, zapisanih v boho­riËici, in ‡ Ëeprav naši viri ne vsebujejo teh pisav2 ‡ še za .sl­metelko« in .sl­dajnko«. 
2.1	 Zbirka starejših slovenskih besedil IMP 
Podlaga za izdelavo vseh drugih jezikovnih virov starejše slovenšËine (Erjavec, 2012a) je zbirka besedil, imenovana IMP, ki je zasnovana kot digitalna knjiž­nica. Zbirka vsebuje tiskana besedila, veËinoma ce­lotne knjige, ki so predstavljene tako s faksimili kot z roËno pregledanimi in oznaËenimi prepisi besedil. IMP trenutno vsebuje 658 del oz. okoli 46.000 strani ali 14 milijonov besed. S par izjemami obsegajo dela obdobje od konca 18. stoletja do leta 1918, veËina pa jih je iz druge polovice 19. stoletja. 
2	 Zbirka IMP sicer vsebuje knjigo »elarstvo (»ebelarstvo) Petra Dajnka 
(1831), ki je zapisana v dajnËici, vendar v prepisu uporabljamo gajico, 
saj za dajnËico ne obstajajo znaki unikod niti ustrezni fonti za prikaz. 

Stopnja oznaËevanja TEI se razlikuje glede na digi­talni vir posameznega dela, v vseh primerih pa vsebu­je metapodatke (kolofon TEI), prelome strani s kazalci na faksimile, naslove razdelkov in odstavke, tipiËno pa tudi oznake za posebne dele besedila, kot so ver­zi, opombe, tiskarska znamenja, uredniški popravki, tuje besede itd. Na spletu je zbirka dostopna v obliki digitalne knjižnice z veË kazali, pri Ëemer je vsaka eno­ta svoja datoteka HTML, samodejno prevedena s stili TEI XSLT iz izvornega zapisa zbirke v XML/TEI. 
Na sliki 1 ilustriramo iztržek ene od knjig iz zbir­ke IMP v zapisu TEI, pri Ëemer element <pb> po­meni prelom strani, nato se zaËne razdelek besedila (<div>), ki vsebuje naslov (<head>) in zaËetek prve kitice (<lg>); ta je nato sestavljena iz vrstic (<l>), ki lahko vsebujejo tudi opombe (<note>). Elementi imajo tudi atribute, ki vsebujejo npr. identifikator (@ xml:id), preko katerega je mogoËe kazati na doloËen element, opis prikaza elementa (@rend), kazalko na faksimile (pb/@facs) ali dejstvo, da je opomba avtor­jeva (note[@type=«authorial«]) in ne uredniška. 
<pb facs=”#WIKI00009­019” n=”19” xml:id=”pb.019”/> <div xml:id=”wv­1._Dershi_ali_vmirajozha_. C5.BFkopo.C5.BFt.”> 
<head rend=”centered italic”>1. Dershi 
ali vmirajozha .kopo.t.</head> 
<lg> 

<l>Dershi<note xml:id=”ref1” type=”authorial”>Dershi, Pa.ko: pe.je iména, <hi rend=”gothic”>Hundsnahmen mie 
z. B. Phylar.</hi> 
</note>, ker je v’ neki nozhi</l> 
<l>Ne sati.nil .vojih ózhi,</l> 
<l>Da je sve.ti varih bil;</l> 
… 

Slika 1: Zapis TEI iztržka besedila iz zbirke besedil IMP 


2.2	 RoËno oznaËeni korpus starejših slovenskih besedil goo300k 
Iz zbirke IMP smo vzorËili 1.100 strani iz 90 enot in vsako besedno pojavnico (nekaj manj kot 300.000) roËno oznaËili z veË jezikoslovnimi lastnostmi, s Ëi­mer smo dobili referenËni korpus starejše sloven­šËine po imenu goo300k (Erjavec, 2012b). OznaËene jezikoslovne lastnosti so: 
1. 	
sodobna ustreznica, torej besedna oblika, kot se piše danes, napisana z malimi Ërkami, pri Ëemer za zastarele (izumrle) besedne oblike upoštevamo pravila sodobnega pravopisa; 

2. 	
lema oz. osnovna oblika sodobne ustreznice; 

3. 	
najbližje sodobne ustreznice oz. kratka razlaga pomena (samo za zastarele besede); 

4. 	
leksikalni del oblikoskladenjske oznake JOS (raz­loženo v nadaljevanju). Zapis korpusa ponazarja slika 2 z besedilom, ki 


se glasi: .Pri vkvartirjanju ni drugaËi.« Ta stavek (<s>) ima oznaËene besede (<w>), loËila (<pc>) in presled­ke (<c>), besede pa nosijo informacijo o lemi (w/@ lemma) in oblikoskladenjski oznaki (w/@ana). V primerih, ko se posodobljena beseda (ki je vedno napisana z malimi Ërkami) razlikuje od besedne oblike iz korpusa, se lahko odloËimo (<choice>), ali želimo upoštevati izvorno (<orig>) ali posodobljeno obliko (<reg>). Pri zastarelih besedah je dodan opis (<desc>), sestavljen iz sodobne ustreznice oz. razlage (<gloss>) in vira te razlage (<bibl>); v podanem pri­meru je bil to kar (širši) kontekst, v katerem se je poja­vila beseda .vkvartirjanju«. Zapis je bolj kompleksen, kot se zdi potrebno, vendar mora zajeti tudi primere, ko je ena zgodovinska beseda pisana kot veË sodob­nih ali obratno, npr. .po noËi« proti .ponoËi«. 
<s> <choice> <orig><w>Pri</w></orig> <reg><w lemma=«pri« na=«#S«>pri</ w></reg> 
</choice> 
<c> </c>
 <choice> <orig><w>vkvartirjanju</w></orig> <reg><w lemma=«ukvartiranje« ana=«#Ncn«>ukvartiranju</w>
<desc><gloss>prenoËevanje</ gloss><bibl>kontekst</bibl></desc> </reg> </choice> 
<c>
 </c> 
<w lemma=«biti« ana=«#Va«>ni</w> 


<c>
 </c> 



<choice> <orig><w>drugaËi</w></orig><reg><w lemma=«drugaËe« ana=«#Rgp«>drugaËe</w></reg>
 </choice> <pc>.</pc> </s> 
Slika 2: Primer iz roËno oznaËenega korpusa goo300k 

»eprav je natanËna definicija vsake od oznak kompleksna, saj v jeziku vedno sreËujemo mejne pri­mere, je osnovni pomen vsake od njih vseeno intui­tivno jasen. Izjema so oblikoskladenjske oznake, zato jih podrobneje opišemo v nadaljevanju. 
Oblikoskladenjske oznake JOS so kratki nizi (npr. .Ggdn«), ki jih lahko pripišemo posamezni besedni pojavnici v korpusu (ali besedni obliki v leksikonu) in kodirajo oblikoskladenjske lastnosti (npr. .glagol, vrsta=glavni, vid=dovršni, oblika=nedoloËnik«). Nabor teh oznak (preko 1.900) za slovenski jezik in njihova preslikava v lastnosti so definirane v obli­koskladenjskih specifikacijah JOS (Erjavec in Krek, 2008). Na spletu so dostopne celotne specifikacije tako v izvornem zapisu TEI kot v izvedenem HTML, na voljo pa so tudi tabele, ki oznake preslikajo v lastno­sti oz. iz slovenskega v angleški jezik (npr. .Ggdn« . .Vmen« . .Verb, Type=main, Aspect=perfective, VForm=infinitive«). Oznake JOS uporabljajo razno­vrstni viri sodobne slovenšËine, med drugim v na­daljevanju opisana raËunalniški leksikon Sloleks in uËni korpus ssj500k. 
Pri izdelavi jezikovnih virov starejše slovenšËi­ne je bil poudarek na roËnem oznaËevanju sodobne oblike in leme, ne pa oblikoskladenjskih lastnosti, kar je zelo zamudno delo. Vseeno smo želeli imeti roËno preverjene vsaj leksikalne lastnosti posame­znih lem, zato smo kompleksen nabor vseh oznak JOS reducirali s skoraj dva tisoË na 32. V naboru JOS je tako npr. za besedno pojavnico .ni« zapisano, da je .glagol vrsta=pomožni oblika=sedanjik oseba=tretja število=ednina nikalnost=zanikani«, v goo300k pa samo .glagol vrsta=pomožni« oz. .Va«, ker uporab­ljamo angleške oznake. Specifikacije oblikoslovnih lastnosti in oznak IMP so, tako kot JOS, tudi formal­no zapisane in dostopne na spletu. 

2.3	 Leksikon starejše slovenšËine IMP 
Leksikon vsebuje zajete podatke iz korpusa, sestav­ljen pa je iz gesel, pri Ëemer posamezno geslo vsebuje lemo, njene oblikoskladenjske lastnosti in (za zasta­rele besede) sodobne ustreznice, nato seznam sodob­nih besednih oblik, za vsako od teh njene zgodovin­ske ustreznice in nekaj primerov (konkordanc) iz besedil. Leksikon je pretvorjen iz korpusa goo300k, poleg tega pa dopolnjen z roËno obdelanimi pogo­stejšimi besedami iz veËje podmnožice zbirke IMP. Ker leksikon izvira iz oznaËenih korpusnih prime­rov, so v njem zajete samo dejansko izpriËane oblike oz. njihove oznake, zato leksikon tipiËno ne vsebu­je celotnih pregibnih paradigem (tj. vseh besednih oblik) posameznih lem. 
Leksikon vsebuje veË kot 80.000 zgodovinskih oblik, 58.000 sodobnih besednih oblik in 28.000 lem. Štete so tudi .besede«, kot so cifre, zatipkane in tuje besede, pa tudi besede, ki so enake tistim v sodobni slovenšËini. »e štejemo samo vnose, ki imajo vsaj eno besedno obliko razliËno od sodobne, dobimo okoli 
36.000 zgodovinskih oblik, 25.000 sodobnih oblik in 
12.000 lem, med katerimi je 4.000 lem zastarelih, zato imajo tudi dodano razlago. Leksikon je dostopen na spletu v formatu HTML, ki je s posebej zato napisa­nim slogom XSLT pretvorjen iz izvornega TEI/XML. 

2.4	 Oblikoslovni leksikon sodobne slovenšËine Sloleks 
Za posodabljanje in lematizacijo potrebujemo tudi leksikon sodobne slovenšËine, pri Ëemer uporablja­mo oblikoskladenjski leksikon sodobne slovenšËine Sloleks (Arhar, 2009), ki vsebuje okoli 100.000 lem, vse njihove pregibne oblike z oblikoskladenjskimi lastnostmi in s številom pojavitev v korpusu Gigafi­da, vsega skupaj skoraj 2,800.000 oblik. Leksikon za razliko od drugih naštetih virov ni zapisan v shemi TEI, temveË po XML, ki sledi LMF (Lexicon Markup Framework), standardu ISO 24613:2008 za predsta­vitev raËunalniških leksikonov. Ker je struktura LMF razmeroma zahtevna za uporabo, vsebuje pa tudi podatke, ki jih mnoge aplikacije ne potrebujejo, smo leksikon pretvorili še v preprost tabelariËni format, v katerem je vsak vnos (vrstica) sestavljen iz besedne oblike, leme, oblikoskladenjske oznake in frekvence tega trojËka na milijon besed. Kot primer podamo v sliki 3 paradigmo samostalnika .skopost«, pri Ëemer frekvenca niË pomeni, da tega trojËka program ni identificiral v korpusu. 
skopostih  skopost  Ncfdl  0.000000  
skopostih  skopost  Ncfpl  0.000000  
skopostim  skopost  Ncfpd  0.000000  
skoposti  skopost  Ncfdn  0.000000  
skoposti  skopost  Ncfdg  0.000000  
skoposti  skopost  Ncfda  0.000000  
skoposti  skopost  Ncfsd  0.000010  
skoposti  skopost  Ncfsl  0.000088  
skoposti  skopost  Ncfsg  0.000131  
skoposti  skopost  Ncfpn  0.000001  
skoposti  skopost  Ncfpg  0.000003  
skoposti  skopost  Ncfpa  0.000004  
skopostjo  skopost  Ncfsi  0.000037  
skopostma  skopost  Ncfdd  0.000000  
skopostma  skopost  Ncfdi  0.000000  
skopostmi  skopost  Ncfpi  0.000000  
skopost  skopost  Ncfsn  0.000179  
skopost  skopost  Ncfsa  0.000092  

Slika 3: Paradigme ene besede iz leksikona Sloleksv tabelariËnem formatu 


2.5	 UËni korpus sodobne slovenšËine ssj500k 
Za oblikoskladenjsko oznaËevanje potrebujemo uËni korpus, za kar uporabimo korpus sodobne sloven­šËine ssj500k (Arhar, 2009). Korpus vsebuje 500.000 besednih pojavnic; vsaka je roËno oznaËena z obliko­skladenjsko lastnostjo in lemo. Korpus je tudi delno oznaËen s skladenjskimi analizami in imenskimi enti­tetami, vendar tu ne uporabljamo teh informacij. Za­pis je podoben kot za korpus starejše slovenšËine, ven­dar preprostejši, saj ne vsebuje posodabljanja besed. 


3	 PROGRaM	 ToTrTaLe 
Program za jezikoslovno oznaËevanje starejših bese­dil ToTrTaLe, katerega prva razliËica je predstavljena v Erjavec (2011), implementira cevovod, ki iz vhod­nega dokumenta TEI izlušËi besedilo, nato pa nad njim enega za drugim pokliËe posamezne module za oznaËevanje. Za osnovo mu služi program ToTaLe (Erjavec idr., 2005), ki razdeli besedilo na pojavnice (tokenizacija), te oblikoskladenjsko oznaËi (tagiranje) in jim pripiše osnovno obliko (lematizacija). Pro­gram, ki ga predstavljamo, doda prepis starinskih oblik v sodobne (transkripcija) takoj za tokenizacijo in se zato imenuje ToTrTaLe. Program na izhod izpiše dokument TEI, v katerem so vhodnim oznakam TEI dodane jezikoslovne oznake, kot so bile prikazane na primeru roËno oznaËenega korpusa goo300k na sliki 2; izhod iz programa na delËku besedila iz slike 1 je prikazan na sliki 3. 
<div xml:id=”wv­1._Dershi_ali_vmirajozha_. 
C5.BFkopo.C5.BFt.”> <head rend=”centered italic”> 
<s> <w lemma=”1.” ana=”Mdo”>1.</w> 
<c> </c> 
<choice> <orig><w>Dershi</w></orig> <reg><w lemma=”držati” ana=”Vmpr3s”>drži</w></reg> 
</choice> 

<c>
 </c> 
<w lemma=”ali” ana=”Cc”>ali</w> 


<c>
 </c> 



<choice> <orig><w>vmirajozha</w></orig> <reg type=”pattern” n=”[u‹v+Ë‹zh]”> 
<w lemma=”umirajoË” ana=”Agpfsn”>umirajoËa</w> </reg> </choice> 
<c> </c> 
<choice> <orig><w>.kopo.t</w></orig> <reg type=”pattern” n=”[s‹.+s‹.]”> 
<w lemma=«skopost« ana=«Ncfsn«>skopost</w> 
</reg> 
</choice> 
<pc>.</pc> 
</s> 
Slika 4: Primer besedila, oznaËenegasToTrTaLe 
Program je v glavnem jezikovno neodvisen, saj uporablja zunanja pravila in modele, ki jih je mogoËe napisati oz. se jih induktivno nauËiti za veËino evrop­skih jezikov, Ëeprav je mišljen predvsem za jezike z bogato morfologijo, kot je slovenšËina. Program je napisan v programskem jeziku Perl, vendar je glavni program v resnici samo ovojnica, ki kliËe druge pro­grame in nato kombinira njihove rezultate. V nada­ljevanju razdelka predstavimo posamezne module ToTrTaLe, pri Ëemer se najbolj posvetimo specifikam obdelave starejše slovenšËine. 

3.1	 Tokenizacija 
Za razdelitev besedila na stavke, besede, loËila in pre­sledke uporabljamo veËjeziËni tokenizator mlToken, ki je del paketa To(Tr)TaLe. Program jezikovno od­visne podatke hrani v loËenih datotekah, predvsem seznam okrajšav (besede, ki se konËajo s piko in ne konËajo nujno stavka), seznam veËbesednih enot (po­javnice, ki so sestavljene iz veË s presledki loËenih be­sed) in seznam levih ali desnih naslonk (besed, ki jih je treba obravnavati kot del neke pojavnice). V kon­tekstu posodabljanja starejše slovenšËine sta posebno zanimiva seznama veËbesednih enot in naslonk, saj se precej besed, ki so se vËasih pisale skupaj, sedaj piše narazen oz. obratno, npr. .nemore« proti .ne more« oz. .še le« proti .šele«. Te besede so dodane v ustrezen seznam, tako da že mlToken poskrbi za njihovo tokenizacijo v skladu s sodobno normo. Po­trebni seznami za tokenizacijo starejše slovenšËine za ToTrTaLe niso napisani posebej za to orodje, paË pa so zajeti neposredno iz leksikona IMP. 
Trenutni pristop k reševanju teh posebnih pojav­nic ima dve slabosti. 
• 	
Tokenizator pozna samo tiste posebne pojavnice, ki so v leksikonu, in torej ne obravnava pravilno novih, neznanih okrajšav, veËbesednih enot oz. naslonk. Problem je posebno opazen pri presež­niku pridevnikov, ki so se vËasih pisali narazen (npr. .nar veËji«), saj bomo s leksikonom težko zajeli vse oblike vseh stopnjevanih pridevnikov. 

• 	
Kot pri vseh drugih jezikoslovnih analizah se tudi pri posebnih pojavnicah sreËamo s problemom dvoumnosti, pri Ëemer je klasifikacija neke pojav­nice ali kombinacije pojavnic odvisna od sobesedi­la, npr. .Vesoljni potop je po tem vso deželo poto­pil«, kjer mora biti sodobna oblika .potem«, in .To se vidi tudi po tem, da vse tuje bolj ceni«, kjer pa mora biti .po tem«. Da vsaj deloma rešimo ta pro­blem, v leksikon vedno vkljuËimo oba primera, to­rej ne samo, ko se starinski .po tem« piše sodobno .potem«, temveË tudi ko so piše .po tem«. V toke­nizator nato dodamo posebne primere samo tam, kjer je njihova frekvenca višja od navadnih, torej nezdruženih oz. nerazdeljenih pojavnic. 



3.3	 Transkripcija 
Transkripcija zgodovinskih besednih oblik v sodob­ne je kljuËni modul za procesiranje starejšega jezika. Pri posodabljanju besednih oblik so le­te najprej nor­malizirane, tj. zapisane z malimi Ërkami, odstranje­na pa so tudi naglasna znamenja nad samoglasniki; naglase so namreË pogosto, a neenotno uporabljali predvsem v 19. stoletju, v sodobni normi pa jih sko­raj ni zaslediti. 
V procesu iskanja sodobne ustreznice program najprej išËe normalizirano zgodovinsko besedno obliko v leksikonu IMP; Ëe jo najde, je s tem našel tudi sodobno ustreznico, Ëe ne, pa besedno obliko išËe v Sloleksu. »e nobeden od leksikonov ne vsebu­je iskane oblike, program njen sodobni zapis skuša najti s pomoËjo t. i. transkripcijskih vzorcev. 
Veliko sprememb v pisavi lahko namreË izrazimo v obliki pravil, ki podajo vzorec, v katerem se sodob­na beseda razlikuje od zgodovinske, npr. .r ›er« za pare kot je .brž › berž«, .srce › serce«, pri Ëemer je na levi sodobni in na desni zgodovinski zapis. Pri uporabljenem pristopu v leksikonu sodobnih oblik Sloleks skušamo najti tiste, ki jih je mogoËe izpeljati iz zgodovinske oblike z uporabo enega ali veË takih pravil. Ta pristop je tipiËen za posodabljanje starejših besedil (Pilz idr., 2008; Gotscharek idr., 2009; Bennett idr., 2010; Sánchez­Marco idr., 2010), se pa pristopi razlikujejo v tehnologiji, ki jo uporabljajo za prever­janje ujemanja zgodovinske oblike s sodobnimi obli­kami s pomoËjo takšnih vzorcev. 
V paketu ToTrTaLe ujemanje prek transkripcij­skih vzorcev implementira knjižnica Vaam, Variant aware approximate matching (Gotscharek idr., 2009; Reffle, 2011), ki jih modelira kot (razširjene) konËne avtomate, zaradi Ëesar je prostorsko, predvsem pa Ëasovno nezahtevna. Seznam sodobnih kandidatov, ki ga vrne za posamezno zgodovinsko besedo, je ure­jen glede na število vzorcev, ki jih je bilo treba upo­rabiti. Proces doloËanja sodobnih ustreznic je torej nedeterministiËen, je pa v danem kontekstu seveda pravilna samo ena posodobitev. Trenutno modul za transkripcijo izbere tistega kandidata, ki ima v leksi­konu Sloleks najvišjo frekvenco, vendar so mogoËi tudi kompleksnejši modeli, ki bi odložili izbiro naj­boljšega kandidata, dokler nista opravljena še obli­koskladenjsko oznaËevanje in lematizacija vseh (va­riant) pojavnic, saj bi s tem imeli veË informacij za pravilno odloËitev. 
Za posodabljanje trenutno uporabljamo okoli sto vzorcev, ki smo jih doloËili s pomoËjo roËno oznaËe­nega korpusa goo300k; razdeljeni so na vzorce za starejša besedila v gajici (torej sodobni abecedi) in na vzorce za bohoriËico. Razlog za dve množici ni samo razlika v pisavah, temveË so v besedilih izpred leta 1850 vzorci pogosto drugaËni. 

3.4	 Oblikoskladenjsko oznaËevanje 
V naslednji stopnji oznaËevanja program pripiše vsa­ki besedni pojavnici njeno (od konteksta odvisno) oblikoskladenjsko oznako JOS. Sodobni oblikoskla­denjski oznaËevalniki se modela jezika nauËijo iz roËno oznaËenega korpusa, vendar pa je razvoj do­volj velikega korpusa dolgotrajen in drag proces, ki bi ga težko ponovili za zgodovinski jezik. Ker so bile besedne oblike v predhodnem koraku posodobljene, lahko oznaËevalniku kot vhod ponudimo posodo­bljeno besedilo in nato uporabimo model, nauËen na sodobnem jeziku. Seveda model še vedno deluje slabše kot nad sodobnim jezikom, saj so zgodovinska besedila drugaËna ne samo v pisavi posameznih be­sed, temveË tudi na skladenjski ravni, pa tudi neka­tere besedne oblike, kot npr. deležja na ­vši, so bila v preteklosti bistveno bolj pogosta, kot so danes. 
Za oblikoskladenjsko oznaËevanje uporabljamo program TnT, Tri­grams and tags (Brants, 2000), ki je robusten in hiter trigramski oznaËevalnik, oznaËe­vati pa zna tudi neznane besede, Ëeprav je tu na­tanËnost manjša kot za znane. Model oznaËevanja je bil nauËen na uËnem korpusu sodobne slovenšËine ssj500k, pri Ëemer je kot zaledni leksikon uporabljen Sloleks. 

3.5	 Lematizacija 
Zadnja stopnja jezikoslovne obdelave je pripis osnovne oblike vsaki besedni pojavnici. Kot pri obli­koslovnem oznaËevanju se tudi pri tem veËina so­dobnih lematizatorjev nauËi modela jezika iz vnaprej pripravljenih jezikovnih virov, v tem primeru iz le­ksikona sodobnih besednih oblik, v našem primeru Sloleksa. Seveda bi lahko leme besednih oblik, vse­bovanih v leksikonu Sloleks, preprosto prepisali iz leksikona, vendar imajo lematizatorji to prednost, da znajo lematizirati tudi neznane besede. »e je bese­da pravilno posodobljena in ji je pripisana pravilna oblikoskladenjska oznaka, deluje lematizator s precej visoko stopnjo natanËnosti. 
Kot lematizator uporabljamo CLOG (Erjavec in Džeroski, 2004), ki se na podlagi vhodnih primerov (parov besedna oblika ‡ lema, pri Ëemer je model za vsako oblikoskladenjsko oznako obravnavan pose­bej) nauËi odloËitvene sezname prvega reda, pri Ëe­mer je definirana operacija povezovanje nizov. Na­uËene strukture so predikati v programskem jeziku Prolog, vendar jih za lažjo povezljivost s ToTrTaLe prevedemo v Perl. 
Zanimiva lastnost lematizatorja CLOG je, da mu ne uspe lematizirati poljubnega para oblika ‡ obli­koskladenjska oznaka. Pri starejših besedilih so taki primeri skoraj vedno zastarele besede, ki niso bile pravilno posodobljene, tako da so nelematizirane besede dobri kandidati za dodajanje v leksikon IMP. 

3.6	 Izhod TEI 
Zadnja stopnja obdelave je zapis oznaËenega bese­dila v dokument TEI, kar dosežemo s kombinacijo obdelave v jeziku Perl s skriptami XSLT, Ëemur sle­di še validacija dobljenega dokumenta XML glede na shemo TEI, pri Ëemer je ta izražena v Relax NG (ISO/IEC 19757­2). »e pride pri validaciji do napak, je to indikator, da vhodni dokument krši (mogoËe implicitne) predpostavke oznaËevanja; v tem prime­ru je treba bodisi popraviti oznake v vhodnem do­kumentu ali pa ‡ Ëe je bilo uporabljeno oznaËevanje smiselno ‡ dopolniti program ToTrTaLe, da bo zajel tudi takšne primere. OznaËevanje v dokumentih TEI je namreË lahko zelo kompleksno, zato je v splošnem težko zagotoviti, da vstavljanje novih (jezikoslovnih) oznak v tak dokument ne privede do nepravilnih struktur. Vendar je ToTrTaLe razmeroma robusten, saj oznaËi vseh 658 del iz zbirke IMP tako, da je iz­hod pravilen TEI. 



4	 EVaLVacIja	OZNa»EVaNja 
V tem razdelku poskusimo odgovoriti na vprašanje, kako dobro ToTrTaLe posodablja, lematizira in obli­koskladenjsko oznaËuje neznane besedne oblike gle­de na Ëasovno obdobje, v katerem je nastalo besedilo. 
Kot je bilo omenjeno v razdelku 2.3, je leksikon zgodovinskih besednih oblik IMP sestavljen iz: 
1. 	
vseh besednih oblik iz korpusa goo300k, 

2. 	
besednih oblik z roËno preverjenimi oznakami iz vzorca celotne zbirke besedil IMP; ta vzorec tu poimenujemo korpus IMPtest. Za eksperiment smo programu ToTrTaLe dali na 


voljo samo prvi leksikon, drugi leksikon pa smo upo­rabili kot testno množico. Povedano bolj natanËno, korpus IMPtest smo najprej razdelili v tri podkorpu­se, vsakega za eno Ëasovno obdobje, in sicer za dru­go polovico 18. stoletja (18B), prvo polovico 19. sto­letja (19A) in drugo polovico 19. stoletja (19B). Nato smo vsakega od podkorpusov oznaËili s ToTrTaLe in iz njih izloËili leksikon roËno pregledanih besednih oblik, skupaj z njihovimi roËnimi ter avtomatskimi oznakami za posodobljeno obliko, lemo in obliko­skladenjsko oznako. 

V tabeli 1 podamo nekaj kvantitativnih podatkov 

o tem testnem leksikonu. V tabeli posebej izposta­vimo zgodovinske in sodobne oblike, pri Ëemer kot sodobne štejemo tiste, v katerih je besedna oblika iz 
Tabela 1:Velikost testnega leksikona 
besedila enaka kot sodobna, Ëetudi s transliteracijo iz bohoriËice v gajico, kot zgodovinske pa vse ostale. Tako kot sodobno štejemo npr. bojiš ›bojiš kot tudi boji.h ›bojiš, za zgodovinsko pa npr. boh ›bog. Za zgodovinske, sodobne in vse oblike podamo število vseh vnosov v leksikonu, število razliËnih besednih oblik, število razliËnih posodobljenih besed in število razliËnih lem. 
Obdobje  Zgodovinske oblike  Sodobne oblike  Vse oblike  
Vnosov  Oblik Poso.  Lem  Vnosov  Oblik Poso.  Lem  Vnosov  Oblik Poso.  Lem  
18B  3.400  3.224 2.843  1.885  1.105  1.090 1.090  902  4.505  4.270 3.841  2.535  
19a  3.484  3.366 3.168  2.228  3.385  3.326 3.298  2.483  6.820  6.572 6.245  4.166  
19B  2.104  2.040 2.012  1.581  10.668  10.320 10.320  7.677  12.745  12.220 12.078  8.596  
.  8.790  8.407 7.209  4.629  14.677  14.239 13.932  9.660  23.341  22.270 20.050  12.288  

Kot je razvidno iz tabele, ima leksikon nekaj Ëez 

23.000 vnosov oz. 22.000 besednih oblik, 20.000 po­sodobljenih oblik in 12.000 lem. Od tega je v 18B sodobnih okoli 25 odstotkov besednih oblik, v 19A jih je 50 odstotkov, v 19B pa 85 oz. 64 odstotkov, ne glede na Ëasovno obdobje; tolikšna bi bila torej tudi natanËnost identifikacije sodobnih besednih oblik sistema, ki ne bi opravljal posodabljanja. 
V tabeli 2 podamo toËnost ToTrTaLe z leksikonom goo300k nad leksikonom neznanih besednih oblik iz tabele 1. ToËnost posodabljanja Ëez vsa obdobja je okoli 70 odstotkov, kar vkljuËuje tako sodobne kot zgodovinske besede. Samo za zgodovinske je toËnost pod 30 odstotki za besedne oblike in neko­liko veËja za lematizacijo. Zanimivo je, da je toËnost posodabljanja najveËja pri najstarejših besedilih, pri katerih je nekaj manj kot 35­odstotna. Obratno, kar je tudi priËakovano, pa toËnost oblikoskladenjskega oznaËevanja pada s starostjo besedil, od skoraj 70 pri 19B do 57 odstotkov pri 19B. 
Za sodobne oblike morda preseneËa, da je toËnost .posodabljanja« manjša od sto odstotkov, za 18B je napaka celo štiriodstotna. Te napake so posledica dejstva, da sodobni leksikon Sloleks ne vsebuje po­sodobitev vseh besed, ki jih najdemo v testnem leksi­konu ‡ v takih primerih sistem poskusi posodobiti neznano (sodobno) besedo, pri Ëemer mu to v neka­terih primerih tudi uspe, vendar dobimo kot rezultat napaËno obliko. 
Tabela 2:ToËnost posodabljanja, lematizacije in oblikoskladenjskega oznaËevanja testnega leksikona 
Obdobje  Zgodovinske oblike  Sodobne oblike  Vse oblike  
Poso.  Lem. Oblikoskl.  Poso.  Lem. Oblikoskl.  Poso.  Lem.  Oblikoskl.  
18B  34,7 %  38,5 % 56,8 %  96,2 %  87,7 % 79,3 %  49,8 %  50,6 %  62,3 %  
19a  26,5 %  31,1 % 57,8 %  97,3 %  90,8 % 84,4 %  61,3 %  60,5 %  70,8 %  
19B  24,2 %  32,2 % 68,6 %  99,3 %  93,0 % 85,1 %  86,9 %  82,9 %  82,4 %  
.  28,8 %  33,9 % 59,9 %  98,6 %  92,0 % 84,3 %  72,4 %  70,2 %  75,1 %  

Kot je razvidno iz rezultatov, je toËnost sistema vilke. Predstavili smo namreË rezultate na neznanih trenutno razmeroma slaba, vendar se je treba zave­besedah, ne na vseh, pri tem pa ima produkcijski To­dati, da je posodabljanje kompleksen proces, pa tudi TrTaLe na voljo ves leksikon, vkljuËno s testnim, ki da sistem v praksi deluje bolje, kot nakazujejo šte­smo ga tu izloËili, zaradi Ëesar je njegova toËnost na 
2013 - .tevilka 4 - letnik XXI UPORABNA INFORMATIKA 193 
vseh besedah bistveno boljša. Predstavljeni rezultati LITERaTURa 
so slabši tudi zaradi tega, ker testni leksikon vsebuje besede, ki jih ‡ vsaj trenutno ‡ program ne more naj­ti v Sloleksu, tj. zastarele besede, tujke in zatipkane besede, ki skupaj sestavljajo veË kot deset odstotkov vnosov v testnem leksikonu. 
SKLEP V prispevku smo predstavili metodologijo, jezikov­ne vire in program za posodabljanje, lematizacijo in oblikoskladenjsko oznaËevanje starejših besedil ter izvedli poskus, s katerim smo ocenili toËnost pro­grama na neznanih besedah. Rezultati kažejo, da je toËnost mogoËe še zelo poveËati, kar lahko doseže­mo na veË naËinov, ki ostajajo za nadaljnje delo. Naj­bolj preprosto (pa tudi najbolj zamudno oz. drago) bi bilo dodajati nove besede in njihove posodobitve v leksikon IMP, v katerem so nato neposredno do­stopne. Zelo koristno, vendar prav tako zamudno, bi bilo dodajati nove besede tudi v leksikon sodobnih besed, saj analiza napak posodabljanja pokaže, da bi vzorci vËasih pravilno predvideli sodobno obliko, a te ni Sloleksu. Ravno tako bi bilo dobro v leksikon so­dobnih oblik dodati tudi (najpogostejše) tuje besede, predvsem v latinšËini, nemšËini in francošËini. VeË dela bi lahko vložili tudi v transkripcijske vzorce, saj nismo pokrili vseh regularnih sprememb. Vendar se ob tem pojavi problem lažnih ustreznic, saj s preveË pravili hitro najdemo neko sodobno besedo za skoraj poljubno zgodovinsko obliko, zaradi Ëesar je treba nove vzorce dodajati s sprotnim testiranjem njihove­ga uËinka na veËji testni množici. 
Zadnja od možnosti za izboljšavo sistema bi bila uporaba povsem drugaËnega naËina posodabljanja, ki je že dalo spodbudne rezultate (Scherrer in Erja­vec, 2013), pri katerem uËno množico (leksikon iz go­o300k) izkoristimo za uËenje statistiËnega strojnega prevajanja na ravni posameznih Ërk v besedi. Princip strojnega prevajanja bi lahko razširili tudi na preva­janje celotnih besedil, pri Ëemer bi za uËno množico potrebovali izvorno besedilo (ali besedilo, posodob­ljeno na ravni posameznih besed), ki je poravnano s .prevodom« tega besedila v sodobno slovenšËino. S takim pristopom bi lahko zajeli tudi spremembe na skladenjski ravni, vendar je pri tem pristopu najveËja težava pridobivanje zadosti velike in splošne uËne množice. 
[1]	 Arhar, Š. (2009). UËni korpus SSJ in leksikon besednih oblik za slovenšËino. Jezik in slovstvo, 54(3‡4), str. 43‡56. URL: http://www.jezikinslovstvo.com/pdf/2009-03-04-Razprave­-Spela-Arhar.pdf. 
[2]	 Bennett,P., Durrell, D., Scheible, S., Whitt, R. J. (2010). An­notatinga historical corpusof German:A case study. Proce­edings of the LREC 2010 workshop on Language Resources and Language Technology Standards.Valletta, Malta, 18 May 2010. str. 64‡68. 
[3]	 Erjavec,T. (2009). Odprtost jezikovnih virov za slovenšËino.V: Infrastruktura slovenšËine in slovenistike (Obdobja, Simpozij, = Symposium, 28). Ljubljana: Znanstvena založba Filozofske fakultete, str. 115‡121. URL: http://www.centerslo.net/files/ file/simpozij/simp28/Erjavec.pdf. 
[4]	 Erjavec, T. (2011). Automatic linguistic annotation of histori­cal language:ToTrTaLe and XIX century Slovene.V: LaTeCH 2011: The 5th Workshop on Language Technology for Cul­tural Heritage, Social Sciences, and Humanities. Portland, ZDA. Portland: Association for Computational Linguistics, str. 33‡38. URL: http://aclweb.org/anthology-new/W/W11/W11­1505.pdf. 
[5]	 Erjavec, T. (2012a). Jezikoslovni viri starejše slovenšËine. Knjižnica, 56(3), str. 205‡221. 
[6]	 Erjavec,T. (2012b). The goo300k corpus of historical Slove­ne.V:Eight International Conference on Language Resources and Evaluation (LREC’12), Istanbul. European Language Re­sources Association (ELRA). URL: http://www.lrec-conf.org/ proceedings/lrec2012/summaries/445.html . 
[7]	 Erjavec,T., Džeroski,S. (2004). Machine Learningof Langua­ge Structure: Lemmatising Unknown SloveneWords. Applied Artificial Intelligence, 18(1):17‡41. 
[8]	 Erjavec, T., Ignat, C., Pouliquen, B., Steinberger, R. (2005). Massive Multi-Lingual Corpus Compilation: Acquis Commu­nautaire andToTaLe.V: Proceedings of the 2nd Language & Technology Conference, April 21-23, 2005, Poznan, Poljska. str. 32‡36. 
[9]	 Erjavec, T. in Krek. S. (2008). Oblikoskladenjske specifika­cije in oznaËeni korpusi JOS. V: Zbornik Šeste konference Jezikovne tehnologije. Ljubljana, Inštitut Jožef Stefan. URL: http://nl.ijs.si/jos/bib/jos_isltc08.pdf. 
[10]	 Gotscharek, A., Neumann, A., Reffle, U., Ringlstetter, C., Schulz, K. U. (2009). Enabling Information Retrieval on Hi­storical Document Collections ‡ the Role of Matching Pro­cedures and Special Lexica. Proceedings of the ACM SIGIR 2009 Workshop on Analytics for Noisy Unstructured Text Data (AND09), Barcelona. 
[11]	 Hladnik, M. (2009). Infrastruktura slovenistiËne literarne vede. 
V: Obdobja 28 ‡ Infrastruktura slovenšËine in slovenistike, str. 161‡169. URL: http://www.centerslo.net/files/file/simpozij/ simp28/Hladnik.pdf. 
[12]	 JuršiË, M., MozetiË, I., Erjavec,T., LavraË, N. (2010) Lemma-Gen: multilingual lemmatisation with induced Ripple-Down rules. Journal of universal computing science. 16/9, str. 1190‡1214. 
[13]	 KrstuloviE, Z. in Šetinc, L. (2005). Digitalna knjižnica Slovenije 
‡ dLib.si. Informatika kot temelj povezovanja: zbornik posve­tovanja, str. 683‡689. 
[14]	 Logar Berginc, N., GrËar, M., Brakus, M., Erjavec, T., Arhar Holdt, Š., Krek, S. (2012) Korpusi slovenskega jezika Gigafi­da, KRES, ccGigafida in ccKRES : gradnja, vsebina, uporaba. (Zbirka Sporazumevanje). Ljubljana: Trojina, zavod za upo­rabno slovenistiko: Fakulteta za družbene vede, 2012. 

[15]	  Pilz, T. Ernst-Gerlach, A. Kempken, S., Rayson P., Archer, D.  [19]	  Scherrer, Y., Erjavec, T. (2013). Modernising historical Slo­ 
(2008). The Identification of Spelling Variants in English and  vene words with character-based SMT. Proceedings of the  
German Historical Texts: Manual or Automatic? Literary and  ACL Workshop on Balto-Slavic Natural Language Processing,  
Linguistic Computing, 23/1, str. 65‡72.  BSNLP 2013. Sofija, Bulgarija.  
[16]	  Ogrin, M., Erjavec, T. (2009). Ekdotika in tehnologija: elektron­ [20]	  Šorn, M. in Hadalin, J. (2010). Spletni portal SIstory: prost  
ske znanstvenokritiËne izdaje slovenskega slovstva. Jezik in  dostop do dosežkov slovenskega zgodovinopisja.  Zbornik  
slovstvo, 54/6, str. 57‡72.  prispevkov 4. skupnega posvetovanja Sekcije za specialne  
[17]	  Reffle, U. (2011). Efficiently generating  correction  sugge­ knjižnice in Sekcije za visokošolske knjižnice Zveze bibliote­ 
stions for garbled tokens of historical language, Journal of  karskih društev Slovenije, Ljubljana, 27. in 28. oktober 2010,  
Natural Language Engineering, Special Issue on Finite State  str. 103‡107.  
Methods and Models in Natural Language Processing.  [21]	  TEI (2007). TEI P5: Guidelines for Electronic Text Encoding  
[18]	  Sánchez-Marco, C., Boleda, G., Maria Fontana, J., Domingo,  and Interchange. URL http://www.tei-c.org/Guidelines/P5/.  
J. (2010). Annotation and Representation of a Diachronic Cor­ 
pus of Spanish. Proceedings of the Seventh conference on  
International Language Resources and Evaluation (LREC’10).  
ELRA, Pariz.  

• 
Tomaž Erjavecje višji raziskovalni sodelavec na Odseku za tehnologije znanja na Institutu Jožef Stefan. PodroËja njegovega raziskovanja so jezikovne tehnologije in digitalna humanistikas poudarkomna izdelaviin oznaËevanjuterpredstavitvi jezikovnihvirov slovenskega jezika.NapodroËjih jezikovnih tehnologijinkorpus­nega jezikoslovjaje pouËevalna univerzahvNovi GoriciinvGradcuterna mednarodni podiplomskišoli Jožefa Stefana.JeËlanuredniških odborovrevijJournal forLanguage Resourcesand Evaluation, Journalof Corpus Linguisticsin SlovenšËina 2.0: empiriËne, aplikativnein interdisciplinarne raziskave;bilje ustanovni predsednik slovenskega Društva za jezikovne tehnologije, Ëlan svetov European Chapter of the Association for Computational Linguistics inText Encoding Initiative Consortium ter sodeluje pri izdelavi standardov za zapis jezikovnih virov pri SIST in ISO TC 37. 





Uporaba strojnega uËenja za
postavljanje vejicv slovenšËini 

Peter Holozan, Amebis, d. o. o., Kamnik, Bakovnik 3, 1241 Kamnik peter.holozan@amebis.si 

IzvleËek 

Za slovenšËino obstajata dva programa, ki postavljata vejice v besedilo s pomoËjo pravil, ni pa še bilo preizkušeno strojno uËenje, ki je že bilo uspešno uporabljenoza postavljanjevejicvdrugihjezikih.Zapreizkušanjejebil uporabljen seznamprimerovznapakamiprivejicahizkorpusaŠolar 
(209.156 besed).Vprvem deluje bilostrojno uËenje uporabljenozaproblem iskanja vseh vejic, doseženirezultatje primerljivzdrugimi jeziki (natanËnost 0,861in priklic 0,641)insprogramomas pravili, najboljširezultatje bil doseženz uporabo skladenjskega analizatorja, lematizator, oblikoslovni oznaËevalnikin skladenjski analizatorpa so bili nauËeniz uËno množicobrez vejic, uporabljenje bil klasifikator ADTree.Preizkušenaje bila še uspešnost popravljanja realnih napak v besedilu, pri Ëemer je bil rezultat slabši (natanËnost 0,676 in priklic 0,545 za manjkajoËe vejice). KljuËne besede: postavljanje vejic, popravljanje napaËnih vejic, slovenšËina, strojno uËenje, ADTree. 

Abstract 

Using MachineLearning for 	comma Placingin Slovene 

Forthe Slovenelanguagetherecurrentlyexisttwosoftware solutionsabletoplace commasintotextusingrules, however MachineLearning thathasalreadybeen successfullyusedforcommaplacinginotherlanguageshasneverbeentriedwithSlovene.Fortesting,alistofexamples with comma mistakes from the corpus Šolar (209156 words), was used. In the first part of the experiment machine learning was used for searchingall commas,the obtainedresultis comparablewith other languages(precision 0.861andrecall0.641)andtherule-basedprograms. The best result was achieved using the syntax analyser. The lemmatiser, the PoS tagger and the syntax analyser were trained on a corpus wi­thout commas,theADTree classifierwasused.Real comma mistakeswerealsotestedbuttheresultswere worse(precision0.676andrecall 
0.545 for missing commas). 
Key words: comma placing, comma error correction, Slovene, machine learning, ADTree. 

1	 UVOD Program,kibi pravilno postavljal vejicev besedilo,ni upora­ben le za pisce, ki tipkajo besedila in pri tem spregledajo kakšno vejico (postavljanje vejic povzroËa hude težave celo bodoËim uËiteljem na razredni stopnji (Šek Mertük, 2011)), temveË tudi za druge namene. Pravilno postavljene vejice tako npr. izboljšajo oblikoslovno oznaËevanje besedil (Hillard idr., 2006), pomembne pa so tudi pri sistemih za razpoznavo govora, ki le iz govora ne morejo pravilno postaviti vejic (Hu­ang&Zweig, 2002). Za slovenšËinože obstajatadva programa (Besana1inLangu­ageTool2), ki postavljata manjkajoËe vejice; oba temeljita na roËno napisanih pravilih (Holozan, 2012). NihËe pa za slo­venšËino še ni preizkusil, kako uspešne so pri tem statistiËne metode, ki uporabljajo strojno uËenje iz primerov za izpeljavo pravil za vejice. Strojno uËenje zahteva veliko število prime­
1 http://besana.amebis.si 2 http://www.languagetool.org/ 
rov, iz katerih lahko izpelje pravila; taki primeri napaËne oz. pravilne rabe vejic so zdaj na voljo v korpusu Šolar, v kate­rem so zbrana besedila, ki so jih napisali uËenci in dijaki, skupaj z uËiteljskimi popravki. 


2	 PREDHODNE	RaZISKaVE 
Strojno uËenje je bilo že veËkrat uporabljeno za uËe­nje postavljanja vejic v drugih jezikih, veËinoma pa so raziskovali problem, ko je treba v besedilo posta­viti vse vejice (oz. nekateri celo vsa loËila), kar je po­membno predvsem pri sistemih za razpoznavo go­vora (Huang & Zweig, 2002). 
Beeferman idr. (1998) so preizkušali postavljanje vejic v anglešËini s pomoËjo skritega markovskega modela in z uporabo Viterbijevega algoritma. 
Hardt (2001) je preizkušal postavljanje vejic v dan­šËini, in sicer z uporabo Brillovega oznaËevalnika, vendar se je omejil le na ugotavljanje odveËnih vejic, pri Ëemer so bile odveËne vejice dodane nakljuËno. 

Zhang idr. (2002) so preizkušali strojno uËenje za vejice v anglešËini in nemšËini, in sicer z odloËitveni­mi drevesi z uporabo skladenjskih podatkov. 
Shieber in Tao (2003) sta preizkušala postavljanje vejic za anglešËino; pomembna je njuna ugotovitev, da je smiselno nauËiti statistiËni oznaËevalnik na uËnem korpusu brez vejic. 
Alegria idr. (2006) so preizkušali strojno uËenje v baskovšËini. Uporabili so program WEKA3 in preiz­kušali razliËne metode strojnega uËenja. 
Israel idr. (2012) so se ob problemu postavljanja vseh vejic v anglešËini lotili tudi problema poprav­ljanja napaËnih (manjkajoËih in odveËnih) vejic v be­sedilu. 
Programa za postavljanje vejic v slovenšËini je preizkusil Holozan (2012), in to za problem, ko je tre­ba popraviti napaËne vejice v besedilu. Uporabljen je bil vzorec, narejen iz korpusa Šolar, ki vsebuje napa­ke, ki so jih naredili uËenci osnovnih in srednjih šol. 

3	 ZaSNOVa 	POSKUSa 
Namen poskusa je preizkusiti metode strojnega uËe­nja v slovenšËini, in sicer najprej za problem postav­ljanja vseh vejic (na kar je bila osredinjena do zdaj veËina tujih raziskav in kar je uporabno pri razpo­znavi govora), potem pa še za problem popravljanja napaËnih vejic (kar je uporabno v slovniËnih pregle­dovalnikih, ki tako pomagajo piscem besedil postav­ljati vejice). 
Osnova ideja poskusa postavljanja vseh vejic je povzeta po Alegria idr. (2006) in je taka, da uporabi­mo korpus s pravilno postavljenimi vejicami, ga obli­koskladenjsko oznaËimo, lematiziramo in skladenj­sko razËlenimo (pri Ëemer je treba upoštevati, da pri praktiËni uporabi nimamo vejic vnaprej, zato je treba preizkusiti oznaËevanje tudi brez vejic, na kar sta opozorila že Shieber in Tao (2003), medtem ko Ale­gria idr. (2006) tega niso posebej preizkušali). Vsako besedo z doloËenim okoliškim oknom pretvorimo v seznam atributov in dodamo atribut, ali ji sledi vejica (ta atribut je potem razred pri klasifikacijskem pro­blemu). Tako zapisane besede uvozimo v program za strojno uËenje, v katerem izvedemo eksperimente. 
Enako kot pri Alegria idr. (2006) je bil uporabljen program WEKA, ki ima vgrajeno veliko klasifikator­jev. Preizkušeno je bilo veËje število klasifikatorjev, potem pa izbranih nekaj najboljših (pri Ëemer smo upoštevali, da so Ëim bolj razliËni), ki so bili potem uporabljeni v nadaljnjih preizkusih, v katerih so bili preizkušeni razliËni atributi, velikost okna, vpliv oznaËevanja in parametri klasifikatorja. 
Za preizkušanje je bilo uporabljeno desetkratno preËno preverjanje, pri Ëemer primere razdelimo na deset delov, devet delov uporabimo za uËenje, pre­ostali del pa za preizkušanje, kar ponovimo deset­krat z razliËnim delom za preizkušanje in izraËuna­mo povpreËni priklic in natanËnost. 
Za primerjavo sta bila na isti nalogi preizkušena še Besana in LanguageTool. 
Drugi poskus je prenos ugotovitev iz prvega po­skusa v popravljanje napaËnih vejic in primerjava s programoma Besana in LanguageTool. Preizkušanje v tem poskusu je namreË bolj zapleteno, zato je naj­boljšo kombinacijo za strojno uËenje laže poiskati pri problemu iskanja vseh vejic in jo potem uporabiti še pri popravljanju napaËnih vejic. 

3.1	 Korpus 
V raziskavi je bila uporabljena posodobljena verzija korpusa (popravljenih je bilo nekaj napaËnih vejic), ki je bil uporabljen v Holozan (2012). To je podkorpus, narejen iz korpusa Šolar,4 ki je zbirka besedil, ki so jih napisali uËenci v šoli, in ki vkljuËuje tudi popravke napak. Ta podkorpus vsebuje le povedi z napaËnimi vejicami (bodisi manjkajoËimi bodisi odveËnimi), pri Ëemer so mesta manjkajoËih vejic oznaËena z znakom ¤, odveËne vejice pa so nadomešËene z znakom ÷; ve­likost tega podkorpusa je 209.156 besed (vkljuËno z loËili, razen vejic), v podkorpusu je 11.892 pravilno postavljenih vejic, 11.399 manjkajoËih vejic in 2709 odveËnih vejic. 
Za problem postavljanja vseh vejic (in tudi za uËe­nje pri popravljanju vejic) je bil korpus predelan tako, da so bile vse vejice popravljene (znaki ¤ zamenjani z vejicami, znaki ÷ pa pobrisani), s Ëimer je bil narejen korpus s pravilno postavljenimi vejicami. 
Predvsem za ta problem postavljanja vseh vejic (pa tudi za realno natanËnost pri popravljanju na­paËnih vejic, Ëeprav je tu težava, da je ta odvisna od deleža napak v korpusu in se je tako težko odloËiti, katera besedila vsebujejo povpreËno število napaËnih vejic) bi bilo sicer bolje uporabiti korpus, ki bi vse­boval tudi povedi s pravilno postavljenimi vejicami, vendar takega korpusa ob izvajanju poskusa ni bilo 

3 http://www.cs.waikato.ac.nz/ml/weka/ 4 http://www.slovenscina.eu/korpusi/solar 
na voljo. Tudi popravki v korpusu Šolar namreË niso povsem natanËni, zato so bili primeri v podkorpusu roËno preverjeni in ustrezno popravljeni. 
Druga možnost za postavljanje vseh vejic bi bila uporaba dela katerega od obstojeËih korpusov (npr. Gigafide),5 vendar se tu postavi vprašanje, kako na­tanËno so lektorirana besedila, vkljuËena v korpuse. Se je pa za to rešitev odloËila veËina tujih raziskoval­cev (tudi Alegria idr. (2006), ki so med drugim upo­rabili Ëasopisna besedila). 
3.1.1	 OznaËevanje 
Tako Hardt (2001) kot tudi Alegria idr. (2006) so eks­perimentirali z oznaËenimi korpusi, saj lahko pravil­ne oblikoskladenjske oznake in poznavanje strukture povedi pomagajo pri postavljanju vejic. 
Zato je bilo tudi za slovenšËino uporabljeno oznaËevanje, in sicer oblikoslovni oznaËevalnik in lematizator Obeliks6 ter skladenjski razËlenjevalnik,7 ki sta bila razvita v okviru projekta Sporazumevanje v slovenskem jeziku.8 
Pri poskusih za baskovšËino in danšËino ni pose­bej specificirano, ali so oznaËevali korpus s pravilno ali z napaËno postavljenimi vejicami, zdi se, da so uporabili razliËico s pravilno postavljenimi vejicami. Ker pa pravilnost vejic lahko vpliva na natanËnost oznaËevalnika (Hillard idr., 2006) in ker pri praktiËni uporabi (npr. popravljanju napaËnih vejic v besedilu) ni mogoËe vnaprej imeti pravilno postavljenih vejic, sta bili preizkušeni obe razliËici oznaËevanja. 



3.2	 Ocenjevanje rezultatov 
Za ocenjevanje rezultatov sta bili uporabljeni metriki natanËnost (delež pravilno postavljenih vejic) in pri­klic (delež odkritih manjkajoËih vejic) ter metrika F1, ki je harmoniËna sredina natanËnosti in priklica in se izraËuna kot 2 * natanËnost * priklic / (natanËnost 
+ priklic). Problem postavljanja vejic predstavimo z razredom, ki pove, ali neki besedi sledi vejica. V kor­pusu je 23.291 mest, kjer mora biti vejica, vejica torej mora biti za 11,1 odstotka besed, veËinski razred pa je, da besedi ne sledi vejica, kar je v 88,9 odstotka pri­merov. 
Program WEKA je rezultate izraËunal tako za pri­mer, ko ni vejice, kot za primere, ko vejica je. Ker je 
5 http://www.gigafida.net 6 http://www.slovenscina.eu/tehnologije/oznacevalnik 7 http://www.slovenscina.eu/tehnologije/razclenjevalnik 8 http://www.slovenscina.eu 
cilj postaviti vejice v besedilo, je zanimiv predvsem rezultat pri primerih, ko vejica je, saj nam to pove, ko­liko manjkajoËih vejic bi odkrila metoda. NatanËnost je pomembnejša od priklica, ker npr. pri slovniËnem pregledovalniku noËemo preveË lažnih opozoril, se­veda pa tudi priklic ne sme biti premajhen (npr. vsaj 50 %), da je metoda uporabna, zato je pomemben tudi rezultat za F1, ki ga prav tako izraËunava pro­gram WEKA. 
Rezultati so izraËunani na besede, ker je beseda (z okoliškim oknom) element pri strojnem uËenju. 
ReferenËna vrednost uspešnosti je rezultat, ki ga dosežeta programa, ki postavljata vejice s pomoËjo pra­vil. Programa sicer nista namenjena za reševanje pro­blema, ko je treba postaviti vse vejice, vendar je vseeno zanimivo videti, kako dobro poišËeta vse vejice. 


3.3	 Priprava podatkov 
Program WEKA potrebuje podatke v formatu ARFF, v katerem glavi z opisom atributov sledi podatkovni del, v katerem vsaka vrstica predstavlja en primer. Rezultat oznaËevanja besedil je v formatu XML­TEI,9 zato je bil napisan za pretvorbo program v Perlu. Ta za vsako besedo doloËi atribute, potem pa pri izvo­zu v ARFF ob sami besedi izpiše še atribute za prej­šnje in naslednje besede glede na nastavitev okna (privzeta vrednost je ‡5 +5, torej pet besed spredaj in pet besed zadaj, s Ëimer so zaËeli tudi Alegria idr. (2006)). Vejice niso besede, ampak le atribut je-vejica na besedi neposredno pred vejico. Ta atribut je potem uporabljen kot razred pri strojnem uËenju. 
Program za izvoz v ARFF izvozi vse atribute (ra­zen podatka o obstoju vejice) kot nize, s Ëimer pa veËina klasifikatorjev ne zna delati, zato jih je treba najprej spremeniti v nominalne atribute, pri Ëemer je pri definiciji atributa našteta zaloga možnih vredno­sti. V ta namen je bil v programu WEKA uporabljen filter StringToNominal. 

3.3.1	 atributi 
Osnovni atributi za vsako besedo so oblika (sama be­seda, taka kot je napisana, npr. mize), lema (osnov­na oblika besede, npr. miza) in oblikoskladenjska oznaka (ali MSD ‡ morpho­syntactic descriptor, npr. Sozer) po oblikoskladenjskih specifikacijah JOS,10 ki pove besedno vrsto, podatke o sklonu, spolu, številu 
9 http://www.tei-c.org/Guidelines/P5/ 10 http://nl.ijs.si/jos/msd/html-sl/index.html 

ipd. Ker loËila nimajo oblikoskladenjskih oznak, jim je bila pripisana oznaka Y, da jih lahko obravnava­mo enako kot besede. NeobstojeËim besedam znotraj okna so bili vsi atributi nastavljeni na *, vsak stavek je enota zase in okno ne sega na sosednje stavke. 
Atributi so našteti tako, da so najprej atributi za samo besedo (položaj 0), temu sledijo atributi za predhodne besede (od ­1 do ­5) in temu atributi za naslednje besede (od +1 do +5). 
Po celotnem MSD je bil narejen še poskus z del­nim MSD, v katerem so atributi loËeno prvi znak MSD, drugi znak MSD in pri samostalnikih še sklon. 
Delni MSD2 je bil poskus, kako Ëim bolj prene­sti informacije iz MSD in se izogniti uporabi celot­nega MSD (zaradi predpostavke, da veliko število razliËnih MSD lahko ovira uËenje). Vsak MSD bil raz­deljen v dva atributa, prvi je kot prvo Ërko vseboval besedno vrsto, druga Ërka pa je bila vrsta pri posa­mezni besedni vrsti (pri samostalnikih, pridevnikih, glagolih, zaimkih, števnikih in veznikih). Drugi atri­but je vseboval sklon pri samostalnikih, pridevnikih, zaimkih, predlogih in števnikih, sicer pa **. 
Naslednji poskus je bil uporaba podatkov skla­denjskega razËlenjevalnika, pri katerem pa je re­zultate teže pretvoriti v atribute kot pri oblikoslov­nem oznaËevalniku in lematizatorju, saj so rezultat skladenjskega razËlenjevalnika povezave, ki gradijo drevo. 


Slika 1: Rezultat skladenjskega razËlenjevalnika 
Slika 1 kaže rezultat skladenjske razËlembe za ki kažejo na osebke, predmete in prislovna doloËila, poved .Ko MatiËek to izve, sklene ukrepati«. Za po­pri Ëemer nas pri modrih in rdeËih povezavah zanima stavljanje vejic so pomembne predvsem povezave11 zaËetek bloka, zato mora upoštevati še vse naslednje .vez«, ki kaže na veznike, .modra«, ki kaže na del po­povezave, da pridemo do zaËetka tega bloka. vedi, in rdeËe povezave .ena«, .dve«, .tri« in .štiri«, Rezultat razËlenjevalnika (skupaj z rezultatom le­
matizatorja in oblikoskladenjskega analizatorja) je za­pisan v formatu XML, kot prikazujemo na sliki 2 (iz­

11 Vsi tipi povezav so opisani na http://www.slovenscina.eu/tehnologije/ 
razclenjevalnik. pušËene so znaËke .<S />«, ki oznaËujejo presledke). 
<s xml:id=”0.0”> <w lemma=”ko” msd=”Vd” xml:id=”0.0.1”>Ko</w> <w lemma=”MatiËek” msd=”Slmei” xml:id=”0.0.2”>MatiËek</w>      <w lemma=”ta” msd=”Zk­set” xml:id=”0.0.3”>to</w> <w lemma=”izvedeti” msd=”Ggdste” xml:id=”0.0.4”>izve</w> <c xml:id=”0.0.5”>,</c> <w lemma=”skleniti” msd=”Ggdste” xml:id=”0.0.6”>sklene</w> <w lemma=”ukrepati” msd=”Ggnn” xml:id=”0.0.7”>ukrepati</w> <c xml:id=”0.0.8”>.</c> <links> <link afun=”vez” dep=”0.0.1” from=”0.0.4” /> <link afun=”ena” dep=”0.0.2” from=”0.0.4” /> <link afun=”dve” dep=”0.0.3” from=”0.0.4” /> <link afun=”modra” dep=”0.0.4” from=”0.0.0” /> <link afun=”modra” dep=”0.0.5” from=”0.0.0” /> <link afun=”modra” dep=”0.0.6” from=”0.0.0” /> <link afun=”dol” dep=”0.0.7” from=”0.0.6” /> <link afun=”modra” dep=”0.0.8” from=”0.0.0” /> </links> </s> 
Slika 2: Zapis oznaËevanjain skladenjske razËlembev formatu XML 
Slika 2 je primer, zapisan v formatu XML, ki je • je vez: beseda, na katero kaže povezava “vez”; rezultat oznaËevanja in skladenjskega razËlenjeval­• zaËetek modrega bloka: prva beseda v bloku, na nika. ZnaËke “<s” so povedi, znaËke “<w” besede, katerega kaže povezava “modra”; znaËke “<c” loËila in znaËke “<link” skladenjske po­• zaËetek rdeËega bloka: prva beseda v bloku, na vezave. katerega kaže rdeËa povezava. 
Za skladenjske atribute so bili izbrani (vrednost je 1, Ëe je trditev resniËna, oz. 0, Ëe ni): 

'Ko','ko','Vd','1','0','1','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','Mati Ëek','MatiËek','Slmei','0','1','0','to','ta','Zk set','0','1','0','izve','izvedeti','Ggdste','0','0','0','sklene','skle niti','Ggdste','0','0','0','ukrepati','ukrepati','Ggnn','0','0','0',ni vejice 'MatiËek','MatiËek','Slmei','0','1', '0','Ko','ko','Vd','1','0','1','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','to','ta','Zk set',' 0','1','0','izve','izvedeti','Ggdste','0','0','0','sklene','skleniti','Ggdste','0','0','0','ukrepati','ukrepati','Gg nn','0','0','0','.','.','Y','1','0','0',ni vejice 'to','ta','Zk set','0','1','0','MatiËek','MatiËek','Slmei','0','1','0','Ko','k o','Vd','1','0','1','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','izve','izvedeti','Ggdste','0','0','0','sklene',' skleniti','Ggdste','0','0','0','ukrepati','ukrepati','Ggnn','0','0','0','.','.','Y','1','0','0','*','*','*','*','*','*',ni vejice 'izve','izvedeti','Ggdste','0','0','0','to','ta','Zk set','0','1','0','MatiËek','MatiËek','Slmei','0','1','0','Ko','ko','V d','1','0','1','*','*','*','*','*','*','*','*','*','*','*','*','sklene','skleniti','Ggdste','0','0','0','ukrepati','ukrepati','Ggnn' ,'0','0','0','.','.','Y','1','0','0','*','*','*','*','*','*','*','*','*','*','*','*',je vejica 
Slika 3: Zapis zaËetka zgornjega primerav formatu 	aRFFz oknom ‡5+5 
Slika 3 kaže, kako je zaËetek zgornjega primera zapisan v formatu ARFF, ki ga zna brati programski paket WEKA. 

UPORABNA INFORMATIKA 2013 - .tevilka 4 - letnik XXI 
PREIZKUŠaNjE Za problem, ko je treba postaviti vse vejice besedilu, je bilo narejenih veË preizkusov, da bi našli najboljšo kombinacijo klasifikatorja, atributov, velikosti okna, naËina oznaËevanja in parametrov klasifikatorja. 
Zaradi velikega števila možnih kombinacij ni bilo mogoËe preizkusiti vseh, ampak se je po posameznih delnih preizkusih ožil izbor (na podlagi natanËno­

Tabela 1:Šolar, celotni MSD, brez skladenjskih atributov 
sti in delno tudi F1 na mestih, kjer so vejice), katere kombinacije je najbolj smiselno preizkušati naprej. 




4.1	 Izbiranje klasifikatorja in vpliv velikosti korpusa 
Preizkušeno je bilo veËje število klasifikatorjev, ki jih podpira program WEKA, vsi so bili uporabljeni s pri­vzetimi parametri. 

Ni vejice  je vejica  
Klasifikator  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
100 %  ZeroR  0,889  1  0,941  0  0  0  
HyperPipes  0,892  0,989  0,938  0,340  0,045  0,079  
J48  
NaiveBayes  0,965  0,947  0,956  0,632  0,726  0,676  
Decision Table  0,948  0,986  0,966  0,830  0,565  0,672  
BayesNet  0,973  0,918  0,945  0,549  0,797  0,65  
Stacking  0,889  1  0,941  0  0  0  
VFI  0,919  0,928  0,923  0,347  0,345  0,359  
aDTree  0,945  0,977  0,961  0,751  0,546  0,632  
RBFNetwork  0,948  0,975  0,961  0,740  0,570  0,644  
adaBoostM1  0,928  0,985  0,956  0,768  0,386  0,514  
NaiveBayesUpdateable  0,965  0,947  0,956  0,632  0,726  0,676  
DecisionStump  0,928  0,985  0,956  0,768  0,386  0,514  
50 %  ADTree  0,943  0,979  0,961  0,761  0,533  0,627  
DecisionStump  0,927  0,985  0,955  0,766  0,384  0,511  
25 %  J48  0,89  1  0,942  0  0  0  
NaiveBayes  0,925  0,992  0,958  0,848  0,351  0,497  
Decision Table  0,948  0,984  0,966  0,817  0,563  0,666  
Stacking  0,89  1  0,942  0  0  0  
ADTree  0,944  0,978  0,961  0,746  0,531  0,620  
LWL  0,931  0,986  0,958  0,78  0,409  0,537  
RBFNetwork  0,914  0,995  0,953  0,854  0,245  0,381  
AdaBoostM1  0,929  0,986  0,956  0,773  0,389  0,517  
NaiveBayesUpdateable  0,925  0,992  0,958  0,848  0,351  0,497  
DecisionStump  0,929  0,986  0,956  0,773  0,389  0,517  

Preizkušeno je bilo še veË klasifikatorjev, pri katerih pa izraËunavanje bodisi ni uspelo (SMO, LibSVM, HNB, MultilayerPerceptron, Bagging, FT, Prism, J48) bodisi je trajalo predolgo (LWL, KStar, Id3, NBTree, BFTree, LADTree, SimpleCart, REP­Tree). Je pa seveda mogoËe, da bi se dala katera od teh metod usposobiti z ustreznimi parametri kla­sifikatorja, ustrezno zmanjšanim oknom, manjšim korpusom ali veË potrpljenja (poËakati nekaj dni na rezultat). 
»e želimo iskati manjkajoËe vejice, nas zanima predvsem natanËnost pri možnosti, ko vejica je, ven­dar seveda tudi priklic ne sme biti preslab, tako da išËemo tudi dober F1. 
Kot uspešni klasifikatorji so se pokazali Decision Table, NaiveBayes, ADTree in RBFNetwork. Slaba stran klasifikatorja Decision Table pa je, da je preiz­kušanje neuporabno poËasno, zato je bil pri nadalj­njem preizkušanju namesto njega uporabljen AdaBo­ostM1 (klasifikatorji za nadaljnje preizkušanje so bili namerno izbrani tako, da pripadajo razliËnim sku­pinam klasifikatorjem in niso preveË podobni med seboj). 

Klasifikatorji, ki niso bili uspešni na celotnem kor­pusu, so bili preizkušeni še na zmanjšanem korpusu, da bi morda bili uspešni tam (nekateri klasifikatorji pa so bili ponovljeni za primerjavo, koliko vpliva ve­likost korpusa). 
Klasifikator J48, ki je bil uporabljen v Alegria idr. (2006), se je uspešno izvedel le pri 25 odstotkih primerov (vendar je tudi tu uporabil le veËinski ra­zred in je dal povsod odgovor, da ni vejice), pri 50 odstotkih in polnem korpusu preizkus ni bil uspe­šen. Klasifikator SMO pa sploh ni bil uspešen niti pri 
Tabela 2:Šolar 
25 odstotkih. Ta rezultat je presenetljiv, Alegria idr. (2006) so uporabljali korpus s 130.000 besedami za preizkuse (100.000 besed za uËenje in 30.000 za preiz­kušanje) in malo manjše okno (‡5+2), kar pomeni, da 25 odstotkov korpusa v našem poskusu ne bi smelo pomeniti težave. Zato bi bilo smiselno to še enkrat preizkusiti v prihodnosti z ustrezno nastavitvijo pa­rametrov klasifikatorjev. 
Manjšanje korpusa je poslabšalo rezultate pri kla­sifikatorjih NaiveBayes in RBFNetwork, na klasifi­katorje Decision Table, ADTree in AdaBoostM1 pa ni bistveno vplivalo. 


4.2	 atributi 
Vprašanje je, kateri podatki so pomembni, da jih do­damo kot atribute. Osnovna podatka sta sama be­seda in lema besede, narejen pa je bil poskus, kako uporabiti oblikoskladenjske oznake (MSD). 

Ni vejice  je vejica  
Klasifikator  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
Celotni MSD  NaiveBayes  0,965  0,947  0,956  0,632  0,726  0,676  
RBFNetwork  0,948  0,975  0,961  0,740  0,57  0,644  
ADTree  0,945  0,977  0,961  0,751  0,546  0,632  
AdaBoostM1  0,928  0,985  0,956  0,768  0,386  0,514  
Delni MSD  NaiveBayes  0,971  0,924  0,947  0,563  0,781  0,654  
RBFNetwork  0,958  0,946  0,952  0,607  0,667  0,636  
ADTree  0,944  0,984  0,964  0,811  0,537  0,646  
AdaBoostM1  0,943  0,968  0,955  0,677  0,53  0,595  
Brez oblik  NaiveBayes  0,975  0,904  0,938  0,515  0,812  0,630  
RBFNetwork  0,957  0,943  0,950  0,593  0,662  0,626  
ADTree  0,944  0,984  0,964  0,811  0,537  0,646  
AdaBoostM1  0,943  0,968  0,955  0,677  0,53  0,595  
Delni MSD2  NaiveBayes  0,967  0,935  0,951  0,592  0,749  0,661  
RBFNetwork  0,953  0,958  0,955  0,648  0,620  0,634  
ADTree  0,930  0,989  0,959  0,827  0,402  0,541  
AdaBoostM1  0,928  0,985  0,956  0,768  0,386  0,514  
MSD +delni  NaiveBayes  0,972  0,925  0,948  0,568  0,784  0,658  
MSD2  RBFNetwork  0,960  0,949  0,954  0,625  0,683  0,653  
ADTree  0,930  0,989  0,959  0,827  0,402  0,541  
AdaBoostM1  0,928  0,985  0,956  0,768  0,386  0,514  
MSD +  NaiveBayes  0,973  0,920  0,946  0,555  0,793  0,653  
skladnja  RBFNetwork  0,956  0,949  0,953  0,616  0,652  0,634  
ADTree  0,950  0,983  0,966  0,815  0,588  0,683  
AdaBoostM1  0,950  0,964  0,957  0,675  0,594  0,632  

Delni MSD (loËeno prvi znak MSD, drugi znak MSD in pri samostalnikih še sklon), je malce izboljšal rezultate pri klasifikatorjih ADTree in AdaBoostM1, poslabšal pa pri NaiveBayes in RBFNetwork. 
Zanimiv rezultat je prinesla ukinitev atributov z oblikami (torej so ostale le leme), pri Ëemer je bil re­zultat pri ADTree in AdaBoostM1 popolnoma enak, pri NaiveBayes in RBFNetwork pa se je poslabšal. 
Delni MSD2 je bil poskus, kako Ëim bolj prene­sti informacije iz MSD in se izogniti uporabi celot­nega MSD (zaradi predpostavke, da veliko število razliËnih MSD lahko ovira uËenje). Vendar je tudi ta poskus samo poslabšal rezultate (je sicer izboljšal na­tanËnost pri ADTree, vendar za ceno velikega poslab­
Tabela 3:Šolar, 	aDTree, MSD+skladnja 
šanja priklica) (rezultat je poslabšal celo delni MSD 2 in dodani celotni MSD), tako da je oËitno najbolj smiselno uporabiti kar celotni MSD. 
Atributi s podatki o skladnji so sicer poslabšali re­zultat pri klasifikatorjih NaiveBayes in RBFNetwork, vendar so ga popravili pri ADTree in AdaBoostM1, in to toliko, da je F1 pri ADTree postal najboljši, zato je bila za nadaljnje poskuse izbrana ta kombinacija. 



4.3	 Velikost okna 
Preizkušen je bil vpliv velikosti okna, tj. števila besed pred besedo, za katero ugotavljamo, ali ji sledi veji­ca, in za njo. 

Ni vejice  je vejica  
Okno  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
‡5+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡4+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡3+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡2+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡1+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡0+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡5+2  0,950  0,983  0,966  0,815  0,588  0,683  
‡5+1  0,950  0,984  0,966  0,818  0,582  0,680  
‡5+0  0,889  1,000  0,941  0,000  0,000  0,000  
‡0+2  0,950  0,983  0,966  0,815  0,588  0,683  

Tabela 3 kaže, da klasifikator ADTree uporablja le trenutno besedo in še dve naprej. Vendar razen na hitrost veËanje okna ne vpliva negativno na rezul­tat, zato je pri nadaljnjih preizkusih uporabljeno kar okno ‡5+5, tudi zaradi domneve, da pri spreminja­nju parametrov klasifikatorja ADTree (torej veËanjem drevesa) zaËne klasifikator upoštevati tudi besede zunaj okna ‡0+2, ki se je pokazalo kot zadostno tukaj (drevo, ki je rezultat poskusa s parametrom ‡B 50, res vsebuje tudi položaje +3, ‡1 in ‡2 in celo ‡5, torej bi bilo tam optimalno drevo ‡5+3, kar potrjuje to do­mnevo). Ta domneva je tudi razlog, da za nadaljnje preizkušanje nismo uporabili okna ‡5+1, ki je sicer malenkostno izboljšalo natanËnost. 
MogoËe vpliva na druge klasifikatorje velikost okna drugaËe, tako da bi bilo smiselno izvesti po­skuse še za druge klasifikatorje, prav tako pa tudi za druge parametre klasifikatorja ADTree. 

4.4	 Vpliv oznaËevanja 
Rezultati postavljanja vejic so zelo uspešni, vendar vsebujejo problematiËno predpostavko: pri obliko­slovnem oznaËevanju in skladenjski razËlembi je bilo uporabljeno besedilo, ki je vsebovalo pravilno postavljene vejice. To pa seveda ni realna situacija, saj v primeru, da hoËemo v neko besedilo postaviti vejice, tega vnaprej seveda ne vemo. 
Zato je bil naslednji poskus ugotoviti, kaj se zgodi, Ëe oblikoslovni oznaËevalnik in skladenjski razËlenje­valnik nimata vejic v vhodnem besedilu. Iz korpusa so bile izbrisane vse vejice in korpus je bil ponovno oznaËen in pretvorjen v format ARFF. Ker pa je bil seveda povsod podatek, da ni vejice, je bilo treba iz datoteke ARFF za korpus z vejicami prenesti stolpec s podatki za vejico v datoteko ARFF korpusa brez ve­jic. Pri tem postopku je potrebna previdnost: nujno je treba preveriti, da se ujema število besed in se besede pokrivajo. Nekateri tipi napak v izvornem korpusu namreË naredijo težave pri brisanju vejic, tak primer je npr. manjkajoË presledek za vejico, pri Ëemer bri­sanje vejice potem zlepi besedi in povzroËi, da je v korpusu brez vejic ena beseda manj. Težava je tudi, 

Tabela 4:Šolar, MSD+skladnja, ‡5+5 
da tokenizator (rezalnik na besede) vËasih spreminja vezavo pike na predhodno besedo razliËno (npr. pri arabskem zapisu vrstilnih števnikov), Ëe je blizu veji­ca. Te primere je bilo treba v oznaËenem XML potem popraviti roËno, da so se besede ujemale. 

Ni vejice  je vejica  
Klasifikator  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
OznaËeno z vejicami  NaiveBayes  0,973  0,920  0,946  0,555  0,793  0,653  
RBFNetwork  0,956  0,949  0,953  0,616  0,652  0,634  
ADTree  0,950  0,983  0,966  0,815  0,588  0,683  
AdaBoostM1  0,950  0,964  0,957  0,675  0,594  0,632  
OznaËeno brez vejic  NaiveBayes  0,971  0,916  0,943  0,538  0,783  0,638  
RBFNetwork  0,955  0,943  0,949  0,588  0,647  0,616  
ADTree  0,943  0,982  0,962  0,787  0,526  0,630  
AdaBoostM1  0,940  0,957  0,948  0,595  0,510  0,550  
OznaËevalnik, nauËen  NaiveBayes  0,971  0,917  0,943  0,542  0,785  0,641  
brez vejic  RBFNetwork  0,954  0,947  0,951  0,601  0,639  0,619  
ADTree  0,947  0,982  0,964  0,794  0,563  0,659  
AdaBoostM1  0,947  0,976  0,961  0,745  0,566  0,643  
DecisionTable  0,954  0,989  0,971  0,873  0,617  0,723  

Tabela 4 pove, da so se rezultati ugotavljanja ve­jic v primeru, ko besedilo pri oznaËevanju ni imelo vejic, poslabšali (Ëeprav ne zelo izrazito, najveËja razlika je bila pri klasifikatorju AdaBoostM1), kar se sklada tudi s splošnimi ugotovitvami Hillarda idr. (2006), da pravilno postavljene vejice izboljšajo obli­koslovno oznaËevanje besedil. 
Preizkušeno pa je bilo še, ali lahko oznaËevanje (in s tem poslediËno doloËanje vejic) izboljšamo s tem, da lematizator, oblikoslovni oznaËevalnik in skla­denjski razËlenjevalnik nauËimo iz uËnega korpusa brez vejic (to sta uporabila že Shieber in Tao (2003)). V ta namen so bile v uËnem korpusu SSJ500k izbri­sane vse vejice (in povezave na vejice pri skladenjski razËlenitvi) in na novo nauËeni modeli za lematiza­tor, oblikoslovni oznaËevalnik in skladenjski razËle­njevalnik (ta postopek predvsem za oblikoslovni oznaËevalnik porabi veliko procesorskega Ëasa (dob­rih 20 ur), vendar ga je treba narediti le enkrat). Re­zultati so se izboljšali, niso pa dosegli primera, ko je bilo besedilo oznaËeno z vejicami, kar kaže na to, da so vejice pomembne za razdvoumljanje. Vseeno pa se je pokazalo, da je v primeru, ko je treba v besedilu dodati vse vejice, smiselno nauËiti oznaËevalnike z uËnim korpusom brez vejic. 
Tukaj je bil dodatno preizkušen še klasifikator De­cisionTable, ki je bil pri izbiranju klasifikatorjev zelo uspešen, vendar ni bil izbran za nadaljnje preizkuša­nje zaradi dolgotrajnosti preizkušanja. 



4.5	 Parametri klasifikatorja 
Klasifikator DecisionTable je sicer dosegel najboljši re­zultat, vendar je posamezni poskus trajal tri dni. Zato je bilo pri drugouvršËenem klasifikatorju ADTree (al­ternirajoËe odloËitveno drevo), ki je bil obËutno hitrej­ši, preizkušeno, kako vplivajo nanj parametri. 

Tabela 6:Šolar, 	aDTree, MSD+skladnja, -5+5, oznaËeno brez vejic 
Ni vejice je vejica 
Parametri NatanËnost Priklic F1 NatanËnost Priklic F1 
-B10 -E -3 0,943 0,982 0,962 0,787 0,526 0,630 
-B8-E-3 0,943 0,981 0,962 0,779 0,524 0,627 
-B6-E-3 0,943 0,981 0,962 0,779 0,524 0,626 
-B4-E-3 0,939 0,983 0,960 0,779 0,490 0,602 
-B2-E-3 0,940 0,978 0,958 0,735 0,499 0,549 
-B1-E-3 0,940 0,948 0,944 0,553 0,515 0,533 
-B12 -E -3 0,944 0,982 0,962 0,785 0,534 0,635 
-B15 -E -3 0,946 0,982 0,964 0,796 0,555 0,654 
-B20 -E -3 0,949 0,984 0,966 0,819 0,578 0,678 
-B30 -E -3 0,949 0,989 0,969 0,868 0,580 0,695 

­B50 	­E 	­3 0,954 0,987 0,971 0,861 0,622 0,723 
-B10 -E -2 0,938 0,986 0,961 0,808 0,480 0,603 
-B30 -E -2 0,945 0,989 0,967 0,865 0,541 0,666 

­B50 	­E 	­2 0,949 0,991 0,969 0,883 0,572 0,694 
-B50 -E -1 0,949 0,991 0,969 0,883 0,572 0,694 
Tabela 6 prikazuje spreminjanje rezultatov spre­Parametri ‡3, ‡2 in ‡1 povedo, na kakšen naËin minjanja parametrov. Parameter ­B pove število po­išËe klasifikator nova potencialna vozlišËa. Pri para­novitev dodajanj vozlišË pri gradnji drevesa in tako metru 3 preveri vse možnosti, pri ‡2 in ‡1 pa omeji poveËuje drevo, ki je rezultat uËenja, hkrati pa po­preiskovanje, kar pospeši iskanje, rezultat pa ni nuj­daljšuje Ëas, ki je potreben za izraËun. no optimalen (najboljše možno odloËitveno drevo za dano število vozlišË). 
Tabela 7:Šolar, 	aDTree, MSD+skladnja -5+5, oznaËeno brez vejic, oznaËevalnik, nauËen brez vejic 
Ni vejice je vejica 

Parametri NatanËnost Priklic F1 NatanËnost Priklic F1 
-B10 -E -3 0,947 0,982 0,964 0,794 0,563 0,659 
-B30 -E -3 0,953 0,988 0,970 0,865 0,612 0,717 

­B50 	­E 	­3 0,956 0,987 0,971 0,861 0,641 0,735 
Tabela 7 prikazuje rezultate za bolj realen primer, ko je oznaËeno besedilo brez vejic, oznaËevalnik pa je tudi nauËen brez vejic. Tudi tukaj veËanje drevesa izboljšuje rezultat, seveda pa zato preizkušanje traja dlje. Zadnji rezultat (s 101 listom v odloËitvenem dre­vesu) je najboljši doseženi rezultat, ki je presegel tudi rezultat s privzetimi parametri pri klasifikatorju De­cisionTable. V prihodnosti bi bilo smiselno preizku­siti razliËne parametre tudi pri drugih klasifikatorjih, da bi našli optimalno kombinacijo. 
Dodatna prednost klasifikatorja ADTree je, da iz­piše odloËitveno drevo, ki bi se ga dalo relativno pre­prosto uporabiti v drugih programih. 

: -1.039 | (1)je_vez1 = 1: 1.145 | (1)je_vez1 != 1: -0.335 | | (2)msd3 = *: -1.327 | | (2)msd3 != *: 0.092 | (3)lem1 = in: -1.407 | (3)lem1 != in: 0.058 | | (4)je_vez0 = 0: 0.075 |  |  |  (6)lem0 = biti: -1.09 |  |  |  (6)lem0 != biti: 0.087 |  |  |  |  (8)zac_modrega0 = 1: -0.526 |  |  |  |  (8)zac_modrega0 = 0: 0.092 |  |  |  (9)msd0 = Dm: -2.691 |  |  |  (9)msd0 != Dm: 0.021 |  |  |  |  (10)lem1 = kot: -1.264 |  |  |  |  (10)lem1 != kot: 0.026 | | (4)je_vez0 = 1: -1.14 | | (5)msd1 = Vd: 0.797 | | (5)msd1 != Vd: -0.102 | | (7)zac_modrega1 = 1: 0.419 | | (7)zac_modrega1 != 1: -0.134 Legend: -ve = ni-vejice, +ve = je-vejica 
Slika 4: OdloËitveno drevo za 	aDTree 	­B10 	­E 	­3 
Slika 4 prikazuje primer odloËitvenega drevesa pri ­B 10 (z 21 listi). Na verjetnost, da gre za vejico, najbolj vpliva podatek iz skladenjskega razËlenjeval­nika, da na naslednjo besedo kaže povezava .vez«. 
Zanimiv je vpliv msd3 z vrednostjo * (kar pomeni, da te besede ni), kar z drugimi besedami pomeni, da vejica tik pred koncem stavka ni posebno verjetna. V devetem volišËu je zanimiv mds0 Dm, torej predlog, ki zahteva vezavo z mestnikom, ki zmanjša verje­tnost, da je neposredno za njim vejica. 




5	 PRIMERjaVa	Z	DRUGIMI	REZULTaTI 
Najboljši pridobljeni rezultat je bilo na koncu treba primerjati s prejšnjimi rezultati, najprej z rezultati metod s pravili za slovenšËino, potem pa s statistiËni­mi metodami za druge jezike. 

5.1	 Primerjavaz metodami,ki uporabljajo pravila 
Oba programa za postavljanje vejic s pravili (Besana in LanguageTool), ki sta bila preizkušena v Holozan (2012), sta bila preizkušena še za primer, ko v besedi­lu manjkajo vse vejice, s Ëimer sta bila programa, ki sta sicer namenjena popravljanju napak pri vejicah, prisiljena postaviti vse vejice v besedilo. 
Postavilo se je vprašanje, kako obravnavati re­zultate Besane. Ta namreË poleg opozoril, kjer toËno postavi vejico, opozarja na manjkajoËo vejico tudi v primerih, ko sicer ugotovi, da vejica nekje manjka, ne zna je pa toËno postaviti. Ti primeri zahtevajo uporabnika, ki zna potem sam postaviti vejico na ustrezno mesto in niso primerni za samodejno po­stavljanje vejic, npr. pri razpoznavi govora. Zato ima Besana v tabeli dva rezultata, pri prvem so upošte­vane le vejice, ki jih Besana toËno postavi, pri dru­gem pa še tiste, za katere le ugotovi, da bi morala vejica nekje biti. 

Tabela 8:Šolar, vse vejice, 	aDTree(­B50 	­E 	­3) (oznaËeno brez vejic, oznaËevalnik, nauËen brez vejic) 
Ni vejice je vejica 
Klasifikator NatanËnost Priklic F1 NatanËnost Priklic F1 
ADTree 0,956 0,987 0,971 0,861 0,641 0,735 
LanguageTool 0,934 0,991 0,961 0,876 0,509 0,644 
Besana 0,953 0,991 0,971 0,888 0,572 0,696 
Besana+nekje 0,950 0,988 0,969 0,871 0,624 0,727 
Tabela 8 kaže, da je statistiËno postavljanje vejic 5.2	 Primerjavaz rezultati za druge jezike doseglo najboljši priklic in F1, vendar je natanËnost Rezultati samodejnega postavljanja vejic so zelo od­še vedno najvišja pri Besani, Ëeprav razlika ni velika. visni od jezika, kar so npr. pokazali Zhang idr. (2002), 
ki so preizkusili isti metodi na anglešËini in nemšËini. 

Tabela 9:Šolar, vse vejice, 	aDTree(­B50 	­E 	­3) (oznaËeno brez vejic, oznaËevalnik, nauËen brez vejic) 
jezik  Preizkus  je vejica  
NatanËnost  Priklic  F1  
AnglešËina  Beeferman idr. (1998), algoritem A  0,756  0,656  0,702  
AnglešËina  Beeferman idr. (1998), algoritem B  0,784  0,624  0,694  
AnglešËina  Zhang idr. (2002), Amalgam  0,744  0,676  0,709  
AnglešËina  Zhang idr. (2002), jezikovno modeliranje  0,782  0,624  0,694  
AnglešËina  Shieber in Tao (2003)  0,797  0,626  0,748  
AnglešËina  Israel idr. (2012)  0,858  0,663  0,748  
NemšËina  Zhang idr. (2002), Amalgam  0,854  0,875  0,865  
NemšËina  Zhang idr. (2002), jezikovno modeliranje  0,896  0,746  0,815  
BaskovšËina  Alegria idr. (2006)  0,696  0,486  0,572  
SlovenšËina  Ta Ëlanek  0,861  0,641  0,735  

Tabela 9 kaže, da je natanËnost pri slovenšËini po­ pek, ki je delno premešal primere tako, da je bila naj­ 
dobna kot pri nemšËini, priklic pa je slabši. Tudi naj­ prej izloËena vsaka peta poved, te izloËene povedi pa  
boljši rezultat za anglešËino (Israel idr., 2012) ima po­ so bile potem dodane na koncu.  
dobno natanËnost in priklic slovenskemu rezultatu.  Rezultat preizkušanja (stolpec, ki pove, katero sta­ 
nje vejice je izbral klasifikator) je bil potem poravnan  
6	 ISKaNjE	REaLNIH	NaPaK  s podatki o vejicah iz korpusa (pri Ëemer je bilo treba  
Dosedanji rezultati povedo, kako dobro postavijo  paziti, da se je poravnalo z zadnjimi primeri in ne s pr­ 
programi vejice v besedilo, v katerem ni na zaËetku  vimi), oboje je bilo sestavljeno v eno tabelo, potem pa  
nobenih vejic, kar je npr. uporabno pri razpozna­ prešteto, kolikokrat se je pojavila katera kombinacija.  
vi govora, ki ne zazna vejic. Vprašanje pa je, kako  
dobro se programi obnesejo pri popravljanju pravih  
napak, saj te niso nakljuËno razporejene, ampak do­ 1653-je-vejica je-vejic  
loËeni tipi vejic delajo piscem veË težav kot drugi. Za  694-je-vejica ni-vejic  
tak preizkus je treba dobiti korpus napak pri vejicah,  1453-manjka-vejica je-vejic  
kar je bilo mogoËe s korpusom Šolar. Vendar pa je  885-manjka-vejica ni-vejic  
primerov napaËnih vejic veliko manj kot vseh prime­ 575-ni-vejice je-vejic  
rov vejic, pa še štiri možna stanja so (ob je vejica in ni  36037-ni-vejice ni-vejic  
vejice še ni manjkajoËe vejice in je odveËna vejica) in je  197-prevec-vejica je-vejic  
zato vprašanje, ali bi bilo 11399 primerov manjkajo­ 337-prevec-vejica ni-vejic  
Ëe vejice in 2709 primerov odveËne vejice dovolj za  
uspešno uËenje, še veËji korpus primerov napak pri  Slika 5: Rezultat primerjave rezultatov preizkušanja s podatki iz korpusa  
vejicah pa bo težko dobiti.  
Zato je bil izbran drugaËen postopek: program  Slika 5 prikazuje tak (surov) rezultat za primer,  
WEKA nastavimo tako, da je prvih (izkljuËimo pri­ ko je bil korpus oznaËen z vsemi vejicami pravilno  
vzeto nakljuËno izbiranje) 80 odstotkov primerov  postavljenimi, spredaj je število primerov, drugi stol­ 
uËni korpus, zadnjih 20 odstotkov pa uporabimo kot  pec je stanje v korpusu in tretji stolpec je rezultat pre­ 
testni korpus, pri Ëemer se rezultat preizkušanja iz­ izkušanja klasifikatorja, torej je npr. v 1453 primerih,  
piše za vsak primer posebej. Ker so v korpusu Šolar  ko je vejica manjkala, klasifikator menil, da bi tam  
primeri sicer razporejeni po razredih in letnikih oz.  morala biti vejica, v 885 primerih pa, da tam ni vejice,  
vrstah šol, ne bi bilo v redu, Ëe bi vsi preizkusni pri­ po drugi strani pa je v 575 primerih postavil vejico,  
meri prišli iz istega letnika oz. šole (Holozan (2012)  kjer je ne bi smelo biti, natanËnost (kakšen delež do­ 
je pokazal, da so rezultati popravljanja vejic razliËni  danih vejic je pravilen) je tako 1453 / (1453 + 575) oz.  
glede na letnik oz. šolo), je bil najprej izveden posto­ 71,7 odstotka. 

Tak postopek je bil ponovljen za razliËne naËine oznaËevanja, ni pa bilo izvedeno desetkratno preËno preverjanje, ker bi bil ta postopek precej zapleten (in bi ga bilo treba prej bolj avtomatizirati, zdaj so bili ne­kateri koraki izvedeni roËno za vsak primer posebej). Samo 10 odstotkov primerov pri preizkušanju pa bi bilo morda tudi premalo, da bi lahko potem dovolj zanesljivo dobili rezultat pri primerjavi z napakami v korpusu, zato je bila izbrana razdelitev 80 : 20. Pre­izkušanje je bilo izvedeno le s klasifikatorjem ADTree s parametri (­B 14 ­E ­3), da ne bi trajalo predolgo. 

Tabela 10: Rezultat iskanja realnih napak, 	aDTree(­B14 	­E 	­3) 

Popravljanje manjkajoËih vejic  Popravljanje odveËnih vejic  
NaËin  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
OznaËeno z vsemi vejicami  0,717  0,622  0,666  0,327  0,631  0,431  
OznaËeno brez vejic  0,690  0,482  0,567  0,283  0,642  0,393  
OznaËeno brez vejic, oznaËevalnik brez vejic  0,676  0,545  0,603  0,298  0,633  0,406  
OznaËeno z vejicami v besedilu  0,675  0,491  0,568  0,293  0,564  0,385  
OznaËeno z vejicami v besedilu, oznaËevalnik  0,672  0,541  0,600  0,292  0,592  0,391  
brez vejic  
LanguageTool  0,812  0,442  0,572  /  /  /  
Besana  0,862  0,505  0,636  0,902  0,094  0,170  
Besana +nekje  0,876  0,702  0,779  0,902  0,094  0,170  

Tabela 10 prikazuje rezultat iskanja realnih na­pak in primerjavo z LanguageTool in Besano. Za­nimivo je, da je najboljši rezultat dosežen, Ëe pri oznaËevanju na vhodu izbrišemo vse vejice in po­tem uporabimo oznaËevanje, nauËeno brez vejic (Ëe seveda izvzamemo oznaËevanje, pri katerem so vse vejice postavljene pravilno, Ëesar seveda normalno nimamo). »e že postavljene vejice pri oznaËevanju pustimo v besedilu, je rezultat torej slabši, in sicer ne glede na to, ali je oznaËevalnik nauËen z vejicami ali brez njih. 
Zanimiv je tudi rezultat pri odkrivanju odveËnih vejic, pri Ëemer statistiËna metoda sicer doseže veliko boljši priklic (0,633 proti 0,094), vendar hkrati tudi ne­uporabno nizko natanËnost (0,298 proti 0,902) (tukaj bi bilo smiselno preizkusiti še idejo iz Israel idr. (2012), da ne upoštevamo le dejstva, da se je klasifikator od­loËil, da neke vejice ni, temveË tudi njegovo oceno te odloËitve, tako da vejico oznaËi kot odveËno le, Ëe ta ocena preseže doloËeno mejo). Tudi pri manjkajoËih vejicah je težava predvsem natanËnost, priklic je boljši od LanguageTool in Besane (razen Ëe pri Besani upo­števamo še opozorila, da nekje manjka vejica). 
Opozoriti je treba še, da je gostota napak v teh pri­merih velika, saj so bile preverjene le povedi, v kate­rih je bila bodisi kakšna odveËna bodisi manjkajoËa vejica. Zato bi bilo treba pripraviti boljši korpus na­pak, ki bi vkljuËeval tudi pravilne stavke, da bi dobili pravo natanËnost. Je pa natanËnost zelo odvisna od kakovosti vhodnega besedila, Ëe natanËnost preizku­šamo na besedilu, ki nima (ali skoraj nima) napak, bo natanËnost slabša, kot Ëe je napak veliko. 
Za anglešËino so Israel idr. (2012) dosegli na­tanËnost 0,849 pri priklicu 0,200 (F1 0,324), vendar je to rezultat za vse napaËne vejice, ni pa posameznih rezultatov za manjkajoËe oz. odveËne vejice. 




7	 SKLEP 
Poskusi so pokazali, da je postavljanje vejic z upo­rabo strojnega uËenja zelo uporabno v primeru, ko želimo poiskati vse vejice v besedilu. Za najboljši re­zultat je treba uporabiti oznaËevanje z oznaËevalniki, ki so bili nauËeni z uËnimi korpusi z odstranjenimi vejicami, uporabiti je treba skladenjsko razËlenjeva­nje, kot najbolj uporaben se je pokazal klasifikator ADTree (alternirajoËe odloËitveno drevo), njegova prednost je tudi preprosto odloËitveno drevo, ki bi se dalo hitro sprogramirati tudi v kakšnem programu. Rezultati se izboljšujejo z veËanjem drevesa, vendar hkrati narašËa potrebni Ëas za izraËun, najuspešnej­ši poskus je bil izveden z nastavitvami ­B 50 ­E 3 z oknom ‡5+5. Rezultat za slovenšËino je primerljiv z rezultati za druge jezike, dosežena je bila natanËnost 0,861, priklic 0,641 in F1 0,735. 

Glede na to, da program WEKA podpira veliko število klasifikatorjev, Ëisto vsi niso bili preizkušeni, pa tudi pri tistih, ki so bili, je odprtih še veliko mo­žnih poskusov s parametri klasifikatorjev. Problem je tudi Ëas, ki je potreben za izraËunavanje; pri klasi­fikatorju ADTree se je pokazalo, da veËanje drevesa izboljšuje rezultat, vendar zgornja meja ni bila do­sežena, ker postane preraËunavanje pri tako velikih drevesih prepoËasno (najboljši rezultat se je raËunal skoraj tri dni). Vsekakor je še veliko možnih kombi­nacij klasifikatorjev, parametrov, razliËnih atributov, oken, pri katerih bi bilo verjetno mogoËe doseËi še boljši rezultat. 
OdloËitveno drevo, ki je rezultat, bi se morda dalo uporabiti za izboljšavo postopkov postavljanja vejic s pravili, oznaËevanje besedila je sicer relativno zah­tevna operacija, kar bi lahko povzroËilo težave pri praktiËni uporabi (npr. kot slovniËni pregledovalnik v urejevalniku besedil). V ta namen bi bilo zato mor­da smiselno poskusiti zgraditi odloËitveno drevo s pomoËjo atributov, ki jih je laže dobiti, morda celo samo iz samih besed. 
Uspeh pri iskanju realnih napak je slabši kot pri iskanju vseh vejic. Rezultati s strojnim uËenjem ima­jo sicer dober priklic (0,545), vendar je natanËnost (0,676) slabša od Besane in LanguageTool. Še poseb­no pa je to oËitno pri popravljanju odveËnih vejic, Ëe­sar LanguageTool sploh ne opravlja, Besana pa ima tudi priklic le 0,094, vendar doseže natanËnost 0,902, medtem ko je statistiËno popravljanje doseglo priklic kar 0,633, vendar je natanËnost le 0,298. Zanimivo je, da je bil najboljši rezultat dosežen v primeru, ko so bile v besedilu pred oznaËevanjem izbrisane vse vejice (in je bil tudi oznaËevalnik nauËen brez vejic); tudi pravilne vejice so oznaËevanje motile, kar je pre­senetljiv rezultat. Se pa lahko ta rezultat spremeni, Ëe se bo poveËal delež pravilnih vejic v preizkusnem korpusu, zdaj so namreË v njem le povedi z napaËni­mi vejicami, zaradi tega je tudi natanËnost nerealno visoka. 
Naloga za prihodnost je razširiti dosedanji preiz­kusni korpus, pridobljen iz korpusa Šolar, še s pra­vilnimi povedmi iz korpusa Šolar, ki nastopajo ob 
• 

povedih z napakami, in potem ponoviti ta poskus. Smiselno bi bilo dodati še primere iz drugih virov, ki so dostopni pod licenco Creative Commons (npr. Wi­kipedije), in oznaËiti napaËne vejice in tako zgraditi in objaviti referenËni korpus za uËenje/popravljanje vejic, ki bi bil dostopen pod licenco Creative Com­mons, s Ëimer bi ga lahko za eksperimente uporablja­li tudi drugi, tako da bi bili rezultati bolj primerljivi. 


8	 VIRI	IN	LITERaTURa 
[1]	 Alegria,I., Arrieta,B.,de Ilarraza Sánchez,A.D., Izagirre,E.& Maritxalar, M. (2006). Using Machine Learning Techniques to Build a Comma Checker for Basque.VN. Calzolari, C. Cardie &P. Isabelle (ur.), ACL: The Association for Computer Lingu­istics. 
[2]	 Beeferman D., Berger A. & Lafferty J. (1998). Cyberpunc: A lightweight punctuation annotation system for speech. IEEE Conference on Acoustics, Speech and Signal Processing. Seattle,WA, USA. 
[3]	 Hardt, D. (2001). Comma checking in Danish. Paper presen­ted at Corpus Linguistics 2001 conference: Lancaster Univer­sity (UK), 266‡271. 
[4]	 Hillard, D., Huang, Z., Ji, H., Grishman, R., Hakkani-Tur, D., Harper, M., Ostendorf, M.,Wang,W. (2006). Impact of Auto­matic Comma Prediction on Pos/Name Tagging of Speech. V zborniku IEEE/ACL 2006 Workshop on Spoken Language Technology. 
[5]	 Holozan,P. (2012). Kako dobro programi popravljajo vejice v slovenšËini.V zborniku Jezikovne tehnologije: ZbornikC 15. mednarodne multikonference Informacijska družba IS 2012, 
8. do 12. oktober 2012, Erjavec,T., Žganec Gros, J.; Ljublja­na: Institut Jožef Stefan, okt. 2004, str. 101‡106. 
[6]	 
Huang, J. & Zweig, G. (2002). Maximum entropy model for punctuation annotation from speech.V J. H. L. Hansen& B. 

L. 
Pellom (ur.), INTERSPEECH:ISCA. 


[7]	 Israel R., Tetreault J. & Chodorow M. (2012). Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Text. 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Hu­man Language Technologies; Montreal, Canada, June 3‡8, 2012, str. 284‡294. 
[8]	 Shieber,S.M.&Tao,X. (2003). Comma restoration using con­stituency information.VProceedings of the 2003 Human Lan­guageTechnology Conference and Conference of the North American Chapter of the Association for Computational Lin­guistics. 
[9]	 Šek Mertük,P. (2011). Vejica premalo ali preveË pri študentih razrednega pouka. Revija za elementarno izobraževanje. Le­tnik 4, št. 1‡2. 123‡146. 
[10]	 Zhang, Z., Gamon, M., Corston-Oliver, S., Ringger, E. (2002). 
Intra-sentence punctuation insertion in natural language ge-neration.TehniËno poroËilo MSR-TR-2002-58. Microsoft Re­search. 

Peter Holozanje razvijalecv podjetju Amebis,d. o. o., Kamnikin raziskovalecv Amebisovem razvojnem centru. Magistriralje naFakulteti za raËunalništvoin informatiko Univerze v Ljubljani in je doktorski študent na Filozofski fakulteti Univerze v Ljubljani (slovenistika). Ukvarja se predvsemz jezikovnimi tehnologijami za slovenšËino, med drugim s Ërkovalniki, slovniËnim pregledovalnikom, strojnim prevajanjem, oblikoskladenjskim oznaËevanjem, korpusi (Fida, FidaPLUS) in slovarji (ASP32). 




Govorni in jezikovni viri slovenšËineza samodejno razpoznavanje tekoËega govora 
Gregor Donaj, Andrej Žgank, Mirjam Sepesy MauËec Univerzav Mariboru,Fakultetaza elektrotehniko, raËunalništvoininformatiko, Smetanovaul.17,2000 Maribor gregor.donaj@um.si, andrej.zgank@uni-mb.si, mirjam.sepesy@uni-mb.si 
IzvleËek 

Govorje za ljudi najbolj naravno komunikacijsko sredstvo. Govorno komunikacijos strojem omogoËajo sistemi za samodejno razpoznavanje govora. 
RazliËne aplikacije razpoznavanja govora so za stroj razliËno zahtevne. Med najzahtevnejše štejemo samodejno razpoznavanje tekoËega govora. 
Aplikacije razpoznavanja govora temeljijo na statistiËni obdelavi govornega signala ter gradnji akustiËnih in jezikovnih modelov. Za izdelavo teh 
modelovje pomembna uporaba kakovostnih govornihin jezikovnih virov.Vprispevku opisujemo govornein jezikovne vire za slovenšËino,ki se 
uporabljajo za samodejno razpoznavanje govora.Predstavimo tudi modularno zgradbo razpoznavalnika.Veksperimentalnem sistemu analiziramo 
vpliv uporabe modelovv razpoznavalniku tekoËega govorav domeni dnevnoinformativnih oddaj. 
KljuËne besede: govorni viri, jezikovni viri, akustiËni modeli, jezikovni modeli, samodejno razpoznavanje govora. 


Abstract 

Slovene Speech andLanguage Resources for 	automatic Speech Recognition 
Speech is the most natural way of communicating. Speech communication with machines is made possible with systems for automatic speech recognition. Different applicationsof speechrecognitionare differently challenging. Amongthe most challengingis continuous speechrecogniti­on. Speechrecognition systems are based on statistical speech signal processing and the building of acoustical and language models. Quality speechand languageresourcesare neededtobuildthese models.Thispapergivesan overviewofspeechand languageresourcesfor Slovene, which are usedin automatic speechrecognition.Amodular structureofa speechrecognizeris alsopresented.In an experimental system the impactof using different models on the accuracyinaBroadcast News speechrecognition systemis analyzed. Key words: speechresources, languageresources, acoustical models, language models, automatic speechrecognition. 
1	 UVOD lirajo akustiËne znaËilnosti govora. Ti modeli služijo prepo­Govor kot Ëlovekovo najbolj naravno komunikacijsko sred­znavanju fonemov in besed. Razpoznavanje tekoËega govora stvo pomeni za stroj zelo kompleksno nalogo. Razpoznavanje pa pomeni še veËjo zahtevnost za akustiËno modeliranje, saj tekoËega govora in razpoznavanje spontanega govora sta za je treba upoštevati tudi prehode med besedami, ker so v te­raziskovalce polna izzivov.Posebnosti posameznih jezikov koËem govoru zabrisanemejemed besedami. Dodatnosopri razpoznavanje govoraše dodatno zapletejo.Tudi slovenšËina razpoznavanju tekoËega govora velikega pomena statistiËni kot visoko pregibni jezik spada v skupino bolj zahtevnih jezi­jezikovni modeli. Z njimi modeliramo verjetnosti zaporedij kovza razpoznavanje. besedvjeziku.Pri izdelavi jezikovnih modelovse pogostopo­Poznamo razliËne pristope samodejnega razpoznavanja govo­služujemo pisnih virov jezika.PoslediËno so jezikovni modeli ra(angl.automaticSpeech Recognition,aSR).Med prepro­bolj primerniza razpoznavanje branega govora,manjpaza stejše štejemo razpoznavanje izoliranih besed z majhnim razpoznavanju spontanega govora (Žgank&Sepesy MauËec, slovarjem, med zahtevnejše pa razpoznavanje tekoËega go­2010). voraz velikim slovarjem (Sepesy MauËec, Rotovnik, KaËiË& Tako za izdelavo akustiËnih kot jezikovnih mode­Brest, 2009). Za obe aplikaciji je pomembno, da imamo izde­lov so pomembni kakovostni in dovolj obsežni go­lane dobre modele govora.Vprimeru razpoznavanja izolira­vorni oz. pisni viri jezika. V Ëlanku bomo predstavili nih besed so predvsem pomembni akustiËni modeli, ki mode­nekatere takšne vire, ki so na voljo za slovenski jezik. 
Njihovo uporabnost bomo predstavili na primeru razpoznavalnika tekoËega govora UMB Broadcast News, ki je bil razvit na Fakulteti za elektrotehniko, raËunalništvo in informatiko v Mariboru. 
V drugem razdelku bomo predstavili osnovno zgradbo in module sistema za ASR. V tretjem razdel­ku bomo opisali posebnosti slovenšËine, zaradi ka­terih je ta za razpoznavanje govora veËji izziv. Sledi opis osnovnih govornih in jezikovnih virov za slo­venšËino, ki so uporabni za gradnjo sistemov ASR. V Ëetrtem razdelku je opisan eksperimentalni sistem, v petem razdelku pa rezultati eksperimentov. V šestem razdelku sledi sklep. 

2	 SaMODEjNORaZPOZNaVaNjEGOVORa 
Delovanje sistemov za samodejno razpoznavanje go­vora delimo na dve fazi. Prva faza je uËenje jezikov­nih in akustiËnih modelov. Blokovna shema uËenja modelov je prikazana na sliki 1. KonËni rezultat te faze so akustiËni in jezikovni model ter slovar besed. 

Slika 1: Postopek uËenja akustiËnih in jezikovnih modelov 

Slika 2: Delovanje razpoznavanja govora 
Druga faza je razpoznavanje. Njena blokovna du pa posreduje razpoznano zaporedje besed. Sistem shema je prikazana na sliki 2. Sistem za razpoznava­ima modularno zgradbo, module pa lahko razdeli­nje govora na vhodu sprejme zvoËni signal, na izho­mo v dve skupini: na module za predprocesiranje govora in module za razpoznavanje govora. Vhod­ni zvoËni signal najprej obdela modul za akustiËno segmentacijo, ki zvoËni signal razdeli na akustiËno homogene dele. Modul za akustiËno analizo izlušËi informacijo v govoru in jo predstavi z vektorjem akustiËnih znaËilk. Postopek izloËanja znaËilk mora biti popolnoma enak kot pri uËenju akustiËnih mo­delov. Niz vektorjev znaËilk je vhodni podatek iskal­nega algoritma, ki poišËe najbolj verjetno zaporedje izgovorjenih besed. Pri tem uporablja informacijo iz akustiËnih in jezikovnih modelov. AkustiËni modeli opisujejo akustiËne lastnosti govora na ravni fone­mov, jezikovni modeli pa jezikovne lastnosti govora na ravni besed. Oboji, tako akustiËni kot jezikovni modeli, temeljijo na statistiËnem procesiranju govora oz. jezika. Razpoznavanje na razvojni množici pote­ka z namenom iskanja optimalnih parametrov raz­poznavanja ‡ uteži akustiËnih in jezikovnih modelov. KonËni rezultat uspešnosti razpoznavanja dobimo na testni množici, pri Ëemer uporabimo optimizirane vrednosti parametrov. 
2.1	 akustiËni modeli 
AkustiËni modeli so kljuËni gradnik samodejne­ga razpoznavalnika govora s stališËa procesiranja govornega signala. Njihova naloga je modelirati akustiËno­fonetiËne lastnosti govora, pri tem pa v primeru razpoznavanja govora neodvisnega go­vorca uspešno zmanjšati razlike med posamezni­mi govorci. Osnovna enota akustiËnih modelov je obiËajno fonem, ki ga zaradi modeliranja uËinka ko­artikulacije modeliramo v širšem kontekstu predho­dnega in naslednjega fonema. Takšen akustiËni mo­del poimenujemo trifon. Na trifon lahko gledamo kot na posplošitev pojma alofon. Alofoni so razliËne možne izgovorjave nekega fonema glede na njegov kontekst. Za vsak fonem imamo obiËajno le majhno množico alofonov. Definicija trifona pa zajema vse možne kombinacije treh zaporednih fonemov (za N fonemov pomeni to N3 trifonov). Medtem ko de­finicija alofona izhaja iz fonologije, pa trifone uva­jamo v obdelavi govora zaradi zveznih sprememb vokalnega trakta, ki nastopijo pri prehodu iz izgo­varjave enega fonema na naslednjega in se odraža­jo v akustiËnem signalu govora ob tem prehodu. Primer fonetiËne in grafemske oblike vnosa besede .avtomatskega« v slovarju razpoznavalnika govora je prikazan v tabeli 1. 
Tabela 1:Primer fonetiËnein grafemske oblike vnosav slovar razpoznavalnika govora 
Beseda  Kategorija transkripcije  Transkripcija  
avtomatskega  MRPAfonemi  a UtOm “a: ts kEga  
avtomatskega  Grafemi  a v to m a ts ke ga  

Za akustiËno modeliranje pri ASR se uporabljajo razliËni pristopi (Aubert, 2002), najpogostejši so pri­kriti modeli Markova (angl. Hidden Markov Model, HMM), uteženi konËni pretvorniki (angl. Weighted Finite State Transducer, WFST) in nevronske mreže (angl. Artificial Neural Network, ANN). V predstav­ljenem eksperimentu smo uporabljali tristanjske le­vo­desne prikrite modele Markova z zveznimi Gaus­sovimi porazdelitvenimi funkcijami verjetnosti. Za slovenski jezik je pretvorba med grafemi in fonemi netrivialen proces, ki lahko k rezultatom razpozna­vanja govora vnese dodatno napako. 


2.2	jezikovni modeliin slovarji 
Pri razpoznavanju govora so meje med besedami zabrisane, saj v tekoËem govoru med besedami ni premorov. Za doloËanje zaporedja besed so najprej uporabljali deterministiËne besedne mreže, ki so jih nasledili jezikovni modeli, temeljeËi na pravilih slovnice jezika. Sestavljanje slovniËnih pravil, ki bi pokrila jezik kot celoto, je zelo zahtevna naloga, ki zahteva poglobljeno znanje o jeziku. Po drugi stra­ni pa imamo v spontano govorjenem jeziku veliko slovniËno nepravilnih zaporedij. Ideja jezikovnega modela je doloËiti verjetnost poljubnemu zaporedju besed. Jezikovni model lahko obravnavamo tudi kot model, ki v procesu razpoznavanja napoveduje naj­bolj verjetno naslednjo besedo. Za jezikovni model velja tudi to, da verjetnost zaporedja besed ni nikoli enaka niË, kar je še posebno dobrodošlo pri razpo­znavanju spontanega govora. V praksi so se najbolj uveljavili statistiËni n­gramski jezikovni modeli, ki verjetnost poljubnega zaporedja besed izraËunajo s sestavljanjem verjetnosti n­gramov. V jezikovnih modelih oznaËuje n­gram zaporedje n besed, n pa doloËa red n­grama. Najpogostejši so bigrami (2­gra­mi) in trigrami (3­grami), zasledimo pa tudi uporabo jezikovnih modelov do reda 5 (tj. 5­gramov). Smi­selnost uporabe jezikovnih modelov višjih redov je povezana z velikostjo uËnega korpusa, tj. besedila, v katerem štejemo modelirane n­grame. Da je verjet­nost poljubnega zaporedja besed vedno veËja od 0, zagotavljajo metode glajenja verjetnosti (Chen & Go­odman, 1999), ko doloËeno, resda majhno, verjetnost pripišejo tudi n­gramom, ki se nikoli ne pojavijo v uËnem korpusu. Preliminarne raziskave so pokazale, da je za modeliranje slovenskega jezika najuËinkovi­tejše glajenje, ki temelji na Good­Turingovem glaje­nju (Good, 1953) in sestopanju po Katzu (1987). 

Jezikovni modeli opisujejo verjetnostne lastnosti n­gramov besed. Katere besede vsebujejo n­grami, doloËa slovar. Vse besede zunaj slovarja se preslikajo v simbol OOV (angl. Out­Of­Vocabulary). To pome­ni, da bo beseda, ki ni v slovarju, napaËno razpozna­na. NapaËno razpoznana beseda pa vpliva tudi na razpoznavanje besed, ki ji sledijo, saj predstavlja nji­hov kontekst. Pomembna je tudi velikost slovarja, saj je z velikostjo neposredno povezana kompleksnost razpoznavalnika in s kompleksnostjo tudi hitrost razpoznavanja. V sistemih razpoznavanja visoko pregibnih jezikov so neizogibni veliki slovarji, razen Ëe je razpoznavanje omejeno na zelo specifiËno do­meno (npr. razpoznavanje vremenske napovedi). 
Beseda je praviloma osnovna enota v slovarju. Za modeliranje pregibnih jezikov so bile izvedene številne raziskave uporabe manjših osnovnih enot (morfemov, osnov in konËnic besed ipd.), ki pa se niso izkazale kot bistveno boljše, saj je napovedna moË jezikovnih modelov s prehodom na manjše osnovne enote oslabljena (Sepesy MauËec idr., 2009). 

2.3	 Iskalni algoritmi 
Naloga razpoznavalnika govora je poiskati najbolj verjetni niz besed za zajeti vhodni govor. Iskanje izvedemo s pomoËjo iskalnih algoritmov (Aubert, 2002). Pri iskanju najbolj verjetnega zaporedja besed ni moË pregledati celotnega iskalnega prostora, ga pa omejujemo z razliËnimi hevristiËnimi metoda­mi. Razlikujemo statiËno omejevanje (npr. drevesna predstavitev slovarja) in dinamiËno omejevanje is­kalnega prostora (npr. snopovno omejevanje, pogled naprej v jezikovni model ipd). Same iskalne algorit­me delimo na Ëasovno sinhrone in asinhrone glede na to, ali hipoteze v iskalnem prostoru ocenjujemo vzporedno od zaËetka do konca govornega segmen­ta ali pa vse ocenjujemo ob koncu segmentov. 
Poznamo tudi dvoprehodne algoritme (Lee, Ka­wahara & Doshita, 1998), ki predstavljajo eno od me­tod za izboljšanje hitrosti delovanja algoritmov. Pri teh algoritmih najprej uporabimo samo doloËene je­zikovne vire za samodejno razpoznavanje segmenta govora. To imenujemo prvi prehod. Kot njegov re­zultat dobimo ali seznam najboljših hipotez (obiËaj­no od 100 do 1000) ali pa besedno mrežo. V drugem prehodu nato uporabimo vse razpoložljive vire in modele za ocenjevanje hipotez v seznamu oz. mreži. 

2.4	 Vrednotenje uspešnosti razpoznavalnika 
Predlagane metode in algoritme na podroËju ASR najpogosteje vrednotimo posredno z uporabo rezul­tatov razpoznavanja govora. Vrednotenje praviloma izvajamo z loËenim testnim naborom posnetkov, ki je sicer po svojih lastnostih podoben uËnemu setu, ven­dar ni bil uporabljen nikjer v postopku uËenja aku­stiËnih modelov. Tako je eden izmed kljuËnih vidi­kov uËenja akustiËnih modelov skrb, da ne pride do efekta .prenauËenja«, s Ëimer bi se zmanjšala njihova splošnost, nujno potrebna za uspešno vrednotenje. 
Pri vrednotenju rezultatov ASR je treba upošteva­ti tako delež pravilno razpoznanih besed, kot tudi ti­ste besede, ki so bile vrinjene. Tako lahko definiramo pravilnost razpoznanih besed (ACC) kot: 
H ‡I
ACC = 100 % 
N 

pri Ëemer je H število vseh pravilno razpoznanih be­sed, I število vrinjenih besed in N število vseh besed v testni množici. 


3	 RaZPOZNaVaNjE	SLOVENSKEGajEZIKa 
Za jezikovno modeliranje je skoraj idealna anglešËi­na. Ima malo besednih oblik in vnaprej doloËen vrst­ni red besed v povedih. SlovenšËina je za razpozna­vanje eden od zahtevnejših jezikov. Težave povzroËa predvsem bogato pregibanje besed in relativno spro­šËen vrstni red, izrazit predvsem v spontanem govo­ru. Bogato pregibanje besed se odraža na velikosti slovarja. Za zadovoljivo pokritost besedišËa mora slovar vsebovati veË kot 200.000 besed, saj pomeni vsaka besedna oblika nov vnos v slovar. Po drugi strani je za uËenje jezikovnega modela s tako velikim slovarjem potreben veËji uËni korpus, saj imamo pri majhnih korpusih težave zaradi prevelike razpršeno­sti podatkov. Velikost uËnega korpusa danes ni veË tako pereËa, saj obstajajo zelo obsežne besedilne zbir­ke (Arhar & Gorjanc, 2007). Opozoriti pa velja, da so to zbirke pisanega jezika, ki ne odražajo znaËilnosti govorjenega jezika. 
Razpršenost podatkov lahko zmanjšamo z lema­tizacijo. Lematizacija je doloËanje osnovne slovarske oblike posameznim besedam v korpusu. Slovarski obliki pravimo lema. Slovar lem je v primerjavi s slovarjem besednih oblik nekajkrat manjši. Seveda pa jezikovnega modela besednih oblik ne moremo preprosto zamenjati z jezikovnim modelom lem, saj je za razpoznavalnik pomembna besedna oblika in ne zgolj lema. Uveljavilo se je modeliranje, ki razen lem modelira tudi t. i. oblikovno skladenjske oznake (angl. Morpho­Syntactic Description tags ‡ MSD), ki Ëe so pripete lemi, enoliËno doloËajo besedno obliko. Ker se izbrana lema lahko pojavi v mnogo razliËnih besednih oblikah, je število razliËnih MSD oznak za slovenski jezik nekajkrat veËje kot za angleški jezik. 
3.1	 Govorni viri 
Govorni in jezikovni viri so kljuËni pogoj za razvoj samodejnega razpoznavalnika govora. Pri tem je bistvenega pomena jezikovna odvisnost virov, saj v normalnih scenarijih razvoja samodejnega razpozna­valnika govora ne moremo uporabljati virov druge­ga jezika. Izdelava novega vira je Ëasovno, stroškov­no in organizacijsko zelo zahteven proces, saj je treba roËno izdelati transkripcije (prepise) z dobesednim zapisom izgovorjenega, oznaËiti govorce, meje med segmenti, akustiËno ozadje itn. V povpreËju je treba za izdelavo ure transkribirane govorne baze opraviti približno trideset ur dela. Navedene omejitve pri iz­gradnji govornih virov so še posebno izrazite pri jezi­kih z manjšim številom govorcev, pri Ëemer je manjši tudi komercialni interes. Zaradi specifiËnih lastnosti jezikov virov ne moremo neposredno primerjati med seboj, temveË je treba pri primerjavi upoštevati jezi­kovno specifiËno komponento. 
Slovenski jezik spada v skupino jezikov z izde­lanimi osnovnimi viri za gradnjo samodejnih raz­poznavalnikov govora (KaËiË, 2002; Žganec Gros, MiheliË & Dobrišek, 2003). ZaËetki razvoja govornih virov za slovenski jezik segajo v devetdeseta leta prejšnjega stoletja. Prvi slovenski govorni viri so spa­dali v kategorijo razpoznavanja izoliranih in vezanih besed v telefonskem ali studijskem okolju. Na Fakul­teti za elektrotehniko, raËunalništvo in informatiko Univerze v Mariboru so bile tako razvite govorne baze SNABI, Slovenian 1000 FDB SpeechDat(II) (KaËiË & Kaiser, 1998) in Polidat (Žgank, KaËiË & Horvat, 2002). S stališËa razvoja samodejnih razpo­znavalnikov govora sta še posebno pomembni bazi SpeechDat(II) in Polidat, saj spadata v družino med­narodnih standardiziranih govornih baz, ki omo­goËajo razvoj govorno vodenih telekomunikacijskih storitev. Na Fakulteti za elektrotehnoiko Univerze v Ljubljani je bila za razvoj samodejnih razpoznaval­nikov govora razvita baza Gopolis (MiheliË, Žganec Gros, Dobrišek, Žibert & PavešiE, 2003), ki je bila v kombinaciji z dodatnima bazama uporabljena za razvoj razpoznavalnika govora za omejeno domeno (Dobrišek, Vesnicer, Žganec Gros & MiheliË, 2006). 
S stališËa ASR je bistveno kompleksnejši problem razpoznavanje tekoËega govora neodvisnega govor­ca z velikim slovarjem besed. Prva slovenska govor­na baza, ki je podpirala to kategorijo govora, je bila baza Slovenian BNSI Broadcast News (Žgank, Ver­donik, Zögling Markuš & KaËiË, 2005), razvita leta 2005 v sodelovanju med Fakulteto za elektrotehniko, raËunalništvo in informatiko Univerze v Mariboru in RTV Slovenija. Govorna baza je dostopna prek mednarodne organizacije ELRA/ELDA. Namenjena je samodejnemu razpoznavanju tekoËega slovenske­ga govora v razliËnih televizijskih oddajah. To bazo smo uporabili tudi v okviru eksperimentov, predsta­vljenih v tem Ëlanku. Na Fakulteti za elektrotehniko Univerze v Ljubljani je bila razvita baza SiBN Bro­adcast News (Žibert & MiheliË, 2004), ki je prav tako namenjena razpoznavanju tekoËega govora v tele­vizijskih oddajah. V okviru sodelovanja med Fakul­teto za elektrotehniko, raËunalništvo in informatiko Univerze v Mariboru in državnim zborom Republike Slovenije je bila razvita govora baza SloParl (Žgank, Rotovnik, GrašiË, Kos, Vlaj & KaËiË, 2006), ki vsebuje posnetke sej državnega zbora. Baza obsega sto ur go­vora in je tako trenutno najobsežnejši govorni vir za slovenski jezik. Od preostalih slovenskih govornih baz se loËi po transkripcijah govora, saj so bile tran­skripcije narejene na podlagi magnetogramov in ne vsebujejo dobesednega zapisa izgovorjenega. Takšno govorno bazo uporabljamo v posebnih postopkih uËenja akustiËnih modelov, pri Ëemer upoštevamo prisotnost napak v uËnih transkripcijah. 
Govorni bazi Slovenian BNSI Broadcast News in SloParl vsebujeta tudi besedilni korpus za uËenje jezikovnih modelov samodejnega razpoznavalnika govora. Oba besedilna korpusa sta po svojih znaËil­nostih identiËna govoru v govorni bazi. Tako lahko besedilna korpusa uporabljamo za izdelavo interpo­liranih jezikovnih modelov, ki uspešno modelirajo tudi znaËilnosti govorjenega jezika. Jezikovni modeli so zaradi potrebe po dovolj velikem uËnem vzorcu (reda 100 M besed) obiËajno izdelani na besedilnih korpusih pisanega jezika (Ëasopisi, knjige, splet), ki po svojih znaËilnostih bistveno odstopa od govorje­nega jezika. 

Slovenski govorni viri sicer pokrivajo osnovna podroËja razvoja samodejnih razpoznavalnikov go­vora, vendar je obseg razpoložljivih slovenskih go­vornih virov manjši v primerjavi z jeziki z veËjim številom govorcev (anglešËina, nemšËina, španšËi­na, kitajšËina). Hkrati pa je slovenski jezik zaradi svojih znaËilnosti za ASR bistveno kompleksnejši problem. Glavni znaËilnosti slovenšËine, ki otežita razpoznavanje govora, sta visoka pregibnost in re­lativno prosti vrstni red besed v stavku. Glede na izvedene analize bi tako za slovenski jezik potrebo­vali vsaj desetkrat veËje govorne vire kot za angleški jezik (Rotovnik, Sepesy MauËec & KaËiË, 2007). »e je stanje na podroËju osnovnih slovenskih govornih virov zadovoljivo, pa za slovenski jezik ne obstajajo bolj specifiËni govorni viri, ki jih poznamo za jezike z veËjim številom govorcev. V to kategorijo spadajo npr. govorni viri, posneti v avtomobilu ali na motor­ju, govorni viri, posneti v razliËnih šumnih okoljih, govorni viri, posneti na sestankih, govorni viri, po­sneti v inteligentnem okolju itn. 
V predstavljenih eksperimentih smo uporabili govorno bazo Slovenian BNSI Broadcast News. Baza vsebuje transkribirane posnetke 42 dnevnoinforma­tivnih oddaj RTV Slovenija (TV Dnevnik, Odmevi) iz obdobja 1999‡2003. Kot uËni korpus uporabljamo trideset ur posnetkov, tri ure so namenjene razvojne­mu testiranju ter tri ure vrednotenju. Posnetki vsebu­jejo 1565 razliËnih govorcev, od tega 1069 moških in 477 žensk. Za 19 govorcev ni bilo mogoËe zanesljivo doloËiti spola zaradi znaËilnosti akustiËnega kanala (kratki odseki, prekrivajoËi se govori). Za vsakega govorca je bilo ustrezno doloËeno njegovo nareËje. V transkripcijah so ustrezno oznaËene akustiËne la­stnosti (studio/telefon, akustiËno ozadje) posnetkov ter lastnosti govora in govorcev (brani/spontani govor, prekrivanje govorcev, tuji govorci). Na pod­lagi teh lastnosti so segmenti razdeljeni v ustrezne .f­kategorije«. Glede na vsebino prispevka so bili posnetki razdeljeni v petnajst razliËnih topikov, s po­moËjo katerih je mogoËe omejiti domeno samodejne­ga razpoznavalnika govora in tako izboljšati rezul­tate. V transkripcijah baze BNSI je 268.000 besed, od tega 37.000 razliËnih. 

3.2	jezikovni viri 
Za izdelavo jezikovnih modelov potrebujemo dovolj velike korpuse jezika, ki nam služijo kot uËna mno­žica. Prvi obsežen korpus slovenskega jezika je bil korpus FIDA, ki se je kasneje nadgradil v korpus Fi­daPLUS (Arhar & Gorjanc, 2007), ki ga tudi uporab­ljamo za gradnjo jezikovnih modelov v razpozna­valniku UMB Broadcast News. FidaPLUS je najveËji korpus, ki nam je trenutno na voljo. Vsebuje pribli­žno 621 milijonov besed. NajveËji delež besedil gle­de na zvrst predstavljajo neumetnostna nestrokovna besedila. Glede na tip prevladujeta Ëasopisno in revi­jalno gradivo. Podrobnejše podatke o sestavljenosti korpusa lahko najdemo v Arhar & Gorjanc (2007). Besede v korpusu so tudi samodejno oznaËene s pri­padajoËimi lemami in oznakami MSD. 
Korpus FidaPLUS je bil kasneje nadgrajen še v korpus Gigafida (Arhar Holdt, Kosem & Logar Ber­ginc, 2012), ki nam trenutno še ni na voljo. Ta korpus vsebuje približno 1,1 milijarde besed, ki so prav tako oznaËene z lemami in oznakami MSD. 
Za razpoznavanje govora so se poleg osnovnih besednih oblik izkazale kot uporabne tudi dodatne jezikovne informacije. Za slovenski jezik so tukaj lah­ko uporabne besedne leme in oznake MSD. Da jih lahko uporabimo v razpoznavanju govora, potrebu­jemo jezikovne vire s Ëim bolj natanËnimi oznakami in pomoË oznaËevalnika med samim postopkom raz­poznavanja. 
Ker vsako samodejno oznaËevanje korpusov z oznakami MSD vnaša napake, je smiselno uporabiti korpuse, ki so bili oznaËeni ali vsaj pregledani roËno. Tak korpus je npr. jos100k (Erjavec & Krek, 2008), ki je nastal v okviru projekta Jezikovno oznaËevanje slovenšËine (JOS). Korpus je bil kasneje v projektu Sporazumevanje v slovenskem jeziku (SSJ) razširjen v korpus ssj500k (Arhar, 2009). Ta vsebuje približno 
500.000 besed, oznaËenih z oznakami MSD, ki so pre­gledane roËno. 
Ta korpus je sicer veliko manjši od korpusa Fida­PLUS, vendar je kljub temu uporaben za izdelovanje statistiËnih modelov oznak MSD. Medtem ko slovar­ji besed lahko vsebujejo do veË sto tisoË enot, lahko vsebujejo slovarji oznak MSD le nekaj sto do nekaj ti­soË enot, odvisno od kompleksnosti oznak. V okvirju projekta JOS so bila definirana tudi pravila za obliko oznak MSD. Po sistemu JOS poznamo skupaj 1.903 razliËnih oznak MSD. Število teh oznak lahko zmanj­šamo s poenostavljanjem. Tako lahko iz oznak izpu­šËamo podatke, ki so manj pomembni za razpozna­vanje. Zaradi veliko manjšega števila razliËnih enot v slovarju je treba za gradnjo statistiËnega modela oceniti bistveno manj parametrov. Zato za gradnjo modelov oznak MSD ni potrebna tako velika uËna množica kot pri modelih besed. 
Prav tako je v okviru projekta SSJ nastal obli­koskladenjski oznaËevalnik in lematizator Obeliks (GrËar, Krek & Dobrovoljc, 2012). OznaËevalnik prav tako potrebuje statistiËne modele, ki so nauËeni na neki uËni množici. OznaËevalnik pripisuje besedam leme in oznake MSD po sistemu JOS. 



4	 EKSPERIMENTaLNI	SISTEM 
Vsi predstavljeni eksperimenti so bili izvedeni na razpoznavalniku tekoËega govora UMB Broadcast News (Žgank & Sepesy MauËec, 2010). Trenutno v njem uporabljamo dvoprehodni algoritem razpozna­vanja. Za uËenje akustiËnih modelov in razpoznava­nje v prvem prehodu smo uporabljali orodja iz zbir­ke HTK (Young, Jansen, Odell, Ollason & Woodland, 1996), za gradnjo slovarjev, jezikovnih modelov in razpoznavanje v drugem prehodu pa orodja iz zbir­ke SRILM (Stolcke, Zheng, Wang & Abrash, 2011). 
Prvi korak v postopku akustiËnega modeliranja je izloËanje znaËilk iz govornega signala. Vhodni si­gnal s funkcijo okna dolžine 25 ms, ki ga premikamo s koraki10 ms, razdelimo na kratkoËasovne vzorce. Po izvedbi predpoudarjanja izraËunamo 12 mel­kepstral­nih koeficientov in energijo ter njihove prve in druge odvode. KonËni vektor znaËilk ima tako 39 elementov. 
Postopek uËenja akustiËnih modelov poteka v treh korakih, pri Ëemer se postopoma izboljšuje ka­kovost akustiËnih modelov. Kot osnovno akustiËno enoto smo uporabili grafeme, saj so predhodne ana­lize pokazale, da je tako mogoËe uËiti kakovostne akustiËne modele (Žgank & Sepesy MauËec, 2010). V nadaljevanju bomo za akustiËne modele uporabljali poimenovanje fonem in trifon, kljub temu da je bila osnovna akustiËna enota grafem. V uËnem setu smo uporabili 24 oddaj. V prvem koraku izvedemo ini­cializacijo parametrov akustiËnih modelov z global­nimi vrednostmi. Temu sledi veË ponovitev uËnega Baum­Welchevega algoritma. S tako nauËenimi aku­stiËnimi modeli izvedemo prisilno poravnavo tran­skripcij, s katero se izboljša njihova kakovost. Sledi drugi korak s ponovim uËenjem akustiËnih modelov od zaËetka, vendar tokrat z izboljšanimi transkrip­cijami. Inicializacija vrednosti parametrov prikritih modelov Markova se tokrat izvrši loËeno za vsak fo­nem posebej. 
AkustiËni modeli, nauËeni v drugem koraku, slu­žijo za izhodišËe tretjega koraka, v katerem se najprej tvorijo kontekstno odvisni akustiËni modeli ‡ trifoni, pri katerih upoštevamo predhodni in naslednji fo­nem. PoslediËno zelo naraste število prostih parame­trov akustiËnih modelov, ki jih je treba oceniti med postopkom uËenja. Zato uporabimo postopek zdru­ževanja z odloËitvenim drevesom, pri Ëemer na pod­lagi podatkovne metrike združimo stanja oz. celotne modele, ki so med seboj dovolj podobni. OdloËitveno drevo zgradimo na podlagi fonetiËnih razredov, ki so bili v predstavljenem eksperimentu tvorjeni s podat­kovno vodeno metodo na podlagi matrike zamenjav fonemov. AkustiËni modeli, združeni z odloËitvenim drevesom, so bili izhodišËe za zadnji korak uËenja, v katerem se je število Gaussovih porazdelitvenih funkcij verjetnosti korakoma poveËalo do 16 na sta­nje. Takšni akustiËni modeli so bili uporabljeni za vrednotenje samodejnega razpoznavalnika govora. 
Pred razpoznavanjem govora smo zgradili vrsto je­zikovnih modelov, ki smo jih primerjali glede na uspe­šnost v razpoznavalniku. Tako smo najprej definirali razliËne velikosti slovarjev od 60.000 (60 k) do 300.000 (300 k) besed. Preizkušali smo dva naËina gradnje slo­varjev. V prvem naËinu (FP) smo slovar gradili tako, da smo mu dodajali besede v vrstnem redu, ki ga je doloËala njihova pogostost v korpusu FidaPLUS. Ko smo dosegli želeno velikost slovarja, smo v slovar do­dali še vse besede, ki so se pojavile z enako frekvenco kot nazadnje dodana beseda. V drugem naËinu grad­nje slovarja (BNSI+FP) smo najprej v slovar vkljuËili vse besede iz govorne uËne množice BNSI, nato smo dodajali besede iz besedilnega korpusa BNSI (iNews) in nazadnje besede iz korpusa FidaPLUS. 
Pred gradnjo jezikovnih modelov smo pogledali deleže besed zunaj slovarja, ki se pojavijo na testni množici BNSI glede na oba naËina gradnje slovarja. Po pregledu rezultatov smo se odloËili, da bomo jezi­kovne modele gradili le na slovarjih, sestavljenih po prvem naËinu (FP). 
Nato smo zgradili standardne bigramske, tri­gramske in štirigramske modele. Pri tem smo upo­rabljali tako glajenje Good­Turing kot Knesser­Ney. Raziskali smo tudi vpliv velikosti uËne množice, zato smo kot uËno množico enkrat uporabili celotni kor­pus FidaPLUS, drugiË pa le njegov del ‡ približno devet odstotkov. 


Slika 3: Blokovna shema poteka razpoznavanja 
Splošna shema našega eksperimentalnega sistema je podana na sliki 3. Iskalni algoritem v prvem pre­hodu je sinhroni Viterbijev algoritem s snopovnim omejevanjem, ki je implementiran v orodju HDeco­de. Za vsak vhodni akustiËni segment nam algoritem vrne najboljšo hipotezo in besedno mrežo, ki po­meni iskalni prostor algoritma ob koncu segmenta. Najboljšo hipotezo doloËimo po uteženem razmerju med verjetnostima, dobljenima z akustiËnim in jezi­kovnim modelom. Za doloËitev optimalnih vredno­sti uteži smo uporabili rezultate razpoznavanja na razvojni množici BNSI. 
Kadar neposredno vrednotimo uspešnost raz­poznavanja na najboljši hipotezi, dobimo rezultate prvega prehoda. Na podlagi teh rezultatov smo se odloËili, katere sisteme prvega prehoda (glede na razliËne jezikovne modele) bomo uporabili v dvo­prehodnem algoritmu. 
Pred drugim prehodom razpoznavanja besedne mreže pretvorimo v sezname sto najboljših hipotez, ki jih lahko razberemo iz njih. V nekaterih segmentih je to število tudi manjše, ker ni mogoËe tvoriti takšne­ga števila hipotez. Hipoteze nato oblikoskladenjsko oznaËimo z oznaËevalnikom Obeliks. V naslednjem koraku oznake poenostavimo tako, da vsebujejo le podatek o besedni vrsti, spolu, sklonu, številu in ose­bi razpoznane besede. 
V drugem prehodu hipoteze ponovno ovrednoti­mo z novimi jezikovnimi modeli. Teh modelov je se­daj lahko tudi veË. Podobno kot pri prvem prehodu utežimo verjetnosti, dobljene s posameznimi modeli. Pri tem je treba ponovno uporabiti razvojno množi­co za iskanje optimalnih vrednosti uteži. Kot konËni rezultat algoritem vrne hipotezo, ki ima po drugem prehodu najveËjo verjetnost. 
Za vrednotenje oznaËenih hipotez v drugem pre­hodu smo zgradili modele oznak MSD. Kot uËno množico smo uporabili korpus ssj500k, v katerem smo oznake poenostavili na enak naËin kot v oznaËe­nih hipotezah razpoznavalnika. 

5	 REZULTaTI 
V Donaj & KaËiË (2012) smo že predstavili vpliv veli­kosti slovarja na delež besed OOV na testni množici BNSI. Tam uporabljeni slovarji so bili grajeni le glede na korpus FidaPLUS. Tabela 2 podaja k temu še re­zultate OOV, kadar gradimo slovarje enakih velikosti po drugem naËinu (BNSI + FP). 
Tabela 2:Delež besed OOV glede na naËin gradnje slovarja in njegovo velikost 
Velikost slovarja  Prvi naËin (FP)  Drugi naËin (BNSI +FP)  
60 k  6,94  5,09  
100 k  3,44  3,23  
200 k  1,64  2,08  
300 k  1,02  1,44  

Iz rezultatov vidimo, je pri manjših velikostih slo­varja bolj ugodno upoštevati najprej tekstovni kor­pus BNSI, pri veËjih slovarjih pa je položaj ravno na­sproten. Manjši delež besed zunaj slovarja dobimo, ko uporabljamo samo korpus FidaPLUS. Vzrok za to vidimo v dejstvu, da se pri drugem naËinu gradnje v slovar vkljuËijo besede, ki se v uËni množici in v besedilnem delu BNSI pojavijo zelo redko, medtem ko se ne vkljuËijo besede iz korpusa FidaPLUS, ki se v testni množici pojavijo pogosteje. 
V tabeli 3 so predstavljeni rezultati razpozna­vanja prvega prehoda pri razliËnih velikostih uËne množice, razliËnih velikostih slovarja in pri upora­bi bigramskih (2 g) in trigramskih (3 g) jezikovnih modelov. V tabeli 4 so podani tudi faktorji realne­ga Ëasa, s katerimi je potekalo razpoznavanje v teh primerih. 
Tabela 3:Uspešnost razpoznavanja glede na velikost uËne množice in jezikovni model 
Slovar Red modela 9%Fidaplus 100%Fidaplus 
60k 2g 64,05 66,09 
60k 3g 65,80 69,23 
300k 2g 68,11 70,77 
300k 3g 69,90 74,33 
Tabela 4:Faktorji realnega Ëasa pri razpoznavanju glede velikost uËne množice in jezikovni model 


Slovar Red modela 9%Fidaplus 100%Fidaplus 
60k 2g 6,04 6,30 
60k 3g 8,58 18,46 
300k 2g 13,35 12,66 
300k 3g 19,16 37,09 
Iz podatkov v tabeli 3 lahko vidimo, da se pri poveËanju uËne množice, poveËanju slovarja in po­veËanju reda modela opazno izboljša uspešnost raz­poznavanja. Izboljšanje uspešnosti ob poveËanju ve­likosti slovarja je v vseh primerih približno 4 do 5 od­stotkov, kar je v velikostnem redu zmanjšanja besed OOV pri spremembi velikosti slovarja. Spremembe v uspešnosti ob poveËanju reda modela iz bigram­skega na trigramskega so odvisne od velikosti uËne množice. Medtem ko sta pri uporabi manjše uËne množice spremembi 1,75 in 1,79 odstotka, sta pri uporabi veËje uËne množice spremembi 3,14 in 3,56 odstotka. Iz podatkov v tabeli 4 je razvidno, da tako poveËanje slovarja kot tudi zvišanje reda modela po­veËa Ëasovno zahtevnost razpoznavanja govora. Pri poveËanju slovarja se faktor realnega Ëasa poveËa za približno 2. Pri zvišanju reda modela pa je ta faktor razliËen glede na velikost uËnega korpusa. V prime­ru uporabe celotnega korpusa se velikost faktorja po­veËa približno za 3. Pri uporabi manjšega korpusa je poveËanje veliko manjše. 
Na podlagi teh podatkov lahko sklepamo, da bi dodatno poveËanje uËne množice (npr. z uporabo korpusa Gidafida) še dodatno poveËalo uspešnost razpoznavanja, ki bo bolj izrazito pri uporabi tri­gramskega modela. 
V tabeli 5 so prikazani rezultati uspešnost raz­poznavanja pri uporabi modelov z modificiranim glajenjem Knesser­Ney, ki sta ga predstavila Chen & Goodman (1999) in razlika v uspešnosti glede na ustrezni model z glajenjem Good­Turing. 
Tabela 5:Uspešnost razpoznavanjaz modificiranim glajenjem Knesser­Ney 
Slovar  Red modela  acc (KN)  acc (KN) ‡	acc (GT)  
60 k  2g  66,15  +0,06  
60 k  3g  69,04  +0,19  
300 k  2g  70,71  ‡0,06  
300 k  3g  74,12  ‡0,21  

Iz rezultatov vidimo, da so modeli z modificira­nim glajenjem Knesser­Ney uspešnejši le pri manjših slovarjih, medtem ko so pri veËjih slovarjih uspešnej­ši modeli z glajenjem Good­Turing. V obeh primerih so razlike le majhne. 
V vseh poskusih smo dobili besedne mreže, s katerimi bi lahko nadaljevali razpoznavanje v dru­gem prehodu, vendar smo se omejili le na rezultate, ki smo jih dobili pri slovarju 300 k in glajenjem GT. Prva razliËica tega algoritma je bila predstavljena v Donaj & KaËiË (2012). Pokazano je bilo, da lahko z uporabo dvoprehodnega dosežemo primerljive uspešnosti ob bistveno krajšem Ëasu razpoznavanja. Prav tako je bilo pokazano, da uporabi trigramskih in štirigramskih modelov v drugem prehodu dajeta enake rezultate. 
Za vrednotenje hipotez v drugem prehodu smo uporabili dva jezikovna modela. Prvi je standardni besedni trigramski model, drugi pa je trigramski mo­del oznak MSD. V tabeli 6 so predstavljeni rezultati dvoprehodnega algoritma za istoËasno vrednotenje z trigramskim modelom besed in trigramskim mo­delom oznak MSD. 

Tabela 6:Rezultati v dvoprehodnem algoritmu 
Prviprehod 74,33% 
Drugiprehod 74,85% 
Sprememba 0,52% 

Iz podatkov vidimo, da smo lahko s pomoËjo preprostega modela oznak MSD izboljšali uspešnost razpoznavanja za 0,52 odstotka. 



6SKLEP 
V prispevku smo predstavili osnovne pojme s po­droËja samodejnega razpoznavanja govora in go­vorne ter jezikovne vire za slovenšËino, ki jih upo­rabljamo na tem podroËju. Razpoznavanji tekoËega in spontanega govora sta nalogi z veliko prostora za vpeljevanje izboljšav tako v akustiËnem kot v jezi­kovnem modeliranju. Predstavljeni rezultati kažejo na pomembnost ustreznih jezikovnih virov. Tukaj sta pomembna tako obseg virov kot tudi njihova dodat­no obogatena vsebina, kot sta lematizacija in obliko­skladenjsko oznaËevanje besedila. 
Prestavljeni rezultati uporabe oblikoskladenjskih oznak v jezikovnem modeliranju pomenijo le zaËe­tek dela na tem podroËju. Zaradi svoje kompleksno­sti v kombinaciji z uveljavljenimi jezikovnimi modeli ponujajo ti modeli veliko možnosti za teoretiËne in praktiËne raziskave. 
Naše nadaljnje raziskave na podroËju ASR bodo usmerjene tudi v uporabo novih virov za izdelavo modelov, kot sta npr. korpusa Gigafida in GOS, kot tudi na izboljšano uporabo razpoložljivih informacij v korpusih. 
Medtem ko je samodejno razpoznavanje govo­ra že uporabno v omejenih domenah z majhnimi slovarji besed, pa trenutni rezultati razpoznavanja tekoËega govora z velikim slovarjem besed še niso zadovoljivi za praktiËne aplikacije. Zato bodo še po­trebne raziskave, ki bodo usmerjene tako v izboljša­nje uspešnosti kot tudi hitrosti razpoznavanja go­vora. Zaradi težavnosti razpoznavanja slovenskega govora bo potrebno tudi nadaljnje delo na podroËju izdelave jezikovnih virov slovenšËine. Le s takšnim celovitim pristopom bomo lahko zagotovili stik na­šega jezika s sodobnimi trendi v informacijsko­ko­munikacijskih tehnologijah. 

LITERaTURa 
[1]	 Arhar,Š.&Gorjanc,V. (2007). Korpus FidaPLUS: nova gene­racija slovenskega referenËnega korpusa. Jezik in slovstvo, 52(2), 95‡110. 
[2]	 Arhar, Š. (2009). UËni korpus SSJ in leksikon besednih oblik za slovenšËino. Jezik in slovstvo, 54(3‡4), 43‡56. 
[3]	 Arhar Holdt,Š., Kosem,I.&LogarBerginc,N. (2012). Izdelava korpusa Gigafida in njegovega spletnega vmesnika. Zbornik Osme konference Jezikovne tehnologije, Ljubljana, Slovenija, 16‡21. 
[4]	 Aubert, X. L. (2002). An overview of decoding techniques for large vocabulary continuous speech recognition. Computer speech & language, 16(1), 89‡114. 
[5]	 Chen,S.F.&Goodman,J. (1999).An empirical studyof smo­othing techniques for language modeling. Computer speech & language, 13(4), 359‡393. 
[6]	 Dobrišek,S.,Vesnice,B., ŽganecGros,J.&MiheliË,F. (2006). Uporaba kanoniËega govornega akustiËnega modela za pri­lagajanje prostora govornih akustiËnih znaËilk. Jezikovne teh­nologije: zbornik 9. mednarodne multikonference Informacij­ska družba, Ljubljana, Slovenija, 89‡92. 
[7]	 Donaj, G.&KaËiË, Z. (2012). Širjenje slovarja in dvoprehodni algoritem v razpoznavalniku tekoËega govora UMB Broad­cast News. Zbornik Osme konference Jezikovne tehnologije, Ljubljana, Slovenija, 48‡51. 
[8]	 Erjavec,T.& Krek, S. (2008). Oblikoskladenjske specifikacije in oznaËeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije, Ljubljana, Slovenija, 49‡53. 
[9]	 Good, I. J. (1953). The population frequencies of species and the estimation of population parameters. Biometrika, 40(3‡4), 237‡264. 
[10]	 GrËar,M.,Krek,S.&Dobrovoljc,K. (2012). Obeliks: statistiËni oblikoskladenjski oznaËevalnik in lematizator za slovenski je­zik. Zbornik Osme konference Jezikovne tehnologije, Ljublja­na, Slovenija, 89‡94. 
[11]	 KaËiË,Z.&Kaiser,J. (1998). Developmentof Slovenian Spee­chDat database. First International Conference on Language Resources and Evaluation, Workshop on speech database development for Central and Eastern European languages, 
Granada, Spain. 

[12]	 KaËiË, Z. (2002). Pomen združevanja raziskovalnih poten­cialov pri preseganju jezikovnih pregrad v okviru jezikovnih tehnologij naslednjih generacij. Jezikovne tehnologije: zbornik konference, Ljubljana, Slovenija, 111‡115. 
[13]	 Katz, S. M. (1987). Estimation of probabilities from sparse data for the language model component of a speech reco­gnizer. IEEE Transactions on acoustics, speech and signal processing, 35(3), 400‡ 401. 
[14]	 Lee, A., Kawahara,T.& Doshita, S. (1998). An efficient two­-pass search algorithm using word trellis index. Proceeding of the 5th International Conference on Spoken Language Pro­cessing, Sydney, Australia. 
[15]	 
MiheliË,F., ŽganecGros,J., Dobrišek,S., Žibert,J.&PavešiE, 

N. 
(2003). Spoken language resources at LUKS of the Univer­sity of Ljubljana. International journal of speech technology, 6(3), 221‡232. 



[16]	 Rotovnik, T., Sepesy MauËec, M. & KaËiË, Z. (2007). Large vocabulary continuous speech recognition of an Inflected language using stems and endings. Speech communication, 49(6), 437‡452. 
[17]	 Sepesy MauËec,M., Rotovnik,T., KaËiË,Z.&Brest,J. (2009). Using data-driven subwordunits in language model of highly inflective Slovenian language. International journal of pattern recognition artificial intelligence, 23(2), 287‡312. 
[18]	 Stolcke, A., Zheng, J.,Wang,W.& Abrash,V. (2011). SRILM at sixteen: Update and outlook. Proceedings IEEE Automatic Speech Recognition and Understanding Workshop. 
[19]	 Young, S., Jansen, J., Odell, J., Ollason, D. & Woodland, P. (1996). The HTK book. Cambridge University. 
[20]	 Žganec Gros, J., MiheliË, F. & Dobrišek, S. (2003). Govorne tehnologije: pridobivanje in pregled govornih zbirk za sloven-ski jezik. Jezik in slovstvo, 48(3‡4), 47‡59. 
[21]	  Žgank, A., KaËiË, Z. &Horvat, B. (2002). Preliminary evaluati­ [24]	  Žgank, A., Sepesy MauËec, M. (2010). Razpoznavalnik te­ 
on of Slovenian mobile database PoliDat. Third international  koËega  govora  UMB  Broadcast News  2010:  nadgradnja  
conference on language resources and evaluation, Las Pal­ akustiËnih in jezikovnih modelov. Zbornik Sedme konference  
mas de Grand Canaria, Spain, 564‡568.  Jezikovne tehnologije, Ljubljana, Slovenija, 28‡31.  
[22]	  Žgank, A., Rotovnik, T., GrašiË, M., Kos, M., Vlaj, D. &KaËiË,  [25]	  Žgank, A., Verdonik, D., Zögling Markuš, A. &KaËiË, Z. (2005).  
Z. (2006). SloParl ‡ Slovenian parlamentary speech and text  BNSI Slovenian broadcast news database ‡speech and text  
corpus for large vocabulary continuous speech recognition.  corpus. 9th European conference on speech communication  
Ninth international conference on spoken language proces­ and technology, Lisbon, Portugal, 1537‡1540.  
sing, Pittsburgh, PA, USA, 197‡200.  [26]	  Žibert, J. &MiheliË, F. (2004). Development of Slovenian bro­ 
[23]	  Žgank, A., Rotovnik, T. & Sepesy MauËec, M. (2008). Slove­ adcast news speech database. Fourth International Confe­ 
nian spontaneous speech recognition and acoustic modeling  rence on Language Resources and Evaluation, Lisbon, Portu­ 
of filled pauses and onomatopoeas. WSEAS transactions on  gal, 2095‡2098.  
signal processing, 4(7), 388‡39.  

• 
Gregor Donajje diplomiraliz elektrotehnikenaFakultetiza elektrotehniko, raËunalništvoin informatiko Univerzev Mariboruiniz matematikenaFakultetiza naravoslovjein matematiko Univerzev Mariboru.Trenutnoje doktorski študentin zaposlenkot mladi raziskovalecnaFakultetiza elektrotehniko, raËunalništvo in informatiko. Raziskovalno se ukvarjaz jezikovnim modeliranjem za avtomatsko razpoznavanje govora. 
• 
AndrejŽgankjeleta2003 doktoriralnaFakultetiza elektrotehniko, raËunalništvoin informatiko Univerzev Mariboru.Natejfakultetijetudi zaposlenkot izredni profesor za podroËje telekomunikacije. Njegovo raziskovalno podroËje obsega veËjeziËnost, križnojeziËno razpoznavanje govora, akustiËno modeliranje pri razpoznavalniku govoraz velikim slovarjemin gradnja jezikovnih virov. 
• 
Mirjam Sepesy MauËecjeizrednaprofesoricazapodroËje telekomunikacijenaFakultetiza elektrotehniko, raËunalništvoin informatiko UniverzevMariboru.Ob pedagoškem delu je raziskovalno aktivna v številnih nacionalnih in mednarodnih projektih s podroËja jezikovnih tehnologij. Njeno raziskovalno podroËje obsega statistiËno jezikovno modeliranjein strojnoprevajanje. 




Sodobne prevajalske tehnologije 
in prihodnost prevajalskega poklica 

Špela Vintar, Univerzav Ljubljani, Filozofskafakulteta, Oddelekzaprevajalstvo spela.vintar@ff.uni-lj.si 
IzvleËek 
Prispevek pregledno predstavlja podroËje sodobnih prevajalskih tehnologij in njihovega vpliva na profesionalno prevajanje.Vzadnjih letih se to namreËkorenitospreminjapod vplivomvse cenejšihin dostopnejšihstrojnihprevajalnikov,kijih uporabljamoza izdelavogrobegaprevoda,vloga prevajalcapaje.le« poprava takegaprevoda.Vprispevkupredstavimostrojnoprevajanje danesznajpomembnejšimi tehnologijamiin sistemi, nato pa se posvetimo naËinom, kakoprevajalniki spreminjajo klasiËne delovneprocese, poklicneprofile, pojem kakovostiin cenovno politikovprevajal­stvu.Vsklepnih odstavkih razmišljamoo prihodnostiprevajalskega poklicainpredlagamo nekajukrepov,s katerimibise bilo dobro odzivatina razvojne trende. KljuËne besede: strojno prevajanje, popravljanje strojnih prevodov, prevajalske tehnologije, pomnilnik prevodov, profil prevajalca. 

Abstract 
RecentTrendsinTranslationTechnologies and the Futureof ProfessionalTranslation 
The paper gives an overviewof the fieldof translation technologies and their impact onprofessional translation services. Through the pastde­cade this field has witnessed profound changes due to better and cheaper machine translation systems used to produce a raw translation, whiletheroleofthe human translatorisreducedto postediting.The paperpresentsthe state-of-the-artin machine translation technologies and systems,andthen describeswaysin which machine translation affects traditional workflows,professionalprofiles,the notionof qualityand the pricing policyin translation services.We conclude witha discussionofthe futureofthe translation businessand suggest certain measures to meet the new challenges and react to technological trends. Key words: machine translation (MT), post-editing machine translation, translation technologies, translation memory, translator profile. 
1	 UVOD Razvoj spletnih prevajalnikov,kotstaGoogleTranslateinBing Translator, je dodobra posegel v razmišljanje in vedenje upo­rabnikov spleta. Kljub šalam na raËun slabih prevodov so nam namreË danesspreprostim klikom na gumb prevedi dostopne vsebine, ki jih prej nismo mogli prebirati in ki jih po vsej ver­jetnosti tudi nikolinebi poslalivuradni Ëloveški prevod.a	do nedavnega je veljalo, da so - z nekaj redkimi izjemami - strojni prevajalniki namenjeni obiËajnih uporabnikom,kiznji­hovo pomoËjo dostopajo do v njim nerazumljivih jezikih napi­sanih informacij, svet raËunalniških orodij za prevajalce pa se je vrtel okrog pomnilnikov prevodov. 
V zadnjih letih sta se tradicionalno loËeni veji stroj­nega in raËunalniško podprtega prevajanja moËno zbližali in celo prepletli, kar je korenito spremenilo prevajalski proces, s tem pa tudi poklicni profil preva­jalca.1 Obenem so se spremenili tudi prevajalski pro­
1	 Vprispevku dosledno uporabljamo moško obliko poklica prevajalec, pri Ëemer mislimo na prevajalke in prevajalce. 
jekti, saj vse pogosteje prevajalci nimajo veË opravka z besedili, temveË z jezikovnimi nizi, seznami besed in besednih zvez brez sobesedila, ki se v okviru ciljne aplikacije dinamiËno sestavljajo v vsebine. 
V prispevku najprej opišemo stanje prevajalskih tehnologij in njihovo razširjenost v praksi, pri Ëemer zaËnemo s strojnim prevajanjem in nadaljujemo s prevajalskimi namizji, ki klasiËni pomnilnik pre­vodov kombinirajo s strojnim prevajalnikom. Nato spregovorimo o popravljanju strojnih prevodov kot novemu tipu prevajalske naloge in predstavimo ne­kaj raziskav, ki se ukvarjajo z vprašanji uËinkovito­sti in kakovosti pri takem tipu prevajanja. Nazadnje prispevek poda vizijo nadaljnjega razvoja podroËja prevajalskih tehnologij in prevajalskega poklica. 

2	 STROjNO PREVajaNjEDaNES 
»e bi želeli celovito ponoviti zgodovino razvoja stroj­nih prevajalnikov od petdesetih let prejšnjega stoletja do danes, bi krepko presegli okvire tega Ëlanka. Po­novimo le, da so pri razvoju do konca osemdesetih let prejšnjega stoletja prevladovali na pravilih teme­ljeËi pristopi, med katere kronološko po vrsti prište­vamo neposredni pristop, vmesni jezik (interlingua) in transferni pristop, nato pa je konec osemdesetih let raziskovalna skupina IBM razvila statistiËni algo­ritem, ki je iz vzporednega korpusa Ërpal prav vse podatke in se torej ni opiral na slovarje in slovnice (Ney, 2005; Hutchins, 2007). 
2.1	 StatistiËno strojno prevajanje 
V drobovju statistiËnega prevajalnika sta prevodni in jezikovni model. Za prevodni model algoritem potrebuje vzporedna besedila v obeh jezikih, se pra­vi izvirnike in prevode, ki jih je mogoËe samodejno stavËno poravnati. Iz takšnega vzporednega korpusa besedil je za vsako besedo izvirnega jezika mogoËe izlušËiti niz najverjetnejših prevodnih ustreznic, in to brez da bi kar koli vedeli o obeh jezikih. »e si pred­stavljamo, da se v angleško­slovenskem vzporednem korpusu evropskih besedil v izvirniku nekajkrat po­javi beseda fishing, in Ëe smo že v fazi predobdelave vsakemu angleškemu stavku doloËili njegov sloven­ski prevod, lahko domnevamo, da se bo v naboru teh slovenskih stavkov dosledno pojavljala beseda, ki je prevod za fishing, denimo ribolov. Vsa takšna sopojavljanja se zapišejo v prevodni model kot ver­jetnosti, da se bo doloËena beseda prevedla s ciljno besedo, algoritem pa na podoben naËin obdela tudi verjetnosti veËbesednih enot (Och & Ney, 2004). 
Google je v svojih rosnih letih kot vir vzporednih besedil uporabil dokumente Združenih narodov, kmalu pa so njihovi pajki v svoje mreže potegnili tudi dokumente drugih veËjeziËnih tvorb, kot je EU, razliËne obstojeËe vzporedne korpuse in tudi veËje­ziËna spletišËa, za katera zna pajek hitro ugotoviti, ali gre resniËno za prevod ali zgolj za tujejeziËno pri­rejeno razliËico. 
»e bi imel prevajalnik na voljo le prevodni mo­del, bi se posamezne besede in besedne zveze sicer prevedle pravilno, a bi bila struktura ciljnega stavka še vedno tako rekoË identiËna izvirniku. Prav tako se prevajalnik samo na podlagi prevodnega modela tež­ko odloËa med razliËnimi oblikoslovnimi možnostmi prevoda: naj se red prevede kot rdeË, rdeËa, rdeËim, rdeËimi …? Da bi bil torej ciljni stavek kar najbolj podoben obiËajnim slovniËno pravilnim stavkom ciljnega jezika, ima prevajalnik na voljo še jezikovni model. Tudi ta se zgradi iz ogromnih koliËin bese­dil, le da je tu na voljo še bistveno veË virov, saj zanj teoretiËno lahko uporabimo kar vse spletne strani v ustreznem jeziku. Jezikovni model beleži verjetnosti pojavitve besednih nizov, dolgih navadno dve do pet besed, in tako lahko prevajalnik hitro ugotovi, da je v slovenšËini kombinacija rdeËih zastava bistveno manj verjetna kot rdeËa zastava. 
Ob tem velja poudariti, da je statistiËno prevaja­nje natanko toliko dobro, kolikor sta dobra prevodni in jezikovni model. Pri tem ni pomembna le koliËina besedil, temveË tudi njihove kakovost, strokovnost, slog in terminološka doslednost; poslediËno lahko iz manjše koliËine visoko specializiranih besedil za doloËeno podroËje zgradimo boljši prevajalnik kot iz velike koliËine splošnih besedil. 


2.2	 Hibridni modeli 
Tako na pravilih temeljeËe prevajanje (RBMT) kot statistiËno strojno prevajanje (SMT) imata svoje po­manjkljivosti, ki jih je težko rešiti v okviru posame­zne od obeh razvojnih vej. Tako raziskovalci ugotav­ljajo (Uszkoreit, 2009), da so obiËajne težave sistemov RBMT predvsem: 
• 	
nezadovoljivo razdvoumljanje, izbira besedišËa, slogovna in zvrstna ustreznost, 

• 	
nezadovoljivo ravnanje v primeru vrzeli v besedi­šËu in slovniËnih pravilih. Razvoj sistemov SMT je sicer bistveno cenejši, 

vendar so tudi ti s samo statistiËnimi algoritmi prišli do težko premostljivih ovir: 

• 	
nezadovoljiva obravnava vseh slovniËnih poja­vov, ki presegajo okvir posamezne fraze: svobod­ni besedni red, oddaljene slovniËne odvisnosti, elipse, kompleksne slovniËne strukture itd., 

• 	
nezadovoljivo reševanje vrzeli v uËnih podatkih. 


Tako ni presenetljiva misel, da bi bili sistemi RBMT boljši, Ëe bi upoštevali verjetnost posameznih jezikov­nih enot, in sistemi SMT boljši, Ëe bi poleg verjetnost­nih modelov uporabljali še slovniËna pravila. Hibri­dni sistemi se danes razvijajo na oba omenjena naËina, se pravi izhajajoË iz RBMT z dodajanjem statistike in izhajajoË iz SMT z dodajanjem pravil, številne raziska­ve pa so bile opravljene v okviru evropskih projektov Euromatrix in Euromatrix Plus (Eisele idr., 2008).2 
Morda je z vidika profesionalnega prevajanja še najpomembnejša novost, da so hibridne sisteme 
2 http://www.euromatrix.net in http://www.euromatrixplus.net. 

zaËeli ponujati tudi številni komercialni ponudniki strojnega prevajanja, denimo Asia Online, Systran, LinguaSys, ti pa uporabnikom obenem ponujajo tudi prilagajanje sistema njihovim potrebam in be­sedilom. To je nadvse pomembno, saj prevajalska agencija za svoje delo veËinoma ne more in ne sme uporabljati Googlovega prevajalnika. Tudi Ëe bi jo namreË zadovoljila kakovost Googlovih prevodov, si spletni prevajalnik shranjuje vsa besedila, kar za veËino naroËnikov pomeni kršitev varovanja osebnih podatkov in poslovnih skrivnosti. 
Po drugi strani komercialni ponudniki uporab­nikom zagotavljajo, da bodo prevajalnik .nauËili« na njihovih besedilih; tako nastali sistem se ob do­volj veliki koliËini uËnih podatkov dobro odreže pri prevajanju strokovne terminologije in ustaljenih fraz, ker pa ima za osnovo še vedno statistiËni sistem, rado prihaja do napak pri daljših in kompleksnejših povedih. 


INTEGRacIja	 STROjNIH PREVajaLNIKOVVORODja	Za	Ra»UNaLNIŠKO PODPRTO PREVajaNjE 

Orodja za raËunalniško podprto prevajanje (Compu­ter­Aided Translation, CAT) so se razširila v devetde­setih letih in so danes osnovna programska oprema vsakega poklicnega prevajalca, ki se redno sreËuje s tehniËnimi prevodi. Glavna komponenta takšnega programa ‡ pravimo jim tudi prevajalska namiz­ja ‡ je pomnilnik prevodov, ki prevajalcu omogoËa shranjevanje že prevedenih enot in njihovo ponovno uporabo pri nadaljnjih prevajalskih projektih. Gre za podatkovno zbirko prevodnih enot, navadno povedi ali krajših delov besedila, ki so v izvirniku in prevo­du shranjeni v pomnilnik in so ob morebitni pono­vitvi enakega ali zelo podobnega dela besedila na razpolago za ponovno uporabo. 
Po ocenah zadnje veËje raziskave o rabi preva­jalskih tehnologij, v kateri je sodelovalo prek 500 prevajalcev iz 52 držav sveta (Torres Dominguez, 2012), jih okrog 70 odstotkov uporablja prevajalska namizja, z njimi pa prevedejo med 75 in 99 odstotki vseh prevajalskih projektov. Najbolj razširjena orodja so SDL Trados, MemoQ, Wordfast, DejaVu, OmegaT in SDLX. Prevajalsko namizje je nepogrešljivo pred­vsem pri prevajanju ponovljivih in formaliziranih besedil, kot so navodila za uporabo, tehniËna do­kumentacija proizvodov, pravna besedila, vmesniki programske opreme razliËnih elektronskih naprav ipd. Pri tovrstnih besedilih se namreË pojavljajo ti­piËne strukture (»e želite vkljuËiti X, pritisnite tipko Y), ki se v enaki ali podobni obliki ponavljajo bodisi v okviru istega besedila bodisi v naslednjem sorodnem projektu. 
Zaradi prihranka Ëasa, ki ga prinaša opisana re­ciklaža prevodov, se je spremenilo tudi obraËuna­vanje prevajalskih storitev, pri katerih se uporablja pomnilnik prevodov. Splošno razširjeno pravilo je, da se za besedilne segmente, za katere je program v bazi našel identiËen že prevedeni segment, zaraËuna 30 odstotkov celotne cene, za delne oz. meglene za­detke, ki so izvirniku podobni od 70 do 95 odstotkov, se zaraËuna 70 odstotkov cene, za dele, pri katerih v bazi ni uporabnega zadetka, pa naroËnik plaËa polno ceno prevoda. 
V nekaterih primerih se uporablja še bolj podrob­no razdeljena tarifna shema, vËasih pa naroËniki prevajalcem izrecno prepovedo spreminjanje stood­stotnih zadetkov iz baze. To še posebej velja takrat, kadar pomnilnik prevodov vsebuje uradno potrjene in pregledane prevode, ki zagotavljajo terminolo­ško in slogovno doslednost. Prevajalska namizja so opremljena s funkcijo, ki primerja novo besedilo z obstojeËo bazo in pomaga pri izdelavi predraËuna za prevod. 
Skoraj vsa od prej omenjenih prevajalskih namizij danes omogoËajo vkljuËitev strojnega prevajalnika v namizje, tako da prevajalec lahko uporablja tako po­mnilnik prevodov kot strojni prevajalnik v skupnem okolju. Številna orodja omogoËajo integracijo plaËlji­vega vtiËnika za Google Translate API, podpirajo pa tudi uporabo drugih, ne nujno spletnih, prevajalnikov. 
Takšno rešitev od letošnjega leta uporablja tudi najveËja prevajalska služba na svetu, Generalni di­rektorat za prevajanje Evropske komisije (DGT), ki zaposluje okrog 2.500 prevajalcev in letno prevede prek osem milijonov strani. Delovno okolje tamkaj­šnjih prevajalcev je SDL Trados Studio, prek kate­rega prevajalci dostopajo do zadetkov iz skupnega pomnilnika prevodov Euramis. Kadar niti Euramis niti druge interne baze Evropske komisije ne vsebu­jejo enakega ali podobnega segmenta, se ta prevede s prav za potrebe DGT razvitim statistiËnim strojnim prevajalnikom MT@EC. Da prevajalec ve, da ima pred seboj strojni prevod, je ta v okolju SDL Studio oznaËen s sivo barvo. Ko prevajalec pregleda, popra­vi in potrdi strojni prevod, se ta shrani v pomnilnik prevodov skupaj z drugimi (Ëloveškimi) prevodi. 
Ker kakovost strojnega prevajanja za razliËne je­zikovne pare zelo niha, so na DGT­ju pred kratkim med prevajalci izvedli raziskavo o vtisih pri delu s strojnim prevajalnikom (Leal Fontes, 2013). Ta je pokazala, da strojni prevajalnik uporablja že skoraj tri Ëetrtine prevajalcev, od tega pa jih slaba polovica meni, da je strojni prevod v 75 odstotkih primerov zelo uporaben z manjšimi popravki. Slovenski pre­vajalci so za jezikovni par anglešËina ‡ slovenšËina podali nekoliko manj navdušene, a še vedno zado­voljne odzive: strojni prevod se jim je zdel uporaben z manjšimi popravki v približno 50 odstotkih prime­rov. Najslabše se MT@EC odreže pri aglutinirajoËih jezikih, kot je madžaršËina, ter pri jezikih baltskih držav. 


4	 POPRaVLjaNjESTROjNIH PREVODOV 
»e smo v prejšnjem razdelku opisali kombinacijo .klasiËnih« prevajalskih namizij in strojnega preva­janja, je naslednji korak priËakovan: v mnogih preva­jalskih okoljih postopoma prehajajo na naËin preva­janja, pri katerem besedilo najprej prevedemo stroj­no, nato pa prevajalec besedilo popravi do želene stopnje kakovosti. Za to delo v anglešËini uporablja­jo kratico PEMT (Post­Editing Machine Translation), gre pa za opravilo, ki se v marsiËem zelo razlikuje od tradicionalnega prevajanja. 
Pravzaprav ideja ni nova, saj so v vseh okoljih, v katerih že dolgo prevajajo raËunalniki, morali re­zultat pregledati in izboljšati prevajalci ali tehniËni pisci. Prav tako je v okoljih, v katerih strojno preva­janje uporabljajo že dlje, pogosta uporaba t. i. nadzo­rovanega jezika, ki naj bi s pomoËjo omejenega nabo­ra slovniËnih struktur in besedišËa zagotavljal boljši strojni prevod. Novost pomeni dejstvo, da so postali v zadnjih nekaj letih prevajalniki na eni strani dovolj dostopni, na drugi pa dovolj kakovostni, da je njiho­va uporaba smiselna za vse širši krog uporabnikov. 
Kljub temu da kakovost prevodov moËno niha glede na uporabljeni prevajalnik in glede na jezikov­ni par, pa številne raziskave (Guerberof, 2009; Specia, 2011) kažejo poveËanje produktivnosti prav za vse je­zikovne pare, in sicer se to giblje od 42 za kitajšËino do kar 130 odstotkov za francošËino. Za slovenšËino še ni primerljivih rezultatov, so pa v teku raziskave, ki se ukvarjajo tako z vprašanjem produktivnosti kot kakovosti. 
Odzivi prevajalcev na novo obliko dela, ki prav­zaprav ni veË prevajanje, so razliËni, a v glavnem ne­
gativni. Na forumu prevajalskega portala ProZ.com se je nedolgo tega odvijala razprava,3 v kateri so bila prevladujoËa stališËa v zvezi s popravljanjem stroj­nih prevodov zelo odklonilna in so vsebovala izjave: .Osebno zavraËam popravljanje strojnih prevo­
dov.« 
.Enako. Nikakor ne nameravam uËiti stroja, kako 
naj me nadomesti.« 
.To ni delo, ki bi bilo primerno za mojstra, zato 
takšna naroËila vselej z gnusom zavrnem. Dobro 
bi bilo, ko bi tudi drugi prevajalci ustrezno spo­
štovali svoj poklic.« 
Tradicionalna podoba prevajalskega poklica vse­buje ustvarjalnost kot pomembno, Ëe ne že kar naj­pomembnejšo sestavino poklicnega profila. Razum­ljivo je torej, da so ‡ še posebno starejši ‡ prevajalci ogorËeni, ko od naroËnika dobijo strojno prevedeno besedilo, polno napak in nerodnih besednih zvez, skupaj s priËakovanjem, da bodo za majhen denar iz njega priËarali kakovostno in za objavo primerno be­sedilo. A tehnološki razvoj gre svojo pot in danes so posebej zanje razviti strojni prevajalniki prisotni že tudi pri slovenskih prevajalskih agencijah. 
Previdnost je potrebna pri obraËunavanju tovrst­nega dela, saj je ena od zgodnejših raziskav poprav­ljanje strojnega prevoda primerjala s kakovostnimi 80­ali 90­odstotnimi meglenimi zadetki (O’Brien, 2007). To je seveda zelo optimistiËna ocena, ki utegne biti zavajajoËa tudi za naroËnike; ti potem priËakuje­jo, da bodo za popravljeni prevod plaËali le okrog 40 odstotkov polne cene. Prevajalci, ki imajo s poprav­ljanjem strojnih prevodov izkušnje, svetujejo, da pred zaËetkom dela, še bolje pa pred dogovorom o prevzemu naroËila, izvedemo preskus, delo pa nato obraËunavamo po urni postavki. 
V uvodnem odstavku tega razdelka smo popravlja­nje strojnih prevodov opredelili kot dejavnost, pri ka­teri prevajalec strojno prevedeno besedilo popravi do želene kakovosti. Pojem kakovosti namreË v razponu med popolnoma avtomatiziranim strojnim prevodom na eni strani in slogovno ter strokovno pregledanim profesionalnim Ëloveškim prevodom na drugi strani postane gibljiv: Koliko kakovosti potrebuje naroËnik in koliko kakovosti je pripravljen plaËati? 
Za lažje razumevanje gibljive kakovosti spomni­mo, da s strojnimi prevajalniki danes pogosto preva­
3 http://www.proz.com/forum/money_matters/215371-rates_for_post_ 
editing_machine_translation_texts-page2.html; izbrane izjave prevedla 
avtorica Ëlanka. 

jajo besedila, ki jih prej verjetno sploh ne bi prevajali. Tako si pri brskanju po spletu ogledujemo nerodno prevedene spletne strani, a nam grobi prevod za­došËa za razumevanje in verjetno nikoli ne bi najeli prevajalca oziroma popravljalca, naj ga izboljša. Za druga besedila, denimo obsežna tehniËna navodila, ki niso namenjena širši publiki, ampak le izbranemu krogu strokovnih uporabnikov, je morda dovolj po­vršna poprava (light post-editing), ki zagotovi razum­ljivost in odpravi hujše slovniËne napake. Besedila, namenjena objavi ali širši publiki, zahtevajo polno popravo (full post-editing), pri kateri prevajalec zago­tovi kakovost, ki po jezikovni, slogovni, terminolo­ški, oblikovni in tehniËni plati v niËemer ne odstopa od Ëloveškega prevoda. 
Za popravljanje strojnih prevodov je v okviru Googlovega prevajalnika na voljo okolje Translator Toolkit; Aziz idr. (2012) so razvili tudi orodje PET, si­cer pa je za to mogoËe uporabiti prevajalsko namizje, kot je denimo SDL Trados Studio ali memoQ. 

5	 NOVI MODEL PREVajaLSKEGa	 PROcESa 
V tradicionalnem toku prevajalskega procesa igra od trenutka, ko izvirno besedilo zapusti naroËnika, pa do trenutka, ko naroËnik prejme ciljno besedilo in storitev obraËunamo, glavno vlogo prevajalec. Ne glede na to, da ta proces glede na vrsto prevajanja pogosto zajema druge akterje (lektorje, terminologe, urednike, pravne redaktorje idr.), je v jedru prevajal­ske storitve še vedno prevajalec. 
Tudi programi s pomnilnikom prevodov, ki so pred dobrim desetletjem zavzeli trg profesionalnega prevajanja in krepko spremenili naËin dela, niso bist­veno posegli v obseg Ëlovekove vloge pri nastajanju ciljnega besedila ‡ zadetke iz pomnilnika prevodov je prav tako nekoË moral nekdo prevesti. Morda je zanimivo, da so bile tedanje reakcije prevajalcev na pojav orodij, katerih glavni namen je bil recikliranje starih prevodov, prav tako odklonilne in Ëustvene kot današnje na strojno prevajanje. 
Vsekakor se z vse boljšimi prevajalniki širi njiho­va uporaba v profesionalnem prevajanju, s tem pa se spreminja tudi vloga prevajalca. V novem modelu pre­vajalskega procesa, ki ga ponazarja slika 1, je v sredi­šËu prevajalnik, vijugasta Ërta pa poudarja dejstvo, da je kakovost strojnega prevoda odvisna od besedilnega tipa, sloga in slovniËnih lastnosti izvirnika. Še preden besedilo predamo prevajalniku, se izvedejo razliËni postopki predobdelave, ki skušajo besedilo Ëim bolje pripraviti na raËunalniško obdelavo. Tako je ‡ vsaj pri veËjih prevajalskih projektih ‡ smiselno vnaprej izlu­šËiti terminologijo in izdelati projektni glosar, iz bese­dila odstraniti elemente, ki niso jezikovni ali ki bi uteg­nili otežiti prevajanje (imena, simbole, formule itd.), vËasih besedila tudi skladenjsko prilagodimo v smislu poenostavljanja stavËnih struktur, krajšanja povedi, izogibanja dvoumnim slovniËnim oblikam ipd. Prav tako je mogoËe prilagoditi prevajalnik: pri statistiËnih sistemih, ki gradijo prevodni model iz vzporednih besedil, lahko uporabimo pomnilnike prevodov do­loËenega naroËnika ali podroËja, številni prevajalniki pa omogoËajo tudi vnos podroËnih glosarjev in termi­noloških baz. Prav tako lahko prilagodimo obravnavo neznanih besed, imen in drugih specifiËnih elementov. 

Slika 1: Model prevajalskega procesa (prir.poVashee, 2011) 
Vložek na strani vhoda je pomemben in lahko bistveno vpliva na rezultat. Kaj se zgodi po samem prevajanju, je odvisno od želene oziroma dogovor­jene ravni kakovosti, a v vsakem primeru bi morala slediti analiza napak, saj se jim v prihodnje morda lahko izognemo bodisi z izboljšavami prevajalnika bodisi z boljšo predpripravo besedila. V skrajnem primeru z analizo napak ugotovimo tudi, da se za doloËeni tip besedila strojno prevajanje s popravlja­njem ne splaËa in da je zanj bolje uporabiti klasiËni naËin prevajanja. 
Ob razmišljanju o prihodnosti prevajalskega po­klica se neizogibno postavlja vprašanje, ali bodo prevajalci Ëez Ëas sploh še potrebni. V prizadevanju za zniževanje stroškov namreË naroËniki polagajo velike upe v strojne prevajalnike, za popravljanje sa­modejno prevedenih besedil pa ne uporabljajo nujno prevajalcev, temveË tudi druge (cenejše) osebe z zna­njem ciljnega jezika. Da tako ne moremo priËakovati prevodov, ki bi bili ne le jezikovno dovršeni, ampak tudi kulturno in slogovno ustrezni za ciljno publiko, najbrž ni treba posebej poudarjati. 
Po drugi strani pa je za mnoge naroËnike in za do­loËene tipe besedil kakovost še kako pomembna, po­leg tega s tehnološkim razvojem postajajo tehniËna oziroma dokumentacijska besedila (s tem mislimo na navodila za uporabo v najširšem smislu) vse bolj kompleksna. Za vsebinsko, kulturno in strokovno funkcionalen prevod lahko poskrbi le visoko uspo­sobljen prevajalec, ki si pomaga z ustreznimi raËu­nalniškimi pripomoËki. 
Pojavlja pa se še en ‡ vse bolj zaželen ‡ poklicni profil: prevajalec tehnolog je strokovnjak, ki ima po­leg prevajalskih kompetenc še široko raËunalniško in jezikovnotehnološko znanje. Vanj spadajo ustvarja­nje in upravljanje jezikovnih virov, kot so pomnilniki prevodov, korpusi, terminološke baze in leksikoni, testiranje in prilagajanje strojnih prevajalnikov, lu­šËenje terminologije, pretvarjanje formatov, integra­cija razliËnih virov in orodij v enotno okolje, uprav­ljanje strežniških in oblaËnih programskih rešitev, v prihodnosti pa zagotovo še kaj. Tako prihodnost pre­vajalskega poklica zaradi strojnih prevajalnikov ni nujno Ërna, nedvomno pa bo vse bolj zaznamovana s tehnologijami. 
SKLEP V prispevku smo predstavili pregled sodobnih pre­vajalskih tehnologij, ki korenito spreminjajo delovne procese in razmerja v svetu profesionalnega prevaja­nja, vplivajo pa tudi na pojem kakovosti in cene teh storitev. V luËi opisanih razvojnih tendenc se kaže veË potreb: na eni strani bi bilo dobro posodobiti meha­nizme, ki skušajo regulirati trg prevajalskih storitev. Edini tudi pri nas veljavni standard za zagotavljanje kakovosti prevajalskih storitev EN 15038 namreË ni­kjer ne omenja popravljanja strojnih prevodov kot ene od morebitnih kompetenc prevajalca, prav tako je še veliko nejasnosti pri praviËnem obraËunavanju novih delovnih nalog. V razmerju naroËnika in po­nudnika storitev bi sËasoma priËakovali stratifikaci­jo prevajalskih storitev, pri Ëemer bi naroËnik lahko izbiral med razliËnimi naËini prevoda, seveda tudi razliËno ovrednotenimi. 
Na drugi strani bi se na spreminjanje poklicne­ga profila morale ustrezno odzvati izobraževalne ustanove in v visokošolske programe prevajalstva še intenzivneje vkljuËiti tehnološke vsebine. Na tre­tji strani pa opisani trendi pomenijo tudi grožnjo za kakovost prevodov, še posebno Ëe tehnologije upo­rabljamo le kot sredstvo za zmanjševanje stroškov in brez razumevanja njihovih omejitev. S tega vidika je potrebno ozavešËanje vseh akterjev prevajalskega procesa in sistematiËno evalviranje tehnologij z ana­lizami uËinkovitosti in kakovosti. 


7	 VIRI IN LITERaTURa 
[1]	 Aziz,W., Castilho,S.&Specia,L. (2012). PET:aTool for Post­-editing and Assessing Machine Translation. In LREC, str. 3982‡3987. 
[2]	 
Eisele, A., Federmann, C., Uszkoreit, H., Saint-Amand, H., Kay, M., Jellinghaus, M., Hunsicker, S., Herrmann,T., Chen, 

Y. 
(2008). Hybrid Machine Translation Architectures within and beyond the EuroMatrix project. 12th EAMT conference, 22‡23 September 2008, Hamburg, Germany. 


[3]	 Guerberof, A. (2009). Productivity and quality in MT post-edi­ting. Dostopno na http://www.mt-archive.info/MTS-2009­-Guerberof.pdf, 10. 6. 2013. 
[4]	 Hutchins,J. (2007). Example-based machine translation:arevi­ew and commentary. MachineTranslation vol.19, str. 197‡211. 
[5]	 Leal Fontes, H. (2013). Evaluating MachineTranslation: pre­liminary findings from the first DGT-wide translators’ survey. Dostopno na http://ec.europa.eu/dgs/translation/publicati­ons/magazines/languagestranslation/documents/issue_06_ en.pdf, 13. 7. 2013. 
[6]	 Ney, H. (2005). One Decade of Statistical Machine Transla­tion: 1996‡2005. MachineTranslation Summit (MT Summit), str. i‡12‡i‡17, Phuket, Thailand. 
[7]	 O’Brien,S. (2007).An Empirical InvestigationofTemporaland Technical Post-Editing Effort. Translation And Interpreting Studies (tis), II, I. 
[8]	 Och,F.-J., Ney, H. (2004) The AlignmentTemplate Approach to Statistical MachineTranslation. Computational Linguistics, vol. 30, str. 417‡449. 

[9]	  Specia, L. (2011). Exploiting objective annotations for mea­ [11]	  Uszkoreit, H., Federmann, C., Chen, Y., Eisele, A., Theison, S.  
suring translation post-editing effort. Proceedings of the 15th  &Hunsicker, S. (2009). Hybrid Machine Translation. Translin- 
Conference of the European Association for Machine Transla­ gual Eur.  
tion, Leuven, str. 73‡80.  [12]	  Vashee, K. (2011). Spletni dnevnik na temo Post-Editing MT,  
[10] Torres Dominguez, R. (2012). Translation technologies survey  15. 2. 2011, dostopno  na  http://kv-emptypages.blogspot.  
results 2012. Dostopno na http://mozgorilla.com/en/texnolo­ com/2011/02/exploration-of-post-editing-mt-part-i.html.  
gii-en-en/translation-technologies-survey-results/, 10. 7. 2013.  

• 
Špela Vintarjeizrednaprofesoricana Oddelkuzaprevajalstvo Filozofskefakultete UniverzevLjubljani,kjer pouËuje raËunalniško podprtoprevajanje, lokalizacijo, prevajalske tehnologijeinterminologijo. Raziskovalnose ukvarjaz razvojem sistemovza samodejno lušËenje znanja(terminov, definicijin semantiËnihrelacij) iz eno-in veËjeziËnih besedil, z empiriËnim raziskovanjem znaËilnosti prevodov in z razvojem slovenskega znakovnega jezika. Sodelovala je v veË kot desetih nacionalnihin mednarodnih raziskovalnihprojektihspodroËja korpusnega jezikoslovjain jezikovnih tehnologij.Letosjeorganiziralaprvo mednarodno poletno šolospodroËjaprevajalskih tehnologijTransTech13naReki,Hrvaška.Je ËlanicaEvropske zvezeza raËunalniško jezikoslovje(EACL)inpredseduje Slovenskemu društvu za jezikovne tehnologije. 





Na poti do Islovarja 3.0 

1Katarina Puc, 2TomažTurk 1Slovenskodruštvo INFORMATIKA; 2Univerzav Ljubljani, Ekonomska fakulteta puckatarina@gmail.com; tomaz.turk@ef.uni-lj.si 
IzvleËek 

VËlankupredstavljamorazvoj spletnegaterminološkega slovarjainformatike Islovar.TojedolgoroËenprojektsciljemskrbza slovenskistrokovni jezikinformatike.PrvaletadelasobilauËnadoba,konihËeod sodelujoËihniimelizkušenjspodobnimnaËinomdela.Slovarjebilprostodostopen inje sproti nastajal tudis prispevki uporabnikov. Oblikovala sejeskupina sodelavcev,kije poleg strokovnjakov informatikov vkljuËevala jezikoslov­ce in sËasoma tudi leksikografe. Opredelili smo obliko urejenih slovarskih sestavkov in uredniški postopek. Razvoj Islovarja poteka še danes. Uporabniki dodajajo nove izraze, uredniki posodabljajo in urejajo vsebino. Podpora okolja, število uporabnikov in obiskanost potrjujejo pravilnost rezultatov dela.Vpripravije novaprogramskarešitev,kinajbi izkoristila sodobnejšaprogramskaorodja, ponudila uËinkovitejšiuredniški vmesnik, hkrati pa razširila uporabo Islovarja na druge vsebine. Glede na priËakovani razvoj informacijske tehnologije bo Islovar ostal na spletu, kar se ujemaz osnovnima usmeritvama: odprtost za zajem vsebineinprosta dostopnost. KljuËne besede: spletni slovar, terminološki slovar,prosti dostop, informatika, raËunalništvo. 

Abstract 

Towards Islovar 3.0 

In this paperthe evolvementofthe Islovaron-line dictionaryispresented. Islovarisa long-termproject withthe missiontocreateand support Sloveneterminologyinthefieldofinformation managementand technology.Theearlyyearsof Islovarwereinfactalearningperiod becausethe people involvedin editorial activities had little experience with lexicographyin modern technological environments. The dictionary wasfree for public access and open for contributions of new entries. The editorial team consisted of informatics experts, linguists and later lexicographers, too. The exact form and structureof dictionaryentries and editingprocedures were gradually established.Today, the developmentof Islovaris still an ongoing effort. Users can add new terms while the editors enrich and update the content. The support of the academic environment, the numberof usersandfrequencyof queries confirmthe appropriatenessofthe envisaged goals.Anewsoftware solutionis under developmentin order to exploit the possibilities of state-of-the-art web technologies, to enable efficient editing and at the same time expand the usability of Islovar in other fields. Considering the expected development of information technology in the future, Islovar will remain on the web, which is consistentwithitsmain values: opennessfor contentprovisionandfree access. Key words: online dictionary, terminological dictionary,free acccess, informatics, computing. 
1	 UVOD Zrazvojem informacijskih tehnologij sejev zadnjih letih raz­vilo spletno založništvo, ki ponuja knjige in revije kar na sple­tu. Dostopnost do številnih znanstvenih in strokovnih besedil se je s tem izredno poveËala. Ogromni so prihranki pri stro­ških izdajanja, predvsem pa pri Ëasu dostopanja. Najbolj oËitne so koristi pri izdajanju in uporabi spletnih slovarjev in enciklopedij. Te publikacije so zdaj zveËine brezplaËno dostopne, njihovo posodabljanje je preprosto. Številne se vzdržujejoz donacijamiali oglasi,kijih objavljajona straneh slovarja.To omogoËa,da lahko tako rekoË vsakdo objavi svoj slovarËek. Ugotavljamo, da nastaja nekakšna popularizacija objavljanja besedil; mnogoje tudi plevela, mnogopaje žlaht­nih rastlin, ki prej niso bile dostopne. Tako najdemo na spletu slovarje in slovarËke za množico jezi­kov. Samo portal Onelook.com ponuja 1060 angleških slovar­jev, specificiranih po podroËjih. Svetovno znana Encyclopedia Britannicaseje preselilanaspletvnovi preoblekivveËjezi­kih. Verjetno najbolj uporabljana med enciklopedijami je Wi­kipedia,ki izhajav285 jezikih. VSloveniji od leta 1995 obstaja portal Spletni slovarji, ki po­nuja 900 slovarjev za veË kot 40 jezikov, loËeno po podroËjih (Željko, 2013). Za podroËje raËunalništvo in informatika je dostopnih14 slovarjev, med njimi tudi Islovar.Vzadnjih letih se razvija portalTermania,kizdaj vsebuje36 splošnih, termi­nološkihin posebnih slovarjev(amebis, 2013). 
Pri urejanju spletnih slovarjev obstaja bistvena razlika. Najbolj pogosto na splet kar prenesejo knjižni slovar, ki ga potem posodabljajo. Ali pa slovar urejajo neposredno na spletu, tako da uporabniki vidijo tudi prispevke, ki še niso dokonËno urejeni. Taka prime­ra sta Wikipedia, pa tudi spletni terminološki slovar informatike Islovar. V Ëlanku bomo na kratko opisali nastajanje Islovarja, njegovo uporabo in izkušnje, ki so jih pri tem pridobili uredniki. 


ODZaMISLIDO PROjEKTa 

2.1	 Razvoj spletnega terminološkega slovarja 
Leto 2000 je rojstno leto Islovarja. ZaËelo se je s pobu­do za ustanovitev sekcije, ki naj bi sistematiËno skr­bela za strokovni jezik v okviru Slovenskega društva Informatika (v nadaljevanju društvo), sledilo je vabi­lo Ëlanom društva, naj se pridružijo sekciji (Batagelj, 2001). Junija 2000 je društvo ustanovilo jezikovno sekcijo, ki naj bi razvijala strokovni jezik informatike pod motom .Ni strokovne odliËnosti brez odliËnega strokovnega jezika«. Udeleženci prvih sestankov še niso imeli jasnega naËrta, kaj bi delali in kako. Šele po nekaj mesecih razprav so prišli do projekta termi­nološkega slovarja in se zedinili, da bo v njem upo­rabljena sodobna informacijska tehnologija, da bo slovar odprt in za uporabnike brezplaËen. 
Na posvetovanju Dnevi slovenske informatike v Portorožu aprila 2001 je jezikovna sekcija predstavila terminološki slovar, ki je deloval na spletu (Turk, Ja­kliË, 2001). V slovarju je bilo tedaj okoli tristo izrazov z angleškimi ustreznicami. Razlag ni bilo. Izraze so prispevali Ëlani sekcije, najveË jih je prišlo iz tedanje­ga raËunalniškega spletnega slovarËka. 
Na zaËetku je bilo delo s slovarjem nerodno. Ve­dno bolj se je kazalo, da bi morali vzpostaviti metodo uredniškega dela. To se je uresniËilo, ko sta se skupini urednikov pridružila sodelavca, ki sta imela veËletne izkušnje s pisanjem terminoloških slovarjev. Tedaj je sekcija oblikovala strategijo razvoja, ki je v devetnaj­stih toËkah opredelila glavne znaËilnosti Islovarja. 
Leto 2004 je bilo pomemben mejnik v razvoju. Slovar je po razpravi urednikov dobil ime Islovar. Na posvetovanju Dnevi slovenske informatike je izšel poskusni snopiË slovarja, ki je vseboval okrog dvesto izrazov z razlagami, naglasi in zapisom izgo­vora. Nova programska rešitev je upoštevala izkuš­nje in želje urednikov. Temeljila je na dogovorjenem uredniškem postopku (Turk, Puc, 2006). Uvedla je oznako zanesljivosti sestavkov: predlog, pregledano, strokovno pregledano, urejeno. Bila je lepo in ergo­nomsko oblikovana. Rešitev smo javno predstavili na Ekonomski fakulteti v Ljubljani. 

2.2	Povezovanjez drugimi 
Jezikovna sekcija se je povezovala z institucijami, na katerih so bili zaposleni uredniki Islovarja: z Eko­nomsko fakulteto Univerze v Ljubljani (UL; gosto­vanje na strežniku, programiranje in vzdrževanje), s Filozofsko fakulteto UL, Oddelkom za prevajalstvo (vkljuËevanje študentov), s Fakulteto za elektrotehni­ko UL, Laboratorijem za telekomunikacije (povezava z njihovim spletnim slovarjem) in Laboratorijem za umetno zaznavanje, sisteme in kibernetiko (zvoËni zapis izrazov). Od leta 2010 uredništvo Islovarja pri vnašanju zvoËnega zapisa sodeluje s podjetjem Alpi­neon, razvoj in raziskave. Vse te povezave so oboga­tile vsebino slovarja. 
Leta 2006 se je društvo obrnilo na vse slovenske visokošolske ustanove, ki so imele v svojih izobra­ževalnih programih informatiko, s priporoËilom, naj uporabljajo Islovar, prispevajo nove izraze in za lažjo dostopnost do strokovnih besedil objavljajo diplom­ska in magistrska dela ter druge dokumente na sple­tu. To je brez dvoma vplivalo na obiskanost Islovarja, pa tudi spodbudilo k objavljanju besedil na spletu, kar je postalo pomemben vir pri urejanju slovarja. 
Društvo je podpisalo sporazum o sodelovanju s Fakulteto za upravo UL, ki sekciji omogoËa delo v raËunalniških uËilnicah fakultete. 


3	 UPORaBa	 IN UREjaNjE 
3.1	 Izkaznica 
V Islovarju je bilo na dan 20. 6. 2013 6.406 iztoËnic. Vsako leto je dodanih okoli štiristo novih izrazov, ne­kaj takih, ki po presoji urednikov ne spadajo v Islo­var, je tudi izbrisanih. Slovar odlikujejo dostopnost, odprtost, prijaznost, ažurnost, preglednost in zanes­ljivost. Statistika kaže okrog 20.000 iskanj meseËno. 
Islovar je dostopen štiriindvajset ur na dan. Upo­rabniki lahko išËejo po slovenskem ali po angleškem izrazu. Uporabniški vmesnik je prijazen. Uporabni­kom sproti ponuja krajša navodila za delo. Uporab­niki lahko vnašajo nove izraze, popravljajo lastne izraze, jim dodajajo razlago, komentirajo slovarske sestavke ali se oglašajo z vprašanji v forumu. Lahko si ogledajo nove izraze, lahko se sprehajajo po Islo­varju, ko išËejo nakljuËne izraze ali izraz dneva. 
Islovar vsebuje obširen opis, povezave na druge spletne slovarje, navedeni so uporabljeni viri, zgo­dovina razvoja in vsi sodelavci, ki so v preteklosti prispevali k razvoju. Islovar pri iskanju ponudi izraz in besedne zveze z njim. »e v Islovarju ni enakega izraza, ponudi podobne izraze, kar je koristno zla­sti, kadar se uporabnik zmoti pri zapisu izraza. Ure­jen slovarski sestavek je opremljen z razlago, pove­zavo na sinonime in podobne izraze ter z zvoËnim zapisom izgovora. Vsaka iztoËnica je opremljena z znaËko zanesljivosti (predlog, pregledano, strokovno pregledano, urejeno), ki oznaËuje stopnjo obravnave v uredniškem postopku. Urejeni izrazi imajo najvišjo stopnjo zanesljivosti. 
digitalna kompetenca ­e ­e [digita:lna kOmpEte:ntsa] ž (angl. digital competence) 



znanje, spretnosti in motivi, ki so potrebni za uËinkovito izvršitev doloËene naloge ali rešitev problema z uporabo informacijske tehnologije; sin. e­kompetenca 
Slika 1: Primer urejenega sestavka 
IztoËnici sledi v oglatem oklepaju zapis v MRPA,1 ki je podlaga za zvoËni zapis in ga uporabnik lah­ko sliši s pritiskom na gumb .zvoËnik«. V okroglem oklepaju sledi angleška ustreznica. 
Obvezni del urejenega slovarskega sestavka je razlaga. Slovarska razlaga je kratka, razumljiva, koli­kor mogoËe poljudna. Razširjena je z navedbo sino­nima ali podobnega izraza. Uporabnikom omogoËa, da spoznajo pomen pojma, ki so ga iskali v slovarju. Urednikom pomaga pri natanËni opredelitvi pojma in po potrebi oblikovanje novega izraza v slovenšËini. 
Islovar naj bi zajemal podroËje informatike in raËunalništva. Vendar na vprašanje, kaj danes spada v terminološki slovar informatike, ni jasnega odgo­vora. Uporaba informacijske tehnologije se širi tako hitro, da so meje za zdaj nejasne. Glede na praktiËno neomejenost prostora na spletu uredništvo Islovarja vkljuËuje tudi izraze z mejnih podroËij. Primer take­ga podroËja je e­izobraževanje, ki je v zadnjem Ëasu zelo aktualno. 



3.2	 Uporabniki 
Uporabniki Islovarja so vsi, ki se pri uËenju, študiju ali delu sreËujejo z informatiko in so vešËi uporabe spleta ‡ dijaki, študenti, profesorji, prevajalci, in­formatiki. V slovarju je trenutno registriranih 1.455 uporabnikov. Njihovo število je brez dvoma veliko veËje, ker se uporabnikom ni treba registrirati, Ëe samo išËejo izraze. Tako je v obdobju od 1. 5. 2012 do 1. 5. 2013 Islovar obiskalo 26.856 uporabnikov, ki so slovar skupno uporabili 72.412­krat. NajveË obi­skov je bilo iz Slovenije (okr. 90 %), Velike Britanije 
Machine Readable Alphabet‡raËunalniško berljivi zapis. 
(1,7 %) in Belgije (1,3 %), sledijo pa NemËija, Avstrija, Hrvaška, Italija, Luksemburg in Srbija s po 0,5 % obi­skov. Predvidevamo, da gre za Slovence po svetu, ki delujejo kot pisci besedil, prevajalci in podobno. Pri obiskih iz Slovenije je nekaj Ëez polovico obiskoval­cev z obmoËja Ljubljane (55,8 %), iz Maribora 14,4 % in iz Celja 4,3 %, z manjšimi deleži sledijo drugi kraji. 
VeËinoma gre za enostavne poizvedbe ‡ v prej na­vedenem obdobju je samo dva odstotka iskanj izve­denih z naprednim iskalnikom. 
Zlasti mladi nimajo težav pri komuniciranju prek spleta, veliko lažje išËejo po spletu kot po knjigah. Zato lahko ocenjujemo, da je veËina uporabnikov mladih. 


3.3	 Uredniki in uredniško delo 
Uredniški vmesnik je drugaËen od uporabniškega. V Islovarju je obsežno navodilo za delo urednikov. Uredniki imajo možnost naprednega iskanja, ki omogoËa iskanje po raznih kriterijih. Slovar pokaže podrobnosti slovarskega zapisa, npr. ime avtorja, da­tum vnosa, vso zgodovino sprememb, uporabljeni vir, Ëe ga je avtor zapisal. 
Uredniški postopek loËuje tri glavne faze urejanja: 
• 
vnos izrazov v Islovar, 

• 
strokovno urejanje in 

• 
slovaropisno urejanje. 


Pri vnosu sodelujejo razen urednikov tudi upo­rabniki, ki izrazom dodajajo razlage in lahko tudi popravljajo svoje sestavke. Enako vnašajo izraze tudi uredniki. Taki sestavki prejmejo znaËko .predlog« in jih uredništvo praviloma pregleda, po potrebi do­polni ali se posvetuje glede vsebine sestavka. ZnaËka .pregledano« v takem sestavku pomeni, da je izraz vsebinsko primeren za Islovar, vendar sledi še na­tanËno urejanje, zelo verjetno spreminjanje razlage, pogosto tudi samega izraza. 

Strokovno urejanje je zahtevnejši postopek, pri katerem sodelujejo uredniki Islovarja v skupinah. V strokovni skupini sodeluje tri do pet urednikov. Na sestankih razpravljajo o vsebinsko zaokroženi zbirki, ki jo pred tem pripravi eden od Ëlanov skupine. Pre­gledujejo pravilnost slovenskih izrazov, pa tudi vsebi­no razlag. Pri urejanju strokovne skupine pregledujejo vse dostopne tiskane vire, od slovarjev do Ëlankov v strokovnih revijah in uËbenikov. Vendar so tiskani viri za podroËje informatike pogosto že zastareli. Zato uredniki upoštevajo predvsem spletne informacijske vire, kot so spletišËa najdi.si, Evroterm, Google, Wiki­pedija, korpus DSI.2 Dostopni so številni Ëlanki in dru­ga strokovna besedila; avtorji in institucije, ki delujejo na podroËju informatike, pogosto objavljajo prispevke na svetovnem spletu. Pri vrednotenju izrazov in nji­hovih razlag uredniki upoštevajo pogostost objav, pa tudi kdo so njihovi avtorji. Omejevanje virov samo na to, kar najdemo na spletu, je morda sicer praktiËen, toda enostranski pristop (Puc, 2009). Izrazi prejmejo znaËko .strokovno pregledano«. 
Sledi slovaropisno urejanje izrazov. Slovaropisna skupina je sestavljena interdisciplinarno, dva Ëlana imata veËletne izkušnje pri slovaropisju in urejanju terminoloških slovarjev. Skupina pregleduje zbirke, ki so bile že strokovno pregledane, uredi zaglavja se­stavkov ‡ iztoËnico, obrazilo rodilnika, spol, oznake za besedno vrsto, naglas, doda oceno primernosti iz­raza, uredi sinonime in povezave na sorodne izraze. 
Za naglase vsebuje Islovar posebno rešitev. Nabor Ërkovnih znakov na spletu za zdaj ne omogoËa prepro­stega zapisa naglasov in nekaterih znakov, kot je npr. naglašeni polglasnik. Prav ta pa se pojavlja pri izgo­voru kratic, ki so v informatiki pogoste. Zato Islovar vsebuje posebno rešitev naglasnih znamenj, ki se pri urejenih izrazih spremenijo v MRPO in zvoËni zapis. 
Pred dokonËno ureditvijo gre zbirka v razpravo vsem urednikom, ki lahko prispevajo pripombe in predloge. Te nato obravnava slovaropisna skupi­na, ponovno pregleda vse sestavke in jih oznaËi s .pregledano«. Spreminjanje teh sestavkov nato brez soglasja slovaropisne skupine ni veË mogoËe. 
Odprtost Islovarja bi lahko ogrožala kakovost nje­gove vsebine. To uredništvo rešuje z veËkratnim pre­
Korpus informatike vsebuje besede iz zbornikov posvetovanja DSI 
2003‡2012 in Ëlankov revije Uporabna informatika 2010‡2012. 


gledovanjem sestavkov, pogosto celo s ponovnim pre­gledovanjem in dopolnjevanjem že urejenih sestav­kov. Vsak izraz je pregledan vsaj štirikrat, razlaga vsaj trikrat. Ta skrb za kakovost hkrati povzroËa, da posto­pek urejanja poteka poËasi in je v Islovarju dokonËno urejena samo nekaj veË kot tretjina vseh izrazov. 


4	 Na»RTI 
Spletni slovar za razliko od knjižne izdaje poleg laž­je dostopnosti prinaša tudi dinamiËnost in možnost izmenjave mnenj in izkušenj. Ker je urejanje vsebine terminološkega slovarja dolgoroËen projekt, zlasti Ëe je vanj vkljuËenih veË sodelavcev, je koordinacija med njimi kljuËnega pomena. Poleg tega je jezik živ, se spreminja in raste iz dneva v dan, še posebno na podroËju informatike in raËunalništva. To pri dolgo­roËni naravi projekta pomeni, da moramo slovarske sestavke, ki bi jih klasiËno že uvrstili v knjižno izdajo, redno spreminjati in dopolnjevati. 
Zato je Islovar poleg same vsebine tudi razmero­ma zapleten spletni program, ki omogoËa razliËne funkcionalnosti, ki jih pri svojem delu uporabljajo uredniki in uporabniki slovarja. Spletni program je namenjen podpori uredniških postopkov, ki smo jih razvijali iz leta v leto, na podlagi pridobljenih izku­šenj in tudi ob pomoËi strokovnjakov s podroËja slo­varopisja, ki so med stalnimi sodelavci Islovarja. 
Postopki urejanja so že dosegli stopnjo zrelosti, tako da je naËin urejanja že ustaljen in usklajen in ve­liko sprememb na tem podroËju v prihodnje ne gre priËakovati. Napredek je še mogoË pri posameznih opravilih, ki pa so odvisna tudi od programske re­šitve. 
Spletno zasnovo Islovarja kot orodja za uporab­nike ter programsko opremo kot orodja za urednike bomo ohranili, ker poleg samega dela podpira osnov­no usmeritev jezikovne sekcije Slovenskega društva INFORMATIKA, to je odprtost in prosta dostopnost. Trenutno naËrtujemo prenovo spletne aplikacije, ki bo zasnovana nekoliko drugaËe kot obstojeËa in pri kateri bomo uporabili nekaj novejših tehnologij za gradnjo spletnih programov (npr. AJAX), ki pri zasnovi obstojeËe rešitve še niso bile razvite. To bo omogoËilo bolj uËinkovito uporabo in izvedbo do­loËenih opravil pri urejanju slovarja. Uporabili bomo minimalistiËni pristop pri gradnji uporabniškega vmesnika in sodobne prijeme pri obravnavi in shra­njevanju podatkov, osnovni cilj pri tem pa je olajšanje nekaterih opravil pri urejanju in uporabi Islovarja. To bo že tretja popolnoma prenovljena verzija program­ske opreme od ustanovitve jezikovne sekcije. Zaradi boljše vidnosti naËrtujemo tudi vkljuËitev spletne iz­daje Islovarja v socialna omrežja. 
Poleg programske opreme je pomembna tudi vse­bina ‡ pred uredništvom Islovarja je velik izziv, saj se informatika in raËunalništvo zelo hitro širita in razvi­jata. Nova podroËja prinašajo s sabo tudi nove izraze, ki jih je treba evidentirati, zlasti pa pravilno urediti z vidika slovenistike in z vsebinskega vidika. 


5	 SKLEP 
Delo pri Islovarju je skupinsko. PodroËje informatike postaja vedno bolj razvejano, kompleksno, zato da­nes ni veË mogoËe, da bi terminološki slovar sestavil en sam avtor. Zelo pomembna je interdisciplinarnost v delovnih skupinah, sodelovanje strokovnjakov, in­formatikov in jezikoslovcev. Za uspešno delo so po­trebni toleranca, spoštovanje mnenja drugih, vËasih tudi kompromis. NiË manj pomembna ni trajna, pri­jateljska vez, ki se po veËletnem sodelovanju ustvarja v skupinah. 
V Islovarju je uskladišËeno znanje, ki so ga v letih dela prispevali uporabniki in uredniki in je zdaj na voljo javnosti. To znanje je zlasti razvidno iz razlag, ki jih vsebujejo slovarski sestavki. Urejanje termino­loškega slovarja pomeni ne samo posredovanje la­stnega znanja, temveË tudi uËenje, pridobivanje no­vega znanja od drugih sodelujoËih v skupini. 
Islovar je informativen, pa tudi normativen slo­var. Namen Islovarja je spodbujati uporabo pravilnih slovenskih strokovnih izrazov. Pri konËnem urejanju slovaropisna skupina oceni primernost posamezne­ga izraza in ga tudi ustrezno oznaËi, Ëe ni sprejemljiv. Namesto njega ponudi drug, dober slovenski izraz. S tem se poveËuje uporaba pravilnega, lepega strokov­nega jezika. 
Islovar je prav gotovo dolgoroËen projekt zaradi svoje narave in zasnove ‡ ker je strokovni jezik živ in se nenehno spreminja, je treba slediti tem spremem­bam. Glavni cilji in smernice pri urejanju Islovarja ostajajo isti že vrsto let, lahko bi celo rekli, da je or­ganizacija uredniškega dela zrela; vprašanje, ki nam ob tem pride na misel, pa je, ali je že zrela vsebina Islovarja. V tem trenutku bi lahko rekli, da bi lahko slovar že nekajkrat izdali v knjižni obliki, vendar to ni skladno z njegovo naravo in dinamiko. 
Sodelavci Islovarja opravljajo uredniško delo in druga opravila s tem v zvezi pretežno ljubiteljsko, v osnovi je slovar odprt in prosto dostopen, in to se kaže tudi v medsebojni nesebiËni izmenjavi znanja in izkušenj. Še zlasti je vedno prisotno zavedanje o koristnosti prispevka stroki, jeziku in slovenski kul­turi nasploh. 


VIRI IN LITERaTURa 
[1]	 Batagelj,V. (2001). Razvoj slovenskega raËunalniškega izraz­ja. Uporabna informatika, št. 2, str. 95‡99. 
[2]	 
Puc, K. (2009).Urejanje spletnega terminološkega slovarja Is­lovar,Terminologija in sodobna terminografija, ur. N. Ledinek, 

M. 
Žagar Karer, M. Humer, Založba ZRC SAZU, Ljubljana. 


[3]	 Puc, K., Erjavec,T. (2006). Uporaba korpusa pri urejanju sple­tnega terminološkega slovarja. Zbornik 5. slovenske in 1. med­narodne konference Jezikovne tehnologije IS.LTC, Ljubljana. 
[4]	 Slovensko društvo INFORMATIKA (2013). Islovar. http://www. islovar.org/. 
[5]	 Turk,T., JakliË, J. (2001).Terminološki spletni slovar.Zbornik posvetovanja Dnevi slovenske informatike. 
[6]	 Turk,T.,Puc,K. (2006).Islovar kot model spletnega terminolo­škega slovarja. Obdobja 24, Razvoj slovenskega strokovnega jezika. Univerza v Ljubljani, Filozofska fakulteta. 
[7]	 Turk, T., Puc, K. (2013). Islovar vËeraj, danes, jutri. Zbornik posvetovanja Dnevi slovenske informatike. 
[8]	 Željko, M. (2013). Spletni slovarji. http://evroterm.gov.si/slovar/. 
[9]	 Amebis (2013). Termania. http://www.termania.net. 

• 
KatarinaPucje diplomiralana Filozofskifakulteti Univerzev Ljubljaniizpredmetov francoskijeziks književnostjoin angleškijeziks književnostjoter magistrirala iz poslovne politikeinorganizacijena Ekonomskifakulteti Univerzev Ljubljaniz delom Ekonomskiinorganizacijski kriterijiza odloËanjeo uporabi tehnologijevpi­sarniških sistemih. Pomembnejše delovneizkušnje: izobraževanje,uredništvoin tehniËnouredništvoknjig,revij,zbornikov,prevajanje književnihdelinstrokovnih besedil iz anglešËine, francošËine in nemšËine v slovenšËino, lektoriranje strokovnih besedil. Pobudnica ustanovitve jezikovne sekcije pri Slovenskem društvu Informatika.Urednica spletnega terminološkega slovarja informatike Islovar. 
• 
TomažTurkjeizredniprofesorna Ekonomskifakulteti UniverzevLjubljani.Poleg pedagoškegadelasodelujeprimnogih raziskovalnihin svetovalnihprojektih.Razisko­valnose ukvarjasproblematiko privzemanja informacijskein komunikacijske tehnologije,z ekonomiko informatikein telekomunikacij, menedžmentom informacijskih tehnologijin telekomunikacijskih storitevter razvojemprogramskihrešitev. ObjaviljeveËkot petdeset raziskovalnih Ëlankovin delov monografij.JeËlan upravnega odbora Ekonomskefakultete UniverzevLjubljaniterËlanveË raziskovalnihinstrokovnihzdruženj(Zveza ekonomistov Slovenije,InternetSociety,European Distance Education Network ter International Association for Computer Information Systems). Pobudnik ustanovitve jezikovne sekcije ternjenpredsednikod leta 2010. 
INFORMACIJE 



Iz Islovarja 
V tej .tevilki revije objavljamo zbirko izrazov, ki se uporabljajo pri pisavi in v tiskarstvu. Izraze lahko komen­tirate tako, da se prijavite v poglavju Nov uporabnik, poi.Ëete izraz, ki ga želite komentirati, in zapi.ete svoj komentar ali predlog spremembe. V Islovar lahko kot uporabnik dodajate tudi nove izraze in tako pripomo­rete k bogatenju vsebine. Islovar najdete na naslovu http://www.islovar.org. 
abecédni nabor znákov ­ega ­ôra ­­m (angl. alphabetic character set) nabor znakov, ki obsega velike in male latiniËne Ërke 
álfanumeriËni nabor znákov ­ega ­ôra ­­m (angl. alphanumeric character set) nabor znakov, ki obsega Ërke in .tevke 
berljívost ­i ž (angl. 1. legibility, 2. readability) 
1.
 lastnost zapisanega, da ga je mogoËe 
prebrati, npr. berljivost zapisa1; sin. Ëitljivost 


2.
 lastnost, ki doloËa napor, s katerim je mogoËe prebrati besedilo, npr. berljivost besedila, berljivost podatkov 



bítni znák ­ega ­a m (angl. bitmap character) gl. rastrski znak 
Ëitljívost ­i ž (angl. legibility) lastnost zapisanega, da ga je mogoËe prebrati, npr. Ëitljivost zapisa; sin. berljivost (1) 
dólarski znák ­ega ­a m (angl. dollar sign) vidni znak $, ki oznaËuje podatkovni tip spremenljivke, konec vrstice v regularnem izrazu, pozivnik 
eksponent ­enta m (angl. superscript, superior) pomanj.an vidni znak, dvignjen ob drugem znaku, npr. v matematiËnih, kemijskih besedilih 
generátor znákov ­ja ­­m (angl. character generator) bralni pomnilnik, v katerem so shranjene znakovne matrike rastrske pisave 
gráfiËni naËín ­ega ­a m (angl. graphics mode) prikaz podatkov na zaslonu, pri katerem je mogoËe spreminjati vrednost posamezni slikovni piki (1); prim. znakovni naËin 
kodírani nabor znákov ­ega ­ôra ­­m (angl. coded character set, code page, codepage) standardiziran nabor znakov, pri katerem je vsakemu znaku (2) dodeljena .tevilka; sin. kodna stran, kodni nabor 
kódna strán ­e ­í ž (angl. coded character set, code page, codepage) standardiziran nabor znakov, pri katerem je vsakemu znaku (2) dodeljena .tevilka; sin. kodirani nabor znakov, kodni nabor 
kódni nabor ­ega ­ôra m (angl. coded character set, code page, codepage) standardiziran nabor znakov, pri katerem je vsakemu znaku (2) dodeljena .tevilka; sin. kodirani nabor znakov, kodna stran 
kontrólni znák ­ega ­a m (angl. control character) gl. krmilni znak 
krépko prisl. (angl. bold) izraža slog pisave, pri katerem so Ërke odebeljene 
krmílni znák ­ega ­a m (angl. control character) nevidni znak, s katerim se krmili program, izhodna naprava; sin. kontrolni znak 
kurzíva ­e ž (angl. italic) gl. ležeËa pisava 
ležéËa pisáva ­­ž prisl. (angl. italic) pisava s postrani oblikovanimi Ërkami; sin. kurziva 
loËílo ­a s (angl. punctuation) vidni znak za Ëlenitev pisanega besedila, npr. pika, vejica 
loËítveni znák ­ega ­a m (angl. separator symbol, delimiter) znak, veË znakov, ki se uporabljajo za oznaËitev zaËetka ali konca polja, podpolja, zapisa (3), npr. loËilec podpolja; sin. razmejevalec, separator 
maskírni znák ­ega ­a m (angl. wildcard, wild character) gl. nadomestni znak 
MICR MICR­ja [mic.r.] m krat. (angl. magnetic-ink character recognition) raËunalni.ko prepoznavanje znakov (2), zapisanih z magnetnim Ërnilom, ki se uporablja pretežno v banËni.tvu za poslovanje s Ëeki 
mínus ­a m (angl. minus sign) 
1.
 znak (­), ki oznaËuje operacijo od.tevanja 

2.
 raËunski znak (­) za oznaËevanje negativnih vrednosti; prim. plus (2) 


nabor znákov ­ôra ­­m (angl. character set, charset) dogovorjena množica znakov (2), ki omogoËa zapisovanje in izmenjavo podatkov, npr. abecedni nabor znakov, numeriËni nabor znakov, alfanumeriËni nabor znakov 
nadoméstni znák ­ega ­a m (angl. wildcard, wild character) znak (2), ki nadome.Ëa en znak (2) ali veË znakov (2) pri poizvedovanju, npr. zvezdico (*), vpra.aj (?); sin. maskirni znak 
natisljívi znák ­ega ­a m (angl. printable character, printing character) gl. vidni znak 
nedovóljeni znák ­ega ­a m (angl. illegal character) znak (2), ki v danem kontekstu ni dovoljen 
nenatisljívi znák ­ega ­a m (angl. non-printable character, non-printing character) gl. nevidni znak 
nevídni znák ­ega ­a m (angl. non-printable character, non-printing character) vsak od znakov (2) brez pripadajoËe grafiËne podobe, npr. krmilni znak; sin. nenatisljivi znak; prim. vidni znak 
níz znákov ­a ­­m (angl. character string, alphanumeric string) zaporedje znakov (2), ki se obravnava kot celota; sin. niz; prim. spojitev 
numeriËni nabor znákov ­ega ­ôra ­­m (angl. numeric character set) nabor znakov, ki obsega .tevke 
obrísni znák ­ega ­a m (angl. outline character) znak (2), opisan z matematiËno krivuljo 
OCR OCR­a [oceer, ­era] m krat. (angl. optical character recognition) gl. optiËno prepoznavanje znakov 
óptiËno prepoznávanje znákov ­ega ­a ­­s (angl. optical character recognition, krat. OCR) postopek pretvorbe bitne slike besedila v besedilo, ki ga je mogoËe obdelovati v urejevalniku besedil 
paginácija ­e ž (angl. page numbering, pagination) oznaËitev strani z zaporednimi .tevilkami, Ërkami; sin. straniËenje (1) 
podËr´tano ­am prisl. (angl. underline) tako, da je uporabljen slog pisave, pri katerem so pod Ërkami narejene Ërte 
pôlkrepko prisl. (angl. semibold) tako, da je uporabljen slog pisave, pri katerem so Ërke nekoliko odebeljene, vendar manj kot pri krepki pisavi 
polnílni znák ­ega ­a [oun] m (angl. fill character)
.
vsak od znakov (2), s katerimi se niz znakov (2) zapolni do predpisane dolžine 
posébni znák ­ega ­a m (angl. special character) 
1.
 vsak od znakov, ki jih uporabljajo nekateri jeziki, vendar v naboru ASCII niso predvideni, npr. Ë, ., ž 

2.
 znak (2), ki ima v danem kontekstu posebno vlogo, npr. @ v elektronskem naslovu 


prázni znák ­ega ­a m (angl. whitespace, white space) presledek med dvema vidnima znakoma, ki je lahko v besedilu ali sliki 
preËr´tano prisl. (angl. strikethrough) tako, da je uporabljen slog pisave, pri katerem so po sredini Ërk narejene vodoravne Ërte, ki navadno oznaËujejo besedilo, ki bo izpu.Ëeno 
predstavítev znáka ­tve ­­ž (angl. character representation) enoznaËna prireditev .tevilËne kode znaku (2) znotraj kodiranega nabora znakov 
prográmska pisáva ­e ­e ž (angl. soft font) pisava, ki se preslika z raËunalni.kega diska v tiskalni.ki pomnilnik; prim. vgrajena pisava 
raËúnski znák ­ega ­a m (angl. operation character) vsak od znakov (2), za oznaËevanje v aritmetiËnih operacijah, npr. plus (+), minus (­) 
rástrski znák ­ega ­a m (angl. bitmap character) znak (2), predstavljen kot polje2 slikovnih pik (1); sin. bitni znak 
razmejeválec ­lca m (angl. separator symbol, delimiter) gl. loËitveni znak 
separátor ­rja m (angl. separator symbol, delimiter) gl. loËitveni znak 

INFORMACIJE 

sredínska píka ­e ­e ž (angl. midpoint, small bullet) vidni znak (•), ki se uporablja kot raËunski znak za množenje ali pri na.tevanju, odstavËnem razporejanju besedila 
straníËenje ­a s (angl. page numbering, pagination) 
1.
 oznaËitev strani z zaporednimi .tevilkami, Ërkami; sin. paginacija 

2.
 delitev dokumenta na strani 



ubéžni znák ­ega ­a m (angl. escape) krmilni znak, ki na vhodu oznaËuje prekinitev delovanja ali vnosa podatkov, na izhodu pa zaËenja zaporedje za krmiljenje izhodnih naprav 
vídni znák ­ega ­a m (angl. printable character, printing character) vsak od znakov (2) s pripadajoËo grafiËno podobo, npr. Ërka, .tevka, loËilo, matematiËni znak, oznaka valute; sin. natisljivi znak; prim. nevidni znak 
znák ­a m (angl. 1.sign, 2.character, 3.signal) 
1.
 dogovorjen lik, ki ima doloËen pomen 

2.
 vsak od elementov besedila, ki v doloËeni sestavi oblikuje pomen, npr. Ërka, .tevka, loËilo 

3.
 gib, zvok, s katerim se kaj sporoËa ali na kaj opozarja 



znák na pálec ­a ­­­­m (angl. characters per inch, krat. cpi) t.d. enota za gostoto izpisa, ki podaja .tevilo odtisnjenih znakov (2) na .irini enega palca; sin. znak/palec 
znák na sekúndo ­a ­­­­m (angl. characters per second, krat. cps) t.d. enota za hitrost prenosa podatkov, ki podaja .tevilo znakov (2), prenesenih v eni sekundi; sin. znak/s 
znák za évro ­a ­­­­m (angl. euro sign) vidni znak €, povzet po oznaki valute Evropske unije 
znák za fúnt ­a ­­­­m (angl. pound sign) vidni znak L, povzet po oznaki britanske valute 
znákovna kóda ­e ­e ž (angl. character code) enoliËno doloËena .tevilka, ki je v danem kodiranem naboru znakov dodeljena danemu znaku 
znákovna matríka ­e ­e ž (angl. character matrix) dvorazsežno polje2 dvoji.kih vrednosti, ki se izri.e kot rastrski znak 
znákovni naËín ­ega ­a m (angl. character mode, text mode) prikaz podatkov na zaslonu, pri katerem je zaslon dvorazsežno polje2 znakov (2) in je mogoËe spreminjati le cel znak, ne pa vrednosti posamezne slikovne pike (1); prim. grafiËni naËin 
znákovni podátkovni típ ­ega ­ega ­a m (angl. character type, character, char) podatkovni tip, katerega vrednosti so kodirani alfanumeriËni znaki; sin. znakovni tip 
znákovni típ ­ega ­a m (angl. character type, character, char) podatkovni tip, katerega vrednosti so kodirani alfanumeriËni znaki; sin. znakovni podatkovni tip 
znákovno usmérjen ­­­a ­­­o prid. (angl. character-oriented, character-based) 
1.
 ki se nana.a na znakovni naËin, npr. 
znakovno usmerjen uporabni.ki vmesnik 


2.
 ki se nana.a na znakovni podatkovni tip, 
npr. znakovno usmerjen prenos 




zrcálo ­a s (angl. layout) potiskani del strani brez paginacije in podalj.kov, ki segajo Ëez pravokotni ali kvadratni lik potiskane ploskve 
Izbor pripravlja in ureja Katarina Puc s sodelavci Islovarja 


Koledar prireditev 

21. konferenca Dnevi slovenske informatike: Informatika ‡ neizkorišËeni dejavnik razvoja  14.‡16. april 2014  Portorož, Slovenija  http://www.dsi2014.si/  
22nd European Conference on Information Systems (ECIS 2014)  9.‡14. junij 2014  Tel Aviv, Izrael  http://ecis2014.eu/  


Pomembni spletni naslovi 

. 	
IFIP News: http://www.ifip.org/images/stories/ifip/public/Newsletter/news ali www.ifip.org › Newsletter 

. 	
IT Star Newsletter: www.itstar.eu 

. 	
ECDL: www.ecdl.com 

. 	
CEPIS: www.cepis.com 




Dostopdo dveh tujih strokovnihrevij 

. 	
Revija Upgrade (CEPIS) v angle.Ëini (ISSN 1684-5285) je dostopna na spletnem naslovu: http://www.upgrade-cepis.org/issues/2008/4/ upgrade-vol-IX-4.html. 

. 	
Revija Novática (CEPIS) v .pan.Ëini (ISSN 0211-2124) je dostopna na spletnem naslovu: http://www.ati.es/novatica/. 



Bralcem in sodelavcem revije Uporabna informatika 
želimo uspešno in ustvarjalno 

novo leto 2014 
Uredništvo 


INFORMACIJE 



Pristopna izjava 
za Ëlanstvo v Slovenskem dru.tvu INFORMaTIKa 


NaroËilnica narevijo UPORABNA INFORMATIKA 
NaroËnina zna.a:	 35,00 € za fiziËne osebe 85,00 € za pravne osebe‡prvi izvod 60,00 € za pravne osebe‡vsak naslednji izvod 15,00 € za .tudentein seniorje (obpredloaitvi dokazilao statusu) 
DDV je vkljuËen v naroËnino.