Uporaba strojnega uËenja za
postavljanje vejicv slovenšËini 

Peter Holozan, Amebis, d. o. o., Kamnik, Bakovnik 3, 1241 Kamnik peter.holozan@amebis.si 

IzvleËek 

Za slovenšËino obstajata dva programa, ki postavljata vejice v besedilo s pomoËjo pravil, ni pa še bilo preizkušeno strojno uËenje, ki je že bilo uspešno uporabljenoza postavljanjevejicvdrugihjezikih.Zapreizkušanjejebil uporabljen seznamprimerovznapakamiprivejicahizkorpusaŠolar 
(209.156 besed).Vprvem deluje bilostrojno uËenje uporabljenozaproblem iskanja vseh vejic, doseženirezultatje primerljivzdrugimi jeziki (natanËnost 0,861in priklic 0,641)insprogramomas pravili, najboljširezultatje bil doseženz uporabo skladenjskega analizatorja, lematizator, oblikoslovni oznaËevalnikin skladenjski analizatorpa so bili nauËeniz uËno množicobrez vejic, uporabljenje bil klasifikator ADTree.Preizkušenaje bila še uspešnost popravljanja realnih napak v besedilu, pri Ëemer je bil rezultat slabši (natanËnost 0,676 in priklic 0,545 za manjkajoËe vejice). KljuËne besede: postavljanje vejic, popravljanje napaËnih vejic, slovenšËina, strojno uËenje, ADTree. 

Abstract 

Using MachineLearning for 	comma Placingin Slovene 

Forthe Slovenelanguagetherecurrentlyexisttwosoftware solutionsabletoplace commasintotextusingrules, however MachineLearning thathasalreadybeen successfullyusedforcommaplacinginotherlanguageshasneverbeentriedwithSlovene.Fortesting,alistofexamples with comma mistakes from the corpus Šolar (209156 words), was used. In the first part of the experiment machine learning was used for searchingall commas,the obtainedresultis comparablewith other languages(precision 0.861andrecall0.641)andtherule-basedprograms. The best result was achieved using the syntax analyser. The lemmatiser, the PoS tagger and the syntax analyser were trained on a corpus wi­thout commas,theADTree classifierwasused.Real comma mistakeswerealsotestedbuttheresultswere worse(precision0.676andrecall 
0.545 for missing commas). 
Key words: comma placing, comma error correction, Slovene, machine learning, ADTree. 

1	 UVOD Program,kibi pravilno postavljal vejicev besedilo,ni upora­ben le za pisce, ki tipkajo besedila in pri tem spregledajo kakšno vejico (postavljanje vejic povzroËa hude težave celo bodoËim uËiteljem na razredni stopnji (Šek Mertük, 2011)), temveË tudi za druge namene. Pravilno postavljene vejice tako npr. izboljšajo oblikoslovno oznaËevanje besedil (Hillard idr., 2006), pomembne pa so tudi pri sistemih za razpoznavo govora, ki le iz govora ne morejo pravilno postaviti vejic (Hu­ang&Zweig, 2002). Za slovenšËinože obstajatadva programa (Besana1inLangu­ageTool2), ki postavljata manjkajoËe vejice; oba temeljita na roËno napisanih pravilih (Holozan, 2012). NihËe pa za slo­venšËino še ni preizkusil, kako uspešne so pri tem statistiËne metode, ki uporabljajo strojno uËenje iz primerov za izpeljavo pravil za vejice. Strojno uËenje zahteva veliko število prime­
1 http://besana.amebis.si 2 http://www.languagetool.org/ 
rov, iz katerih lahko izpelje pravila; taki primeri napaËne oz. pravilne rabe vejic so zdaj na voljo v korpusu Šolar, v kate­rem so zbrana besedila, ki so jih napisali uËenci in dijaki, skupaj z uËiteljskimi popravki. 


2	 PREDHODNE	RaZISKaVE 
Strojno uËenje je bilo že veËkrat uporabljeno za uËe­nje postavljanja vejic v drugih jezikih, veËinoma pa so raziskovali problem, ko je treba v besedilo posta­viti vse vejice (oz. nekateri celo vsa loËila), kar je po­membno predvsem pri sistemih za razpoznavo go­vora (Huang & Zweig, 2002). 
Beeferman idr. (1998) so preizkušali postavljanje vejic v anglešËini s pomoËjo skritega markovskega modela in z uporabo Viterbijevega algoritma. 
Hardt (2001) je preizkušal postavljanje vejic v dan­šËini, in sicer z uporabo Brillovega oznaËevalnika, vendar se je omejil le na ugotavljanje odveËnih vejic, pri Ëemer so bile odveËne vejice dodane nakljuËno. 

Zhang idr. (2002) so preizkušali strojno uËenje za vejice v anglešËini in nemšËini, in sicer z odloËitveni­mi drevesi z uporabo skladenjskih podatkov. 
Shieber in Tao (2003) sta preizkušala postavljanje vejic za anglešËino; pomembna je njuna ugotovitev, da je smiselno nauËiti statistiËni oznaËevalnik na uËnem korpusu brez vejic. 
Alegria idr. (2006) so preizkušali strojno uËenje v baskovšËini. Uporabili so program WEKA3 in preiz­kušali razliËne metode strojnega uËenja. 
Israel idr. (2012) so se ob problemu postavljanja vseh vejic v anglešËini lotili tudi problema poprav­ljanja napaËnih (manjkajoËih in odveËnih) vejic v be­sedilu. 
Programa za postavljanje vejic v slovenšËini je preizkusil Holozan (2012), in to za problem, ko je tre­ba popraviti napaËne vejice v besedilu. Uporabljen je bil vzorec, narejen iz korpusa Šolar, ki vsebuje napa­ke, ki so jih naredili uËenci osnovnih in srednjih šol. 

3	 ZaSNOVa 	POSKUSa 
Namen poskusa je preizkusiti metode strojnega uËe­nja v slovenšËini, in sicer najprej za problem postav­ljanja vseh vejic (na kar je bila osredinjena do zdaj veËina tujih raziskav in kar je uporabno pri razpo­znavi govora), potem pa še za problem popravljanja napaËnih vejic (kar je uporabno v slovniËnih pregle­dovalnikih, ki tako pomagajo piscem besedil postav­ljati vejice). 
Osnova ideja poskusa postavljanja vseh vejic je povzeta po Alegria idr. (2006) in je taka, da uporabi­mo korpus s pravilno postavljenimi vejicami, ga obli­koskladenjsko oznaËimo, lematiziramo in skladenj­sko razËlenimo (pri Ëemer je treba upoštevati, da pri praktiËni uporabi nimamo vejic vnaprej, zato je treba preizkusiti oznaËevanje tudi brez vejic, na kar sta opozorila že Shieber in Tao (2003), medtem ko Ale­gria idr. (2006) tega niso posebej preizkušali). Vsako besedo z doloËenim okoliškim oknom pretvorimo v seznam atributov in dodamo atribut, ali ji sledi vejica (ta atribut je potem razred pri klasifikacijskem pro­blemu). Tako zapisane besede uvozimo v program za strojno uËenje, v katerem izvedemo eksperimente. 
Enako kot pri Alegria idr. (2006) je bil uporabljen program WEKA, ki ima vgrajeno veliko klasifikator­jev. Preizkušeno je bilo veËje število klasifikatorjev, potem pa izbranih nekaj najboljših (pri Ëemer smo upoštevali, da so Ëim bolj razliËni), ki so bili potem uporabljeni v nadaljnjih preizkusih, v katerih so bili preizkušeni razliËni atributi, velikost okna, vpliv oznaËevanja in parametri klasifikatorja. 
Za preizkušanje je bilo uporabljeno desetkratno preËno preverjanje, pri Ëemer primere razdelimo na deset delov, devet delov uporabimo za uËenje, pre­ostali del pa za preizkušanje, kar ponovimo deset­krat z razliËnim delom za preizkušanje in izraËuna­mo povpreËni priklic in natanËnost. 
Za primerjavo sta bila na isti nalogi preizkušena še Besana in LanguageTool. 
Drugi poskus je prenos ugotovitev iz prvega po­skusa v popravljanje napaËnih vejic in primerjava s programoma Besana in LanguageTool. Preizkušanje v tem poskusu je namreË bolj zapleteno, zato je naj­boljšo kombinacijo za strojno uËenje laže poiskati pri problemu iskanja vseh vejic in jo potem uporabiti še pri popravljanju napaËnih vejic. 

3.1	 Korpus 
V raziskavi je bila uporabljena posodobljena verzija korpusa (popravljenih je bilo nekaj napaËnih vejic), ki je bil uporabljen v Holozan (2012). To je podkorpus, narejen iz korpusa Šolar,4 ki je zbirka besedil, ki so jih napisali uËenci v šoli, in ki vkljuËuje tudi popravke napak. Ta podkorpus vsebuje le povedi z napaËnimi vejicami (bodisi manjkajoËimi bodisi odveËnimi), pri Ëemer so mesta manjkajoËih vejic oznaËena z znakom ¤, odveËne vejice pa so nadomešËene z znakom ÷; ve­likost tega podkorpusa je 209.156 besed (vkljuËno z loËili, razen vejic), v podkorpusu je 11.892 pravilno postavljenih vejic, 11.399 manjkajoËih vejic in 2709 odveËnih vejic. 
Za problem postavljanja vseh vejic (in tudi za uËe­nje pri popravljanju vejic) je bil korpus predelan tako, da so bile vse vejice popravljene (znaki ¤ zamenjani z vejicami, znaki ÷ pa pobrisani), s Ëimer je bil narejen korpus s pravilno postavljenimi vejicami. 
Predvsem za ta problem postavljanja vseh vejic (pa tudi za realno natanËnost pri popravljanju na­paËnih vejic, Ëeprav je tu težava, da je ta odvisna od deleža napak v korpusu in se je tako težko odloËiti, katera besedila vsebujejo povpreËno število napaËnih vejic) bi bilo sicer bolje uporabiti korpus, ki bi vse­boval tudi povedi s pravilno postavljenimi vejicami, vendar takega korpusa ob izvajanju poskusa ni bilo 

3 http://www.cs.waikato.ac.nz/ml/weka/ 4 http://www.slovenscina.eu/korpusi/solar 
na voljo. Tudi popravki v korpusu Šolar namreË niso povsem natanËni, zato so bili primeri v podkorpusu roËno preverjeni in ustrezno popravljeni. 
Druga možnost za postavljanje vseh vejic bi bila uporaba dela katerega od obstojeËih korpusov (npr. Gigafide),5 vendar se tu postavi vprašanje, kako na­tanËno so lektorirana besedila, vkljuËena v korpuse. Se je pa za to rešitev odloËila veËina tujih raziskoval­cev (tudi Alegria idr. (2006), ki so med drugim upo­rabili Ëasopisna besedila). 
3.1.1	 OznaËevanje 
Tako Hardt (2001) kot tudi Alegria idr. (2006) so eks­perimentirali z oznaËenimi korpusi, saj lahko pravil­ne oblikoskladenjske oznake in poznavanje strukture povedi pomagajo pri postavljanju vejic. 
Zato je bilo tudi za slovenšËino uporabljeno oznaËevanje, in sicer oblikoslovni oznaËevalnik in lematizator Obeliks6 ter skladenjski razËlenjevalnik,7 ki sta bila razvita v okviru projekta Sporazumevanje v slovenskem jeziku.8 
Pri poskusih za baskovšËino in danšËino ni pose­bej specificirano, ali so oznaËevali korpus s pravilno ali z napaËno postavljenimi vejicami, zdi se, da so uporabili razliËico s pravilno postavljenimi vejicami. Ker pa pravilnost vejic lahko vpliva na natanËnost oznaËevalnika (Hillard idr., 2006) in ker pri praktiËni uporabi (npr. popravljanju napaËnih vejic v besedilu) ni mogoËe vnaprej imeti pravilno postavljenih vejic, sta bili preizkušeni obe razliËici oznaËevanja. 



3.2	 Ocenjevanje rezultatov 
Za ocenjevanje rezultatov sta bili uporabljeni metriki natanËnost (delež pravilno postavljenih vejic) in pri­klic (delež odkritih manjkajoËih vejic) ter metrika F1, ki je harmoniËna sredina natanËnosti in priklica in se izraËuna kot 2 * natanËnost * priklic / (natanËnost 
+ priklic). Problem postavljanja vejic predstavimo z razredom, ki pove, ali neki besedi sledi vejica. V kor­pusu je 23.291 mest, kjer mora biti vejica, vejica torej mora biti za 11,1 odstotka besed, veËinski razred pa je, da besedi ne sledi vejica, kar je v 88,9 odstotka pri­merov. 
Program WEKA je rezultate izraËunal tako za pri­mer, ko ni vejice, kot za primere, ko vejica je. Ker je 
5 http://www.gigafida.net 6 http://www.slovenscina.eu/tehnologije/oznacevalnik 7 http://www.slovenscina.eu/tehnologije/razclenjevalnik 8 http://www.slovenscina.eu 
cilj postaviti vejice v besedilo, je zanimiv predvsem rezultat pri primerih, ko vejica je, saj nam to pove, ko­liko manjkajoËih vejic bi odkrila metoda. NatanËnost je pomembnejša od priklica, ker npr. pri slovniËnem pregledovalniku noËemo preveË lažnih opozoril, se­veda pa tudi priklic ne sme biti premajhen (npr. vsaj 50 %), da je metoda uporabna, zato je pomemben tudi rezultat za F1, ki ga prav tako izraËunava pro­gram WEKA. 
Rezultati so izraËunani na besede, ker je beseda (z okoliškim oknom) element pri strojnem uËenju. 
ReferenËna vrednost uspešnosti je rezultat, ki ga dosežeta programa, ki postavljata vejice s pomoËjo pra­vil. Programa sicer nista namenjena za reševanje pro­blema, ko je treba postaviti vse vejice, vendar je vseeno zanimivo videti, kako dobro poišËeta vse vejice. 


3.3	 Priprava podatkov 
Program WEKA potrebuje podatke v formatu ARFF, v katerem glavi z opisom atributov sledi podatkovni del, v katerem vsaka vrstica predstavlja en primer. Rezultat oznaËevanja besedil je v formatu XML­TEI,9 zato je bil napisan za pretvorbo program v Perlu. Ta za vsako besedo doloËi atribute, potem pa pri izvo­zu v ARFF ob sami besedi izpiše še atribute za prej­šnje in naslednje besede glede na nastavitev okna (privzeta vrednost je ‡5 +5, torej pet besed spredaj in pet besed zadaj, s Ëimer so zaËeli tudi Alegria idr. (2006)). Vejice niso besede, ampak le atribut je-vejica na besedi neposredno pred vejico. Ta atribut je potem uporabljen kot razred pri strojnem uËenju. 
Program za izvoz v ARFF izvozi vse atribute (ra­zen podatka o obstoju vejice) kot nize, s Ëimer pa veËina klasifikatorjev ne zna delati, zato jih je treba najprej spremeniti v nominalne atribute, pri Ëemer je pri definiciji atributa našteta zaloga možnih vredno­sti. V ta namen je bil v programu WEKA uporabljen filter StringToNominal. 

3.3.1	 atributi 
Osnovni atributi za vsako besedo so oblika (sama be­seda, taka kot je napisana, npr. mize), lema (osnov­na oblika besede, npr. miza) in oblikoskladenjska oznaka (ali MSD ‡ morpho­syntactic descriptor, npr. Sozer) po oblikoskladenjskih specifikacijah JOS,10 ki pove besedno vrsto, podatke o sklonu, spolu, številu 
9 http://www.tei-c.org/Guidelines/P5/ 10 http://nl.ijs.si/jos/msd/html-sl/index.html 

ipd. Ker loËila nimajo oblikoskladenjskih oznak, jim je bila pripisana oznaka Y, da jih lahko obravnava­mo enako kot besede. NeobstojeËim besedam znotraj okna so bili vsi atributi nastavljeni na *, vsak stavek je enota zase in okno ne sega na sosednje stavke. 
Atributi so našteti tako, da so najprej atributi za samo besedo (položaj 0), temu sledijo atributi za predhodne besede (od ­1 do ­5) in temu atributi za naslednje besede (od +1 do +5). 
Po celotnem MSD je bil narejen še poskus z del­nim MSD, v katerem so atributi loËeno prvi znak MSD, drugi znak MSD in pri samostalnikih še sklon. 
Delni MSD2 je bil poskus, kako Ëim bolj prene­sti informacije iz MSD in se izogniti uporabi celot­nega MSD (zaradi predpostavke, da veliko število razliËnih MSD lahko ovira uËenje). Vsak MSD bil raz­deljen v dva atributa, prvi je kot prvo Ërko vseboval besedno vrsto, druga Ërka pa je bila vrsta pri posa­mezni besedni vrsti (pri samostalnikih, pridevnikih, glagolih, zaimkih, števnikih in veznikih). Drugi atri­but je vseboval sklon pri samostalnikih, pridevnikih, zaimkih, predlogih in števnikih, sicer pa **. 
Naslednji poskus je bil uporaba podatkov skla­denjskega razËlenjevalnika, pri katerem pa je re­zultate teže pretvoriti v atribute kot pri oblikoslov­nem oznaËevalniku in lematizatorju, saj so rezultat skladenjskega razËlenjevalnika povezave, ki gradijo drevo. 


Slika 1: Rezultat skladenjskega razËlenjevalnika 
Slika 1 kaže rezultat skladenjske razËlembe za ki kažejo na osebke, predmete in prislovna doloËila, poved .Ko MatiËek to izve, sklene ukrepati«. Za po­pri Ëemer nas pri modrih in rdeËih povezavah zanima stavljanje vejic so pomembne predvsem povezave11 zaËetek bloka, zato mora upoštevati še vse naslednje .vez«, ki kaže na veznike, .modra«, ki kaže na del po­povezave, da pridemo do zaËetka tega bloka. vedi, in rdeËe povezave .ena«, .dve«, .tri« in .štiri«, Rezultat razËlenjevalnika (skupaj z rezultatom le­
matizatorja in oblikoskladenjskega analizatorja) je za­pisan v formatu XML, kot prikazujemo na sliki 2 (iz­

11 Vsi tipi povezav so opisani na http://www.slovenscina.eu/tehnologije/ 
razclenjevalnik. pušËene so znaËke .<S />«, ki oznaËujejo presledke). 
<s xml:id=”0.0”> <w lemma=”ko” msd=”Vd” xml:id=”0.0.1”>Ko</w> <w lemma=”MatiËek” msd=”Slmei” xml:id=”0.0.2”>MatiËek</w>      <w lemma=”ta” msd=”Zk­set” xml:id=”0.0.3”>to</w> <w lemma=”izvedeti” msd=”Ggdste” xml:id=”0.0.4”>izve</w> <c xml:id=”0.0.5”>,</c> <w lemma=”skleniti” msd=”Ggdste” xml:id=”0.0.6”>sklene</w> <w lemma=”ukrepati” msd=”Ggnn” xml:id=”0.0.7”>ukrepati</w> <c xml:id=”0.0.8”>.</c> <links> <link afun=”vez” dep=”0.0.1” from=”0.0.4” /> <link afun=”ena” dep=”0.0.2” from=”0.0.4” /> <link afun=”dve” dep=”0.0.3” from=”0.0.4” /> <link afun=”modra” dep=”0.0.4” from=”0.0.0” /> <link afun=”modra” dep=”0.0.5” from=”0.0.0” /> <link afun=”modra” dep=”0.0.6” from=”0.0.0” /> <link afun=”dol” dep=”0.0.7” from=”0.0.6” /> <link afun=”modra” dep=”0.0.8” from=”0.0.0” /> </links> </s> 
Slika 2: Zapis oznaËevanjain skladenjske razËlembev formatu XML 
Slika 2 je primer, zapisan v formatu XML, ki je • je vez: beseda, na katero kaže povezava “vez”; rezultat oznaËevanja in skladenjskega razËlenjeval­• zaËetek modrega bloka: prva beseda v bloku, na nika. ZnaËke “<s” so povedi, znaËke “<w” besede, katerega kaže povezava “modra”; znaËke “<c” loËila in znaËke “<link” skladenjske po­• zaËetek rdeËega bloka: prva beseda v bloku, na vezave. katerega kaže rdeËa povezava. 
Za skladenjske atribute so bili izbrani (vrednost je 1, Ëe je trditev resniËna, oz. 0, Ëe ni): 

'Ko','ko','Vd','1','0','1','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','Mati Ëek','MatiËek','Slmei','0','1','0','to','ta','Zk set','0','1','0','izve','izvedeti','Ggdste','0','0','0','sklene','skle niti','Ggdste','0','0','0','ukrepati','ukrepati','Ggnn','0','0','0',ni vejice 'MatiËek','MatiËek','Slmei','0','1', '0','Ko','ko','Vd','1','0','1','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','to','ta','Zk set',' 0','1','0','izve','izvedeti','Ggdste','0','0','0','sklene','skleniti','Ggdste','0','0','0','ukrepati','ukrepati','Gg nn','0','0','0','.','.','Y','1','0','0',ni vejice 'to','ta','Zk set','0','1','0','MatiËek','MatiËek','Slmei','0','1','0','Ko','k o','Vd','1','0','1','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','*','izve','izvedeti','Ggdste','0','0','0','sklene',' skleniti','Ggdste','0','0','0','ukrepati','ukrepati','Ggnn','0','0','0','.','.','Y','1','0','0','*','*','*','*','*','*',ni vejice 'izve','izvedeti','Ggdste','0','0','0','to','ta','Zk set','0','1','0','MatiËek','MatiËek','Slmei','0','1','0','Ko','ko','V d','1','0','1','*','*','*','*','*','*','*','*','*','*','*','*','sklene','skleniti','Ggdste','0','0','0','ukrepati','ukrepati','Ggnn' ,'0','0','0','.','.','Y','1','0','0','*','*','*','*','*','*','*','*','*','*','*','*',je vejica 
Slika 3: Zapis zaËetka zgornjega primerav formatu 	aRFFz oknom ‡5+5 
Slika 3 kaže, kako je zaËetek zgornjega primera zapisan v formatu ARFF, ki ga zna brati programski paket WEKA. 

UPORABNA INFORMATIKA 2013 - .tevilka 4 - letnik XXI 
PREIZKUŠaNjE Za problem, ko je treba postaviti vse vejice besedilu, je bilo narejenih veË preizkusov, da bi našli najboljšo kombinacijo klasifikatorja, atributov, velikosti okna, naËina oznaËevanja in parametrov klasifikatorja. 
Zaradi velikega števila možnih kombinacij ni bilo mogoËe preizkusiti vseh, ampak se je po posameznih delnih preizkusih ožil izbor (na podlagi natanËno­
Tabela 1:Šolar, celotni MSD, brez skladenjskih atributov 
sti in delno tudi F1 na mestih, kjer so vejice), katere kombinacije je najbolj smiselno preizkušati naprej. 




4.1	 Izbiranje klasifikatorja in vpliv velikosti korpusa 
Preizkušeno je bilo veËje število klasifikatorjev, ki jih podpira program WEKA, vsi so bili uporabljeni s pri­vzetimi parametri. 

Ni vejice  je vejica  
Klasifikator  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
100 %  ZeroR  0,889  1  0,941  0  0  0  
HyperPipes  0,892  0,989  0,938  0,340  0,045  0,079  
J48  
NaiveBayes  0,965  0,947  0,956  0,632  0,726  0,676  
Decision Table  0,948  0,986  0,966  0,830  0,565  0,672  
BayesNet  0,973  0,918  0,945  0,549  0,797  0,65  
Stacking  0,889  1  0,941  0  0  0  
VFI  0,919  0,928  0,923  0,347  0,345  0,359  
aDTree  0,945  0,977  0,961  0,751  0,546  0,632  
RBFNetwork  0,948  0,975  0,961  0,740  0,570  0,644  
adaBoostM1  0,928  0,985  0,956  0,768  0,386  0,514  
NaiveBayesUpdateable  0,965  0,947  0,956  0,632  0,726  0,676  
DecisionStump  0,928  0,985  0,956  0,768  0,386  0,514  
50 %  ADTree  0,943  0,979  0,961  0,761  0,533  0,627  
DecisionStump  0,927  0,985  0,955  0,766  0,384  0,511  
25 %  J48  0,89  1  0,942  0  0  0  
NaiveBayes  0,925  0,992  0,958  0,848  0,351  0,497  
Decision Table  0,948  0,984  0,966  0,817  0,563  0,666  
Stacking  0,89  1  0,942  0  0  0  
ADTree  0,944  0,978  0,961  0,746  0,531  0,620  
LWL  0,931  0,986  0,958  0,78  0,409  0,537  
RBFNetwork  0,914  0,995  0,953  0,854  0,245  0,381  
AdaBoostM1  0,929  0,986  0,956  0,773  0,389  0,517  
NaiveBayesUpdateable  0,925  0,992  0,958  0,848  0,351  0,497  
DecisionStump  0,929  0,986  0,956  0,773  0,389  0,517  

Preizkušeno je bilo še veË klasifikatorjev, pri katerih pa izraËunavanje bodisi ni uspelo (SMO, LibSVM, HNB, MultilayerPerceptron, Bagging, FT, Prism, J48) bodisi je trajalo predolgo (LWL, KStar, Id3, NBTree, BFTree, LADTree, SimpleCart, REP­Tree). Je pa seveda mogoËe, da bi se dala katera od teh metod usposobiti z ustreznimi parametri kla­sifikatorja, ustrezno zmanjšanim oknom, manjšim korpusom ali veË potrpljenja (poËakati nekaj dni na rezultat). 
»e želimo iskati manjkajoËe vejice, nas zanima predvsem natanËnost pri možnosti, ko vejica je, ven­dar seveda tudi priklic ne sme biti preslab, tako da išËemo tudi dober F1. 
Kot uspešni klasifikatorji so se pokazali Decision Table, NaiveBayes, ADTree in RBFNetwork. Slaba stran klasifikatorja Decision Table pa je, da je preiz­kušanje neuporabno poËasno, zato je bil pri nadalj­njem preizkušanju namesto njega uporabljen AdaBo­ostM1 (klasifikatorji za nadaljnje preizkušanje so bili namerno izbrani tako, da pripadajo razliËnim sku­pinam klasifikatorjem in niso preveË podobni med seboj). 

Klasifikatorji, ki niso bili uspešni na celotnem kor­pusu, so bili preizkušeni še na zmanjšanem korpusu, da bi morda bili uspešni tam (nekateri klasifikatorji pa so bili ponovljeni za primerjavo, koliko vpliva ve­likost korpusa). 
Klasifikator J48, ki je bil uporabljen v Alegria idr. (2006), se je uspešno izvedel le pri 25 odstotkih primerov (vendar je tudi tu uporabil le veËinski ra­zred in je dal povsod odgovor, da ni vejice), pri 50 odstotkih in polnem korpusu preizkus ni bil uspe­šen. Klasifikator SMO pa sploh ni bil uspešen niti pri 
Tabela 2:Šolar 
25 odstotkih. Ta rezultat je presenetljiv, Alegria idr. (2006) so uporabljali korpus s 130.000 besedami za preizkuse (100.000 besed za uËenje in 30.000 za preiz­kušanje) in malo manjše okno (‡5+2), kar pomeni, da 25 odstotkov korpusa v našem poskusu ne bi smelo pomeniti težave. Zato bi bilo smiselno to še enkrat preizkusiti v prihodnosti z ustrezno nastavitvijo pa­rametrov klasifikatorjev. 
Manjšanje korpusa je poslabšalo rezultate pri kla­sifikatorjih NaiveBayes in RBFNetwork, na klasifi­katorje Decision Table, ADTree in AdaBoostM1 pa ni bistveno vplivalo. 


4.2	 atributi 
Vprašanje je, kateri podatki so pomembni, da jih do­damo kot atribute. Osnovna podatka sta sama be­seda in lema besede, narejen pa je bil poskus, kako uporabiti oblikoskladenjske oznake (MSD). 

Ni vejice  je vejica  
Klasifikator  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
Celotni MSD  NaiveBayes  0,965  0,947  0,956  0,632  0,726  0,676  
RBFNetwork  0,948  0,975  0,961  0,740  0,57  0,644  
ADTree  0,945  0,977  0,961  0,751  0,546  0,632  
AdaBoostM1  0,928  0,985  0,956  0,768  0,386  0,514  
Delni MSD  NaiveBayes  0,971  0,924  0,947  0,563  0,781  0,654  
RBFNetwork  0,958  0,946  0,952  0,607  0,667  0,636  
ADTree  0,944  0,984  0,964  0,811  0,537  0,646  
AdaBoostM1  0,943  0,968  0,955  0,677  0,53  0,595  
Brez oblik  NaiveBayes  0,975  0,904  0,938  0,515  0,812  0,630  
RBFNetwork  0,957  0,943  0,950  0,593  0,662  0,626  
ADTree  0,944  0,984  0,964  0,811  0,537  0,646  
AdaBoostM1  0,943  0,968  0,955  0,677  0,53  0,595  
Delni MSD2  NaiveBayes  0,967  0,935  0,951  0,592  0,749  0,661  
RBFNetwork  0,953  0,958  0,955  0,648  0,620  0,634  
ADTree  0,930  0,989  0,959  0,827  0,402  0,541  
AdaBoostM1  0,928  0,985  0,956  0,768  0,386  0,514  
MSD +delni  NaiveBayes  0,972  0,925  0,948  0,568  0,784  0,658  
MSD2  RBFNetwork  0,960  0,949  0,954  0,625  0,683  0,653  
ADTree  0,930  0,989  0,959  0,827  0,402  0,541  
AdaBoostM1  0,928  0,985  0,956  0,768  0,386  0,514  
MSD +  NaiveBayes  0,973  0,920  0,946  0,555  0,793  0,653  
skladnja  RBFNetwork  0,956  0,949  0,953  0,616  0,652  0,634  
ADTree  0,950  0,983  0,966  0,815  0,588  0,683  
AdaBoostM1  0,950  0,964  0,957  0,675  0,594  0,632  

Delni MSD (loËeno prvi znak MSD, drugi znak MSD in pri samostalnikih še sklon), je malce izboljšal rezultate pri klasifikatorjih ADTree in AdaBoostM1, poslabšal pa pri NaiveBayes in RBFNetwork. 
Zanimiv rezultat je prinesla ukinitev atributov z oblikami (torej so ostale le leme), pri Ëemer je bil re­zultat pri ADTree in AdaBoostM1 popolnoma enak, pri NaiveBayes in RBFNetwork pa se je poslabšal. 
Delni MSD2 je bil poskus, kako Ëim bolj prene­sti informacije iz MSD in se izogniti uporabi celot­nega MSD (zaradi predpostavke, da veliko število razliËnih MSD lahko ovira uËenje). Vendar je tudi ta poskus samo poslabšal rezultate (je sicer izboljšal na­tanËnost pri ADTree, vendar za ceno velikega poslab­
Tabela 3:Šolar, 	aDTree, MSD+skladnja 
šanja priklica) (rezultat je poslabšal celo delni MSD 2 in dodani celotni MSD), tako da je oËitno najbolj smiselno uporabiti kar celotni MSD. 
Atributi s podatki o skladnji so sicer poslabšali re­zultat pri klasifikatorjih NaiveBayes in RBFNetwork, vendar so ga popravili pri ADTree in AdaBoostM1, in to toliko, da je F1 pri ADTree postal najboljši, zato je bila za nadaljnje poskuse izbrana ta kombinacija. 



4.3	 Velikost okna 
Preizkušen je bil vpliv velikosti okna, tj. števila besed pred besedo, za katero ugotavljamo, ali ji sledi veji­ca, in za njo. 

Ni vejice  je vejica  
Okno  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
‡5+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡4+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡3+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡2+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡1+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡0+5  0,950  0,983  0,966  0,815  0,588  0,683  
‡5+2  0,950  0,983  0,966  0,815  0,588  0,683  
‡5+1  0,950  0,984  0,966  0,818  0,582  0,680  
‡5+0  0,889  1,000  0,941  0,000  0,000  0,000  
‡0+2  0,950  0,983  0,966  0,815  0,588  0,683  

Tabela 3 kaže, da klasifikator ADTree uporablja le trenutno besedo in še dve naprej. Vendar razen na hitrost veËanje okna ne vpliva negativno na rezul­tat, zato je pri nadaljnjih preizkusih uporabljeno kar okno ‡5+5, tudi zaradi domneve, da pri spreminja­nju parametrov klasifikatorja ADTree (torej veËanjem drevesa) zaËne klasifikator upoštevati tudi besede zunaj okna ‡0+2, ki se je pokazalo kot zadostno tukaj (drevo, ki je rezultat poskusa s parametrom ‡B 50, res vsebuje tudi položaje +3, ‡1 in ‡2 in celo ‡5, torej bi bilo tam optimalno drevo ‡5+3, kar potrjuje to do­mnevo). Ta domneva je tudi razlog, da za nadaljnje preizkušanje nismo uporabili okna ‡5+1, ki je sicer malenkostno izboljšalo natanËnost. 
MogoËe vpliva na druge klasifikatorje velikost okna drugaËe, tako da bi bilo smiselno izvesti po­skuse še za druge klasifikatorje, prav tako pa tudi za druge parametre klasifikatorja ADTree. 

4.4	 Vpliv oznaËevanja 
Rezultati postavljanja vejic so zelo uspešni, vendar vsebujejo problematiËno predpostavko: pri obliko­slovnem oznaËevanju in skladenjski razËlembi je bilo uporabljeno besedilo, ki je vsebovalo pravilno postavljene vejice. To pa seveda ni realna situacija, saj v primeru, da hoËemo v neko besedilo postaviti vejice, tega vnaprej seveda ne vemo. 
Zato je bil naslednji poskus ugotoviti, kaj se zgodi, Ëe oblikoslovni oznaËevalnik in skladenjski razËlenje­valnik nimata vejic v vhodnem besedilu. Iz korpusa so bile izbrisane vse vejice in korpus je bil ponovno oznaËen in pretvorjen v format ARFF. Ker pa je bil seveda povsod podatek, da ni vejice, je bilo treba iz datoteke ARFF za korpus z vejicami prenesti stolpec s podatki za vejico v datoteko ARFF korpusa brez ve­jic. Pri tem postopku je potrebna previdnost: nujno je treba preveriti, da se ujema število besed in se besede pokrivajo. Nekateri tipi napak v izvornem korpusu namreË naredijo težave pri brisanju vejic, tak primer je npr. manjkajoË presledek za vejico, pri Ëemer bri­sanje vejice potem zlepi besedi in povzroËi, da je v korpusu brez vejic ena beseda manj. Težava je tudi, 

Tabela 4:Šolar, MSD+skladnja, ‡5+5 
da tokenizator (rezalnik na besede) vËasih spreminja vezavo pike na predhodno besedo razliËno (npr. pri arabskem zapisu vrstilnih števnikov), Ëe je blizu veji­ca. Te primere je bilo treba v oznaËenem XML potem popraviti roËno, da so se besede ujemale. 

Ni vejice  je vejica  
Klasifikator  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
OznaËeno z vejicami  NaiveBayes  0,973  0,920  0,946  0,555  0,793  0,653  
RBFNetwork  0,956  0,949  0,953  0,616  0,652  0,634  
ADTree  0,950  0,983  0,966  0,815  0,588  0,683  
AdaBoostM1  0,950  0,964  0,957  0,675  0,594  0,632  
OznaËeno brez vejic  NaiveBayes  0,971  0,916  0,943  0,538  0,783  0,638  
RBFNetwork  0,955  0,943  0,949  0,588  0,647  0,616  
ADTree  0,943  0,982  0,962  0,787  0,526  0,630  
AdaBoostM1  0,940  0,957  0,948  0,595  0,510  0,550  
OznaËevalnik, nauËen  NaiveBayes  0,971  0,917  0,943  0,542  0,785  0,641  
brez vejic  RBFNetwork  0,954  0,947  0,951  0,601  0,639  0,619  
ADTree  0,947  0,982  0,964  0,794  0,563  0,659  
AdaBoostM1  0,947  0,976  0,961  0,745  0,566  0,643  
DecisionTable  0,954  0,989  0,971  0,873  0,617  0,723  

Tabela 4 pove, da so se rezultati ugotavljanja ve­jic v primeru, ko besedilo pri oznaËevanju ni imelo vejic, poslabšali (Ëeprav ne zelo izrazito, najveËja razlika je bila pri klasifikatorju AdaBoostM1), kar se sklada tudi s splošnimi ugotovitvami Hillarda idr. (2006), da pravilno postavljene vejice izboljšajo obli­koslovno oznaËevanje besedil. 
Preizkušeno pa je bilo še, ali lahko oznaËevanje (in s tem poslediËno doloËanje vejic) izboljšamo s tem, da lematizator, oblikoslovni oznaËevalnik in skla­denjski razËlenjevalnik nauËimo iz uËnega korpusa brez vejic (to sta uporabila že Shieber in Tao (2003)). V ta namen so bile v uËnem korpusu SSJ500k izbri­sane vse vejice (in povezave na vejice pri skladenjski razËlenitvi) in na novo nauËeni modeli za lematiza­tor, oblikoslovni oznaËevalnik in skladenjski razËle­njevalnik (ta postopek predvsem za oblikoslovni oznaËevalnik porabi veliko procesorskega Ëasa (dob­rih 20 ur), vendar ga je treba narediti le enkrat). Re­zultati so se izboljšali, niso pa dosegli primera, ko je bilo besedilo oznaËeno z vejicami, kar kaže na to, da so vejice pomembne za razdvoumljanje. Vseeno pa se je pokazalo, da je v primeru, ko je treba v besedilu dodati vse vejice, smiselno nauËiti oznaËevalnike z uËnim korpusom brez vejic. 
Tukaj je bil dodatno preizkušen še klasifikator De­cisionTable, ki je bil pri izbiranju klasifikatorjev zelo uspešen, vendar ni bil izbran za nadaljnje preizkuša­nje zaradi dolgotrajnosti preizkušanja. 



4.5	 Parametri klasifikatorja 
Klasifikator DecisionTable je sicer dosegel najboljši re­zultat, vendar je posamezni poskus trajal tri dni. Zato je bilo pri drugouvršËenem klasifikatorju ADTree (al­ternirajoËe odloËitveno drevo), ki je bil obËutno hitrej­ši, preizkušeno, kako vplivajo nanj parametri. 

Tabela 6:Šolar, 	aDTree, MSD+skladnja, -5+5, oznaËeno brez vejic 
Ni vejice je vejica 
Parametri NatanËnost Priklic F1 NatanËnost Priklic F1 
-B10 -E -3 0,943 0,982 0,962 0,787 0,526 0,630 
-B8-E-3 0,943 0,981 0,962 0,779 0,524 0,627 
-B6-E-3 0,943 0,981 0,962 0,779 0,524 0,626 
-B4-E-3 0,939 0,983 0,960 0,779 0,490 0,602 
-B2-E-3 0,940 0,978 0,958 0,735 0,499 0,549 
-B1-E-3 0,940 0,948 0,944 0,553 0,515 0,533 
-B12 -E -3 0,944 0,982 0,962 0,785 0,534 0,635 
-B15 -E -3 0,946 0,982 0,964 0,796 0,555 0,654 
-B20 -E -3 0,949 0,984 0,966 0,819 0,578 0,678 
-B30 -E -3 0,949 0,989 0,969 0,868 0,580 0,695 

­B50 	­E 	­3 0,954 0,987 0,971 0,861 0,622 0,723 
-B10 -E -2 0,938 0,986 0,961 0,808 0,480 0,603 
-B30 -E -2 0,945 0,989 0,967 0,865 0,541 0,666 

­B50 	­E 	­2 0,949 0,991 0,969 0,883 0,572 0,694 
-B50 -E -1 0,949 0,991 0,969 0,883 0,572 0,694 
Tabela 6 prikazuje spreminjanje rezultatov spre­Parametri ‡3, ‡2 in ‡1 povedo, na kakšen naËin minjanja parametrov. Parameter ­B pove število po­išËe klasifikator nova potencialna vozlišËa. Pri para­novitev dodajanj vozlišË pri gradnji drevesa in tako metru 3 preveri vse možnosti, pri ‡2 in ‡1 pa omeji poveËuje drevo, ki je rezultat uËenja, hkrati pa po­preiskovanje, kar pospeši iskanje, rezultat pa ni nuj­daljšuje Ëas, ki je potreben za izraËun. no optimalen (najboljše možno odloËitveno drevo za dano število vozlišË). 
Tabela 7:Šolar, 	aDTree, MSD+skladnja -5+5, oznaËeno brez vejic, oznaËevalnik, nauËen brez vejic 
Ni vejice je vejica 

Parametri NatanËnost Priklic F1 NatanËnost Priklic F1 
-B10 -E -3 0,947 0,982 0,964 0,794 0,563 0,659 
-B30 -E -3 0,953 0,988 0,970 0,865 0,612 0,717 

­B50 	­E 	­3 0,956 0,987 0,971 0,861 0,641 0,735 
Tabela 7 prikazuje rezultate za bolj realen primer, ko je oznaËeno besedilo brez vejic, oznaËevalnik pa je tudi nauËen brez vejic. Tudi tukaj veËanje drevesa izboljšuje rezultat, seveda pa zato preizkušanje traja dlje. Zadnji rezultat (s 101 listom v odloËitvenem dre­vesu) je najboljši doseženi rezultat, ki je presegel tudi rezultat s privzetimi parametri pri klasifikatorju De­cisionTable. V prihodnosti bi bilo smiselno preizku­siti razliËne parametre tudi pri drugih klasifikatorjih, da bi našli optimalno kombinacijo. 
Dodatna prednost klasifikatorja ADTree je, da iz­piše odloËitveno drevo, ki bi se ga dalo relativno pre­prosto uporabiti v drugih programih. 

: -1.039 | (1)je_vez1 = 1: 1.145 | (1)je_vez1 != 1: -0.335 | | (2)msd3 = *: -1.327 | | (2)msd3 != *: 0.092 | (3)lem1 = in: -1.407 | (3)lem1 != in: 0.058 | | (4)je_vez0 = 0: 0.075 |  |  |  (6)lem0 = biti: -1.09 |  |  |  (6)lem0 != biti: 0.087 |  |  |  |  (8)zac_modrega0 = 1: -0.526 |  |  |  |  (8)zac_modrega0 = 0: 0.092 |  |  |  (9)msd0 = Dm: -2.691 |  |  |  (9)msd0 != Dm: 0.021 |  |  |  |  (10)lem1 = kot: -1.264 |  |  |  |  (10)lem1 != kot: 0.026 | | (4)je_vez0 = 1: -1.14 | | (5)msd1 = Vd: 0.797 | | (5)msd1 != Vd: -0.102 | | (7)zac_modrega1 = 1: 0.419 | | (7)zac_modrega1 != 1: -0.134 Legend: -ve = ni-vejice, +ve = je-vejica 
Slika 4: OdloËitveno drevo za 	aDTree 	­B10 	­E 	­3 
Slika 4 prikazuje primer odloËitvenega drevesa pri ­B 10 (z 21 listi). Na verjetnost, da gre za vejico, najbolj vpliva podatek iz skladenjskega razËlenjeval­nika, da na naslednjo besedo kaže povezava .vez«. 
Zanimiv je vpliv msd3 z vrednostjo * (kar pomeni, da te besede ni), kar z drugimi besedami pomeni, da vejica tik pred koncem stavka ni posebno verjetna. V devetem volišËu je zanimiv mds0 Dm, torej predlog, ki zahteva vezavo z mestnikom, ki zmanjša verje­tnost, da je neposredno za njim vejica. 




5	 PRIMERjaVa	Z	DRUGIMI	REZULTaTI 
Najboljši pridobljeni rezultat je bilo na koncu treba primerjati s prejšnjimi rezultati, najprej z rezultati metod s pravili za slovenšËino, potem pa s statistiËni­mi metodami za druge jezike. 

5.1	 Primerjavaz metodami,ki uporabljajo pravila 
Oba programa za postavljanje vejic s pravili (Besana in LanguageTool), ki sta bila preizkušena v Holozan (2012), sta bila preizkušena še za primer, ko v besedi­lu manjkajo vse vejice, s Ëimer sta bila programa, ki sta sicer namenjena popravljanju napak pri vejicah, prisiljena postaviti vse vejice v besedilo. 
Postavilo se je vprašanje, kako obravnavati re­zultate Besane. Ta namreË poleg opozoril, kjer toËno postavi vejico, opozarja na manjkajoËo vejico tudi v primerih, ko sicer ugotovi, da vejica nekje manjka, ne zna je pa toËno postaviti. Ti primeri zahtevajo uporabnika, ki zna potem sam postaviti vejico na ustrezno mesto in niso primerni za samodejno po­stavljanje vejic, npr. pri razpoznavi govora. Zato ima Besana v tabeli dva rezultata, pri prvem so upošte­vane le vejice, ki jih Besana toËno postavi, pri dru­gem pa še tiste, za katere le ugotovi, da bi morala vejica nekje biti. 

Tabela 8:Šolar, vse vejice, 	aDTree(­B50 	­E 	­3) (oznaËeno brez vejic, oznaËevalnik, nauËen brez vejic) 
Ni vejice je vejica 
Klasifikator NatanËnost Priklic F1 NatanËnost Priklic F1 
ADTree 0,956 0,987 0,971 0,861 0,641 0,735 
LanguageTool 0,934 0,991 0,961 0,876 0,509 0,644 
Besana 0,953 0,991 0,971 0,888 0,572 0,696 
Besana+nekje 0,950 0,988 0,969 0,871 0,624 0,727 
Tabela 8 kaže, da je statistiËno postavljanje vejic 5.2	 Primerjavaz rezultati za druge jezike doseglo najboljši priklic in F1, vendar je natanËnost Rezultati samodejnega postavljanja vejic so zelo od­še vedno najvišja pri Besani, Ëeprav razlika ni velika. visni od jezika, kar so npr. pokazali Zhang idr. (2002), 
ki so preizkusili isti metodi na anglešËini in nemšËini. 

Tabela 9:Šolar, vse vejice, 	aDTree(­B50 	­E 	­3) (oznaËeno brez vejic, oznaËevalnik, nauËen brez vejic) 
jezik  Preizkus  je vejica  
NatanËnost  Priklic  F1  
AnglešËina  Beeferman idr. (1998), algoritem A  0,756  0,656  0,702  
AnglešËina  Beeferman idr. (1998), algoritem B  0,784  0,624  0,694  
AnglešËina  Zhang idr. (2002), Amalgam  0,744  0,676  0,709  
AnglešËina  Zhang idr. (2002), jezikovno modeliranje  0,782  0,624  0,694  
AnglešËina  Shieber in Tao (2003)  0,797  0,626  0,748  
AnglešËina  Israel idr. (2012)  0,858  0,663  0,748  
NemšËina  Zhang idr. (2002), Amalgam  0,854  0,875  0,865  
NemšËina  Zhang idr. (2002), jezikovno modeliranje  0,896  0,746  0,815  
BaskovšËina  Alegria idr. (2006)  0,696  0,486  0,572  
SlovenšËina  Ta Ëlanek  0,861  0,641  0,735  

Tabela 9 kaže, da je natanËnost pri slovenšËini po­ pek, ki je delno premešal primere tako, da je bila naj­ 
dobna kot pri nemšËini, priklic pa je slabši. Tudi naj­ prej izloËena vsaka peta poved, te izloËene povedi pa  
boljši rezultat za anglešËino (Israel idr., 2012) ima po­ so bile potem dodane na koncu.  
dobno natanËnost in priklic slovenskemu rezultatu.  Rezultat preizkušanja (stolpec, ki pove, katero sta­ 
nje vejice je izbral klasifikator) je bil potem poravnan  
6	 ISKaNjE	REaLNIH	NaPaK  s podatki o vejicah iz korpusa (pri Ëemer je bilo treba  
Dosedanji rezultati povedo, kako dobro postavijo  paziti, da se je poravnalo z zadnjimi primeri in ne s pr­ 
programi vejice v besedilo, v katerem ni na zaËetku  vimi), oboje je bilo sestavljeno v eno tabelo, potem pa  
nobenih vejic, kar je npr. uporabno pri razpozna­ prešteto, kolikokrat se je pojavila katera kombinacija.  
vi govora, ki ne zazna vejic. Vprašanje pa je, kako  
dobro se programi obnesejo pri popravljanju pravih  
napak, saj te niso nakljuËno razporejene, ampak do­ 1653-je-vejica je-vejic  
loËeni tipi vejic delajo piscem veË težav kot drugi. Za  694-je-vejica ni-vejic  
tak preizkus je treba dobiti korpus napak pri vejicah,  1453-manjka-vejica je-vejic  
kar je bilo mogoËe s korpusom Šolar. Vendar pa je  885-manjka-vejica ni-vejic  
primerov napaËnih vejic veliko manj kot vseh prime­ 575-ni-vejice je-vejic  
rov vejic, pa še štiri možna stanja so (ob je vejica in ni  36037-ni-vejice ni-vejic  
vejice še ni manjkajoËe vejice in je odveËna vejica) in je  197-prevec-vejica je-vejic  
zato vprašanje, ali bi bilo 11399 primerov manjkajo­ 337-prevec-vejica ni-vejic  
Ëe vejice in 2709 primerov odveËne vejice dovolj za  
uspešno uËenje, še veËji korpus primerov napak pri  Slika 5: Rezultat primerjave rezultatov preizkušanja s podatki iz korpusa  
vejicah pa bo težko dobiti.  
Zato je bil izbran drugaËen postopek: program  Slika 5 prikazuje tak (surov) rezultat za primer,  
WEKA nastavimo tako, da je prvih (izkljuËimo pri­ ko je bil korpus oznaËen z vsemi vejicami pravilno  
vzeto nakljuËno izbiranje) 80 odstotkov primerov  postavljenimi, spredaj je število primerov, drugi stol­ 
uËni korpus, zadnjih 20 odstotkov pa uporabimo kot  pec je stanje v korpusu in tretji stolpec je rezultat pre­ 
testni korpus, pri Ëemer se rezultat preizkušanja iz­ izkušanja klasifikatorja, torej je npr. v 1453 primerih,  
piše za vsak primer posebej. Ker so v korpusu Šolar  ko je vejica manjkala, klasifikator menil, da bi tam  
primeri sicer razporejeni po razredih in letnikih oz.  morala biti vejica, v 885 primerih pa, da tam ni vejice,  
vrstah šol, ne bi bilo v redu, Ëe bi vsi preizkusni pri­ po drugi strani pa je v 575 primerih postavil vejico,  
meri prišli iz istega letnika oz. šole (Holozan (2012)  kjer je ne bi smelo biti, natanËnost (kakšen delež do­ 
je pokazal, da so rezultati popravljanja vejic razliËni  danih vejic je pravilen) je tako 1453 / (1453 + 575) oz.  
glede na letnik oz. šolo), je bil najprej izveden posto­ 71,7 odstotka. 

Tak postopek je bil ponovljen za razliËne naËine oznaËevanja, ni pa bilo izvedeno desetkratno preËno preverjanje, ker bi bil ta postopek precej zapleten (in bi ga bilo treba prej bolj avtomatizirati, zdaj so bili ne­kateri koraki izvedeni roËno za vsak primer posebej). Samo 10 odstotkov primerov pri preizkušanju pa bi bilo morda tudi premalo, da bi lahko potem dovolj zanesljivo dobili rezultat pri primerjavi z napakami v korpusu, zato je bila izbrana razdelitev 80 : 20. Pre­izkušanje je bilo izvedeno le s klasifikatorjem ADTree s parametri (­B 14 ­E ­3), da ne bi trajalo predolgo. 

Tabela 10: Rezultat iskanja realnih napak, 	aDTree(­B14 	­E 	­3) 

Popravljanje manjkajoËih vejic  Popravljanje odveËnih vejic  
NaËin  NatanËnost  Priklic  F1  NatanËnost  Priklic  F1  
OznaËeno z vsemi vejicami  0,717  0,622  0,666  0,327  0,631  0,431  
OznaËeno brez vejic  0,690  0,482  0,567  0,283  0,642  0,393  
OznaËeno brez vejic, oznaËevalnik brez vejic  0,676  0,545  0,603  0,298  0,633  0,406  
OznaËeno z vejicami v besedilu  0,675  0,491  0,568  0,293  0,564  0,385  
OznaËeno z vejicami v besedilu, oznaËevalnik  0,672  0,541  0,600  0,292  0,592  0,391  
brez vejic  
LanguageTool  0,812  0,442  0,572  /  /  /  
Besana  0,862  0,505  0,636  0,902  0,094  0,170  
Besana +nekje  0,876  0,702  0,779  0,902  0,094  0,170  

Tabela 10 prikazuje rezultat iskanja realnih na­pak in primerjavo z LanguageTool in Besano. Za­nimivo je, da je najboljši rezultat dosežen, Ëe pri oznaËevanju na vhodu izbrišemo vse vejice in po­tem uporabimo oznaËevanje, nauËeno brez vejic (Ëe seveda izvzamemo oznaËevanje, pri katerem so vse vejice postavljene pravilno, Ëesar seveda normalno nimamo). »e že postavljene vejice pri oznaËevanju pustimo v besedilu, je rezultat torej slabši, in sicer ne glede na to, ali je oznaËevalnik nauËen z vejicami ali brez njih. 
Zanimiv je tudi rezultat pri odkrivanju odveËnih vejic, pri Ëemer statistiËna metoda sicer doseže veliko boljši priklic (0,633 proti 0,094), vendar hkrati tudi ne­uporabno nizko natanËnost (0,298 proti 0,902) (tukaj bi bilo smiselno preizkusiti še idejo iz Israel idr. (2012), da ne upoštevamo le dejstva, da se je klasifikator od­loËil, da neke vejice ni, temveË tudi njegovo oceno te odloËitve, tako da vejico oznaËi kot odveËno le, Ëe ta ocena preseže doloËeno mejo). Tudi pri manjkajoËih vejicah je težava predvsem natanËnost, priklic je boljši od LanguageTool in Besane (razen Ëe pri Besani upo­števamo še opozorila, da nekje manjka vejica). 
Opozoriti je treba še, da je gostota napak v teh pri­merih velika, saj so bile preverjene le povedi, v kate­rih je bila bodisi kakšna odveËna bodisi manjkajoËa vejica. Zato bi bilo treba pripraviti boljši korpus na­pak, ki bi vkljuËeval tudi pravilne stavke, da bi dobili pravo natanËnost. Je pa natanËnost zelo odvisna od kakovosti vhodnega besedila, Ëe natanËnost preizku­šamo na besedilu, ki nima (ali skoraj nima) napak, bo natanËnost slabša, kot Ëe je napak veliko. 
Za anglešËino so Israel idr. (2012) dosegli na­tanËnost 0,849 pri priklicu 0,200 (F1 0,324), vendar je to rezultat za vse napaËne vejice, ni pa posameznih rezultatov za manjkajoËe oz. odveËne vejice. 




7	 SKLEP 
Poskusi so pokazali, da je postavljanje vejic z upo­rabo strojnega uËenja zelo uporabno v primeru, ko želimo poiskati vse vejice v besedilu. Za najboljši re­zultat je treba uporabiti oznaËevanje z oznaËevalniki, ki so bili nauËeni z uËnimi korpusi z odstranjenimi vejicami, uporabiti je treba skladenjsko razËlenjeva­nje, kot najbolj uporaben se je pokazal klasifikator ADTree (alternirajoËe odloËitveno drevo), njegova prednost je tudi preprosto odloËitveno drevo, ki bi se dalo hitro sprogramirati tudi v kakšnem programu. Rezultati se izboljšujejo z veËanjem drevesa, vendar hkrati narašËa potrebni Ëas za izraËun, najuspešnej­ši poskus je bil izveden z nastavitvami ­B 50 ­E 3 z oknom ‡5+5. Rezultat za slovenšËino je primerljiv z rezultati za druge jezike, dosežena je bila natanËnost 0,861, priklic 0,641 in F1 0,735. 

Glede na to, da program WEKA podpira veliko število klasifikatorjev, Ëisto vsi niso bili preizkušeni, pa tudi pri tistih, ki so bili, je odprtih še veliko mo­žnih poskusov s parametri klasifikatorjev. Problem je tudi Ëas, ki je potreben za izraËunavanje; pri klasi­fikatorju ADTree se je pokazalo, da veËanje drevesa izboljšuje rezultat, vendar zgornja meja ni bila do­sežena, ker postane preraËunavanje pri tako velikih drevesih prepoËasno (najboljši rezultat se je raËunal skoraj tri dni). Vsekakor je še veliko možnih kombi­nacij klasifikatorjev, parametrov, razliËnih atributov, oken, pri katerih bi bilo verjetno mogoËe doseËi še boljši rezultat. 
OdloËitveno drevo, ki je rezultat, bi se morda dalo uporabiti za izboljšavo postopkov postavljanja vejic s pravili, oznaËevanje besedila je sicer relativno zah­tevna operacija, kar bi lahko povzroËilo težave pri praktiËni uporabi (npr. kot slovniËni pregledovalnik v urejevalniku besedil). V ta namen bi bilo zato mor­da smiselno poskusiti zgraditi odloËitveno drevo s pomoËjo atributov, ki jih je laže dobiti, morda celo samo iz samih besed. 
Uspeh pri iskanju realnih napak je slabši kot pri iskanju vseh vejic. Rezultati s strojnim uËenjem ima­jo sicer dober priklic (0,545), vendar je natanËnost (0,676) slabša od Besane in LanguageTool. Še poseb­no pa je to oËitno pri popravljanju odveËnih vejic, Ëe­sar LanguageTool sploh ne opravlja, Besana pa ima tudi priklic le 0,094, vendar doseže natanËnost 0,902, medtem ko je statistiËno popravljanje doseglo priklic kar 0,633, vendar je natanËnost le 0,298. Zanimivo je, da je bil najboljši rezultat dosežen v primeru, ko so bile v besedilu pred oznaËevanjem izbrisane vse vejice (in je bil tudi oznaËevalnik nauËen brez vejic); tudi pravilne vejice so oznaËevanje motile, kar je pre­senetljiv rezultat. Se pa lahko ta rezultat spremeni, Ëe se bo poveËal delež pravilnih vejic v preizkusnem korpusu, zdaj so namreË v njem le povedi z napaËni­mi vejicami, zaradi tega je tudi natanËnost nerealno visoka. 
Naloga za prihodnost je razširiti dosedanji preiz­kusni korpus, pridobljen iz korpusa Šolar, še s pra­vilnimi povedmi iz korpusa Šolar, ki nastopajo ob 
• 

povedih z napakami, in potem ponoviti ta poskus. Smiselno bi bilo dodati še primere iz drugih virov, ki so dostopni pod licenco Creative Commons (npr. Wi­kipedije), in oznaËiti napaËne vejice in tako zgraditi in objaviti referenËni korpus za uËenje/popravljanje vejic, ki bi bil dostopen pod licenco Creative Com­mons, s Ëimer bi ga lahko za eksperimente uporablja­li tudi drugi, tako da bi bili rezultati bolj primerljivi. 


8	 VIRI	IN	LITERaTURa 
[1]	 Alegria,I., Arrieta,B.,de Ilarraza Sánchez,A.D., Izagirre,E.& Maritxalar, M. (2006). Using Machine Learning Techniques to Build a Comma Checker for Basque.VN. Calzolari, C. Cardie &P. Isabelle (ur.), ACL: The Association for Computer Lingu­istics. 
[2]	 Beeferman D., Berger A. & Lafferty J. (1998). Cyberpunc: A lightweight punctuation annotation system for speech. IEEE Conference on Acoustics, Speech and Signal Processing. Seattle,WA, USA. 
[3]	 Hardt, D. (2001). Comma checking in Danish. Paper presen­ted at Corpus Linguistics 2001 conference: Lancaster Univer­sity (UK), 266‡271. 
[4]	 Hillard, D., Huang, Z., Ji, H., Grishman, R., Hakkani-Tur, D., Harper, M., Ostendorf, M.,Wang,W. (2006). Impact of Auto­matic Comma Prediction on Pos/Name Tagging of Speech. V zborniku IEEE/ACL 2006 Workshop on Spoken Language Technology. 
[5]	 Holozan,P. (2012). Kako dobro programi popravljajo vejice v slovenšËini.V zborniku Jezikovne tehnologije: ZbornikC 15. mednarodne multikonference Informacijska družba IS 2012, 
8. do 12. oktober 2012, Erjavec,T., Žganec Gros, J.; Ljublja­na: Institut Jožef Stefan, okt. 2004, str. 101‡106. 
[6]	 Huang, J. & Zweig, G. (2002). Maximum entropy model for punctuation annotation from speech.V J. H. L. Hansen& B. 
L. Pellom (ur.), INTERSPEECH:ISCA. 
[7]	 Israel R., Tetreault J. & Chodorow M. (2012). Correcting Comma Errors in Learner Essays, and Restoring Commas in Newswire Text. 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Hu­man Language Technologies; Montreal, Canada, June 3‡8, 2012, str. 284‡294. 
[8]	 Shieber,S.M.&Tao,X. (2003). Comma restoration using con­stituency information.VProceedings of the 2003 Human Lan­guageTechnology Conference and Conference of the North American Chapter of the Association for Computational Lin­guistics. 
[9]	 Šek Mertük,P. (2011). Vejica premalo ali preveË pri študentih razrednega pouka. Revija za elementarno izobraževanje. Le­tnik 4, št. 1‡2. 123‡146. 
[10]	 Zhang, Z., Gamon, M., Corston-Oliver, S., Ringger, E. (2002). 
Intra-sentence punctuation insertion in natural language ge-neration.TehniËno poroËilo MSR-TR-2002-58. Microsoft Re­search. 

Peter Holozanje razvijalecv podjetju Amebis,d. o. o., Kamnikin raziskovalecv Amebisovem razvojnem centru. Magistriralje naFakulteti za raËunalništvoin informatiko Univerze v Ljubljani in je doktorski študent na Filozofski fakulteti Univerze v Ljubljani (slovenistika). Ukvarja se predvsemz jezikovnimi tehnologijami za slovenšËino, med drugim s Ërkovalniki, slovniËnim pregledovalnikom, strojnim prevajanjem, oblikoskladenjskim oznaËevanjem, korpusi (Fida, FidaPLUS) in slovarji (ASP32).