106
Pomembnost realistične 
evalvacije: primer popravkov 
sklona in števila v slovenščini z 
velikim jezikovnim modelom
Timotej PETRIČ
Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Špela ARHAR HOLDT
Filozofska fakulteta in Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Marko ROBNIK-ŠIKONJA
Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Med napake pri pisanju v standardni slovenščini sodi raba neustrezne-
ga slovničnega sklona ali števila. S pomočjo velikega jezikovnega modela 
SloBERTa smo razvili novo metodologijo za strojno prepoznavo tovrstnih težav, 
ki smo jo preizkusili na neustrezni rabi tožilnika namesto rodilnika in množine 
namesto dvojine. Za vrednotenje in spreminjanje besednih oblik v vhodnih 
povedih smo uporabili standardna orodja za obdelavo naravnega jezika, kot 
sta oblikoskladenjski označevalnik CLASSLA-Stanza in leksikon besednih oblik 
Sloleks. Predlagani popravki temeljijo na statistiki besednih oblik pri uporabi 
napovedovanja maskirane besede z velikim jezikovnim modelom. Zaradi po-
manjkanja zadostne količine učnih podatkov smo napovedne modele učili na 
umetno generiranih napakah. Uspešnost strojnega popravljanja smo najprej 
ovrednotili na umetnih množicah in korpusu Lektor, kasneje pa še na novo-
ustvarjeni evalvacijski množici Šolar-Eval. Evalvacija na prvih dveh množicah 
Petrič, T; Arhar Holdt, Š.; Robnik-Šikonja, M.: Pomembnost realistične evalvacije: 
primer popravkov sklona in števila v slovenščini z velikim jezikovnim modelom. 
Slovenščina 2.0, 12(1): 106–130. 
1.01 Izvirni znanstveni članek / Original Scientific Article
DOI: https://doi.org/10.4312/slo2.0.2024.1.106-130
https://creativecommons.org/licenses/by-sa/4.0/
107
Pomembnost realistične evalvacije
je pokazala visoko uspešnost razvite metodologije (zaznanih več kot 90 % 
napačno nastavljenih besed), Šolar-Eval pa je razkril mnogo slabšo uspešnost 
na realističnih podatkih (zaznanih le 29,5 % težav tipa rodilnik-tožilnik in 11,4 
% težav tipa dvojina-množina). V celoti rezultati kažejo na nevarnost pretirane-
ga prilagajanja podatkovnim množicam in pomembnost evalvacije na ciljno 
grajenih avtentičnih podatkih, ki pa so za slovenščino še vedno pomanjkljivi.
Ključne besede: strojno slovnično pregledovanje, slovnični sklon, slovnično 
število, veliki jezikovni modeli, evalvacija
1 Uvod
Slovnični pregledovalniki – programi, ki preverjajo slovnično ustre-
znost pisnih besedil, opozarjajo na potencialne jezikovne težave in 
predlagajo popravke – so ena od temeljnih jezikovnih tehnologij in 
predstavljajo pomembno digitalno infrastrukturo za sodobne jezike, 
tudi slovenščino (Krek, 2023). Tipična težava, na katero slovnični 
pregledovalniki opozarjajo, je raba besednih oblik, ki glede na kon-
tekst ne ustrezajo po sklonu, številu ali kaki drugi slovnični lastnosti. 
Za preizkus novega pristopa k strojnemu slovničnemu pregledovanju 
smo izbrali neustrezno rabo tožilnika namesto rodilnika ter množine 
namesto dvojine. Tovrstne menjave oblik so v procesu razvoja jezikov-
nih kompetenc v standardni slovenščini relativno pogoste; frekvenčni 
seznam jezikovnih popravkov v razvojnem korpusu Šolar 3.0 (Arhar 
Holdt idr., 2022b) pokaže, da so popravki menjave rodilnika in tožil-
nika na 2. mestu vseh oblikoslovnih kategoričnih popravkov (predsta-
vljajo 341 od 2.916 popravkov), popravki dvojine in množine pa na 5. 
mestu (246 od 2.916 popravkov), pri čemer podatki kažejo tudi trdoži-
vost obravnavanih jezikovnih problemov, ki se pojavljata tako v osnov-
ni kot vse do konca srednje šole.1
V zadnjih letih je povečana zmogljivost vzporednega računanja z 
grafičnimi procesorji povzročila nov val uspehov na področju umetne 
inteligence, tudi pri obdelavi naravnega jezika. Trenutno najpomemb-
nejša arhitektura nevronskih mrež, ki prevladujejo pri obdelavi jezika, 
1 Na ostalih prvih mestih so heterogenejše skupine jezikovnih težav: na 1. mestu različne 
menjave sklonov, ki v označevalnem sistemu niso dobile lastne označevalne kategorije, na 3. 
mestu raznoliki primeri menjav ednine in množine, na 4. mestu pa raznoliki popravki glagol-
skega časa.
108
Slovenščina 2.0, 2024 (1) | Razprave
je transformer (Vaswani idr., 2017). Modeli, kot je BERT (Devlin idr., 
2019), se z napovedovanjem manjkajočih besed v povedih na veliki 
količini gradiva naučijo jezikovnih značilnosti besedil. V članku smo 
tak slovenski model, imenovan SloBERTa (Ulčar in Robnik-Šikonja, 
2021b), uporabili za generiranje predlogov popravkov neustrezno ra-
bljenega slovničnega sklona in števila.
Ideja predlaganega pristopa poskusi izkoristiti zmožnost modela 
SloBERTa, da napoveduje maskirane (skrite) besede v povedi. Pristop 
najprej poišče potencialno problematične besede, ki jih želimo strojno 
preveriti, v našem primeru besede v tožilniku ali množini. Te besede 
obravnavamo kot skrite. S pomočjo modela SloBERTa napovemo mo-
žne besede na tem mestu povedi in s pomočjo označevalnika CLAS-
SLA-Stanza (Ljubešić in Dobrovoljc, 2019) pridobimo njihove obliko-
skladenjske lastnosti. Iz statistike napovedanih oblikoskladenjskih 
lastnosti nato napovemo najverjetnejši potencialni popravek oblike 
izvorne besede, npr. če je večina napovedanih besed v dvojini, poten-
cialno problematična beseda pa je v množini, predlagamo njen popra-
vek v dvojino. Besedno obliko z želenimi oblikoskladenjskimi lastnost-
mi, ki jo program predlaga kot ustrezno, pridobimo iz oblikoslovnega 
leksikona Sloleks (Dobrovoljc idr., 2019).
Pristop je metodološko nov, preliminarna evalvacija na umetnih 
podatkih je pokazala, da je uspešen in potencialno uporaben za različ-
ne vrste oblikoslovnih napak. Najprej smo ga ovrednotili na povedih iz 
korpusa Lektor (Popič, 2014), ko se je pojavila nova evalvacijska mno-
žica Šolar-Eval (Gantar idr., 2023), pa še na njej. Evalvacijo na korpusu 
Lektor smo izvedli tako, da smo v povedih nastavili različno število be-
sed v (obravnavanem) napačnem sklonu ali številu. Izračunane metri-
ke natančnosti, priklica in ocene F1 so pokazale dobro pravilnost in po-
tencialno praktično uporabnost predlaganih popravkov. Evalvacijo na 
korpusu Šolar-Eval smo izvedli kvalitativno, z identifikacijo in analizo 
zaznanih in nezaznanih napak. Ti rezultati so, v nasprotju s prejšnjimi, 
pokazali dokaj nizko uspešnost preizkušenega pristopa. Kljub temu 
menimo, da raziskava prinaša koristen uvid v pomemben jezikovno-
tehnološki problem, ki vključuje tudi pomen kakovostne evalvacije in 
ciljno grajenih evalvacijskih množic.
Članek je sestavljen iz sedmih razdelkov. V razdelku 2 predstavimo 
109
Pomembnost realistične evalvacije
sorodna dela, v razdelku 3 uporabljene jezikovne vire in tehnologije 
ter v razdelku 4 predlagano metodologijo napovedovanja slovničnih 
popravkov. V razdelku 5 opišemo postopek evalvacije, v razdelku 6 
pa njene rezultate. Članek zaključimo z razdelkom 7, kjer povzamemo 
opravljeno delo in začrtamo smer za nadaljnje izboljšave.
2 Sorodna dela
Trenutno za slovenski jezik ne obstaja brezplačen slovnični pregle-
dovalnik. Najbolj dodelano orodje, na voljo v uporabniško prijaznem 
vmesniku, ki napake in popravke tudi vizualizira, je komercialno raz-
vita Amebis Besana.2 Program, ki temelji na ročno sestavljenih jezi-
kovnih pravilih in podatkovni zbirki Ases (Romih in Holozan, 2002), 
v brezplačni testni različici omogoča strojno preverbo krajših besedil 
(do 500 znakov). Vmesnik Besane je podoben komercialnim izdelkom 
za tuje jezike, kot sta Grammarly in ProWritingAid, ki zaznavajo in po-
pravljajo težave pri rabi ločil, črkovanju in slovnici, prav tako pa po-
nujajo predloge za izboljšanje sloga pisanja, besedne raznolikosti ter 
jasnosti in učinkovitosti sporočil.
S strojnimi popravki jezikovnih napak z uporabo globokih nevron-
skih mrež se je ukvarjalo že več avtorjev. Božič je v okviru diplomskega 
dela razvil model za avtomatsko popravljanje vejic v slovenskem jezi-
ku (Božič, 2020), ki je pravilno napovedal 92,5 % primerov. Njegov še 
nekoliko izboljšan program Vejice je prosto dostopen na spletni strani 
Centra za jezikovne vire in tehnologije Univerze v Ljubljani.3 Rizvič se 
je ukvarjal z avtomatskim postavljanjem ločil v tekstu, pridobljenim iz 
prepoznavalnika govora (Rizvič, 2020). Najboljše rezultate je dosegel 
z uporabo vektorskih vložitev ELMo in modela BERT. Dosežena ocena 
F1 je bila 91,0 %, 91,6 % in 72,0 % za napovedovanje mesta vejice, 
pike in vprašaja. S predlogi popravkov končnih ločil se je ukvarjal Ve-
likonja (Velikonja, 2021), ki je s pomočjo modela SloBERTa napove-
doval tip in mesto postavitve končnih ločil. Naučeni model je dosegel 
oceno F1 96,4 % za postavljanje pike in 85,1 % za postavljanje vpra-
šaja. Napovedovanje klicaja ni bilo uspešno.
2 Spletna stran programa: https://besana.amebis.si/.
3 Dostopno na https://orodja.cjvt.si/vejice/. 
110
Slovenščina 2.0, 2024 (1) | Razprave
S pomočjo modelov SloBERTa in SloT5 (Ulčar in Robnik-Šikonja, 
2023) ter uporabo orodja CLASSLA-Stanza (Ljubešić in Dobrovoljc, 
2019) in leksikona Sloleks (Dobrovoljc idr., 2019) je Mokotar razvil me-
todologijo za zaznavanje, prepoznavanje in popravljanje različnih vrst 
jezikovnih napak (Mokotar, 2023), pri čemer je bila uporabljena nekoli-
ko poenostavljena tipologija napak iz korpusa šolskih besedil Šolar (Ar-
har Holdt idr., 2022a). Modela zaznavanja in prepoznavanja sta dosegla 
oceni F1 88 % in 14 %, model za popravljanje pa oceno GLEU 50 %.
Z napovedovanjem in popravljanjem jezikovnih napak v drugih 
jezikih se je ukvarjalo več avtorjev. Rozovskaya idr. (2014) so razvili 
sistem za prepoznavanje napačne oblike glagola za angleščino s kla-
sičnimi pristopi strojnega učenja. V zadnjem času se za detekcijo in 
korekcijo napak uporabljajo izključno nevronski pristopi, predvsem 
temelječi na velikih jezikovnih modelih. Zhang idr. (2020) so prilago-
dili arhitekturo modela BERT za napovedovanje jezikovnih napak na 
primeru kitajščine. Pred kratkim so pregledni članek o strojnem pre-
gledovanju jezikovnih napak pripravili Bryant idr. (2023).
V zadnjem času so se pojavili tudi pristopi s še večjimi velikimi je-
zikovnimi modeli, kot sta GPT-3 (Brown idr., 2020) in LLaMA (Touvron 
idr., 2023). V javnosti znani izdelki, kot je ChatGPT, ki v času pripra-
ve prispevka uporablja GPT-3.5, so naučeni predvsem na angleškem 
jeziku. Za slovenščino še ne obstajajo dovolj obsežni jezikovni viri, s 
katerimi bi naučili primerljivo zmogljiv jezikovni model, zato je upo-
raba za popravljanje slovenskih besedil trenutno omejena. Evalvacije 
(Fang idr., 2023; Wu idr., 2023) so pokazale, da je ChatGPT nagnjen 
k pretiranemu popravljanju oz. spreminjanju izvornega besedila (ang. 
over-correcting), kar je lahko moteče, kadar želimo minimalno in tran-
sparentno jezikovno intervencijo (npr. za potrebe jezikovne didaktike).
V tem članku preizkušeni pristop se od zgoraj omenjenih del raz-
likuje po novi metodologiji, ki uporablja statistiko predlaganih besed 
maskirnega jezikovnega modela.
3 Uporabljeni viri in tehnologije
Predlagana metodologija za strojno slovnično pregledovanje temelji 
na jezikovnih virih in tehnologijah, ki jih opisujemo v tem razdelku. V 
111
Pomembnost realistične evalvacije
razdelku 3.1 opišemo jezikovni model BERT, v razdelku 3.2 pa njego-
vo slovensko različico SloBERTa, ki jo uporabljamo za napovedovanje 
potencialnih zamenjav maskiranih besed. V razdelku 3.3 predstavimo 
zbirko orodij CLASSLA-Stanza, ki jo uporabljamo za segmentacijo na 
povedi in besede ter za oblikoskladenjsko označevanje. Na koncu, v 
razdelku 3.4, predstavimo še oblikoslovni leksikon Sloleks.
3.1 Model BERT
BERT (Devlin idr., 2019) je vnaprej naučeni nevronski maskirni jezi-
kovni model, ki temelji na arhitekturi transformer (Vaswani idr., 2017). 
Kot odprtokodno ogrodje je na voljo za različne naloge strojne obde-
lave naravnega jezika. Naučen je s pomočjo velikih besedilnih korpu-
sov in zaradi svoje arhitekture in načina maskiranega učenja vsebuje 
predstavitev besed v kontekstu. To znanje lahko uporabimo za reše-
vanje mnogih nalog, med drugim strojno označevanje sentimenta, 
odgovarjanje na vprašanja in tudi napovedovanje manjkajočih besed 
vhodnega besedila, kar smo uporabili v našem delu.
3.2 Model SloBERTa
Veliki maskirni jezikovni model SloBERTa (Ulčar in Robnik-Šikonja, 
2021a; 2021b) uporablja arhitekturo robustne inačice modela BERT, 
imenovane RoBERTa (A Robustly Optimized BERT Pretraining Appro-
ach) (Liu idr., 2019). Arhitektura RoBERTa pri učenju namesto statič-
nega maskiranja besed uporablja dinamično maskiranje, kar pomeni, 
da se maskiranje besed ne zgodi samo enkrat – v fazi predpriprave 
vhodnih besedil – ampak večkrat, med posameznimi epohami učenja; 
RoBERTa tudi opusti nalogo napovedovanja, ali sta dve vhodni povedi 
sosednji v besedilu, ki je prisotna v modelu BERT. SloBERTa je eno-
jezikovni model, naučen na 3,47 milijarde pojavnic (besed in ločil) iz 
vhodnih besedil. Slovar pojavnic, ki jih model uporablja za pretvorbo 
besedila v sezname vektorskih vložitev, ima 32.000 vnosov. Celotno 
učenje na besedilih izbranih slovenskih korpusov, kot so Gigafida 2.0 
(Krek idr., 2020), siParl 2.0 (Pančur idr., 2020) in KAS (Erjavec idr., 
2019), je obsegalo 98 epoh. Implementacija modela SloBERTa je 
med drugim na voljo v programski knjižnici HuggingFace, ki omogoča 
112
Slovenščina 2.0, 2024 (1) | Razprave
odprtodostopen prenos modela ter preprosto uporabo v program-
skem jeziku Python.4
3.3 Zbirka orodij CLASSLA-Stanza
CLASSLA-Stanza (Ljubešić in Dobrovoljc, 2019) je zbirka orodij za 
procesiranje in jezikoslovno označevanje besedil. Med drugim omo-
goča segmentacijo, lematizacijo, oblikoskladenjsko in skladenjsko 
označevanje ter označevanje imenskih entitet v (standardnih in ne-
standardnih) slovenskih, hrvaških, srbskih, bolgarskih in deloma tudi 
makedonskih besedilih. Temelji na knjižnici Stanza (Qi idr., 2020). 
Označevalnik CLASSLA-Stanza v našem delu uporabljamo za segmen-
tacijo besedila na povedi in besede ter oblikoskladenjsko označevanje 
besednih oblik po sistemu Multext-East v6 (Erjavec, 2017).5 Sistem 
vsebuje nabor oznak (na kratko oznake MSD), ki določijo besedno vr-
sto, nato pa niz pri tej besedni vrsti izkazanih slovničnih lastnosti, kot 
so denimo spol, sklon in število.
3.4  Leksikon Sloleks
Sloleks je odprtodostopni leksikon besednih oblik za slovenščino, ki 
poleg osnovne oblike besede vsebuje nabor pregibnih oblik, podatke 
o pogostosti leme in pregibnih oblik iz referenčnega pisnega korpusa, 
zbir standardnih in nestandardnih oblikoslovnih variant ter povezave na 
besedotvorno sorodne besede (Dobrovoljc idr., 2015). Verzija 2.0,6 ki 
je dostopna na repozitoriju CLARIN.SI (Dobrovoljc idr., 2019), vsebuje 
100.805 leksikonskih enot. Oblikoslovni leksikon v našem delu upora-
bljamo za pridobivanje besednih oblik v želenem sklonu ali številu.
Uporabljena podatkovna množica ima oblikoskladenjske infor-
macije po sistemu MULTEXT-East (Erjavec, 2017). V stolpcih po vrsti 
vsebuje besedne oblike, leme, oznake MSD in frekvence pojavitve. V 
zadnjem stolpcu so kategorije, ki jih vsebujejo oznake MSD, izpisane z 
besedo. Za lažjo predstavo na Sliki 1 prikažemo izsek dela leksikona iz 
tekstovne datoteke.
4 Dostopno na https://huggingface.co/EMBEDDIA/sloberta.
5 Verzija 6 je dostopna na http://nl.ijs.si/ME/V6/msd/html/msd-sl.html. 
6 V času med razvojem metodologije in objavo prispevka je bila na CLARIN.SI objavljena tudi 
že nadgrajena različica Sloleks 3.0.
113
Pomembnost realistične evalvacije
BESEDA  LEMA MSD FREKVENCA PODROBNEJŠI OPIS MSD
abscesa absces Ncmsg 0.000011 Noun Type=common
Gender=masculine
Number=singular
Case=genitive
NOUN Case=Gen
Gender=Masc
Number=Sing
absces absces Ncmsn 0.000063 ...
abscesi absces Ncmpn 0.000031 ...
Slika 1: Primer informacij v leksikonu Sloleks (vir: Dobrovoljc idr., 2019). Izmed podatkov 
uporabljamo predvsem stolpce BESEDA, LEMA in MSD. Glede na lemo in želeno spremembo 
sklona in/ali števila s pomočjo oznake MSD poiščemo ustrezno obliko obravnavane besede.
4 METODOLOGIJA SLOVNIČNEGA POPRAVLJANJA
V tem poglavju predstavimo cevovod za napovedovanje slovničnih po-
pravkov in opišemo posamezne gradnike. Shema cevovoda je prikaza-
na na Sliki 2.
Slika 2: Shema cevovoda za napovedi jezikovnih popravkov. Model SloBERTa napove 
10 najverjetnejših besed namesto zamaskirane. To so lahko različne besede (ne le de-
jansko zamaskirana), vendar za vse, na podlagi konteksta, s pristopom CLASSLA-Stanza 
napovemo sklon in število. Na podlagi teh napovedi določimo najverjetnejši sklon in število, 
potem pa za ta sklon in število v Sloleksu poiščemo pravo obliko za zamaskirano besedo.
4.1  Segmentacija in izbor kandidatov za popravke
Vhodno besedilo najprej obdelamo z orodji CLASSLA-Stanza za se-
gmentacijo na povedi in besede. Za vse besede vsake povedi dolo-
čimo še njihove oblikoskladenjske oznake. Z modelom SloBERTa (ali 
114
Slovenščina 2.0, 2024 (1) | Razprave
SloBERTaMCD, opisanim v razdelku 4.2) za vsako besedo vsake po-
vedi, ki ji je mogoče določiti sklon ali število, preverimo, če je možno 
pripisati tudi drugačen sklon ali število glede na vrednosti parametrov 
caseXY in numberXY, npr. če je parameter case42 nastavljen na vre-
dnost 1, zamenjave besed iz tožilnika v rodilnik ne iščemo, za vredno-
sti med 0 in 1 pa jih poskusimo najti; podobno velja npr. za parameter 
number32, kjer vrednost 1 pomeni, da zamenjav iz množine v dvojino 
ne iščemo, za vrednosti manjše od ena pa sprožimo iskanje potenci-
alnih popravkov. Parameter caseXY določa verjetnostni prag prepriča-
nosti modela v trenutni sklon besede. 
Za besedo v tožilniku in mejno vrednost parametra nastavljeno na 
0,5, torej case42=0,5 bi denimo iskali njeno zamenjavo v rodilniku in 
jo uveljavili, če bi prepričanost napovednega modela za to spremem-
bo presegla prag 0,5. Če bi za vse mejne vrednosti izvornega sklona 
rodilnik veljalo case4{1,2,3,5,6}=1, zamenjav za besede v tožilniku ne 
bi iskali. Na ta način iščemo le zamenjave besed v sklonu ali številu, za 
katere smo naučili napovedne modele. Trenutno iščemo popravke le 
za case42 in number32 – torej popravke sklona iz tožilnika v rodilnik 
in števila iz množine v dvojino.
Mejne vrednosti smo naučili v procesu optimizacije hiperpara-
metrov. Omejili smo se le na iskanje optimalnih mejnih vrednosti za 
case42, number32 in še za nastavitev kombinacije obeh mejnih vre-
dnosti hkrati: case42 in number32.
4.2 Zanesljivejše napovedi s SloBERTaMCD
Namesto modela SloBERTa lahko za napovedi zamenjav maskiranih be-
sed iz vhodnih besedil uporabimo postopek SloBERTaMCD. Postopek 
uporablja model SloBERTa (razdelek 3.2), ki ga uporabimo na način Mon-
te Carlo Dropout (MCD) (Miok idr., 2022). Pristop uporablja izpust nevro-
nov (angl. dropout) v fazi napovedovanja kot tehniko regularizacije (Gal in 
Ghahramani, 2016). To storimo tako, da vsako poved z maskirano bese-
do 50-krat obdelamo z modelom SloBERTa in na koncu vrnemo vektor 
povprečij vseh napovedi besednih zamenjav. Pri uporabi MCD ima izho-
dni vektor napovedi zamenjav bolje kalibrirane verjetnosti napovedi ute-
ži, kar lahko pomaga pri razvrstitvi in izboru najbolj primernih zamenjav.
115
Pomembnost realistične evalvacije
4.3 Možne zamenjave
Če za besedo iščemo zamenjave, jo zamaskiramo in celotno poved v 
obliki niza dodamo v nov seznam povedi (ki imajo vse po eno maski-
rano besedo). Ta seznam povedi obdelamo z modelom SloBERTa (ali 
SloBERTaMCD). Kot izhod za vsako vhodno poved s po eno maskirano 
besedo prejmemo po 10 napovedi najbolj primernih besednih zame-
njav (to so lahko poljubne besede). Vsaka napoved ima pripisano ver-
jetnost in besedno zamenjavo.
Za vsako napoved besedne zamenjave pridobimo podatke o sklo-
nu in številu s pomočjo orodja CLASSLA-Stanza. Tokrat je povedi 10-
krat več kot pri začetnem označevanju, saj imamo za vsako poved s 
po eno maskirano besedo 10 možnih besednih zamenjav. CLASSLA-
-Stanza nam oblikoskladenjsko označi le primere, ki so na mestu 
izvorno maskirane besede. Za vsako besedo, ki ji je možno pripisati 
sklon ali število, imamo zdaj po 10 predlogov besednih zamenjav in 
njihove oblikoskladenjske lastnosti. Kot končni predlog zamenjave iz-
beremo sklon in število, ki imata največjo vsoto verjetnosti. Če imata 
predlagana sklon in število dovolj veliko vsoto verjetnosti v primerjavi 
z mejnimi vrednostmi, bomo za izhodiščno besedno obliko predlagali 
zamenjavo.
4.4 Ponavljanje in ustavitev postopka
Zgoraj opisani postopek ponavljamo, dokler sistem še predlaga nove 
besedne zamenjave. V vsakem dodatnem obhodu obdelujemo le be-
sede, za katere še nimamo besednih zamenjav. Ponavljanje je po-
trebno, ker v enem obhodu ponavadi ne naslovimo vseh potencial-
nih težav, npr. popravimo samostalnik, pridevnika pred njim pa ne. 
Primer zaznanih napak (v rdečem), predlaganih popravkov (v zele-
nem) in izpisa po koncu procesiranja prikazujemo spodaj. Kot vidimo 
v zadnjih dveh povedih, se lahko zgodi tudi, da sistem ne zazna vseh 
napak v besedilu.
Hotel je preizkusiti dve testne|testni vožnje|vožnji z avtom. Opa-
zil je, da mu manjkata dve iztočnice|iztočnici. Včeraj nisem videl 
Petro|Petre. Že dolgo nisem jedel tako dobro|dobre solato|solate. Ne 
morem jo videti! Naredil je dve čudne|čudni napake.
116
Slovenščina 2.0, 2024 (1) | Razprave
Hotel je preizkusiti dve testni vožnji z avtom. Opazil je, da mu manjka-
ta dve iztočnici . Včeraj nisem videl Petre . Že dolgo nisem jedel tako 
dobre solate . Ne morem jo videti! Naredil je dve čudni napake .
5 Postopek evalvacije
V razdelku 5.1 opišemo korpus Lektor, ki ga uporabljamo za evalvacijo 
umetno ustvarjenih podatkov in učenje mejnih vrednosti parametrov. 
Šolar-Eval, ki ga uporabljamo za kvalitativno evalvacijo na avtentič-
nem gradivu, opišemo v razdelku 5.2. Postopek nastavljanja napačnih 
besed za evalvacijo opišemo v razdelku 5.3. Razdelek 5.4 predstavi 
uporabljene evalvacijske metrike.
5.1 Korpus Lektor
Lektor (Popič, 2014) je korpus lektoriranih avtorskih besedil in prevo-
dov. V njem so zbrana novejša neliterarna (strokovna in poljudnoznan-
stvena) besedila različnih avtorjev in prevajalcev, ki so jih lektorirali 
različni lektorji. Vsako korpusno besedilo vsebuje metapodatke o av-
torju, publikaciji, lektorju, pripisane pa ima tudi leme, oblikoskladenj-
ske oznake in vsebinske kategorije lektorskih popravkov. Kot podat-
kovno bazo v formatu XML smo ga za raziskovalne namene dobili od 
avtorja korpusa Damjana Popiča.
Korpus smo pretvorili v tekstovno datoteko, kjer je v vsaki vrstici 
po ena lektorirana poved – skupno 28.744 povedi. Povedi so po vrsti-
cah razvrščene naključno. Datoteko smo razdelili na dva dela: prvi del 
ima 80 % oz. 22.995 vseh povedi in je bil uporabljen za učenje mejnih 
vrednosti parametrov, drugi ima preostalih 20 % oz. 5.749 povedi in 
je bil uporabljen pri evalvaciji programske rešitve.
5.2 Korpus Šolar-Eval
Med delom se je izkazalo, da obstoječi korpusi z jezikovnimi popravki 
ne vsebujejo dovolj podrobno ali dosledno označenih podatkov, da bi 
bili neposredno uporabni pri razvoju slovenskih črkovalnikov in slov-
ničnih pregledovalnikov (Gantar idr., 2023: 91). Kot rešitev je bila pri-
pravljena evalvacijska množica Šolar-Eval (Arhar Holdt idr., 2023). Ta 
117
Pomembnost realistične evalvacije
vsebuje 109 esejev, ki so jih napisali slovenski osnovnošolci in sre-
dnješolci, ter vključuje 9.808 jezikovnih popravkov, ki so jih podrobno 
in usklajeno označili jezikoslovci. Vsebuje tudi metapodatke o korpu-
snih besedilih in raznolike jezikoslovne oznake.
V evalvacijo smo vključili povedi, v katerih je najti avtentične po-
pravke tožilnika v rodilnik (46 povedi), množine v dvojino (57 povedi) 
in oboje (1 poved). Številne od teh povedi vsebujejo tudi težave in po-
pravke drugih jezikovnih značilnosti.
5.3 Nastavljanje napačnih besednih oblik za evalvacijo
Za model smo naučili tri kombinacije mejnih vrednosti parametrov: 
mejno vrednost case42, number32 in sočasno nastavitev kombina-
cije obeh mejnih vrednosti case42 in number32 (opisano v razdelku 
4.1). Vsako od kombinacij mejnih vrednosti parametrov smo evalvi-
rali posebej. Za evalvacijo smo izbrali 3.030 povedi izmed 5.749 iz 
testne množice korpusa Lektor (opisana v razdelku 5.1). V množici je 
bilo skupno 61.180 besed, med njimi 7.629 besed v tožilniku, 9.060 v 
rodilniku, 12.732 v množini in 690 v dvojini.
Za vsako besedo, ki je bila v iskanem sklonu ali številu, smo poi-
skali vse možne oblike te besede v neustreznem sklonu oz. številu in 
jih shranili v seznam. Na primer, ko smo evalvirali model z nastavlje-
no mejno vrednostjo case42, smo za vse besede v rodilniku poiskali 
alternativne besedne oblike v tožilniku. Podobno smo storili tudi za 
evalviranje modela z nastavljeno mejno vrednostjo number32. Ko 
smo evalvirali model s hkratno nastavitvijo obeh mejnih vrednosti, 
smo za vsako besedo v seznam shranili vse možne alternativne be-
sedne oblike (tožilnik ali množina). Shranjevali smo samo alternativ-
ne besedne oblike, ki so se razlikovale od izvornih (ne pa tudi enako-
pisnih oblik).
Napačne besedne oblike smo nastavili, ko je bilo možno za iz-
brano poved pridobiti vsaj toliko besed z alternativnimi besednimi 
oblikami, kot smo želeli. Če je bilo za določeno besedo na voljo več 
alternativnih oblik, smo naključno izbrali le eno. Nastaviti napačno 
besedno obliko torej pomeni, da smo za ustrezno obliko v rodilniku 
nastavili še neustrezno obliko v tožilniku. Kasneje je program za vse 
118
Slovenščina 2.0, 2024 (1) | Razprave
primere, ki so bili v tožilniku že izvorno ali pa so imeli nastavljene 
tožilniške oblike, iskal popravke iz tožilnika v rodilnik (oz. iz množine 
v dvojino).
5.4 Ocenjevanje modela
Najprej smo programsko rešitev testirali s pomočjo podatkov, ustvar-
jenih iz korpusa Lektor. Za evalvacijo napovednih modelov smo v po-
vedih nastavili različno število besed v želenem napačnem sklonu ali 
številu. Izbrali smo samo povedi, v katerih se je neustrezna besedna 
oblika formalno razlikovala od ustrezne (ne pa primerov z enakopisni-
mi oblikami). Povedi smo obdelali s cevovodom, opisanim v razdelku 
4, in dobili strojno predlagane slovnične popravke.
Rezultate smo razdelili v štiri skupine. Besede, ki so imele nasta-
vljeno napačno obliko in dobile ustrezen popravek, smo označili za 
dejansko pozitivne primere (angl. true positive oz. TP). Besede, ki so 
imele nastavljeno napačno obliko in nepravilen ali nenastavljen po-
pravek, smo označili za napačno negativne primere (angl. false nega-
tive oz. FN). Besede, ki niso imele nastavljene napačne oblike, vendar 
so imele popravek, smo označili za napačno pozitivne primere (angl. 
false positive oz. FP). Besede, ki niso imele nastavljene napačne oblike 
in tudi ne popravka, pa smo označili za dejansko negativne (angl. true 
negative oz. TN).
Iz teh štirih skupin smo izračunali metrike natančnost (angl. preci-
sion), priklic (angl. recall) in oceno F1 (Jurafsky in Martin, 2024).
V naslednjem primeru povedi je 14 besed. Zeleno so obarvane iz-
vorne besede, rdeče so nastavljene napačne besedne oblike in modre 
so predlogi popravkov, ki so izhod iz programa. Besedi znamenite in 
trikotne sta šteti kot dejansko pozitivni. Beseda Amerikami je šteta za 
napačno negativni primer, saj program ni predlagal nobenega poprav-
ka. Ostale besede so štete za dejansko negativne.
Trgovina s sužnji je postala del znamenite|znamenito|znamenite 
trikotne|trikotno|trikotne trgovine med Amerikama|Amerikami, Evro-
po in Afriko.
V naslednjem koraku smo postopek evalvirali še na avtentič-
nem gradivu korpusa Šolar-Eval. Korpusne povedi smo obdelali s 
119
Pomembnost realistične evalvacije
cevovodom, opisanim v razdelku 4, in dobili strojno predlagane slov-
nične popravke. Obravnavane 104 povedi smo strojno slovnično pre-
gledali še s spletno različico slovničnega pregledovalnika Amebis Be-
sana 4.32.8. Oboje rezultate smo primerjali z jezikoslovnimi popravki, 
podanimi v korpusu, in ročno analizirali podobnosti in razlike.
Med analizo smo popravke razdelili v dve skupini: (a) primeri, v 
katerih je jezikovna težava opazna in rešljiva na ravni same povedi, 
npr. Potem pa sva se ob skodelici mamine kave pogovarjale o imenih, 
barvi las in podobno, (b) primeri, kjer je za popravek treba poznati širši 
besedilni kontekst ali pa sta v standardnem jeziku sprejemljivi tako 
popravljena kot nepopravljena različica, npr. Zgodbe sem prebral ker 
sem jih moral, pri čemer je iz predhodnega besedila razvidno, da je 
učenec prebral samo dve zgodbi. Ker gre za različno zahtevne prime-
re, jih v Rezultatih prikažemo ločeno.
6 Rezultati
V tem razdelku predstavimo rezultate evalvacije. Najprej v razdelku 
6.1 predstavimo rezultate na korpusu Lektor z nastavljenimi napaka-
mi tipa tožilnik-rodilnik in množina-dvojina. Sledijo rezultati evalvacije 
na avtentičnem gradivu v razdelku 6.2, nato pa še evalvacija hitrosti 
obdelave v razdelku 6.3.
6.1 Rezultati evalvacije na umetnem gradivu
V Tabelah 1, 2 in 3 so rezultati testiranja na množici s 3.030 povedmi, 
kjer smo primerjali tudi uporabo napovedovanja z uporabo metode 
MCD (oz. SloBERTaMCD iz razdelka 4.2) v primerjavi z običajnim mo-
delom SloBERTa (v tabelah označeno z MCD in neMCD).
Ker vse povedi iz testne množice nimajo vedno iskanega števi-
la besed v konfiguraciji pravilnega sklona oz. števila (npr. nimamo 
povedi z vsaj tremi besedami v pravilnem rodilniku, ki jim lahko na-
stavimo nepravilno obliko v tožilniku), se zgodi, da se za te povedi 
ne nastavijo nobene napačne besede. Te povedi vseeno vključimo v 
evalvacijo, ker model za besede v iskanem izvornem sklonu oz. šte-
vilu še vedno poizkusi najti popravek – torej jih lahko beležimo kot 
potencialno napačno pozitivne primere. Prav tako teh povedi nismo 
120
Slovenščina 2.0, 2024 (1) | Razprave
želeli odstraniti ali spreminjati zato, ker bi s tem vnašali dodatno 
pristranskost.
Metrike v Tabeli 1 prikazujejo rezultate popravljanj slovničnega 
števila. V primerjavi s popravljanjem sklonov (Tabela 2) prikazujejo 
občutno slabše rezultate. To je verjetno posledica dejstva, da je bilo 
besed v dvojini, ki bi jih lahko uporabili za nastavljanje napačnih besed 
in evalvacijo, v testni množici bistveno manj. Prav tako je raba dvojine 
v slovenščini manj pogosta kot raba tožilnika, zato so imeli tudi be-
sedilni korpusi, ki so bili uporabljeni v procesu vnaprejšnjega učenja 
modela SloBERTa, na voljo manj tovrstnega gradiva.
Tabela 1: Natančnost napovedi samo za popravljanje slovničnega števila množina-dvojina 
z različnim številom nastavljenih napačnih besed v povedi v množini 
Št . napačnih besed v povedi
1 2 3
MCD neMCD MCD neMCD MCD neMCD
Napačne besede 171 171 212 212 180 180
Natančnost 89,3 90,4 91,8 92,2 90,7 90,9
Priklic 78,4 77,2 79,7 78,3 75,6 77,8
F-ocena 83,5 83,3 85,4 84,7 82,4 83,8
*Opomba. Model je imel nastavljeno mejno vrednostjo number32=0,056 (oz. num-
ber32=0,032 za neMCD).
Tabela 2: Natančnost napovedi samo za popravljanje sklona tožilnik-rodilnik z različnim 
številom nastavljenih napačnih besed v povedi v tožilniku
Št . napačnih besed v povedi
1 2 3
MCD neMCD MCD neMCD MCD neMCD
Napačne besede 1.994 1.994 2.858 2.858 2.853 2.853
Natančnost 98,2 98,4 98,5 98,9 98,4 98,7
Priklic 96,2 95,4 93,3 93,5 92,6 92,5
F-ocena 97,2 96,9 95,8 96,1 95,4 95,5
*Opomba. Model je imel z nastavljeno mejno vrednostjo case42=0,0097 (oz. case42=0,007 
za neMCD).
121
Pomembnost realistične evalvacije
Tabela 3: Natančnost napovedi za popravljanje sklona tožilnik-rodilnik in števila množina-
dvojina
Št . napačnih besed v povedi
1 2 3
MCD neMCD MCD neMCD MCD neMCD
Napačne besede 2.051 2.051 2.986 2.986 3.075 3.075
Natančnost 97,3 97,7 98,0 98,5 98,0 98,3
Priklic 95,4 95,0 91,4 92,6 91,4 92,4
F-ocena 96,3 96,3 94,6 95,5 94,6 95,3
*Opomba. Model je imel nastavljene mejne vrednosti case42=0,006 in number32=0,03 
(oz. case42=0,0013 in number32=0,036 za neMCD).
Rezultati v Tabeli 3 kažejo, da se je model dobro naučil napovedo-
vanja besednih zamenjav. V testni množici 3.030 povedi je približno 
13-krat več besed v rodilniku kot besed v dvojini. Naučene mejne vre-
dnosti case42=0,006 in number32=0,03 (oz. case42=0,0013 in num-
ber32=0,036 za neMCD) kažejo na to, da se je model v procesu učenja 
mejnih vrednosti naučil, da besedam v množini postavi višji prag kot 
besedam v tožilniku. Opozorimo naj, da mejne vrednosti pragov ne 
predstavljajo kalibriranih verjetnosti, zato jih ne presojamo kot goto-
vosti modelov za dane odločitve.
Primerjava med napovedovanjem z in brez MCD pokaže dokaj 
majhne in nekonsistentne razlike. Glede na precej večjo računsko 
zahtevnost metode MCD zato metode napovedovanja z MCD za naš 
problem ne moremo priporočiti.
6.2 Rezultati evalvacije na avtentičnem gradivu
Rezultate kvalitativne evalvacije na gradivu korpusa Šolar-Eval prika-
zujeta Tabeli 4 in 5. Kot je bilo omenjeno v razdelku 5.4, so rezultati lo-
čeni glede na to, ali gre za primere, ki so rešljivi na ravni same povedi, 
ali primere, kjer je za interpretacijo potrebno več sobesedila.
122
Slovenščina 2.0, 2024 (1) | Razprave
Tabela 4: Število avtentičnih jezikovnih popravkov rabe množine namesto dvojine v 58 
obravnavanih povedih in število ustreznih strojnih rešitev, ki jih dobimo bodisi samo z novim 
pristopom, samo z Besano, z obema programoma ali z nobenim od njiju
Št. problemov Novi pristop Besana Oba Nerešeno
Dvoumni primeri 63 1 0 0 62
Nedvoumni primeri 25 7 3 2 13
Skupaj 88 8 3 2 75
Tabela 5: Število avtentičnih jezikovnih popravkov rabe tožilnika namesto rodilnika v 47 
obravnavanih povedih in število ustreznih strojnih rešitev, ki jih dobimo bodisi samo z novim 
pristopom, samo z Besano, z obema programoma ali z nobenim od njiju
Št. problemov Novi pristop Besana Oba Nerešeno
Dvoumni primeri 7 1 0 0 6
Nedvoumni primeri 54 8 24 9 13
Skupaj 61 9 24 9 19
Tako novi pristop kot Besana pri dvoumnih primerih dosegata izre-
dno nizko uspešnost, vendar tudi nedvoumni primeri z obema postopko-
ma pogosto ostajajo nezaznani: to velja za 13 od 25 popravkov množine 
v dvojino ter za 13 od 54 popravkov tožilnika v rodilnik. Pri tem je treba 
izpostaviti, da na uspešnost popravljanja lahko vplivajo tudi preostali od-
stopi od standarda, ki se pojavljajo v obravnavanih povedih. Za ponazori-
tev navajamo nekaj primerov neuspešno identificiranih problemov:
• Ko smo šli prek železnice jaz in prijatel smo ušli vlaku, ampak ona 
pa je bila skoraj pod vlakom.
• Vendar se Hamlet izogiba vsak kontakt z Ofelijo.
• Ampak usaj nimaš slabe vesti o tem, kar si naredil in kar nisi.
Kot je razvidno iz Tabel 4 in 5, je novi pristop pri problemu dvo-
jine malenkost boljši od Besane, medtem ko je pri težavah rodilnika 
Besana znatno uspešnejša. Jezikoslovna analiza ni pokazala vzorcev, 
ki bi nakazovali razloge za (ne)uspešnost enega ali drugega pristopa 
pri posameznih primerih. Za ponazoritev navajamo tri primere, ki jih je 
rešil novi pristop, ne pa Besana:
• Ko smo prišli do dveh aprtmajev, ki smo jih rezervirali.
• Oba cutita ljubezen drug do drugega ampak jih ta verski spopad 
ločuje drug od drugega.
• Izhaja iz bolj revne družine, zato si marsikaj nemore privoščiti.
123
Pomembnost realistične evalvacije
Nato pa še tri primere, ki jih je rešila Besana, ne pa novi pristop:
• Če se zaposlim nemorem pričakovati zlati zaslužek.
• Ob problemu ne dajo samo kruto kazen ampak se o tem pogovo-
rijo in jim svetujejo.
• Jaz in Sternfeldovka sva sklenili, da bo ona šla v grm in ko bo čas 
bo prišla ven, da bova Tulpenhajna razkrinkale.
6.3 Hitrost obdelave besedil
Za nekatere vrste uporabe prepoznavalnikov in popravljalnikov jezi-
kovnih napak je pomembna tudi hitrost izvajanja, npr. pri popravljalni-
kih, ki delujejo v okviru sprotnega prepoznavanja govora, zato v ome-
jenem obsegu analiziramo tudi ta aspekt razvitih modelov. Hitrost 
obdelave vhodnih besedil je odvisna predvsem od časa, ki ga program 
potrebuje, da besedilo (večkrat) obdela z modelom SloBERTa oz. Slo-
BERTaMCD in orodji CLASSLA-Stanza. Meritve smo opravili na raču-
nalniku z dvema procesorjema Intel(R) Xeon(R) Silver 4214, torej z 48 
nitmi. Na računalniku so bile 4 GPE NVIDIA GeForce RTX 2080 Ti. Oba 
modela smo naložili na eno GPE, istočasno pa se na kartici niso izvajali 
drugi programi.
Ob uporabi SloBERTaMCD smo v povprečju ob obdelavi besedila 
velikosti približno 61.000 besed dosegli hitrost obdelave 13,06 be-
sed na sekundo. Ob uporabi navadnega modela SloBERTa se je hi-
trost podvojila na 26,02 besed na sekundo. Hitrost je bila višja, ker 
SloBERTaMCD uporablja večkratno povprečenje izhodnih vrednosti 
(opisano v razdelku 4.2) in je napovedovanje besednih zamenjav zato 
počasnejše.
7 ZAKLJUČEK
Razvili smo metodologijo za napovedovanje slovničnih popravkov, ki 
temelji na maskirnem jezikovnem modelu. Model vrne verjetnostno 
distribucijo popravkov slovničnega števila in sklonov, na podlagi kate-
re ocenimo vrsto popravka in njegovo verjetnost. Za dejansko predla-
gane popravke uporabljamo parameter, katerega vrednost predsta-
vlja prag verjetnosti ustreznosti popravka. Za razvoj metodologije smo 
uporabili orodje CLASSLA-Stanza (razdelek 3.3), napovedi različnih 
124
Slovenščina 2.0, 2024 (1) | Razprave
besednih oblik z modelom SloBERTa (razdelek 4.2) in slovenski obli-
koslovni leksikon Sloleks (razdelek 3.4). Za izboljšanje napovedi ver-
jetnostne distribucije napak smo neuspešno preizkusili metodo MCD, 
ki je sicer okoli dvakrat počasnejša od napovedi običajnega modela 
SloBERTa. Izvorna koda programa je odprtodostopna.7 Metodologijo 
smo preizkusili na popravkih tipa množina-dvojina in tožilnik-rodilnik 
in na različnih evalvacijskih množicah dosegli zelo različne rezultate.
Program ob hkratni uporabi naučenih mejnih vrednosti za popra-
vljanje sklona tožilnik-rodilnik in števila množina-dvojina na umetnih 
podatkih doseže F1-oceno med 95 % in 96 %. Pravilno je popravil od 
92 % do 95 % napačno nastavljenih besed – odvisno od števila na-
stavljenih napačnih besed v evalvacijski množici. Na drugi strani na 
avtentičnih podatkih, ki so lahko vpeti v sobesedilo in vsebujejo tudi 
druge odstope od jezikovnega standarda, program uspešno naslovi le 
29,5 % težav z rodilnikom (oz. 31,5 % primerov, ki so rešljivi brez šir-
šega konteksta) in 11,4 % težav z dvojino (oz. 36 % primerov, ki so 
rešljivi brez širšega konteksta). Če je prva evalvacija kazala na prese-
žno uspešnost predlaganega pristopa, pa je evalvacija na avtentičnem 
jeziku ugotovitve ustrezno relativizirala.
Rezultati našega dela kažejo, da je evalvacije na umetno pripra-
vljenih podatkih, ki so na področju obdelave naravnega jezika sicer 
pogoste, nujno dopolnjevati z analizami na avtentičnem jeziku. Kvali-
tetna evalvacija bi morala upoštevati širši kontekst uporabe modelov, 
saj osredotočenost na ozko področje določene evalvacijske množice 
lahko vodi v pretirano prilagajanje specifični jezikovni situaciji na ra-
čun širše potencialne uporabe. Raba samo umetnih množic in množic, 
ki se le delno prekrivajo z nameravanim področjem uporabe, lahko 
privede do preveč optimističnih ocen uspešnosti delovanja. Na dru-
gi strani je izziv raznolikost izražanja v naravnem jeziku, saj »pravilni 
odgovori« v jezikovnih podatkih vsebujejo le eno od izraznih možnosti, 
ne pa drugih prav tako pravilnih možnosti. Ta značilnost lahko modele 
strojnega učenja vodi do preozke usmerjenosti in zanemari variantne 
ali kreativnejše možnosti izražanja. Pri evalvaciji lahko vodi do preveč 
pesimističnih ocen uspešnosti delovanja ali do favoriziranja modelov, 
ki so preozko usmerjeni.
7 Na voljo na: https://github.com/timopetric/EssayHelper.
125
Pomembnost realistične evalvacije
Izziv pri evalvaciji nalog s področja obdelave in razumevanja na-
ravnega jezika sta tudi subjektivnost in (ne)konstistentnost človeških 
odločitev, ki se v evalvacijskih podatkih obravnavajo kot pravilne. Pro-
blem je še večji, če metodologija priprave ni transparentno popisa-
na ali množice niso javno na voljo, da bi bile evalvacije ponovljive in 
razložljive. Ker je priprava kvalitetnih evalvacijskih virov zahtevna in 
zamudna, jih za številne jezike, tudi slovenščino, še vedno primanj-
kuje. Šolar-Eval, ki je bil pripravljen posebej za evalvacijo slovenskih 
črkovalnikov in slovničnih pregledovalnikov, ustreza vsem želenim kri-
terijem, vendar vsebuje izključno besedila šolajoče se populacije. Po-
dobne množice bi bilo po enotni metodologiji treba v prihodnje razviti 
tudi za druge vzorce jezikovne rabe.
Ker so se v zadnjem času pojavili mnogo večji generativni jezikov-
ni modeli, kot sta GPT-4 in Gemini, nekateri tudi prostodostopni, npr. 
LLama-3, se nadaljnji razvoj predstavljene ideje ne zdi smiseln, razen 
morebiti za samostojno delovanje slovničnih pregledovalnikov na ra-
čunalnikih z malo računskimi viri. V nadaljnjem delu se bomo osredo-
točili predvsem na večje odprtodostopne modele in na razvoj učnih 
množic zanje. Ti modeli lahko, ob ustreznem učenju, naslovijo tudi v 
članku izpostavljeno in v jeziku pogosto težavo preozkega konteksta, 
ko je za ustrezno identifikacijo jezikovne težave treba upoštevati širše 
značilnosti sobesedila, ne le posamezne povedi.
Zahvala
Dostop do celotnega korpusa Lektor nam je omogočil vodja projekta 
izgradnje korpusa, doc. dr. Damjan Popič, s Filozofske fakultete Uni-
verze v Ljubljani. Raziskovalni program Jezikovni viri in tehnologije za 
slovenski jezik (P6-0411) in projekta Empirična podlaga za digitalno 
podprt razvoj pisne jezikovne zmožnosti (J7-3159) in Veliki jezikovni 
modeli za digitalno humanistiko (GC-0002) sofinancira Javna agencija 
za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slove-
nije iz državnega proračuna.
126
Slovenščina 2.0, 2024 (1) | Razprave
Literatura
Arhar Holdt, Š., Rozman, T., Stritar Kučuk, M., Krek, S., Krapš Vodopivec, I., 
Stabej, M., Pori, E., …, & Kosem, I. (2022a). Developmental corpus Šolar 
3.0, Slovenian language resource repository CLARIN.SI, http://hdl.han-
dle.net/11356/1589
Arhar Holdt, Š., Rozman, T., Stritar Kučuk, M., Krek, S., Krapš Vodopivec, I., 
Stabej, M., Pori, E., …, & Kosem, I. (2022). Frequency list of language pro-
blems from Šolar 3.0, Slovenian language resource repository CLARIN.
SI, http://hdl.handle.net/11356/1716
Arhar Holdt, Š., Gantar, P., Bon, M., Gapsa, M., Lavrič, P., & Klemen, M. (2023). 
Dataset for evaluation of Slovene spell- and grammar-checking tools Šo-
lar-Eval 1.0, Slovenian language resource repository CLARIN.SI, http://
hdl.handle.net/11356/1902
Božič, M. (2020). Globoke nevronske mreže za postavljanje vejic v slovenskem 
jeziku (Diplomska naloga). Ljubljana: Univerza v Ljubljani, Fakulteta za 
računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/Iz-
pisGradiva.php?id=119034&lang=slv
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neela-
kantan, …, Askell, A., idr. (2020). Language models are few-shot learners. 
Advances in neural information processing systems, 33, 1877–1901.
Bryant, C., Yuan, Z., Qorib, M. R., Cao, H., Ng, H. T., & Briscoe, T. (2023). Gram-
matical Error Correction: A Survey of the State of the Art. Computational 
Linguistics, 49(3), 643–701. doi: 10.1162/coli_a_00478
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training 
of Deep Bidirectional Transformers for Language Understanding. Proce-
edings of the 2019 Conference of the North American Chapter of the As-
sociation for Computational Linguistics: Human Language Technologies, 
Volume 1 (Long and Short Papers) (str. 4171–4186). doi: 10.18653/v1/
N19-1423
Dobrovoljc, K., Krek, S., & Erjavec, T. (2015). Leksikon besednih oblik Sloleks 
in smernice njegovega razvoja. V V. Gorjanc, P. Gantar, I. Kosem & S. Krek 
(ur.), Slovar sodobne slovenščine: problemi in rešitve (str. 80–105). Lju-
bljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. Pri-
dobljeno s https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/15/47/489 
Dobrovoljc, K., Krek, S., Holozan, P., Erjavec, T., Romih, M., Arhar Holdt, Š., 
Čibej, J., Krsnik, L., & Robnik-Šikonja, M. (2019). Morphological lexicon 
Sloleks 2.0, Slovenian language resource repository CLARIN.SI, http://
hdl.handle.net/11356/1230
127
Pomembnost realistične evalvacije
Erjavec, T. (2017). MULTEXT-East. V Handbook of Linguistic Annotation (str. 
441–462). Springer.
Erjavec, T., Fišer, D., Ljubešić, N., Ferme, M., Borovič, M., Boškovič, B., Oj-
steršek, M., & Hrovat, G. (2019). Corpus of Academic Slovene KAS 1.0, 
Slovenian language resource repository CLARIN.SI, http://hdl.handle.
net/11356/1244 
Fang, T., Yang, S., Lan, K., Wong, D. F., Hu, J., Chao, L. S., & Zhang, Y. (2023). 
Is ChatGPT a highly fluent grammatical error correction system? A com-
prehensive evaluation. ArXiv. doi: 10.48550/arXiv.2304.01746
Gal, Y., & Ghahramani, Z. (2016). Dropout as a Bayesian approximation: Re-
presenting model uncertainty in deep learning. International conference 
on machine learning, 1050–1059.
Gantar, P., Bon, M., Gapsa, M., & Holdt, Š. A. (2023). Šolar-Eval: Evalvacijska 
množica za strojno popravljanje jezikovnih napak v slovenskih besedilih. 
Jezik in slovstvo, 68(4), 89–108. doi: 10.4312/jis.68.4.89-108  
Jurafsky, D., & Martin, J. H. (2024). Speech and Language Processing (3rd ed. 
draft). Pridobljeno s https://web.stanford.edu/~jurafsky/slp3/ed3book.
pdf
Krek, S., Holdt, Š. A., Erjavec, T., Čibej, J., Repar, A., Gantar, P., Ljubešić, N., 
Kosem, I., & Dobrovoljc, K. (2020). Gigafida 2.0: The reference corpus 
of written standard Slovene. In N. Calzolari et al. (Eds.), Proceedings of 
the Twelfth language resources and evaluation conference, LREC 2020, 
Marseille, France (str. 3340–3345). The European Language Resources 
Association (ELRA).
Krek, S. (2023). Language Report Slovenian. In European Language Equality: 
A Strategic Agenda for Digital Language Equality (str. 211–214). Cham: 
Springer International Publishing.
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettle-
moyer, L., & Stoyanov, V. (2019). RoBERTa: A Robustly Optimized BERT 
Pretraining Approach. ArXiv. doi: 10.48550/arXiv.1907.11692
Ljubešić, N., & Dobrovoljc, K. (2019). What does Neural Bring? Analysing 
Improvements in Morphosyntactic Annotation and Lemmatisation of 
Slovenian, Croatian and Serbian. Proceedings of the 7th Workshop on 
Balto-Slavic Natural Language Processing, 29–34. doi: 10.18653/v1/
W19-3704
Miok, K., Škrlj, B., Zaharie, D., & Robnik-Šikonja, M. (2022). To BAN or not 
to BAN: Bayesian attention networks for reliable hate speech detection. 
Cognitive Computation, 14(1), 353–371.
128
Slovenščina 2.0, 2024 (1) | Razprave
Mokotar, R. (2023). Obvladovanje slovničnih napak v šolskih pisnih izdelkih z 
metodami za obdelavo naravnega jezika (Diplomska naloga). Ljubljana: 
Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridoblje-
no s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=144932&lang=slv
Pančur, A., Erjavec, T., Ojsteršek, M., Šorn, M., & Blaj Hribar, N. (2020). Slove-
nian parliamentary corpus (1990-2018) siParl 2.0, Slovenian language 
resource repository CLARIN.SI, http://hdl.handle.net/11356/1300 
Popič, D. (2014). Revising translation revision in Slovenia. New Horizons in 
Translation Research and Education 2, 72–89. University of Eastern Fin-
land Joensuu.
Qi, P., Zhang, Y., Zhang, Y., Bolton, J., & Manning, C. D. (2020). Stanza: A 
Python Natural Language Processing Toolkit for Many Human Langua-
ges. Proceedings of the 58th Annual Meeting of the Association for Com-
putational Linguistics: System Demonstrations.
Rizvič, M. (2020). Avtomatsko postavljanje ločil v surovem tekstu (Magistr-
sko delo). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo 
in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.
php?id=117687&lang=slv
Romih, M., & Holozan, P. (2002). Infrastruktura za razvoj jezikovnih tehnolo-
gij-korpus FIDA in sistem ASES. V T. Erjavec, J. Žganec Gros (ur.), Jezi-
kovne tehnologije, 14.–15. oktober, Ljubljana, Slovenija (str. 166). Prido-
bljeno s http://nl.ijs.si/isjt02/zbornik/sdjt02-D02amebis.pdf 
Rozovskaya, A., Roth, D., & Srikumar, V. (2014). Correcting grammatical verb 
errors. Proceedings of the 14th Conference of the European Chapter of the 
Association for Computational Linguistics (str. 358–367).
Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., 
…, Azhar, F., idr. (2023). Llama: Open and efficient foundation language 
models. ArXiv. doi: 10.48550/arXiv.2302.13971 
Ulčar, M., & Robnik-Šikonja, M. (2021a). SloBERTa: Slovene monolingual lar-
ge pretrained masked language model. Proceedings of Slovenian KDD 
Conference, SiKDD 2021, part of Information Society.
Ulčar, M., & Robnik-Šikonja, M. (2021b). Slovenian RoBERTa contextual em-
beddings model: SloBERTa 2.0, Slovenian language resource repository 
CLARIN.SI, http://hdl.handle.net/11356/1397
Ulčar, M., & Robnik-Šikonja, M. (2023). Sequence to sequence pretraining 
for a less-resourced Slovenian language. Frontiers in Artificial Intelligen-
ce, 6. doi: 10.3389/frai.2023.932519
129
Pomembnost realistične evalvacije
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., 
Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in 
neural information processing systems, 30.
Velikonja, N. (2021). Segmentacija in postavljanje končnih ločil v slovenskih 
stavkih z modeli tipa BERT (Diplomska naloga). Ljubljana: Univerza v Lju-
bljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://
repozitorij.uni-lj.si/IzpisGradiva.php?id=130323&lang=slv
Wu, H., Wang, W., Wan, Y., Jiao, W., & Lyu, M. (2023). ChatGPT or Grammarly? 
Evaluating ChatGPT on grammatical error correction benchmark. ArXiv. 
doi: 10.48550/arXiv.2303.13648 
Zhang, S., Huang, H., Liu, J., & Li, H. (2020). Spelling Error Correction with 
Soft-Masked BERT. V D. Jurafsky, J. Chai, N. Schluter & J. Tetreault (ur.), 
Proceedings of the 58th Annual Meeting of the Association for Computa-
tional Linguistics, July 2020 (str. 882–890). Association for Computa-
tional Linguistics. Pridobljeno s https://aclanthology.org/2020.acl-main.
pdf 
130
Slovenščina 2.0, 2024 (1) | Razprave
The importance of realistic evaluation: an example of 
correcting Slovene grammatical case and number with large 
language models
Frequent grammar errors in standard Slovene include using an incorrect gram-
matical conjugation or number. Using the large language model SloBERTa, we 
have developed a new methodology for the machine detection of such prob-
lems and tested it on incorrect use of the accusative instead of the genitive 
case and the plural instead of the dual. We applied standard natural language 
processing tools for Slovenian to evaluate and modify word forms in the input 
sentences, such as morphosyntactic tagger CLASSLA-Stanza and Slovenian 
word form lexicon Sloleks. The proposed corrections are based on word form 
statistics when using masked word prediction with a large language model. 
Due to the lack of sufficient training data, we trained the prediction models 
on synthetically generated errors. We first evaluated the performance of ma-
chine correction on synthetic data and the Lektor corpus, and later on a newly 
developed evaluation dataset Šolar-Eval. The evaluation on the first two data-
sets showed the excellent performance of the developed methodology (more 
than 90% of detected synthetically introduced errors), while with Šolar-Eval it 
had a far worse performance (only 29.5% of the problems with the genitive-
accusative grammatical case were detected, and just 11.4% of those with 
the dual-plural grammatical number). Overall, the results show the danger of 
overfitting to datasets and the importance of evaluating on purposefully de-
signed authentic datasets, which are still rare for Slovene.
Keywords: grammatical error correction, grammatical case, grammatical 
number, large language models, evaluation