1
Logično sklepanje v naravnem 
jeziku za slovenščino
Tim KMECL
Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Marko ROBNIK-ŠIKONJA
Fakulteta za računalništvo in informatiko, Univerza v Ljubljani
Na področju strojnega razumevanja naravnega jezika so v zadnjih letih naju-
spešnejši veliki jezikovni modeli. Pomemben problem s tega področja je lo-
gično sklepanje v naravnem jeziku, za reševanje katerega morajo modeli vse-
bovati dokaj široko splošno znanje, strojno generiranje razlag sklepov pa nam 
omogoča dodaten vpogled v njihovo delovanje.
Preizkusili smo različne pristope za logično sklepanje v naravnem jeziku za 
slovenščino. Uporabili smo dva slovenska velika jezikovna modela, SloBERTa 
in SloT5, in mnogo večji angleški jezikovni model GPT-3.5-turbo. Za učenje 
modelov smo uporabili slovensko podatkovno množico SI-NLI, strojno pa smo 
prevedli še 50.000 primerov iz angleške množice ESNLI.
Model SloBERTa, prilagojen na SI-NLI, doseže na testni množici SI-NLI kla-
sifikacijsko točnost 73,2 %. Z vnaprejšnjim učenjem na prevodih ESNLI smo 
točnost izboljšali na 75,3 %. Ugotovili smo, da modeli delajo drugačne vrste 
napak kot ljudje in da slabo posplošujejo med različnimi domenami prime-
rov. SloT5 smo na množici ESNLI prilagodili za generiranje razlag pri logičnem 
sklepanju. Ustreznih je manj kot tretjina razlag, pri čemer se model dobro na-
uči pogostih stavčnih oblik v razlagah, večinoma pa so pomensko nesmisel-
ne. Predvidevamo, da so slovenski veliki jezikovni modeli z nekaj sto milijoni 
parametrov zmožni iskanja in uporabe jezikovnih vzorcev, njihovo poznavanje 
jezika pa ni povezano s poznavanjem resničnosti.
Kmecl, T. et al.: Logično sklepanje v naravnem jeziku za slovenščino. Slovenščina 
2.0, 12(1): 1–53. 
1.01 Izvirni znanstveni članek / Original Scientific Article
DOI: https://doi.org/10.4312/slo2.0.2024.1.1-53
https://creativecommons.org/licenses/by-sa/4.0/
2
Slovenščina 2.0, 2024 (1) | Razprave
Za uvrščanje primerov in generiranje razlag smo uporabili tudi večji model 
GPT-3.5-turbo. Pri učenju brez dodatnih primerov doseže na testni množici SI-
-NLI točnost 56,5 %, pri pravilno uvrščenih primerih pa je ustreznih 81 % razlag. 
V primerjavi z manjšimi slovenskimi modeli kaže ta model dokaj dobro razume-
vanje resničnosti, pri čemer pa ga omejuje slabše poznavanje slovenščine.
Ključne besede: logično sklepanje v naravnem jeziku, veliki jezikovni modeli, 
arhitektura transformer, SloBERTa, SloT5, GPT-3.5-turbo, ChatGPT, razlage, 
slovenščina, prilagajanje modelov
1 Uvod
Procesiranje naravnega jezika je vse od začetkov računalništva v sre-
dini prejšnjega stoletja pomembno raziskovalno in aplikativno podro-
čje. Zajema številne probleme, ki so povezani z naravnim jezikom. 
Problemi so lahko klasifikacijske ali generativne narave. Pod klasifika-
cijske naloge spada na primer označevanje besednih vrst, razpozna-
va čustev v besedilu in zaznavanje neželene pošte. Pri generativnih 
problemih je izhod besedilo, kot na primer pri povzemanju vhodnega 
besedila in odgovarjanju na vprašanja. V zadnjih letih so na tem po-
dročju najuspešnejši veliki jezikovni modeli (angl. large language mo-
dels, kratica LLM).
Veliki jezikovni modeli so posebna vrsta globokih nevronskih mrež 
z od nekaj deset milijonov do več sto milijard parametri, naučenih za 
modeliranje jezika, konkretno za napovedovanje naslednje ali manj-
kajoče besede v nizu. Učijo se na ogromnih korpusih besedil, najpo-
gosteje s svetovnega spleta. Po splošnem učenju, ki jim zagotovi po-
znavanje jezika, jih lahko prilagodimo za različne naloge. V središče 
pozornosti širše javnosti so veliki jezikovni modeli vstopili novembra 
2022 s predstavitvijo spletnega klepetalnega robota ChatGPT (Ope-
nAI, 2022), ki temelji na velikem jezikovnem modelu GPT-3.5. Ker zna 
ChatGPT odgovarjati na vprašanja, slediti navodilom in ima znanje s 
praktično vseh področij človeškega delovanja, daje marsikomu vtis in-
teligence, podobne človeški.
Ljudje pri svojem razmišljanju in reševanju (jezikovnih) problemov 
med drugim uporabljamo zdravorazumsko sklepanje in poznavanje 
3
Logično sklepanje v naravnem jeziku za slovenščino
sveta, pridobljeno skozi izkušnje in neposredno interakcijo s svetom. 
Po drugi strani pa se veliki jezikovni modeli učijo le na korpusih bese-
dil in neposrednega dostopa do resničnega sveta nimajo. To poraja 
vprašanje, ali se modeli naučijo zgolj različnih jezikovnih vzorcev in 
hevristik, ki zadoščajo za reševanje različnih nalog, ali pa učenje le iz 
besedila omogoča globlje razumevanje resničnosti. Problem, ki nam 
lahko da vpogled v to, je logično sklepanje v naravnem jeziku (angl. 
natural language inference, kratica NLI).
Pri tipični formulaciji problema logičnega sklepanja v naravnem 
jeziku sta vhod dve povedi. Prvo imenujemo premisa, drugo hipote-
za. Cilj je ugotoviti, v kakšnem logičnem razmerju sta podani povedi. 
Če je hipoteza logična posledica premise, oziroma če lahko ob pred-
postavki, da je premisa resnična, utemeljeno sklepamo na resničnost 
hipoteze, imenujemo to razmerje implikacija (angl. entailment). Če so 
informacije v hipotezi v nasprotju s tistimi v premisi, oziroma lahko 
iz resničnosti premise utemeljeno sklepamo na neresničost hipoteze, 
to imenujemo kontradikcija (angl. contradiction). Če pa iz premise ne 
moremo sklepati niti na resničnost niti na neresničnost hipoteze, torej 
če informacije v premisi hipoteze niti ne potrjujejo niti ne zavračajo, 
je tak primer nevtralen (angl. neutral). Tako formuliran problem je v 
osnovi klasifikacijski, lahko pa ga razširimo tako, da zahtevamo poleg 
klasifikacije (uvrščanja) še razlago zanjo. Če zmore jezikovni model, 
ki problem rešuje, odgovor utemeljiti, omogoča to dodaten vpogled v 
njegov pristop k reševanju problema.
Na primer, če je dana premisa Mož in žena sedita v dnevni sobi in 
hipoteza V dnevni sobi sedita zakonca, gre za implikacijo, ker sta mož 
in žena zakonca. Če bi bila hipoteza namesto tega Dnevna soba je pra-
zna, bi bil to primer kontradikcije, ker sta glede na premiso v sobi dva 
človeka in zato ne more biti prazna. Če pa bi bila hipoteza Ura je šest 
popoldne, bi šlo za nevtralen primer, ker v premisi podatek o času ni 
podan, ljudje pa v dnevni sobi lahko sedijo kadarkoli.
V angleščini obstajajo številne podatkovne množice s primeri lo-
gičnega sklepanja v naravnem jeziku (Bowman idr., 2015; Camburu 
idr., 2018; McCoy idr., 2019). Prav tako so se z uporabo velikih jezikov-
nih modelov za reševanje tega problema ukvarjali mnogi raziskovalci 
(H. Liu idr., 2023; McCoy idr., 2019; Poth idr., 2021; Wang idr., 2021; 
4
Slovenščina 2.0, 2024 (1) | Razprave
Zhong idr., 2023), tudi s strojnim generiranjem razlag zanje (Camburu 
idr., 2018; Kumar in Talukdar, 2020).
Logično sklepanje v naravnem jeziku za slovenščino je precej manj 
raziskano področje. Obstaja le ena izvirno slovenska podatkovna množi-
ca primerov logičnega sklepanja, imenovana SI-NLI (Klemen idr., 2022). 
Na spletni platformi SloBench (CJVT UL, 2023) sta objavljena dva rezul-
tata vrednotenja na testni množici SI-NLI, oba pristopa uporabljata mo-
del SloBERTa (Ulčar in Robnik Šikonja, 2021). S strojnim generiranjem 
razlag pri logičnem sklepanju se v slovenščini ni ukvarjal še nihče.
Naš cilj je preizkusiti več pristopov za reševanje tega problema v 
slovenščini, pri tem pa testirati več velikih jezikovnih modelov, tako na 
slovenski podatkovni množici kot na strojnem prevodu angleške. Za-
nima nas, kako uspešni so različni modeli pri reševanju klasifikacijske-
ga problema, kako dobro zmorejo generirati razlage in ali so sposobni 
posploševanja med različnimi domenami primerov istega problema. 
Na osnovi rezultatov skušamo poleg vrednotenja pristopov ugotovi-
ti tudi, ali veliki jezikovni modeli, uporabni za slovenščino, premorejo 
dejansko razumevanje sveta ali pa se naučijo le jezikovnih vzorcev. Po-
skuse razdelimo v štiri sklope.
V prvem sklopu uporabimo slovensko množico SI-NLI za učenje 
klasifikacijskega modela SloBERTa. Preizkusiti želimo, kako zmogljiv 
je ta model, ali je število učnih primerov zadostno, kako na učenje vpli-
vajo primeri, ki jih narobe uvrstijo ljudje, in ali so napake, ki jih naredi 
model, podobne človeškim.
V drugem sklopu poskusov se ukvarjamo z uporabo strojnega pre-
vajanja iz angleščine, konkretno prevoda množice ESNLI (Camburu 
idr., 2018), in prenosom znanja. Model SloBERTa učimo na prevodih te 
množice in primerjamo rezultate s tistimi iz prejšnjega sklopa. Zanima 
nas, kako dobro jezikovni modeli posplošujejo med različnimi učnimi 
množicami, ali je strojno prevajanje lahko primeren nadomestek slo-
venskim podatkovnim množicam in ali lahko strojne prevode uporabi-
mo za izboljšanje napovedovanja na SI-NLI.
Cilj tretjega sklopa je prilagajanje generativnega slovenskega mo-
dela SloT5 (Ulčar in Robnik-Šikonja, 2023) za generiranje razlag, ki jih 
kvalitativno ocenimo in s tem skušamo razložiti, kako jezikovni modeli 
rešujejo problem logičnega sklepanja.
5
Logično sklepanje v naravnem jeziku za slovenščino
Zadnji sklop poskusov temelji na uporabi angleškega modela 
GPT-3.5-turbo, ki poganja tudi ChatGPT. Uporabimo ga tako za klasi-
fikacijo kot za generiranje razlag. Ugotoviti želimo, ali je ta model upo-
raben za slovenščino in ali mu nekaj redov velikosti več parametrov 
in učnih podatkov omogoča boljše razumevanje in logično sklepanje, 
tudi če ni bil naučen specifično za to nalogo.
Članek je razdeljen na sedem razdelkov. V razdelku 2 najprej pred-
stavimo delovanje arhitekture transformer, ki je osnova za velike je-
zikovne modele. Zatem predstavimo tri jezikovne modele, ki smo jih 
uporabili za reševanje problema – slovenska modela SloBERTa in SloT5 
ter angleški GPT-3.5-turbo. V razdelku 3 predstavimo in analiziramo 
slovensko podatkovno množico SI-NLI in angleško množico ESNLI ter 
opišemo njeno strojno prevajanje v slovenščino. V razdelku 4 opišemo 
postopek učenja modelov in izbiro parametrov zanje po štirih, prej opi-
sanih sklopih poskusov. Predstavimo še evalvacijske metrike in način 
vrednotenja rezultatov. Rezultati vrednotenja so po sklopih podani v 
razdelku 5, ki vsebuje kvantitativne in kvalitativne ocene pristopov ter 
interpretacijo rezultatov. V razdelku 6 združimo najpomembnejše rezul-
tate in jih postavimo v širši kontekst. Članek zaključimo v 7. razdelku s 
povzetkom narejenega in predlogi za nadaljnje delo ter izboljšave.
2 Veliki jezikovni modeli in predhodno delo
V tem razdelku predstavimo velike jezikovne modele, ki smo jih upo-
rabili za logično sklepanje v naravnem jeziku. Začnemo s predstavi-
tvijo modelov SloBERTa in SloT5, slovenskih različic modelov BERT 
in T5. Nato predstavimo največji model, ki smo ga uporabili, angleški 
GPT-3.5-turbo. Na koncu predstavimo še predhodno delo s področja 
uporabe velikih jezikovnih modelov za logično sklepanje v angleščini.
2.1 Modela BERT in SloBERTa
BERT (Bidirectional Encoder Representations from Transformers) (De-
vlin idr., 2019) je jezikovni model, ki temelji na uporabi kodirnika arhi-
tekture nevronskih mrež transformer (Vaswani idr., 2017). Pri osnovni 
različici je kodirnik sestavljen iz 12 plasti in uporablja vektorje dimen-
zije 768. Skupno ima model 110 milijonov parametrov.
6
Slovenščina 2.0, 2024 (1) | Razprave
Za njegovo učenje je uporabljeno t. i. samonadzorovano učenje. 
Naučen je za dve nalogi, napovedovanje zaporednosti dveh stavkov in 
napovedovanje maskirane besede. Pri prvi je vhod v model sestavljen 
iz dveh stavkov, model pa mora ugotoviti, ali sta stavka zaporedna ali 
ne. Pri napovedovanju maskirane besede se 15 % členov na vhodu 
zamenja s posebnim členom [mask], model pa napoveduje člen, ki je 
bil tam pred zamenjavo. Z uporabo le druge naloge in večje količine 
podatkov kot pri originalnem modelu BERT je bila naučena izboljšana 
različica, imenovana RoBERTa (Y. Liu idr., 2019).
Učenje tako naučenih velikih jezikovnih modelov se kasneje nada-
ljuje na drugih nalogah, pri čemer je potrebna znatno manjša količina 
učnih primerov kot sicer, saj model že vsebuje neko razumevanje jezi-
ka, ki ga je treba zgolj prilagoditi konkretni nalogi. To imenujemo prila-
goditev modela (angl. fine-tuning), za model, ki ga imamo za osnovo, 
pa rečemo, da je vnaprej naučen (angl. pre-trained).
Na enaki metodi učenja in enaki arhitekturi kot RoBERTa temelji 
slovenski model SloBERTa (Ulčar in Robnik-Šikonja, 2021). Ta mo-
del je bil naučen na korpusih slovenskih besedil, in sicer Gigafida 2.0 
(Krek idr., 2020) (besedila iz knjig, revij, časopisov in interneta), Ja-
nes (Fišer idr., 2016) (besedila z družabnih omrežij), KAS (Erjavec idr., 
2021) (akademska besedila), siParl (Pančur in Erjavec, 2020) (parla-
mentarni transkripti) in slWaC (Ljubešić in Erjavec, 2011) (slovenske 
spletne strani). Učna množica skupno vsebuje približno 3,4 milijarde 
besed oziroma 4,7 milijard členov. Učenje modela je trajalo 98 epoh 
(angl. epochs). Ta model smo uporabili kot vnaprej naučeni model in 
ga prilagodili za reševanje klasifikacijskega problema logičnega skle-
panja v naravnem jeziku.
2.2 Modela T5 in SloT5
T5 (Text-to-Text Transfer Transformer) (Raffel idr., 2020) je družina 
modelov več velikosti, ki po zgradbi sledijo arhitekturi transformer in 
vsebujejo tako kodirnik kot dekodirnik. Ideja pristopa T5 je, da se vse 
naloge, tudi klasifikacijske, obravnava kot transformacijo enega be-
sedila v drugo, npr. polnega besedila v povzetek ali besedila iz enega 
7
Logično sklepanje v naravnem jeziku za slovenščino
jezika v drugega. Model so vnaprej učili na množici besedil s spleta, 
pri čemer je vhod modela besedilo, v katerem so nekatere besede za-
menjane s posebno oznako, izhod pa mora biti besedilo, ki vsebuje 
manjkajoče besede v pravem zaporedju. Tako vnaprej naučene mo-
dele se nato prilagaja za različne naloge, kot so povzemanje besedil, 
prevajanje, razpoznava čustev in odgovarjanje na vprašanja.
Slovenska različica modela T5 se imenuje SloT5 (Ulčar in Robnik-
-Šikonja, 2023). Pravzaprav gre za dva modela, ki sta po zgradbi ena-
ka dvema modeloma iz družine originalnih modelov T5. Manjši T5-sl-
-small ima 8 plasti v kodirniku in 8 v dekodirniku, skupaj 60 milijonov 
parametrov, večji model T5-sl-large pa ima 24 plasti v kodirniku in 24 
v dekodirniku, skupaj 750 milijonov parametrov. Za učenje so bili upo-
rabljeni isti korpusi kot za učenje modela SloBERTa. Manjši model so 
učili 5 epoh, večjega pa eno, pri čemer je učenje manjšega na 4 gra-
fičnih karticah A100 s 40 GB pomnilnika trajalo 12 dni, večjega pa tri 
tedne.
Oba slovenska modela T5 smo uporabili za generiranje razlag za 
primere logičnega sklepanja.
2.3 Model GPT-3.5-turbo
Model GPT-3 (Generative Pre-trained Transformer 3) (Brown idr., 
2020) temelji na uporabi dekodirnika arhitekture transformer, pri če-
mer je vhod v model že na začetku vstavljen v dekodirnik. Model je 
naučen na korpusu besedil s spleta CommonCrawl, ki vsebuje pribli-
žno 400 milijard členov, z nalogo napovedovanja naslednje besede 
v besedilu. Ta model je bistveno večji od modelov, predstavljenih v 
prejšnjih razdelkih, saj vsebuje kar 175 milijard parametrov. Model je 
v lasti podjetja OpenAI in ni prosto dostopen, uporablja pa se ga lahko 
prek programskega vmesnika API, ki ga podjetje ponuja.
GPT-3 se lahko brez dodatnega učenja uporablja za številne na-
loge z dvema tehnikama. Pri prvi, imenovani učenje brez dodatnih 
primerov (angl. zero-shot learning), se modelu kot vhod posreduje 
navodilo oziroma opis naloge v naravnem jeziku in morebitni kon-
tekst. To je lahko na primer besedilo nekega članka in navodilo, naj 
model članek povzame. Zaradi velikosti modela in velike količine 
8
Slovenščina 2.0, 2024 (1) | Razprave
učnih podatkov, kar mu omogoča dobro posploševanje, zna model 
mnogim navodilom pravilno slediti in dobimo pravilen izhod. Za raz-
liko od prilagoditve, ki se uporablja pri modelih arhitekture BERT in 
T5, pri učenju brez dodatnih primerov ne potrebujemo učnih prime-
rov za želeno nalogo. Druga tehnika uporabe GPT modelov brez do-
datnega učenja je uporaba nekaj dodatnih primerov (angl. few-shot 
learning), ki je podobna prejšnji, le da tu poleg navodil in konteksta 
na vhod dodamo še nekaj že rešenih primerov, ki lahko modelu olaj-
šajo razumevanje naloge.
InstructGPT (Ouyang idr., 2022) je družina modelov, katerih naj-
večji je po velikosti enak GPT-3. Osnova je vnaprej naučen model GPT-
3, s prilagoditvijo pa so izboljšali sposobnost modela za odgovarjanje 
na vprašanja in s tem tudi rezultate, ki jih lahko dosežemo z učenjem 
brez ali z nekaj dodatnimi primeri. Izboljšanje je bilo doseženo z upo-
rabo spodbujevanega učenja s človeško povratno informacijo (angl. 
reinforcement learning from human feedback, RLHF). RLHF poteka 
v več korakih. Na začetku pripravimo podatkovno množico različnih 
navodil, za katera bi želeli, da jih model zna upoštevati pri uporabi, 
na primer ukaz, da napiše povzetek nekega besedila. Nato človeški 
demonstratorji spišejo odgovore za vsako od navodil, ki se uporabi-
jo za nadzorovano učenje vnaprej naučenega modela (prilagoditev). 
V naslednjem koraku za vsako od navodil s tem modelom generiramo 
odgovor, človeški ocenjevalci odgovore ocenijo, ta informacija pa se 
nato uporabi za dodatno učenje z algoritmom spodbujevanega učenja, 
ki ne zahteva zvezne funkcije izgube.
GPT-3.5-turbo je eden najzmogljivejših modelov, ki jih ponuja 
OpenAI (OpenAI, 2023b). Je variacija zmogljivega modela Instruct-
GPT, točni podatki o zgradbi in učenju pa niso objavljeni. To je model, 
ki poganja znani spletni vmesnik ChatGPT (OpenAI, 2022).
Čeprav model GPT-3 za razliko od predstavljenih v prejšnjih raz-
delkih nima slovenske različice, je med učnimi podatki tudi nekaj slo-
venščine. Modela ne prilagajamo za specifično nalogo, saj do njega 
nimamo neposrednega dostopa. Model GPT-3 nam služi za preizkus, 
ali več redov velikosti večje število parametrov in učnih podatkov pri 
vnaprejšnjem učenju lahko odtehta te pomanjkljivosti.
9
Logično sklepanje v naravnem jeziku za slovenščino
2.4 Uporaba jezikovnih modelov za logično sklepanje
Področje logičnega sklepanja v naravnem jeziku je v angleščini dobro 
raziskano. Zadnja leta najboljše rezultate dosegajo veliki jezikovni mo-
deli, predstavljeni v prejšnjih razdelkih.
Poth idr. (2021) so vnaprej naučena modela BERT in RoBERTa pri-
lagajali za reševanje različnih nalog, med drugim so testirali tudi več 
podatkovnih množic za logično sklepanje v naravnem jeziku. Z mode-
lom RoBERTa, s katerim so dosegli boljše rezultate, so dosegli klasifi-
kacijsko točnost 41,5 % na množici ANLI, 87,5 % na množici MNLI in 
91,1 % na SNLI. Točnost na SNLI je bila do takrat najvišja dosežena.
Njihov rezultat so z lastnim velikim jezikovnim modelom nadgra-
dili Wang idr. (2021). Uporabljeni model je po zgradbi podoben mo-
delu RoBERTa, uporabili pa so drugačen način učenja. Z namenom 
povečanja učne množice so primere iz podatkovnih množic za druga 
področja razumevanja naravnega jezika, nepovezana z logičnim skle-
panjem, reformulirali kot probleme logičnega sklepanja, te pa so nato 
uporabili za vnaprejšnje učenje modela. S to prilagoditvijo so na mno-
žici SNLI dosegli najboljši objavljen rezultat, 93,1 %.
Zhong idr. (2023) so primerjali zmogljivost modelov RoBERTa in 
GPT-3.5-turbo z učenjem brez ali z nekaj dodatnimi primeri. Z uče-
njem brez dodatnih primerov so presegli rezultate modela RoBERTa, 
njihova točnost je znašala 89,3 %, uporaba enega ali pet dodatnih pri-
merov pa rezultata ni izboljšala. Liu idr. (2023) so primerjali modele 
RoBERTa, GPT-3.5-turbo in GPT-4 na podatkovnih množicah LogiQA 
in ReClor. Tudi oni so ugotovili, da točnost GPT-3.5-turbo za nekaj od-
stotkov preseže model RoBERTa, še večjo pa doseže GPT-4.
Z generiranjem razlag za logične sklepe so se ukvarjali Camburu 
idr. (2018). Pokazali so, da so pri tej nalogi veliki jezikovni modeli arhi-
tekture transformer boljši od prejšnjih pristopov. Z učenjem lastnega 
modela na množici ESNLI so na tej množici dosegli klasifikacijsko toč-
nost 81,7 %, pri čemer je pri pravilno klasificiranih primerih ustreznih 
64 % razlag. Njihov pristop sta izboljšala Kumar in Talukdar (2020) 
z uporabo vnaprej naučenega modela GPT-2, predhodnika GPT-3.5-
-turbo. Preizkusila sta različne pristope, med drugim tudi z učenjem 
treh ločenih modelov za generiranje razlag za primere posameznih 
10
Slovenščina 2.0, 2024 (1) | Razprave
razredov in dodatnega modela, ki na koncu izbere najboljšo. S tem sta 
izboljšala tako klasifikacijsko točnost kot tudi delež ustreznih razlag.
Problem NLI za slovenščino je manj raziskan. Na spletni platformi 
SloBench (CJVT UL, 2023) sta objavljena dva rezultata vrednotenja na 
testni množici SI-NLI, oba pristopa uporabljata prilagoditev modela 
SloBERTa. S strojnim generiranjem razlag pri logičnem sklepanju se v 
slovenščini ni ukvarjal še nihče.
3 Uporabljene podatkovne množice
V tem razdelku predstavimo podatkovni množici s področja logičnega 
sklepanja v naravnem jeziku, ki smo ju uporabili za učenje jezikovnih 
modelov. Najprej, v razdelku 3.1, opišemo in analiziramo sestavo slo-
venske množice SI-NLI, v razdelku 3.2 pa predstavimo še angleško 
množico ESNLI, ki vsebuje tudi razlage. Opišemo tudi postopek pre-
vajanja te množice v slovenščino.
3.1 Slovenska množica SI-NLI
SI-NLI (Klemen idr., 2022) je podatkovna množica s skupno 5937 
pari povedi v slovenščini. Vsak par vsebuje premiso in hipotezo ter 
je označen z oznako entailment (implikacija), neutral (nevtralno) ali 
contradiction (kontradikcija), ki označuje razmerje med povedmi. Pri 
konstrukciji množice so sodelovali človeški označevalci (angl. anno-
tators). Množica je bila ustvarjena na osnovi povedi, ki se pojavijo v 
korpusu ccKres (Logar idr., 2013), ki vsebuje različne tipe besedil, kot 
so članki v časopisih in revijah, literarna in neliterarna besedila ter 
besedila z interneta. Označevalci so spreminjali hipoteze tako, da so 
ustrezale vsaki od možnih treh kategorij. Po en primer za vsako ozna-
ko je prikazan v Tabeli 1.
Delitev SI-NLI na učno, validacijsko in testno množico je predsta-
vljena v Tabeli 2. Avtorji zagotavljajo, da so težji in lažji primeri ena-
komerno razporejeni med vsemi tremi množicami. Vse tri množice 
vsebujejo premiso in hipotezo za vsakega od primerov. Učna in testna 
množica vsebujeta poleg tega še oznako oz. klasifikacijo primera in po 
tri stolpce s klasifikacijami posameznih označevalcev, njihovimi iden-
tifikatorji ter morebitnimi komentarji. Testna množica tega ne vsebuje.
11
Logično sklepanje v naravnem jeziku za slovenščino
Tabela 1: Trije primeri iz podatkovne množice SI-NLI, po eden za vsako oznako 
Premisa
Med večletnimi širokolistnimi pleveli prevladujejo slak, osat, gabez in ščav-
je, najpogostejše večletne trave v koruzi pa so pirnica in divji sirek.
Hipoteza
Slak, gabez in osat spadajo med širokolistni plevel, enako tudi ščavje, na 
drugi strani pa med večletne trave v koruzi prištevamo pirnico in divji sirek.
Oznaka implikacija
Premisa “Res je,” je zavzdihnila in se zravnala na sedežu.
Hipoteza Z globokim poraženim izdihom je morala priznati, da dejstev ne gre zanikati.
Oznaka nevtralno
Premisa
Večina delničarjev ga je potrdila za predsednika, Janez Pestotnik pa je 
postal novi predsednik nadzornega sveta Banke Karantanija.
Hipoteza
Ker se delničarji s svojimi glasovi niso uspeli uskladiti, je Banka Karantanija 
še vedno brez predsednika nadzornega sveta.
Oznaka kontradikcija
Tabela 2: Število primerov v učni, validacisjki in testni množici SI-NLI, ESNLI in ESNLIsi
Podatkovna množica Učna Validacijska Testna
SI-NLI 4392 547 998
ESNLI 550.000 10.000 10.000
ESNLIsi 49.922 3000 3000
Analiza
Analizirali smo sestavo učne in validacijske množice ter morebitne 
razlike med oznakami primerov in klasifikacijami posameznih ozna-
čevalcev, torej primere, v katerih so označevalci glede na dodeljeno 
oznako storili napako.
V učni množici s 4392 primeri je 34,6 % vseh implikacij, 32,5 % 
nevtralnih in 33,0 % kontradikcij. Množica je torej skoraj uravnoteže-
na. Podobno je pri validacijski množici, kjer 35,3 % primerov predsta-
vlja implikacije, 31,6 % je nevtralnih in 33,1 % opisuje kontradikcije.
Vsakega od primerov v učni množici sta označila dva ali trije ozna-
čevalci. Od oznake primera se vedno razlikuje največ ena oznaka 
označevalcev. 89,8 % oznak označevalcev se ujema z oznako prime-
ra (torej jih lahko privzamemo za pravilne oziroma ta odstotek pred-
stavlja točnost človeških označevalcev), 79,1 % primerov pa je takih, 
da se nobena od oznak označevalcev ne razlikuje od oznake primera 
12
Slovenščina 2.0, 2024 (1) | Razprave
(soglasni primeri). Na levi strani Slike 1 je predstavljena matrika zame-
njav (angl. confusion matrix). Vidimo lahko, da ni napak, kjer bi ozna-
čevalec zamenjal razreda implikacija in kontradikcija. Največ napak, 
skoraj tri četrtine, je posledica zamenjave med razredi implikacija in 
nevtralno, najpogostejša napaka pa je označitev nevtralnega primera 
kot primera implikacije.
Slika 1: Matriki zamenjav za oznake označevalcev na učni in validacijski množici SI-NLI.
V validacijski množici je soglasnih primerov 89,2 %, pravilnih 
oznak označevalcev pa 94,8 %. Struktura napak, prikazana na desni 
strani Slike 1, je podobna.
Edine napake so posledice zamenjav med razredoma implikacija 
in nevtralno, ki so tudi v učni množici najpogostejše, največ napak pa 
je tudi tu predstavljala označitev nevtralnega primera za implikacijo. V 
nadaljevanju skušamo ugotoviti, ali veliki jezikovni modeli delajo po-
dobne tipe napak kot človeški označevalci in kako vpliva odstranitev 
primerov, kjer označevalci niso soglasni.
Metrika, ki je za oceno strinjanja med različnimi ocenjevalci bolj 
robustna od odstotka soglasnih primerov, je Cohenova kappa, ki 
ima nabor vrednosti med –1 in 1, kjer 0 pomeni količino ujemanj, 
ki jih lahko pripišemo naključju, 1 pa popolno ujemanje (McHugh, 
2012). Podrobno analizo strinjanja med označevalci so opravili Kle-
men idr. (2024), ki so za vse pare izračunali Cohenovo kappo. Nji-
hovo povprečje znaša 0,74, kar kaže na visoko konsistentnost med 
označevalci.
13
Logično sklepanje v naravnem jeziku za slovenščino
Ker oznake primerov testne množice niso javno objavljene, smo 
za naše potrebe validacijsko množico uporabili kot testno, učno 
množico pa smo razdelili na učno in validacijsko. V učni množici SI-
-NLI se večina premis ponovi trikrat, nobena premisa pa se ne po-
javi hkrati v učni in validacijski množici, kar smo zagotovili tudi pri 
naši delitvi. Naključno smo izbrali 200 premis iz učne množice ter 
pripadajoče pare (590 primerov) shranili kot validacijsko množico, 
preostalih 3802 pa kot učno. V nadaljevanju se učna, validacijska in 
testna množica SI-NLI nanašajo na našo delitev, razen kjer je pose-
bej navedeno drugače. Dodatno smo shranili tudi podmnožico naše 
učne množice, pri kateri so bili označevalci soglasni in vsebuje le 
3015 primerov.
3.2 Množica z razlagami ESNLI
ESNLI (Camburu idr., 2018) je angleška podatkovna množica s 570 
tisoč primeri (njena delitev je prikazana v Tabeli 2), od katerih vsak 
vsebuje premiso, hipotezo, eno od treh možnih oznak in razlago. 
Osnova te množice je angleška množica SNLI (Bowman idr., 2015), 
v kateri so premise opisi slik, človeški označevalci pa so jim dopisali 
po eno hipotezo za vsako od treh kategorij. ESNLI dodatno vsebuje 
še razlage, zakaj dani par premise in hipoteze pripada dodeljeni kate-
goriji. Razlage so pisali ljudje, želeli pa so, da so samozadostne, torej 
da za njihovo razumevanje ni potrebno predhodno prebrati premise 
in hipoteze. Primer take razlage je Kdorkoli lahko plete, ne le ženske, 
primer neustrezne pa Ne moremo sklepati, da so to ženske (Cambu-
ru idr., 2018). Pisci razlag so morali tudi označiti, katere besede v 
premisi in hipotezi so ključne za izbor dane oznake. Primeri v učni 
množici vsebujejo vsak po eno razlago, tisti v validacijski in testni pa 
po tri. Po en primer za vsako oznako (samo z eno razlago) iz množice 
je podan v Tabeli 3.
14
Slovenščina 2.0, 2024 (1) | Razprave
Tabela 3: Trije primeri iz podatkovne množice ESNLI
Premisa Mlad fant poljublja starca na čelo.
Hipoteza Tam je fant, ki izkazuje naklonjenost staremu moškemu.
Razlaga Poljubljanje je način izkazovanja naklonjenosti.
Oznaka implikacija
Premisa Črno-beli pes skače čez rdeče-belo palico.
Hipoteza Pes spi.
Razlaga Psi ne skačejo, ko spijo.
Oznaka kontradikcija
Premisa
Mlada ženska, oblečena v belo jopico in kratke hlače, sedi na robu ploščadi, 
ki je dvignjena nad vodno površino.
Hipoteza Ženska sedi na pomolu in opazuje sončni zahod.
Razlaga Ni nujno, da ženska, ki sedi na ploščadi, opazuje sončni zahod.
Oznaka nevtralno
Opomba. Primeri so bili prevedeni v slovenščino, po eden za vsako oznako.
3.2.1 Prevajanje
Ker se osredotočamo na logično sklepanje v slovenščini, smo del 
množice ESNLI strojno prevedli. Najprej smo se morali odločiti, kateri 
strojni prevajalnik uporabiti. Na voljo sta bili dve storitvi v oblaku, Goo-
gle Prevajalnik (Google Prevajalnik, 2023) in prevajalnik DeepL (Dee-
pL Translate API, 2023), ki ponujata programski vmesnik API. Doda-
tno smo imeli na voljo še prostodostopni strojni prevajalnik NeMo iz 
projekta RSDO (Lebar Bajec idr., 2022), naučen za prevajanje iz angle-
ščine v slovenščino.
Za odločitev, katerega od prevajalnikov uporabiti, smo najprej 
prevedli manjše število primerov z vsakim od treh prevajalnikov, pre-
vode uporabili za učenje klasifikacijskih modelov in na osnovi uspe-
šnosti posameznega modela izbrali najboljšega. Učenje modelov na 
treh različnih prevodih je opisano v razdelku 4.2.1. Na podlagi njihovih 
rezultatov, predstavljenih v istem razdelku, smo za prevajanje večje 
množice uporabili Google Prevajalnik.
Naključno je bilo izbranih 50 tisoč primerov iz učne množice, tri tisoč 
iz validacijske in tri tisoč iz testne. Njihovi prevodi so predstavljali učno, 
validacijsko in testno množico za učenje modelov. V nekaterih izbranih 
15
Logično sklepanje v naravnem jeziku za slovenščino
primerih učne množice so manjkale razlage ali hipoteze, poleg tega pa 
so bile nekatere zelo kratke razlage zelo slabe zaradi nesmiselnosti ali 
nerazumljivosti (npr. his new it, man and guy, Runs in runs ...), podobno 
pa so bile nesmiselne tudi nekatere zelo kratke hipoteze, ki so bile ali 
napačne oziroma zmotno skrajšane ali pa je šlo za primer le ene besede 
brez konteksta (npr. Two wom, Fetch, f, A baby is ...). Prevajanje takšnih 
primerov bi bilo nesmiselno, ročno preverjanje vsakega od njih pa pre-
več zamudno. Učno množico smo zato filtrirali tako, da smo odstranili 
vse primere, kjer je bila razlaga krajša od 14 znakov ali hipoteza krajša 
od 10 znakov. Naša ocena je namreč, da je večina tako odstranjenih 
primerov nesmiselna, če pa katero od mej zvišamo, bi odstranili dosti 
primerov, ki vsebujejo kratke, a ustrezne razlage oziroma hipoteze. Po 
filtriranju vsebuje učna množica 49.922 primerov.
Vse tri množice smo nato prevedli z Google Prevajalnikom, pri če-
mer smo za primere iz testne in validacijske množice prevedli le prvo 
od treh razlag. Množice, ki vsebujejo identifikator primera, izvirno an-
gleško hipotezo, premiso in razlago ter njihove prevode v slovenščino, 
smo v formatu TSV objavili na spletu.1 V nadaljevanju bo ta podatkov-
na množica imenovana ESNLIsi.
Napake v prevodih Po prevajanju smo naključno izbran vzorec 
prevodov še pregledali, da bi ocenili njihovo kvaliteto. Čeprav je lah-
ko naša ocena nekoliko subjektivna, menimo, da je večina primerov 
prevedenih ustrezno. Pri nekaterih je prevedena formulacija rahlo 
nerodna, vendar kljub temu slovnično in pomensko pravilna. V nekaj 
odstotkih prevodov se pojavljajo napake. Primere napačnih prevodov 
prikazuje Tabela 4.
Prva vrsta napake je napačen prevod ene od besed, kar lahko vi-
dimo v razlagi prvega primera. Tam je prevajalnik angleško besedo 
batter prevedel kot udarec namesto udarjalec. Razlaga je zato nerazu-
mljiva, če pa do podobne napake pride v premisi ali hipotezi, je lahko 
nerazumljiv cel primer.
V drugem primeru je prikazano nekonsistentno prevajanje iste bese-
de. Besedna zveza gave up je enkrat prevedena z glagolom opustil, dru-
gič pa obupal. Razlaga je zato neustrezna, saj bi morala biti uporabljena 
ali enaka formulacija (kot to velja v angleškem izvirniku) ali pa bi morala 
1 https://github.com/timkmecl/nli-slovene?tab=readme-ov-file#podatkovne-mno%C5%BEice
16
Slovenščina 2.0, 2024 (1) | Razprave
razlaga vsebovati še dodatno obrazložitev, da kdor obupa, nekaj opusti.
V nekaterih primerih prevajanje celo spremeni kategorijo, v katero 
bi bilo primer pravilno uvrstiti, kar je prikazano v tretjem primeru ta-
bele. Tam je angleška besede “man” v premisi prevedena kot “človek” 
namesto “moški”. Izvirnik je označen kot kontradikcija, saj je kralji-
ca ženska in ne moški (razlaga je ustrezno prevedena). Ker pa je kra-
ljica človek, v slovenskem prevodu pa je namesto angleške besede 
“his”, uporabljene v izvirni premisi, spolno nevtralna oblika pridevnika 
“svoj”, bi bila ustrezna klasifikacija slovenskega prevoda za nevtralni 
primer zaradi dejstva, da je kraljica tudi človek.
Tabela 4: Primeri napak pri strojnem prevajanju podatkovne množice ESNLI
Oznaka implikacija
Premisa
A man wearing a red shirt with the number 54 hits a baseball, while a cat-
cher prepares to catch the ball.
Hipoteza A red shirted batter hits the pitch.
Razlaga A man in a red shirt who hits a baseball is known as a batter.
Premisa
Moški, oblečen v rdečo majico s številko 54, udari žogico za baseball, med-
tem ko se lovilec pripravlja, da ujame žogo.
Hipoteza Udarjalec v rdeči majici pride na igrišče.
Razlaga Moški v rdeči majici, ki udari bejzbolsko žogico, je znan kot udarec.
Oznaka kontradikcija
Premisa An elderly male is blowing air into an object.
Hipoteza The elderly man gave up blowing air into the object
Razlaga If he gave up how can he be blowing air.
Premisa Starejši moški piha zrak v predmet.
Hipoteza Starejši moški je opustil vpihovanje zraka v predmet
Razlaga Če je obupal, kako lahko piha zrak.
Oznaka kontradikcija
Premisa A man sits on his throne behind the drums.
Hipoteza The Queen of England sits behind some drums.
Razlaga A Queen is a woman not a man.
Premisa Človek sedi na svojem prestolu za bobni.
Hipoteza Angleška kraljica sedi za bobni.
Razlaga Kraljica je ženska in ne moški.
Opomba. Za vsakega od treh primerov je najprej podana oznaka primera, potem premisa, 
hipoteza in razlaga v izvirniku, nato pa še njihovi slovenski prevodi. Napake in nekonsisten-
tnosti so označene odebeljeno.
17
Logično sklepanje v naravnem jeziku za slovenščino
4 Učenje in vrednotenje modelov
V tem razdelku v štirih sklopih predstavimo načine, kako smo učili in 
uporabili jezikovne modele. Pristopi prvih treh podrazdelkov temelji-
jo na prilagoditvi (angl. fine-tuning) vnaprej naučenih slovenskih ve-
likih jezikovnih modelov. V podrazdelkih 4.1 in 4.2 je opisano učenje 
jezikovnega modela SloBERTa, najprej več pristopov učenja na mno-
žici SI-NLI, nato pa še na prevedeni množici ESNLIsi. V podrazdelku 
4.3 je opisan poskus generiranja razlag z generativnimi modeli druži-
ne SloT5, ki smo jih učili na razlagah množice ESNLIsi. V podrazdelku 
4.4 je opisana uporaba velikega angleškega modela GPT-3.5-turbo. 
Na koncu, v razdelku 4.5, pa je predstavljen še način vrednotenja 
pristopov.
Cilj vrednotenja je bil preveriti, kako uspešni so različni pristopi pri 
klasifikaciji primerov iz testne množice SI-NLI, ki služi kot merilo za 
vse pristope. V razdelkih 4.3 in 4.4 je predstavljena ocena uspešnosti 
generiranja razlag, rezultati so predstavljeni v razdelku 5.
Vsa programska koda je bila napisana v programskem jeziku 
Python v okolju Jupyter Notebook. Za učenje modelov smo uporabili 
storitev Kaggle Notebooks, ki omogoča zaganjanje datotek Jupyter 
Notebook v oblaku. Vsi modeli so bili učeni na virtualnem stroju na 
grafični kartici Nvidia Tesla P100 s 16 GB pomnilnika. Za delo s po-
datki je bila uporabljena knjižnica Pandas, za učenje modelov pa Hu-
ggingFace Transformers (Wolf idr., 2020). Koda je javno dostopna na 
spletu.2
4.1 Učenje klasifikatorja SloBERTa na SI-NLI
V tem sklopu smo najprej prilagodili model SloBERTa3 na učni množici 
SI-NLI. Ta model služi kot izhodišče za primerjavo ostalih pristopov. 
Učenje modela smo trikrat ponovili ob različnih delitvah na učno in 
validacijsko množico, da bi ocenili občutljivost na izbiro učnih podat-
kov. Z učenjem modela na podmnožici učne množice, ki vsebuje le pri-
mere, pri katerih nobeden od označevalcev ni storil napake, skušamo 
odgovoriti na vprašanje, kako ti primeri vplivajo na uspešnost učenja 
2 https://github.com/timkmecl/nli-slovene
3 https://huggingface.co/EMBEDDIA/sloberta
18
Slovenščina 2.0, 2024 (1) | Razprave
in ali gre pri napakah le za človeško površnost oziroma ali so ti primeri 
inherentno težji od ostalih ali dvoumni. Za primerjavo je naučen še en 
model na naključno izbrani podmnožici iste velikosti.
4.1.1 Izbira parametrov in učenje modelov
Parametre učenja smo poskušali nastaviti tako, da bi z učenjem do-
segli čim večjo klasifikacijsko točnost na validacijski množici, pri če-
mer pa smo želeli, da se model neha izboljševati prej kot v 20 epohah 
(angl. epoch), saj bi sicer učenje trajalo predolgo. Za učenje vseh mo-
delov tega razdelka smo uporabili enake parametre, zato jih navajamo 
le enkrat. Število epoh učenja smo tako nastavili na 20, stopnja učenja 
(angl. learning rate), ki se je izkazala za najbolj uspešno, je 10−5, delež 
ogrevanja (angl. warmup ratio) pa 0,05. Uporabljena velikost paketa 
(angl. batch size) za učenje je 32. Nastavili smo jo tako, da je čim ve-
čja, saj vzporedna obravnava večjega števila primerov pohitri učenje, 
hkrati pa je dovolj majhna, da zahteve po pomnilniku grafične kartice 
ne presežejo 16 GB. Uporabljen je privzeti algoritem učenja AdamW s 
privzetimi parametri β1 = 0.9, β2 = 0.99, ϵ = 10−8. Po vsaki epohi uče-
nja model generira napovedi za validacijsko množico, kot končni mo-
del pa je shranjen model tiste epohe, po kateri je bila klasifikacijska 
točnost na validacijski množici največja. Po enakem postopku smo 
model SloBERTa učili tudi na podmnožici učne množice s soglasnimi 
označevalci.
Zgolj neposredna primerjava rezultatov tega modela z osnovnim 
ne bi bila ustrezna, saj lahko na kvaliteto modela vpliva tudi količina 
učnih podatkov. Zato smo iz učne množice naključno izbrali toliko pri-
merov, kot jih je v podmnožici s soglasnimi ocenjevalci (3015). Še na 
teh primerih smo učili model SloBERTa, rezultati pa dajejo oceno, ali 
bi s povečanjem števila primerov v podatkovni množici SI-NLI lahko 
bistveno izboljšali rezultate na njej učenih modelov ali pa je že pri tre-
nutnem številu primerov omejujoč dejavnik zmogljivost modela in ne 
velikost učne množice.
19
Logično sklepanje v naravnem jeziku za slovenščino
4.2 Učenje s prenosom iz ESNLIsi
V tem sklopu se ukvarjamo z učenjem s prenosom, za kar uporablja-
mo podatkovno množico ESNLI in lasten strojni prevod njenega dela 
v slovenščino, ESNLIsi. Zanima nas predvsem, koliko je pri logičnem 
sklepanju v slovenščini uporabno prevajanje angleških podatkovnih 
množic kot potencialna rešitev za majhno količino ustreznih učnih pri-
merov, ki so na voljo v slovenščini. Vira stavkov pri SI-NLI in ESNLI sta 
povsem različna (članki, dokumenti, knjige itd. pri SI-NLI in opisi slik 
pri ESNLI (Bowman idr., 2015; Klemen idr., 2022; Logar idr., 2013)). 
To dejstvo smo uporabili za ugotavljanje, kako dobro modeli, naučeni 
za logično sklepanje na specifičnem tipu stavkov, posplošujejo na dru-
gačen tip. Metoda predobdelave podatkov, izbire parametrov, učenja 
modelov in izbire končnega modela je enaka kot v prejšnjem razdelku, 
zato so v tem razdelku navedene le morebitne razlike v metodi oziro-
ma izbranih parametrih.
4.2.1 Izbira prevajalnika
Izvedba zastavljenih ciljev je zahtevala slovenski prevod angleške 
množice ESNLI, za kar je bila najprej potrebna izbira enega od treh 
strojnih prevajalnikov (DeepL, Google in NeMo).
Naključno smo izbrali 200 primerov vsakega od treh razredov iz 
testne množice in po 200 iz validacijske ter tako dobili testno in vali-
dacijsko množico s po 600 primeri. Naključno smo izbrali tudi po 500 
primerov iz vsakega od treh razredov iz učne množice in dobili učno 
množico s 1500 primeri. Nato smo vse tri množice prevedli z vsakim 
od prevajalnikov. Za prevajanje z Google Prevajalnikom in DeepL smo 
uporabili njihove vmesnike API za Python, za prevajalnik NeMo pa smo 
najprej prenesli objavljeni model4 in ga zagnali na lastnem računalniku 
z uporabo modula nemo_toolkit za Python.
Na vsakem od prevodov smo prilagodili model SloBERTa pri sto-
pnji učenja 10−5 in deležu ogrevanja 0,02. Točnosti modelov na pripa-
dajočih testnih množicah so predstavljene v Tabeli 5. Glede na majhno 
količino učnih primerov je razlika med njimi relativno majhna, dodatno 
pa bi težava z uporabo teh točnosti za izbiro najboljšega prevoda lahko 
4 https://www.clarin.si/repository/xmlui/handle/11356/1736
20
Slovenščina 2.0, 2024 (1) | Razprave
bila uporaba prevodov istega prevajalnika tudi za vrednotenje. Tako 
bi lahko prevajalnik, katerega prevodi so slabši, a bolj konsistentni, 
morda dal boljši rezultat kot prevajalnik, ki je boljši, a morda prevaja 
na manj konsistenten način.
Tabela 5: Točnost napovedi v % za tri strojne prevajalnike
Deepl Google NeMo
Prevedena množica ESNLIsi 74,3 73,0 71,2
Slovenska množica SI-NLI 50,2 52,7 48,0
Temu se lahko izognemo z vrednotenjem modelov na primerih, ki 
so izvorno v slovenščini. V ta namen smo generirali napovedi za vali-
dacijsko množico SI-NLI, kot to prikazuje Tabela 5. Na osnovi teh po-
datkov smo za prevajanje izbrali storitev Google Prevajalnik. Dodatna 
prednost tega prevajalnika je, da je bilo, za razliko od storitve DeepL, 
prevajanje dane količine podatkov brezplačno, v primerjavi s prevajal-
nikom NeMo, kjer prevajanje poteka na lastnem računalniku, pa precej 
hitrejše. Postopek izbire podatkov in prevajanje, s katerim smo dobili 
množico ESNLIsi, je opisan v razdelku 3.2.1.
4.2.2 Učenje modelov
Na slovenskih prevodih učne množice ESNLIsi smo 10 epoh pri stopnji 
učenja 10−5 in deležu ogrevanja 0,02 učili model SloBERTa. Kriterij za 
selekcijo končnega modela je bila klasifikacijska točnost na validacij-
ski množici ESNLIsi.
Podobno kot v prejšnjem sklopu smo tudi tu želeli ugotoviti, ko-
liko bi učenje modela na večjem številu primerov izboljšalo rezultat, 
s čimer bi določili tudi smiselnost nadaljnjega prevajanja primerov 
iz ESNLI. Model SloBERTa smo zato učili na podmnožici 40 tisoč na-
ključno izbranih primerov (80 %) iz učne množice ESNLIsi z istimi pa-
rametri kot prvič in z nespremenjeno validacijsko množico.
Poleg tega smo želeli za primerjavo s SI-NLI določiti še zmogljivost 
modela, ki bi bil naučen na podobnem številu primerov. V ta namen 
smo učili še en model SloBERTa na naključno izbranih 4000 primerih 
učne množice ESNLIsi (velikost učne množice SI-NLI je 3802 prime-
rov) pri stopnji učenja 10−5 in deležu ogrevanja 0,02, za validacijsko 
21
Logično sklepanje v naravnem jeziku za slovenščino
množico pa smo iz validacijske množice ESNLIsi naključno izbrali 600 
primerov (velikost validacijske množice SI-NLI je 590).
Z vsemi tremi modeli smo generirali napovedi za testno množico 
ESNLIsi. Za vrednotenje učenja s prenosom smo z njimi generirali še 
napovedi za testno množico SI-NLI. Z osnovnim modelom, naučenim 
na SI-NLI, pa smo generirali napovedi za testno množico ESNLIsi.
4.2.3 Prilagajanje na SI-NLI
Ugotoviti smo želeli, če oziroma koliko lahko z uporabo ESNLIsi, ki ima 
več kot 10-krat več primerov kot SI-NLI, izboljšamo model glede na 
osnovnega, naučenega le na SI-NLI. To smo poskusili storiti s prila-
gajanjem modela, ki smo ga najprej učili na učni množici ESNLIsi (gl. 
4.2.2). Učenje modela se je nato nadaljevalo na učni množici SI-NLI, 
za validacijsko množico pa je bila uporabljena validacijska množica SI-
-NLI, saj je bil cilj dobiti model, ki bi čim bolje napovedoval na testni 
množici SI-NLI. Model smo učili 6 epoh, tokrat pri manjši stopnji uče-
nja 4 · 10−6. S tako dobljenim modelom smo generirali napovedi za 
testno množico SI-NLI.
4.3 Generiranje razlag s SloT5
V prejšnjih dveh sklopih je bil cilj čim bolj uspešna klasifikacija pri-
merov. Problem logičnega sklepanja pa lahko razširimo tako, da ne 
zahtevamo le končne oznake primera, temveč želimo imeti še razlago, 
ki nam pojasni, zakaj je ta oznaka primerna. Naloga je torej generativ-
nega in ne klasifikacijskega tipa, zato v tem delu uporabljamo vnaprej 
naučena slovenska generativna modela družine SloT5 (manjši mo-
del t5-sl-small5 in večji t5-sl-large6). Ker podatkovna množica SI-NLI 
ne vsebuje razlag primerov, je učenje potekalo le z uporabo množice 
ESNLIsi. Končni namen je uporaba tako naučenih modelov za generi-
ranje razlag za primere iz testne množice SI-NLI.
Postopek predobdelave podatkov, učenja modelov in izbire pa-
rametrov zanje je podoben kot pri učenju modelov SloBERTa, opisa-
nih v prejšnjih razdelkih, le da so tu uporabljeni ekvivalentni razredi 
5 https://huggingface.co/cjvt/t5-sl-small
6 https://huggingface.co/cjvt/t5-sl-large
22
Slovenščina 2.0, 2024 (1) | Razprave
knjižnice HuggingFace, namenjeni učenju generativnih modelov. Raz-
lika je v tem, da generativni model pri učenju kot ciljni izhod zahteva 
besedilo, podano kot zaporedje členov. Ciljno besedilo je v našem pri-
meru razlaga primera brez dodatne predobdelave.
Naučili smo tri modele. Za učenje dveh smo začeli z modelom t5-
-sl-small. Učenje prvega je potekalo na naključno izbrani podmnožici 
učne množice ESNLIsi s 4000 primeri iz prejšnjega razdelka. Stopnja 
učenja je bila 8 · 10−5, padanje uteži (angl. weight decay) 0,01, velikost 
paketa 32, ogrevanje pa ni bilo uporabljeno.
Model se je učil 10 epoh. Drugi model smo učili na celotni učni 
množici ESNLIsi pri stopnji učenja 4 · 10−5 in ostalih parametrih, ena-
kih kot v prejšnjem primeru.
Na podmnožici s 4.000 primeri smo učili še model t5-sl-large s 
stopnjo učenja 10−4, padanjem uteži 0,01 in velikostjo paketa 4, kar je 
bila največja možna velikost za pomnilnik uporabljene grafične karti-
ce. Model se je učil tri epohe.
Z vsemi tremi modeli smo generirali razlage za primere testne 
množice ESNLIsi. Za vrednotenje razlag smo uporabili prvih 50 prime-
rov te množice (19 primerov implikacije, 19 kontradikcije in 12 nev-
tralnih primerov). Zaradi slabih rezultatov že na tej množici modelov 
nismo vrednotili še na primerih iz množice SI-NLI. Pri tem bi namreč 
pričakovali še slabše rezultate, saj bi šlo za učenje s prenosom med 
dvema različnima podatkovnima množicama — to se je pokazalo že pri 
vrednotenju klasifikacijskih modelov prejšnjega sklopa.
Zaradi rezultatov opisanih treh modelov, predstavljenih v razdelku 
5.3, smo se odločili, da večjega SloT5 modela ne bomo učili na celotni 
množici ESNLIsi. To učenje bi zahtevalo velik časovni vložek, saj bi traja-
lo več ur, hkrati pa boljšega rezultata od že predstavljenih ni pričakovati.
4.4 Uporaba GPT-3.5-turbo
Vsi do sedaj opisani pristopi so temeljili na prilagoditvi vnaprej nau-
čenih jezikovnih modelov SloBERTa in SloT5 na določeni podatkovni 
množici. Uporabljeni modeli so bili vnaprej naučeni na slovenščini, 
vsebujejo pa nekaj sto milijonov parametrov. V tem razdelku je pred-
stavljen alternativni pristop. Za napovedovanje oznak v testni množici 
23
Logično sklepanje v naravnem jeziku za slovenščino
SI-NLI uporabimo učenje brez dodatnih primerov (angl. zero-shot le-
arning) in z nekaj dodatnimi primeri (angl. few-shot learning) z mo-
delom GPT-3.5-turbo, ki ni vnaprej naučen specifično na slovenščini, 
temveč primarno na angleških besedilih, vsebuje pa nekaj redov ve-
likosti več parametrov od že uporabljenih slovenskih modelov. Enak 
pristop je bil uporabljen tudi za generiranje razlag.
Pri tem pravzaprav ne gre za učenje nevronskih mrež v običajnem 
pomenu besede. Pri učenju brez dodatnih primerov modelu zgolj po-
stavimo vprašanje oziroma mu kot vhod damo navodilo, izhod pa je 
že generirano besedilo, odgovor oziroma napoved. Učna množica, na 
kateri bi se model učil, tako ni potrebna. Pri učenju z nekaj dodatnimi 
primeri vhod modela poleg navodila vsebuje še nekaj primerov pro-
blema s podanim odgovorom. Tu učno množico potrebujemo le kot 
vir primerov, zato je lahko zelo majhna (zgolj nekaj primerov). Skrajna 
različica učenja z nekaj dodatnimi primeri je učenje v kontekstu (angl. 
in-context learning), kjer model kot del vhoda dobi tudi več sto rešenih 
primerov. Pri obeh tipih učenja je pomembna izbira navodila, saj razu-
mljivost navodila vpliva na kvaliteto odgovorov.
Testiranja smo se lotili v več korakih. V prvem koraku smo upo-
rabili spletni vmesnik OpenAI Playground, v katerem smo na nekaj 
primerih iz učne množice SI-NLI ročno preizkušali različna navodila. 
Cilj tega je bil predvsem izločitev navodil, ki bi bila modelu očitno ne-
razumljiva. Želeli smo tudi doseči, da bi bil odgovor modela v želenem 
formatu, npr. ena sama beseda pri klasifikaciji in jasno ločena razlaga 
in končna napoved oznake pri generiranju razlag.
V drugem koraku smo izbrali naključno množico 100 primerov iz 
učne množice SI-NLI (naključni izbor je vseboval 41 primerov impli-
kacije, 35 kontradikcije in 24 nevtralnih primerov). Napisali smo pro-
gram, ki za vsak primer generira vhodni tekst za model na podlagi do-
ločenega navodila, nato z uporabo programskega vmesnika OpenAI 
API za Python (razred openai.ChatCompletion) avtomatsko pošilja 
vhodna besedila modelu, od njega prejme odgovore in shrani napo-
vedane oznake (oziroma generirane razlage). Parameter temperatura 
(angl. temperature) smo nastavili na 0, kar zagotavlja deterministične 
odgovore, saj pri generiranju teksta model za naslednjo besedo vedno 
izbere tisto, ki je označena kot najbolj verjetna.
24
Slovenščina 2.0, 2024 (1) | Razprave
Zadnji korak je bila uporaba enakega pristopa za napovedovanje 
oznak za celotno testno množico SI-NLI, kjer smo uporabili le navodi-
la, katerih rezultati prejšnjega koraka so bili najboljši. S tem, da so bili 
primeri v prejšnjem koraku vzeti iz učne množice in ne iz testne, smo 
preprečili, da bi prek izbire navodil prišlo do prekomernega prileganja 
podatkom v testni množici.
Žal je bil v času naše uporabe programski vmesnik OpenAI zelo 
nestabilen, verjetno zaradi preobremenjenosti strežnikov. Strežnik 
namreč programu pogosto ni vrnil odgovora, zato je bilo treba izvaja-
nje prekiniti. Poleg tega je vmesnik namesto odgovora večkrat javljal 
napako, da je strežnik preobremenjen. Po eni takšni napaki je bilo za 
nadaljevanje uporabe modela potrebno čakanje, pogosto nekajminu-
tno, sicer je ob vsaki naslednji poslani zahtevi strežnik vrnil isto napa-
ko. Zaradi tega ni bilo možno implementirati avtomatskega ponovne-
ga zaganjanja v primeru napake. Pogostost prekinitev je bila večja v 
primeru daljših vhodnih besedil in daljših generiranih izhodov, kjer je 
do napake prišlo na vsakih nekaj primerov. Celovito testiranje pristopa 
v teh okoliščinah bi bilo bistveno preveč zamudno, zato smo omeji-
li število različnih pristopov, na celotni učni množici pa smo kasneje 
vrednotili le navodilo, ki se je pri vrednotenju na 100 primerih izkazalo 
za najboljše.
4.4.1 Učenje brez dodatnih primerov
Najprej smo poskusili učenje brez dodatnih primerov. Na množici 100 
primerov smo testirali štiri različna navodila:
– navodilo-1-en, ki so ga uporabili Zhong idr. (2023):
Given the sentence „{premise}“, determine if the fol-
lowing statement is entailed or contradicted or neutral: 
„{hypothesis}“
The answer (entailed or contradicted or neutral) is:
– navodilo-1-si, slovenski prevod prejšnjega:
Glede na stavek „{premise}“ ugotovite, ali je nasle-
dnja izjava posledica, kontradikcija ali nevtralna: 
„{hypothesis}“
Odgovor (posledica ali kontradikcija ali nevtralna) je:
25
Logično sklepanje v naravnem jeziku za slovenščino
– navodilo-2-en, prirejeno po H. Liu idr. (2023):
Instructions: You will be presented with a premise and a 
hypothesis about that premise in Slovene. You need to 
decide whether the hypothesis is entailed by the premise 
by choosing one of the following answers: ’entailment’: 
The hypothesis follows logically from the information 
contained in the premise. ’contradiction’: The hypothe-
sis is logically false from the information contained in 
the premise. ’neutral’: It is not possible to determine 
whether the hypothesis is true or false without further 
information. Read the passage of information thoroug-
hly and select the correct answer from the three answer 
labels. Read the premise thoroughly to ensure you know 
what the premise entails.
Premise: {premise}
Hypothesis: {hypothesis}
Answer (just one word, either entailment/neutral/
contradiction):
– navodilo-2-si, slovenski prevod prejšnjega:
Navodila: Predstavljena vam bo premisa in hipoteza o tej 
premisi. Odločiti se morate, ali je hipoteza posledica 
premise, tako da izberete enega od naslednjih odgovo-
rov: ’posledica’: Hipoteza logično sledi iz informacij, 
ki jih vsebuje premisa. ’kontradikcija’: Hipoteza je 
logično napačna glede na informacije, ki jih vsebuje 
premisa. ’nevtralno’: Brez dodatnih informacij ni mo-
goče ugotoviti, ali je hipoteza resnična ali napačna. 
Natančno preberite odlomek informacij in izberite pra-
vilen odgovor med tremi oznakami odgovorov. Temeljito 
preberite predpostavko, da boste vedeli, kaj sledi iz 
predpostavke.
Premisa: {premise}
Hipoteza: {hypothesis}
Odgovor (samo ena beseda, bodisi posledica/nevtralno/
kontradikcija):
26
Slovenščina 2.0, 2024 (1) | Razprave
V vseh prikazanih navodilih je za vhod v model niz {premise} za-
menjan s premiso, {hypothesis} pa s hipotezo primera (tako pri angle-
ških kot pri slovenskih navodilih sta premisa in hipoteza v slovenščini). 
S testiranjem v OpenAI Playground smo predhodno ugotovili, da je iz-
hod modela kdaj res le ena beseda kot zahtevano (npr. kontradikcija), 
kdaj pa odgovori v celem stavku (npr. Izjava je kontradikcija.). Končna 
klasifikacija je zato določena na podlagi pojavitve podniza v izhodu 
oziroma odgovoru. Če odgovor vsebuje podniz posledica ali entail, šte-
jemo, da je napovedana oznaka implikacija, če vsebuje kontradikcija 
ali contradict je kontradikcija, če nevtral ali neutral pa je nevtralna. Za 
procesiranje odgovorov smo napisali funkcijo v jeziku Python. Ta način 
klasifikacije odgovorov je bil zadosten, saj je v vseh primerih odgovor 
vseboval enega od teh podnizov.
Kot najboljše se je izkazalo navodilo-1-en, posamezni rezultati so 
predstavljeni v naslednjem razdelku. Z uporabo tega navodila so bile 
na enak način kot prej napovedane oznake za celotno testno množico 
SI-NLI.
Za razliko od vnaprej naučenih modelov iz prejšnjih razdelkov, 
ki so bili učeni na slovenščini, je GPT-3.5-turbo v največji meri učen 
na angleških besedilih. Zato smo želeli preveriti, če in koliko slabši je 
rezultat zaradi morebitnega slabšega razumevanja v učnih podatkih 
bistveno manj zastopane slovenščine v primerjavi z angleščino. Napo-
vedi za izbrano množico 100 primerov smo tako generirali še z upora-
bo njihovih angleških prevodov (in navodila navodilo-1-en).
4.4.2 Učenje z nekaj dodatnimi primeri
Najboljše navodilo (navodilo-1-en) smo uporabili za osnovo testiranja 
učenja z nekaj dodatnimi primeri. Sledili smo načinu, ki so ga uporabili 
Zhong idr. (2023). Iz učne množice smo naključno izbrali po en primer 
vsake od treh oznak ter njihove premise in hipoteze vstavili v navodilo. 
Na koncu navodil smo dodali odgovor entailed, če je bil primer v ra-
zredu implikacija, če kontradikcija contradicted in neutral za nevtral-
ne primere. Isti nabor treh dopolnjenih navodil smo dodali na začetek 
vhoda za vse primere pri napovedovanju.
27
Logično sklepanje v naravnem jeziku za slovenščino
Na ta način smo generirali napovedi za prej opisano množico 100 
primerov. Poskus smo skupaj ponovili trikrat, vsakič z drugimi tremi 
naključnimi izbranimi primeri. Rezultati so predstavljeni v razdelku 
5.4. Ker ta pristop v primerjavi z učenjem brez dodatnih primerov sko-
raj ni izboljšal rezultatov, zaradi tehničnih težav strežnikov OpenAI, 
opisanih na začetku razdelka, tega pristopa nismo dodatno vrednotili 
na testni množici SI-NLI. Zaradi počasnosti strežnika tudi nismo po-
skušali uporabiti več kot treh podanih primerov naenkrat.
4.4.3 Generiranje razlag
Podobno metodo smo uporabili še za hkratno generiranje razlag in 
klasifikacijo. S pomočjo testiranja znotraj vmesnika OpenAI Playgro-
und smo navodilo-1-en modificirali tako, da je model kot izhod najprej 
podal razlago v slovenščini, v naslednji vrstici pa klasifikacijo. Navodi-
lo, ki smo ga na koncu uporabili, je bilo oblike:
Given the sentence „{premisa}“, determine if the following 
statement is entailed or contradicted or neutral: „{hi-
poteza}“. First give a short, one sentence reasoning or 
explanation for the decision in slovene, and then the 
final answer (one english word - „entailed“ or „contra-
dicted“ or „neutral“) in a new line after that.
Razlaga v slovenščini:
Niza {premisa} in {hipoteza} sta kot prej vsakič zamenjani s premiso in 
hipotezo danega primera. Izhod modela nato razdelimo na dva dela 
glede na znak za novo vrstico. Prvi del vzamemo za razlago, drugi del 
pa obravnavamo enako kot odgovor pri prej opisanem pristopu in mu 
dodelimo oznako glede na vsebovan podniz. Pri ročnem testiranju smo 
ugotovili, da kljub zahtevi v navodilu, naj bo končni odgovor beseda v 
angleščini, kdaj odgovori v slovenščini, pri čemer namesto besede en-
tailed uporabi besedo potrjeno. Zato tudi primere, ki vsebujejo podniz 
potrjen, pri napovedovanju uvrstimo kot implikacijo.
28
Slovenščina 2.0, 2024 (1) | Razprave
Z opisano metodo smo generirali napovedi in razlage za množico 
100 primerov. Na koncu smo izbrali podmnožico 50 primerov, ki jo 
bomo uporabili za kvalitativno vrednotenje generiranih razlag. Želeli 
smo, da pogostost posameznih razredov v njej vsaj približno odraža 
pogostost razredov v celotni podatkovni množici, zato smo iz množice 
stotih naključno izbrali 18 primerov implikacije, 16 kontradikcije in 16 
nevtralnih primerov.
4.5 Način vrednotenja
V tem razdelku opišemo, kako smo vrednotili različne pristope vre-
dnotili. Najprej predstavimo načine za vrednotenje klasifikatorjev. De-
finiramo nekaj metrik in utemeljimo primernost njihove uporabe za 
naš problem. Opišemo tudi način vrednotenja generiranih razlag. Re-
zultati opisanega vrednotenja so predstavljeni v naslednjem razdelku.
4.5.1 Evalvacijske metrike za klasifikacijo
Za kvantitativno vrednotenje klasifikatorjev poznamo več različnih 
metrik. Temeljna je klasifikacijska točnost (angl. classification accura-
cy) ali samo točnost, ki nam pove delež primerov, ki jih je klasifikator 
uvrstil v pravilen razred.
Zgolj ta podatek nam pogosto ne da zadostne informacije o delo-
vanju klasifikatorja, predvsem v primeru neuravnoteženih podatkov-
nih množic. Poznamo metrike, s katerimi lahko bolje ovrednotimo tudi 
tovrstne primere. Natančnost (angl. precision) pove, kolikšen delež 
primerov, uvrščenih v izbrani ciljni razred, temu razredu dejansko pri-
pada. Priklic (angl. recall) pove, kolikšen delež primerov ciljnega ra-
zreda je vsebovan med pozitivnimi napovedmi tega razreda. Ocena F1 
(angl F1-score) je harmonična sredina natančnosti in priklica in služi 
kot nekakšen povzetek sposobnosti klasifikatorja za napovedovanje 
izbranega razreda, kar je lahko dobra alternativa klasifikacijski točno-
sti (Müller in Guido, 2016).
Če imamo pri klasifikacijskem problemu le en ciljni razred, lahko 
za vrednotenje napovedi uporabimo le metrike za ta razred. Pri pro-
blemu klasifikacije v več razredov pa jih najprej izračunamo za vsak 
razred posebej, nato pa izračunamo njihovo povprečje. Uporaba mikro 
29
Logično sklepanje v naravnem jeziku za slovenščino
povprečja je priporočena, kadar je enako pomemben vsak posamezen 
primer, če pa je enako pomemben vsak posamezen razred, se uporabi 
makro povprečje (Müller in Guido, 2016).
4.5.2 Vrednotenje klasifikatorjev
Obe uporabljeni testni množici sta skoraj uravnoteženi, zato smo pri 
vrednotenju klasifikatorjev najbolj upoštevali klasifikacijsko točnost in 
o njej poročamo pri vseh pristopih. Dodatno pri vsakem pristopu nava-
jamo še povprečje ocene F1, povprečje natančnosti in priklicev.
Pri problemu logičnega sklepanja v naravnem jeziku, s katerim se 
ukvarjamo, nobeden od treh razredov ni privilegiran glede na ostale. 
Ker so razredi za nas enakovredni, je smiselna uporaba makro pov-
prečja metrik. V nadaljevanju besedila zato ocena F1 danega pristopa 
pomeni makro povprečje ocen F1 za vse tri razrede, enako velja tudi 
za natančnost in priklic. Glavni merili za primerjavo pristopov sta tako 
klasifikacijska točnost in ocena F1, in sicer na testni množici SI-NLI, ki 
je izvirno slovenska, človeško ustvarjena množica.
Ker nas zanima tudi, kakšne tipe napak delajo modeli in ne le nji-
hova sposobnost napovedovanja razredov, pri nekaterih rezultatih do-
damo še matriko zamenjav (angl. confusion matrix), ki vsebuje po en 
stolpec in eno vrstico za vsakega od možnih razredov. Element matri-
ke v stolpcu A in vrstici B pove število primerov razreda B, za katere je 
klasifikator napovedal razred A. Vsota diagonale te matrike je število 
pravilno uvrščenih primerov.
V poskusih iz drugega sklopa, kjer se ukvarjamo z učenjem s pre-
nosom, navajamo še klasifikacijske točnosti modelov na testni mno-
žici ESNLIsi.
V poskusih uvrščanja z GPT-3.5-turbo zaradi opisanih težav za vse 
pristope izračunamo točnost, oceno F1 in matrike zamenjav za izbra-
no množico 100 primerov, ki smo jo uporabili za vrednotenje. Ker v tej 
množici primeri niso tako enakomerno razporejeni med razredi kot v 
celotnih testnih množicah, je tu relativno bolj pomembna ocena F1. Prej 
navedene metrike za celo testno množico SI-NLI izračunamo samo za 
najuspešnejši pristop na manjši množici, kot je opisano v razdelku 4.4.
30
Slovenščina 2.0, 2024 (1) | Razprave
4.5.3 Vrednotenje generiranja razlag
Za generirana besedila obstaja več metrik, ki jih lahko izračunamo 
na podlagi primerjave generiranega besedila s ciljnimi odgovori, ki jih 
imamo v testni množici. Pristopi temeljijo na podobnosti dveh besedil. 
Ker lahko za en primer obstajata dve ali več pravilnih razlag, ki se med 
seboj razlikujejo, poleg tega pa lahko le ena beseda povsem spreme-
ni pravilnost razlage, takšen povsem kvantitativen pristop tu ne bi bil 
ustrezen. Namesto tega smo 50 razlag za vsak pristop ročno pregle-
dali in jih ocenili kot ustrezne ali ne.
Da je razlaga ocenjena kot ustrezna, mora biti pravilna, torej mora 
najprej dati argument za pravilno klasifikacijo primera. Zgolj pravilnost 
pa ne zadošča. Razlage, kot je na primer Druga trditev pove isto kot 
prva (kot utemeljitev, zakaj je nek primer implikacija) ali Navedbe v 
drugi trditvi nasprotujejo prvi (za kontradikcijo), so lahko sicer pravil-
ne, a ne podajajo nobene dodatne informacije. Zahtevali smo, da je iz 
razlage razvidno neko razumevanje, torej da razlaga izpostavi, kaj v 
premisi in hipotezi privede do tega, da se primer uvršča v nek razred.
Pri tem nismo zahtevali, da je razlaga popolna. Na primer, če je 
razlogov za kontradikcijo več, zadošča navedba enega. Prav tako za 
pozitivno oceno nismo zahtevali slovnične pravilnosti, želeli smo le ra-
zumljivost, na oceno pa ni vplival niti slog.
Modele SloT5, učene na ESNLIsi, iz tretjega sklopa smo vrednotili 
na prvih 50 primerih testne množice ESNLIsi, ki vsebujejo 19 prime-
rov implikacije, 19 kontradikcije in 12 nevtralnih primerov. Razlage, 
generirane z GPT-3.5-turbo, smo vrednotili na množici 50 primerov iz 
SI-NLI, in sicer 18 naključno izbranih primerov implikacije, 16 kontra-
dikcije in 16 nevtralnih primerov.
5 Rezultati
V tem razdelku po sklopih predstavimo rezultate, pridobljene z me-
todami, opisanimi v prejšnjem razdelku. Pristope ocenimo tako kvan-
titativno kot tudi kvalitativno. Rezultate interpretiramo in na njihovi 
podlagi skušamo odgovoriti na izhodiščna vprašanja.
31
Logično sklepanje v naravnem jeziku za slovenščino
5.1 Učenje klasifikatorja SloBERTa na SI-NLI
Na testni množici SI-NLI smo vrednotili vse tri v tem sklopu naučene 
modele. Model SloBERTa, prilagojen na celotni učni množici SI-NLI, 
imenujemo model SI-NLI-celotna. Model SI-NLI-soglasni je model 
SloBERTa, prilagojen le na primerih učne množice, pri katerih so bili 
vsi označevalci med seboj soglasni in so hkrati izbrali pravilno oznako 
primera. Model SI-NLI-manjša pa je model SloBERTa, ki smo ga pri-
lagodili na naključno izbrani podmnožici učne množice iste velikosti 
(približno 80 % cele množice). Rezultati vrednotenja so prikazani v 
Tabeli 6. Model SI-NLI-celotna, prilagojen na celotni učni množici SI-
-NLI, doseže najvišje ocene pri vseh metrikah.
Pri poskusu še trikratne naključne delitve izvirne učne množice 
SI-NLI na učno in validacijsko smo ugotovili, da znaša povprečje kla-
sifikacijskih točnosti štirih različnih delitev 73,2 %, standardni odklon 
pa 0,8 %. Točnost je torej nekoliko odvisna od izbire učnih primerov, 
kar moramo upoštevati pri primerjavi modelov.
Tabela 6: Metrike v %, izračunane na napovedih za testno množico SI-NLI
Model Točnost F1 Natančnost Priklic
SI-NLI-celotna 73,2 73,2 73,3 73,2
SI-NLI-manjša 72,2 72,2 72,4 72,4
SI-NLI-soglasni 72,9 73,0 73,3 72,8
Opomba. Za tri modele SloBERTa, učene na celotni učni množici SI-NLI in dveh podmnožicah.
Model SI-NLI-manjša ima za 1 % manjšo klasifikacijsko točnost 
od modela SINLI-celotna, podobno tudi ostale metrike. To je vpliv 
zmanjšanja učne množice na 80 % prvotne. Količina učnih primerov, 
vsebovana v podatkovni množici SI-NLI (nekaj tisoč), je trenutno torej 
tako majhna, da bi z razširjanjem množice z dodatnimi primeri rezul-
tate modelov, učenih na njej, še lahko izboljševali.
Oglejmo si vpliv primerov, na katerih se označevalci tudi moti-
jo, na učenje modela. Vidimo lahko, da izločitev takšnih primerov iz 
učne množice zmanjša točnost za manj kot odstotek. To zmanjšanje 
je le malo manjše kot takrat, ko so izločeni primeri naključno izbrani, 
razlika je manjša od standardnega odklona. Sklepamo lahko, da gre 
32
Slovenščina 2.0, 2024 (1) | Razprave
predvsem za posledico manjše učne množice. Delež takih primerov v 
učni množici torej ne vpliva na uspešnost učenja.
V Tabeli 7 podajamo še točnosti vseh treh modelov na podmnožici 
učne množice s soglasnimi označevalci, podmnožici ostalih (torej ti-
stih primerih, kjer je kateri od označevalcev naredil napako), in razlike 
teh dveh točnosti. Izkaže se, da so razlike med modeli le pri podmno-
žici soglasnih odločitev, medtem ko dajejo enake rezultate na ostalih 
primerih.
Tabela 7: Primerjava točnosti napovedi v % za soglasne in nesoglasne primere testne mno-
žice SI-NLI
Model Točnost na soglasnih Točnost na ostalih Razlika
SI-NLI-celotna 76,0 61,0 15,0
SI-NLI-manjša 73,6 61,0 12,5
SI-NLI-soglasni 74,4 61,0 13,4
Pri vseh treh modelih je točnost na soglasnih primerih skoraj 15 
% večja kot na ostalih. Vidimo, da primere, pri katerih so imeli težave 
ljudje, slabše klasificirajo tudi naučeni modeli. To, ali so bili primeri 
takšne vrste vsebovani v učni množici ali ne, na točnost pri napove-
dovanju na njih ne vpliva. Najverjetneje gre vsaj delno za dvoumne 
primere (takšne, ki jih tudi ljudje razumemo na različne načine), kar 
hkrati razloži tako napake nekaterih človeških označevalcev kot slab-
še rezultate modelov.
Drugačne oznake nekaterih označevalcev tako vsaj do neke mere 
niso napake, temveč različne interpretacije istega primera. Posledič-
no bi to lahko upoštevali pri učenju modelov. Možen pristop bi lahko 
namesto le enega ciljnega razreda pri učenju takim primerom podal 
verjetnostno porazdelitev, kjer bi bila verjetnost vsakega od razredov 
delež človeških oznak tega razreda. S tem se nismo ukvarjali in je pre-
dlog za nadaljnje delo.
Iz matrik zamenjav modela SI-NLI-celotna na Sliki 2 (napake dru-
gih modelov so podobne) vidimo, da so vrste napak, ki jih modeli na-
redijo, relativno enakomerno razporejene med šestimi možnostmi (ne 
glede na točno izbiro tipa ali količine učnih primerov). Nobena vrsta 
napake posebej ne izstopa, prav tako modeli nimajo večjih težav s 
33
Logično sklepanje v naravnem jeziku za slovenščino
primeri enega razreda kot z drugimi. Po tem se očitno razlikujejo od 
človeških označevalcev (Slika 1), ki razredov implikacija in kontradik-
cija sploh ne zamenjujejo, največkrat pa zamenjajo primere implikaci-
je in nevtralne primere. Jasno je, da se strojni način reševanja proble-
ma razlikuje od človeškega. To opažanje skušamo dodatno razložiti 
prek generiranja razlag v razdelku 5.3.
Slika 2: Matrika zamenjav za napovedi modela, učenega na celotni učni množici SI-NLI.
5.2 Učenje s prenosom iz ESNLIsi
V tem poskusu smo evalvirali tri modele SloBERTa, prilagojene na mno-
žici ESNLIsi: model ESNLIsi-celotna, učen na celotni učni množici ESN-
LIsi; model ESNLIsi-40k, učen na 80 % primerov iste množice; model 
ESNLIsi-4k, učen na 4 tisoč primerih te množice, kar je podobno številu 
primerov v množici SI-NLI; in model ESNLIsi-SI-NLI, najprej učen na celi 
učni množici ESNLIsi, zatem pa prilagojen še na učni množici SI-NLI.
5.2.1 Klasifikator za ESNLIsi
V Tabeli 8 so prikazane klasifikacijske točnosti na testni množici ESN-
LIsi za prve tri modele in model SI-NLI-celotna iz prejšnjega razdelka. 
Največjo točnost ima model ESNLIsi-celotna, le malo manjšo ESNLI-
si-40k. Daleč najmanjša je točnost modela SI-NLI-celotna, kjer gre v 
tem primeru za prenos znanja iz ene množice na drugo.
34
Slovenščina 2.0, 2024 (1) | Razprave
Tabela 8: Točnost napovedi v % za testno množico ESNLIsi treh modelov, učenih na ESNLI-
si, in modela, učenega na SI-NLI
Model
ESNLIsi-
celotna
ESNLIsi-
40k
ESNLIsi-
4k
SI-NLI-
celotna
Poth
idr.
Wang
idr.
Točnost 85,7 85,4 80,0 49,3 91,1 93,1
Opomba. Dodane so še točnosti, ki so jih na množici ESNLI dosegli Wang idr. (2021) z la-
stno arhitekturo in Poth idr. (2021) z modelom RoBERTa.
Naša največja dosežena točnost je manjša od največje točnosti na 
množici SNLI, ki so jo z lastno arhitekturo jezikovnega modela dosegli 
Wang idr. (2021). Manjša je tudi od točnosti, ki so jo s prilagoditvijo 
modela RoBERTa dosegli Poth idr. (2021). Njihov model je po zgradbi 
in velikosti enak modelu SloBERTa, ki smo ga uporabili mi. Razlika je 
delno posledica tega, da smo uporabili 10-krat manjšo učno množico 
(prevedli smo le del množice ESNLI), delno posledica napak pri preva-
janju (opisanih v razdelku 3.2.1), delno pa zaradi vnaprejšnjega učenja 
modela na drugih korpusih v različnih jezikih. Razlika znaša približno 
5 %, iz česar lahko sklepamo, da je to približek za delež primerov v 
podatkovni množici, pri katerih je prevod napačen do te mere, da ga ni 
več mogoče uvrstiti v ustrezni razred.
Točnost modela SI-NLI-celotna na množici SI-NLI v prejšnjem 
sklopu je več kot 5 % manjša od točnosti modela ESNLIsi-4k na ESN-
LIsi. Oba modela sta bila učena na podobni količini primerov, zato raz-
lika ni posledica razlike v velikosti učnih množic. Prav tako ni posledica 
napak, ki bi jih povzročilo strojno prevajanje množice ESNLI iz angle-
ščine, saj bi to kvečjemu zmanjšalo točnost na ESNLIsi. Množica SI-
-NLI vsebuje povedi, pridobljene iz različnih vrst besedil, medtem ko 
povedi v ESNLI temeljijo na opisih slik. SI-NLI je bolj raznolika, hkrati 
pa so primeri daljši in pogosto bolj abstraktni. Iz primerjave primerov 
vidimo, da so primeri logičnega sklepanja v množici ESNLIsi dejansko 
lažji kot v SI-NLI. Napovedovanje na bolj raznolikih in abstraktnih pri-
merih je za model SloBERTa težje.
Povečanje števila primerov s 4 na 40 tisoč poveča klasifikacijsko 
točnost za nekaj več kot 5 %, dodatno povečanje na 50 tisoč pa za 
manj kot pol odstotka. Količina 50 tisoč primerov je za obravnavan 
par modela in podatkovne množice zadostna. S prevajanjem doda-
tnih primerov iz angleščine se sposobnost napovedovanja z uporabo 
35
Logično sklepanje v naravnem jeziku za slovenščino
prilagoditve modela SloBERTe ne bi bistveno povečala, zato menimo, 
da nadaljnje prevajanje iste podatkovne množice ni smiselno.
5.2.2 Učenje s prenosom za napovedovanje na SI-NLI
V Tabeli 9 podajamo klasifikacijske točnosti in tri ostale metrike, izra-
čunane na testni množici SI-NLI za štiri modele tega sklopa. Pri prvih 
treh modelih gre v tem primeru za prenos znanja. Točnost in ocena F1 se 
večata z večanjem števila učnih primerov. Vse metrike so daleč največje 
za model ESNLIsi-SI-NLI, ki je edini še prilagojen na množici SI-NLI.
Najpogostejša napaka modelov je napačna napoved nevtralnega 
razreda namesto drugih dveh razredov. Model, naučen na večji učni 
množici, dela takšnih napak manj. Struktura napak modela ESNLIsi-
-SI-NLI je podobna strukturi napak modelov prejšnjega sklopa, učenih 
le na SI-NLI.
Vidimo, da ima tu večanje števila učnih primerov večji vpliv kot 
pri vrednotenju, ko učna in testna množica pripadata isti podatkovni 
množici. Iz razlike med točnostjo in oceno F1 modelov ESNLIsi-celotna 
in ESNLIsi-40k lahko sklepamo, da bi tu s prevajanjem dodatnih pri-
merov množice ESNLI lahko rezultate še nekoliko izboljšali.
Tabela 9: Metrike v %, izračunane na napovedih za testno množico SI-NLI
Model Točnost F1 Natančnost Priklic
ESNLIsi-celotna 65,4 65,2 67,1 65,2
ESNLIsi-40k 64,0 63,8 67,6 64,1
ESNLIsi-4k 55,9 55,5 61,6 56,6
ESNLIsi-SI-NLI 75,3 75,3 75,3 75,4
Opomba. Za tri modele, učene na ESNLIsi, in model, ki je bil na koncu prilagojen še na SI-NLI.
Kljub temu, da se je model ESNLIsi-celotna učil na več kot 10-krat 
večji množici kot SI-NLI-celotna iz prejšnjega sklopa, sta zaradi učenja 
s prenosom tako točnost kot ocena F1 na množici SI-NLI manjši za 
skoraj 10 %.
Še slabša sta rezultata modelov SI-NLI-celotna in ESNLIsi-4k, ki 
sta bila učena na nekaj tisoč primerih, na tuji množici. Čeprav je mno-
žica SI-NLI bolj raznolika in težja za napovedovanje, je prenos znanja 
modela, učenega na njej, celo nekoliko slabši. To je morda posledica 
36
Slovenščina 2.0, 2024 (1) | Razprave
prevajalskih napak v testni množici ESNLIsi, ki so lahko vzrok za na-
pačne klasifikacije in posledično slabše rezultate modela SI-NLI-celo-
tna, vrednotenega na njej.
Iz teh ugotovitev lahko zaključimo, da je prenos znanja med raz-
ličnimi množicami primerov logičnega sklepanja v naravnem jeziku 
relativno slab. Izboljšuje se z večanjem števila učnih primerov. Tudi z 
za red velikosti večjim številom učnih primerov pa ne dosegamo rezul-
tatov modelov, učenih na istem tipu primerov, kot jih vsebuje testna 
množica. Model SloBERTa torej relativno slabo posplošuje z ene po-
datkovne množice na drugo, oziroma s problema logičnega sklepanja 
na povedih enega izvora na povedi drugega izvora.
Z uporabo množice ESNLIsi smo kljub temu uspeli izboljšati rezul-
tat modela SloBERTa. Če smo to množico uporabili za vnaprejšnje uče-
nje, nato pa model prilagodili še na SI-NLI, sta točnost in ocena F1 za 
približno odstotek večja kot brez njene uporabe. Tudi ta model pa ne 
dosega najboljšega rezultata, objavljenega na SloBench (točnost 77,2 
%) (CJVT UL, 2023), ki je sicer učen na nekoliko večji množici, ki vse-
buje tudi našo testno množico. Za izboljšanja napovednih modelov za 
množico SI-NLI oziroma za logično sklepanje v slovenščini na splošno z 
uporabo učenja s prenosom bi bilo tako smiselno nadaljnje prevajanje 
množic, ki so v primerjavi z ESNLI po izvoru povedi bolj raznolike.
Kljub vsemu je rezultat učenja na 50 tisoč prevodih klasifikator, 
ki na novi, povsem drugače sestavljeni množici, dve tretjini primerov 
pravilno uvrsti. Ta pristop je enostavno posplošiti na druge jezike z 
malo viri, v katerih podatkovne množice primerov logičnega sklepanja 
ne obstajajo.
5.3 Generiranje razlag s SloT5
Vrednotili smo razlage, generirane za prvih 50 primerov testne množi-
ce ESNLIsi, generirane s tremi modeli: modelom t5-large-4k, doblje-
nim s prilagoditvijo večjega modela SloT5 (t5-sl-large) na podmnožici 
učne množice ESNLIsi s 4 tisoč primeri; modelom t5-small-4k, doblje-
nim s prilagajanjem manjšega modela SloT5 (t5-sl-small) na isti mno-
žici; in modelom t5-small-50k, dobljenim s prilagajanjem manjšega 
modela SloT5 na vseh 50 tisoč primerih učne množice ESNLIsi.
37
Logično sklepanje v naravnem jeziku za slovenščino
Tabela 10: Rezultati vrednotenja razlag treh modelov SloT5 na množici 50 primerov
Model t5-large-4k t5-small-4k t5-small-50k
Ustrezne razlage izmed 50 8 (16%) 8 (16%) 14 (28%)
V Tabeli 10 so navedena števila ustreznih razlag. Kriterij za ustre-
znost razložimo in utemeljimo v razdelku 4.5.3. Vidimo, da je število 
ustreznih razlag zelo majhno. Nekoliko večje je le pri učenju na 50 ti-
soč primerih, a je delež ustreznih razlag še vedno manjši od tretjine. 
Večji model ni bolj uspešen kot manjši. Vzrok za to je verjetno podu-
čenost večjega modela. Ulčar in Robnik-Šikonja (2023) namreč ugota-
vljata, da je manjši od modelov SloT5 pri večini testiranih nalog boljši 
zaradi podučenosti modela t5-sl-large. Zaradi te ugotovitve in naših 
lastnih rezultatov večjega modela nismo učili na celotni učni množici 
ESNLIsi, saj bi to zahtevalo prevelik časovni vložek glede na pričako-
vane rezultate.
Trije primeri iz testne množice ESNLIsi s premiso, hipotezo, po-
dano razlago in razlagami, generiranimi s tremi modeli, so prikazani v 
Tabeli 11.
Tabela 11: Trije primeri iz testne množice ESNLIsi (prvi kontradikcija, drugi nevtralen in 
tretji implikacija) in zanje generirane razlage treh modelov SloT5
Premisa Dve osebi hodita po ulicah.
Hipoteza Dve osebi sedita notri.
Razlaga Ljudje ali hodijo ali sedijo. Lokacija je zunaj na ulicah ali znotraj.
t5-large-4k Ljudje so bodisi na ulicah ali v zaprtih prostorih.                                             ✓
t5-small-4k Ljudje ne morejo hoditi in hoditi hkrati.                                                              ×
t5-small-50k Ljudje ne morejo hoditi in sedeti hkrati.                                                             ✓
Premisa
V ospredju stoji semafor z dvema simboloma kolesa, zeleno puščico, ki 
zavija levo, in rdečim signalom za naprej, medtem ko moški v belem klo-
buku in modri srajci kolesari po rdeči poti.
Hipoteza Ta moški je športnik.
Razlaga Ne morete sklepati, da je športnik.
t5-large-4k Ni vsak moški športnik. ✓
t5-small-4k Človek ne more biti športnik. ×
t5-small-50k Človek ne more biti hkrati športnik in športnik. ×
Premisa Kuhar srednjih let je v belih vratih mobilne kuhinje.
Hipoteza V bližini kuhinje je kuhar.
38
Slovenščina 2.0, 2024 (1) | Razprave
Razlaga Kuhar na vratih kuhinje je blizu kuhinje.
t5-large-4k Kuhar je v belih vratih mobilne kuhinje. ×
t5-small-4k Če je kuhar, potem je v bližini kuhinje. ×
t5-small-50k Kuhar srednjih let je kuhar. ×
Opomba. Ustrezne razlage so označene s ✓, napačne pa z ×.
5.3.1 Kvalitativna ocena razlag
Ob pregledu generiranih razlag nismo opazili očitnih značilnosti, ki bi 
razlage modelov medsebojno razlikovale. Kvalitativno so si zelo po-
dobne, zato podajamo splošna opažanja.
Razlage so slovnično pravilne in modeli SloT5 se dobro naučijo for-
me razlag. V učni množici se pogosto pojavljajo razlage določenih oblik, 
npr. X ne more Y in Z hkrati. ali X ne more biti Y za kontradikcijo, Ni vsak X 
Y za nevtralne ali Če je X, potem je Y za implikacijo. Modeli si te oblike ali 
predloge zapomnijo in jih uporabljajo, a jih izbirajo na videz naključno. 
Pogosto je glede na oznako primera napačna že sama izbira oblike. To 
lahko vidimo pri drugi in tretji razlagi za drugi primer (Tabela 11).
Modeli se naučijo tudi tega, da morajo v razlagah uporabiti bese-
de, ki se pojavijo v premisi in hipotezi. To pogosto privede do povsem 
nesmiselnih povedi, kot je druga razlaga za prvi primer in tretja razlaga 
za drugi primer v Tabeli 11. V nekaterih primerih model tako ustvari 
resnično poved, a ni ustrezna kot razlaga, takšna je tretja razlaga za 
tretji primer (Tabela 11).
Sklepamo, da modeli SloT5 nimajo zadostnega dejanskega pozna-
vanja sveta, da bi ga lahko uporabili za generiranje razlag pri logičnem 
sklepanju. Naučijo se zgolj forme, niso pa zmožni pisati pomensko ustre-
znih razlag. To kaže na to, da so zmožni iskanja in uporabe jezikovnih 
vzorcev, poznavanje jezika pa ni povezano s poznavanjem resničnosti.
Poizkus generiranja razlag z modeli SloT5 ocenjujemo kot neuspešen.
McCoy idr. (McCoy idr., 2019) domnevajo, da jezikovni modeli za 
reševanja problema logičnega sklepanja uporabljajo različne jezikov-
ne hevristike, ki temeljijo na vsebovanosti delov hipoteze v premisi. 
Uporaba takšnih hevristik lahko razloži nezmožnost generiranja ustre-
znih razlag naših modelov, saj gre pri njihovi uporabi le za jezikovno 
analizo in ne za dejansko razumevanje.
39
Logično sklepanje v naravnem jeziku za slovenščino
Uporaba podobnih hevristik namesto dejanskega razumevanja 
sveta je zato verjetno razlaga za slab prenos znanja in slabo posploše-
vanje ter drugačno strukturo napak klasifikatorjev glede na človeške, 
ki smo jih omenjali v prejšnjih dveh sklopih. Njihov pristop k reševanju 
zastavljenega problema po tej domnevi temelji na procesiranju jezika 
namesto na poznavanju zakonitosti resničnega sveta in zdravorazum-
skega sklepanja, kot to počnemo ljudje. Naučene hevristike na eni po-
datkovni množici morda ne delujejo na drugi, če se domena povedi 
med njima preveč razlikuje.
5.4 Uporaba GPT-3.5-turbo
V tem razdelku podajamo rezultate vrednotenja različnih načinov 
uporabe modela GPT-3.5-turbo na množici 100 primerov podatkovne 
množice SI-NLI. Na celotni testni množici SI-NLI je ovrednoten naj-
boljši od pristopov.
5.4.1 Učenje brez dodatnih primerov
Kot lahko vidimo iz prvih štirih vrstic Tabele 12, je za uspešnost pri 
učenju brez dodatnih primerov pomembna izbira navodila, saj to lahko 
spremeni točnost napovedi za skoraj 10 %. Navodilo nekoliko vpliva 
tudi na vrsto napak. Ne glede na izbiro navodila model GPT največ 
primerov napačno uvrsti kot implikacijo. Najmanjkrat model pravilno 
klasificira nevtralni razred.
Tabela 12: Rezultati klasifikacije v % pri uporabi modela GPT-3.5-turbo z učenjem brez 
dodatnih primerov za različna navodila
Navodilo Točnost F1 Natančnost Priklic
navodilo-1-en 59 54,6 57,3 54,6
navodilo-1-si 51 48,7 53,4 47,4
navodilo-2-en 51 47,3 58,6 50,5
navodilo-2-si 54 48,4 54,6 48,4
navodilo-razlaga 49 47,2 49,4 47,7
navodilo-1-en angleški 66 55,3 59,1 58,6
Opomba. Metoda navodilo-razlaga najprej generira razlago primera, nato pa primer še kla-
sificira (glej razdelek 5.4.3). Pri pristopu v zadnji vrstici tabele so bile napovedi generirane 
na angleških prevodih primerov, zato pristop ni neposredno primerljiv s prejšnjimi.
40
Slovenščina 2.0, 2024 (1) | Razprave
Tabela 13: Rezultati v % pri uporabi modela GPT-3.5-turbo z učenjem brez dodatnih prime-
rov in uporabo navodila-1-en za napovedovanje oznak v celotni testni množici SI-NLI
Točnost F1 Natančnost Priklic
56,5 54,5 61,3 55,4
Slika 3: Matrike zamenjav za napovedi GPT-3.5-turbo z učenjem brez dodatnih primerov in 
uporabo navodila-1-en za celotno testno množico SI-NLI.
Ker dosega od štirih testiranih navodil navodilo-1-en na množici 
100 primerov najvišjo točnost in oceno F1, smo to vrednotili na celotni 
testni množici SI-NLI. Metrike so podane v Tabeli 13, matrika zame-
njav pa na Sliki 3. Najpogostejša napaka je tako kot pri človeških ozna-
čevalcih (Slika 1) označitev nevtralnega primera za implikacijo. Model 
najslabše uvršča nevtralne primere.
Rezultati so očitno slabši kot rezultati modela SloBERTa, prilago-
jenega na SI-NLI. Vseeno so rezultati minimalno boljši kot pri uporabi 
učenja s prenosom z nekaj tisoč učnimi primeri (model ESNLIsi-4k v 
Tabeli 9), vendar slabši kot pri učenju s prenosom z nekaj deset tisoč 
učnimi primeri (model ESNLIsi-40k). GPT-3.5-turbo je torej sposoben 
reševanja problemov s področja logičnega sklepanja v naravnem je-
ziku, čeprav ni bil učen ali prilagojen za to nalogo. Učenje zelo velikih 
modelov na veliki količini podatkov s spleta da modelu zadostno razu-
mevanje pomena jezika in razumevanje sveta, da je zmožen relativno 
uspešno reševati nalogo sklepanja v naravnem jeziku.
41
Logično sklepanje v naravnem jeziku za slovenščino
Glede na to, da je pri navodilih navodilo-2-* kot del navodila po-
dana tudi razlaga oznak, napake pri uvrščanju niso posledica nerazu-
mevanja pomena treh NLI oznak. Če primerjamo metrike v Tabeli 12, 
vidimo, da uporaba angleških prevodov izboljša točnost za 7 %, izbolj-
ša pa tudi preostale metrike. Sklepamo lahko, da ima GPT-3.5-turbo 
nekaj težav z razumevanjem slovenščine. Očitno slovenščino pozna, 
saj tudi pri uporabi slovenskih izvirnikov doseže primerljive rezultate 
kot učenje s prenosom slovenskega modela SloBERTa, je pa zaradi 
majhne zastopanosti slovenščine njeno poznavanje slabše.
5.4.2 Učenje z nekaj dodatnimi primeri
V Tabeli 14 so prikazane metrike za tri različne naključne izbire doda-
tnih primerov, za primerjavo pa še za isto navodilo brez dodatnih pri-
merov. Vidimo, da ta pristop rahlo poveča točnost, v dveh primerih od 
treh pa zmanjša oceno F1. Različne izbire dodatnih primerov metrike 
spremenijo za nekaj odstotkov. V primerjavi z učenjem brez dodatnih 
primerov je še večja pristranskost k označevanju primerov kot impli-
kacije, manj primerov pa označi kot nevtralne.
Iz primerjave rezultatov ocenjujemo, da učenje s tremi dodatnimi 
primeri glede na učenje brez dodatnih primerov bistveno ne izboljša 
napovedovanja. Brown idr. (2020) so pri testiranju modela GPT-3 na 
različnih nalogah ugotovili, da učenje z enim dodatnim primerom v 
povprečju izboljša dosežke modela, še bolj pa ga izboljša učenje s 50 
dodatnimi primeri. V prihodnje bi bilo zato smiselno preveriti, ali bi z 
uporabo večjega števila dodatnih primerov lahko izboljšali rezultate.
Tabela 14: Rezultati v % pri uporabi modela GPT-3.5-turbo z učenjem z nekaj dodatnimi 
primeri
Pristop Točnost Ocena F1 Natančnost Priklic
nekaj-primerov 1 60 53,0 59,3 53,9
nekaj-primerov 2 63 55,2 62,7 56,9
nekaj-primerov 3 61 53,3 60,7 54,5
brez in navodilo-1-en 59 54,6 57,3 54,6
Opomba. V prvih treh vrsticah so rezultati za tri različne naključne izbire dodatnih prime-
rov, v zadnji pa so za primerjavo rezultati z istim navodilom brez dodatnih primerov.
42
Slovenščina 2.0, 2024 (1) | Razprave
5.4.3 Generiranje razlag
Za preverjanje uspešnosti generiranja razlag je model GPT-3.5-turbo 
z uporabo učenja brez dodatnih primerov z navodilom navodilo-raz-
laga, prirejenem po navodilo-1-en, za 100 primerov najprej generiral 
razlage, nato pa je primere še klasificiral. Ker je razlaga generirana 
najprej, je zaradi mehanizma pozornosti v arhitekturi transformer vpli-
vala tudi na klasifikacijo.
Klasifikacijske metrike za ta pristop so podane v predzadnji vr-
stici Tabele 12. Predhodno generiranje razlage napovedovanja ne 
izboljša. Vidimo, da je točnost manjša kot pri navodilih brez razlag, 
predvsem zaradi pogostega napačnega uvrščanja primerov drugih 
dveh razredov kot kontradikcije. Pogostost posameznih vrst napak 
je povsem spremenjena, kar še dodatno kaže na to, da je uspešnost 
reševanja problema z učenjem brez dodatnih primerov zelo obču-
tljiva na točno formulacijo navodila in zahtevan pristop reševanja. S 
preizkušanjem več različnih navodil za ta pristop bi lahko rezultate 
verjetno izboljšali.
Na podmnožici 50 primerov smo razlage ročno ovrednotili. Za pra-
vilno klasificirane primere je bilo ustreznih 81 % razlag (86 % za pra-
vilno klasificirane primere implikacije, 85 % za primere kontradikcije 
in 71 % za nevtralne primere; opozarjamo, da je uporabljen vzorec 
premajhen za zanesljivo primerjavo po razredih).
Sposobnost logičnega sklepanja tako za razliko od manjših mode-
lov, uporabljenih v prejšnjih treh sklopih, pri tem modelu ni pogojena 
le z uporabo relativno preprostih jezikovnih hevristik, pač pa dejansko 
daje rezultate, ki kažejo na razumevanje.
Kvalitativno vrednotenje Trije primeri z ustreznimi razlagami so 
prikazani v Tabeli 15. Razlage so jasne in jezikovno pravilne, nekatere 
pa so slogovno nerodne (npr. tretji primer v Tabeli 15). Več lahko izve-
mo iz pregleda napačnih razlag, saj nam to razloži vzroke napak.
Trije primeri s tipičnimi neustreznimi razlagami so prikazani v Ta-
beli 16. Prvi primer ima razlago, ki je sicer tehnično skoraj pravilna, a 
neustrezna. Hipoteza je res le parafrazirana premisa in je zato impli-
cirana, vendar bi razlaga morala to bolj jasno ponazoriti (npr. pouda-
riti, da veliki čezmerni odmerki pomenijo prekomerno zaužitje). Drugi 
43
Logično sklepanje v naravnem jeziku za slovenščino
primer vsebuje napačno razlago, kljub temu pa je klasifikacija pravil-
na. Model očitno ne ve, da je stoletnica specifična vrsta obletnice, in 
verjame, da je to vzrok za kontradikcijo. V tretjem primeru sta napač-
ni tako razlaga kot klasifikacija. Model je v hipotezi pri besedni zvezi 
samo policisti obravnaval le drugo besedo in zanemaril prvo, ki pa je 
ključna za pravilno klasifikacijo.
Napake, podobne tisti v prvem primeru, bi verjetno lahko odpra-
vili z bolj natančnimi navodili ali podajanjem nekaj primerov ustreznih 
razlag poleg navodil. Te napake so namreč posledica tega, da model 
nima informacije o tem, kakšna mora biti ustrezna razlaga.
Napaka v drugem primeru kaže na pomanjkljivo razumevanje od-
nosov med slovenskimi besedami. Pogosta vrsta napake je, da model 
besedo iz hipoteze in besedo iz premise, ki sta sopomenki ali je ena 
nadpomenka in ena podpomenka, obravnava kot različni in povedi 
zato kot kontradiktorni ter na tej osnovi uvrsti primer kot kontradikcijo. 
To razloži tudi prepogosto uvrščanje primerov v razred kontradikcija v 
matriki zamenjav.
Iz vrednotenja generiranja razlag lahko zaključimo, da model 
GPT-3.5-turbo kaže dokaj dobro razumevanje resničnosti, pri čemer 
pa ga omejuje slabše poznavanje slovenščine. Večino klasifikacij je 
zmožen ustrezno utemeljiti, po čemer se razlikuje od manjših slo-
venskih modelov. Pristop bi verjetno lahko še izboljšali s preizkuša-
njem različnih, morda bolj natančnih navodil, in z uporabo učenja z 
dodatnimi primeri.
Glede na neuspeh slovenskih modelov SloT5 pri isti nalogi meni-
mo, da je za generiranje razlag pri logičnem sklepanju v slovenščini 
trenutno najboljši pristop uporaba zelo velikih jezikovnih modelov z 
več milijardami parametrov, četudi niso bili naučeni specifično za upo-
rabo na slovenščini.
44
Slovenščina 2.0, 2024 (1) | Razprave
Tabela 15: Primeri iz množice SI-NLI s pravilnimi razlagami in klasifikacijami, generiranimi 
z modelom GPT-3.5-turbo
Oznaka nevtralno
Premisa Vstala je in stopila k oknu, s katerega se je videlo na dvorišče.
Hipoteza Pogledala je skozi okno, da bi videla, kaj je na dvorišču.
Odgovor modela
Iz podanega stavka ni mogoče sklepati, ali je pogledala skozi okno ali ne, 
zato je izjava nevtralna. – nevtralno
Oznaka kontradikcija
Premisa
Pisni izpit ocenijo zunanji ocenjevalci po merilih, ki jih pripravi DPK SM za 
matematiko.
Hipoteza
Vsak učenec je svoje pisno preverjanje znanja ocenil sam s pomočjo 
sošolcev, pri ocenjevanju so postavili kar svoje lasnte kriterije.
Odgovor modela
Izjava je v nasprotju s podanim stavkom, saj pravi, da so učenci sami 
ocenili svoje pisno preverjanje znanja, medtem ko je v podanem stavku 
navedeno, da pisni izpit ocenijo zunanji ocenjevalci. – kontradikcija
Oznaka implikacija
Premisa
Slovenija je še vedno najmanj zadolžena članica držav evrobmočja in se 
je tej ravni zadolženosti zaradi hitre gospodarske rasti doslej približevala 
postopoma.
Hipoteza
V Evropski uniji Slovenija še vedno velja za eno izmed držav z najmanj 
dolgovi, k čemur je pripomogel hiter, a postopen, vzpon gospodarstva.
Odgovor modela
Izjava je v skladu s podanim stavkom, saj oboje trdi, da je Slovenija 
ena izmed držav z najmanj dolgovi v Evropski uniji, pri čemer je k temu 
prispevala hitra gospodarska rast.
– implikacija
45
Logično sklepanje v naravnem jeziku za slovenščino
Tabela 16: Primeri iz množice SI-NLI z napačnimi ali neustreznimi razlagami, generiranimi 
z modelom GPT-3.5-turbo
Oznaka implikacija
Premisa
Veliki čezmerni odmerki lahko povzročijo močno zaspanost, utrujenost in 
občutek vročine.
Hipoteza
Prekomerno zaužitje lahko sproži intenzivno utrujenost, zaspanost, celo 
občutek povišane temperature.
Odgovor modela Izjava je enaka kot izvirna, zato je izjava potrjena. – implikacija
Oznaka kontradikcija
Premisa
To častitljivo obletnico so počastili s številnimi prireditvami in z izdajo 
obsežnega zbornika.
Hipoteza
Praznovali so stoletnico in ob tem pripravili dva koncerta ter izdali kratko 
brošuro.
Odgovor modela
Izjava je v nasprotju s podanim stavkom, saj omenja stoletnico, medtem 
ko je v podanem stavku omenjena obletnica.
– kontradikcija
Oznaka kontradikcija
Premisa Kraj nesreče sta si ogledali tudi preiskovalna sodnica in državna tožilka.
Hipoteza Okoliščine nesreče so si prišli ogledat samo policisti.
Odgovor modela
Iz podanega stavka ni mogoče sklepati ali so si okoliščine nesreče ogle-
dali samo policisti ali ne, saj se o tem ne govori.
– nevtralno
Opomba. Prvi primer ima razlago, ki je sicer tehnično skoraj pravilna, a neustrezna. Drugi 
primer vsebuje napačno razlago, kljub temu pa je klasifikacija pravilna. V tretjem primeru 
sta napačni tako razlaga kot klasifikacija.
46
Slovenščina 2.0, 2024 (1) | Razprave
6 Diskusija
V tem razdelku združimo najpomembnejše rezultate iz različnih sklo-
pov poskusov, ki so bolj podrobno predstavljeni v prejšnjem razdelku. 
Dodatno jih interpretiramo in jih postavimo v širši kontekst obstoječe-
ga dela.
6.1 Uvrščanje
Za uvrščanje primerov smo preizkusili več pristopov z uporabo mode-
lov SloBERTa in GPT-3.5-turbo. Metrike so predstavljene v Tabeli 17. 
Tabela 17: Metrike v %, izračunane na napovedih za testno množico SI-NLI, za štiri različne 
pristope
Model Točnost Ocena F1 Natančnost Priklic
SloBERTa (SI-NLI-celotna) 73,2 73,2 73,3 73,2
SloBERTa (ESNLIsi) 65,4 65,2 67,1 65,2
SloBERTa (ESNLIsi SI-NLI) 75,3 75,3 75,3 75,4
GPT-3.5-turbo 56,5 54,5 61,3 55,4
Opomba. V oklepajih so navedene učne množice, pri zadnjem pristopu dodatnega učenja 
ni bilo.
Model SloBERTa, učen na množici SI-NLI, je dosegel klasifikacij-
sko točnost 73,2 %, bi pa lahko dosegel boljše rezultate, če bi bila 
učna množica večja. Izločitev učnih primerov, na katerih se človeški 
označevalci motijo, zmanjša točnost napovedi, podobno oz. enako 
kot izločitev enakega števila naključno izbranih primerov. Na prime-
rih, kjer se človeški označevalci motijo, se pogosteje kot pri ostalih 
motijo tudi jezikovni modeli. Domnevamo, da gre vsaj delno za dvo-
umne primere, torej takšne, ki jih tudi ljudje razumejo na različne na-
čine; drugačne oznake nekaterih označevalcev torej niso napake, pač 
pa različne interpretacije istega primera. Posledično bi to informacijo 
lahko upoštevali pri učenju modelov in morda tako izboljšali rezultate.
Model SloBERTa, učen na prevodih ESNLI, je, kljub znatno večji 
učni množici, na testni množici SI-NLI dosegel skoraj 10 % manjšo 
točnost. Ugotavljamo, da je prenos znanja med različnimi množicami 
primerov logičnega sklepanja relativno slab, izboljšuje pa se z veča-
njem števila učnih primerov. Kljub temu pa model, učen na strojnih 
47
Logično sklepanje v naravnem jeziku za slovenščino
prevodih, pravilno uvršča skoraj dve tretjini primerov na drugi množici. 
Ta pristop je enostavno posplošiti na druge jezike z malo viri, v katerih 
podatkovne množice primerov logičnega sklepanja morda ne obstaja-
jo, zato je pristop, kljub slabšim rezultatom, uporaben.
Najboljši rezultat dosežemo z vnaprejšnjim učenjem modela Slo-
BERTa na množici ESNLI in z nadaljnjo prilagoditvijo na množici SI-
-NLI; na testni množici SI-NLI je bila dosežena točnost 75,3 %. Angle-
ške prevode podatkovnih množic torej lahko uporabimo za izboljšanje 
rezultatov na SI-NLI, vendar pa naš rezultat ne dosega najboljšega re-
zultata, objavljenega na SloBench (točnost 77,2 %) (CJVT UL, 2023).
Z uporabo GPT-3.5-turbo smo dosegli slabši rezultat, tako pri 
učenju brez dodatnih primerov kot tudi z nekaj dodatnimi primeri, če-
prav je model mnogo večji od modela SloBERTa. Občutljiv je na izbiro 
ukaznega navodila in na izbor primerov pri učenju z nekaj dodatnimi 
primeri. Z bolj širokim testiranjem različnih navodil bi rezultat najver-
jetneje lahko izboljšali.
6.2 Generiranje razlag
Razlage smo poskusili generirati z dvema različno velikima modelo-
ma, SloT5 in GPT-3.5-turbo. Poskus generiranja razlag z modelom 
SloT5 je bil neuspešen. Ustrezne razlage so modeli generirali za manj 
kot tretjino primerov (28 %). Ugotovili smo, da tudi večji model SloT5 
ni boljši od manjšega. Modeli se dobro naučijo zgolj forme, niso pa 
zmožni ustvariti pomensko smiselnih razlag.
Sklepamo, da sta ta dva slovenska velika jezikovna modela z do 
nekaj sto milijonov parametrov zmožna iskanja in uporabe jezikovnih 
vzorcev, poznavanje jezika pa ni v celoti povezano s poznavanjem re-
sničnosti. To je v skladu z ugotovitvami McCoy idr. (2019), da jezikovni 
modeli za reševanja problema logičnega sklepanja uporabljajo različ-
ne jezikovne hevristike.
Uporaba podobnih hevristik namesto dejanskega razumevanja 
sveta je zato verjetno razlaga za slab prenos znanja, slabo posploše-
vanje, drugačne tipe napak glede na človeške in nezmožnost generi-
ranja pravilnih razlag. Pristop velikih jezikovnih modelov k reševanju 
zastavljenega problema po tej domnevi temelji na procesiranju jezika 
48
Slovenščina 2.0, 2024 (1) | Razprave
namesto na poznavanju zakonitosti resničnega sveta in zdravorazum-
skega sklepanja, kot to počnemo ljudje.
Boljše rezultate smo dosegli z modelom GPT-3.5-turbo in uče-
njem brez dodatnih primerov. Pri pravilno uvrščenih primerih, ki so 
predstavljali približno polovico, je bilo ustreznih 81 % razlag. Glede na 
ta rezultat in slab rezultat SloT5 menimo, da je za nadaljnje razisko-
vanje generiranja razlag pri logičnem sklepanju za slovenščino najbolj 
smiselna uporaba velikih jezikovnih modelov z več milijardami para-
metrov, tudi če ti niso bili učeni specifično za slovenščino. Koristil bi 
tudi veliki model, naučen na zadostnem številu slovenskih besedil.
GPT-3.5-turbo je torej sposoben reševanja problemov s področja 
logičnega sklepanja v naravnem jeziku, čeprav ni bil učen ali prilago-
jen za to nalogo. Kaže dokaj dobro razumevanje resničnosti, pri čemer 
pa ga za našo nalogo omejuje slabše poznavanje slovenščine. Večino 
pravilnih klasifikacij je zmožen ustrezno utemeljiti, v čemer se razli-
kuje od manjših slovenskih modelov. Učenje zelo velikih modelov na 
veliki količini podatkov s spleta da modelom zadostno razumevanje 
pomena jezika in razumevanje sveta za uspešno reševanje problema 
logičnega sklepanja in utemeljitev sklepov.
7 Zaključek
Raziskovali smo različne pristope k logičnemu sklepanju v naravnem 
jeziku za slovenščino. Preizkusili smo več velikih jezikovnih modelov za 
uvrščanje primerov in generiranje razlag in v slovenščino strojno prevedli 
ter objavili 50.000 primerov iz angleške podatkovne množice ESNLI.
Ugotovili smo, da je prenos znanja med različnimi množicami pri-
merov logičnega sklepanja relativno slab, izboljšuje pa se z večanjem 
števila učnih primerov. Najboljši rezultat smo dosegli z vnaprejšnjim 
učenjem modela SloBERTa na množici ESNLI in nadaljnjo prilagoditvi-
jo na množici SI-NLI. Angleške prevode podatkovnih množic torej lah-
ko uporabimo za izboljšanje rezultatov na slovenski množici SI-NLI.
Poskus generiranja razlag z modelom SloT5 je bil neuspešen, bolj 
uspešen pa je bil z mnogo večjim GPT-3.5-turbo. Sklepamo, da so slo-
venski veliki jezikovni modeli z nekaj sto milijoni parametrov zmožni 
iskanja in uporabe jezikovnih vzorcev, poznavanje jezika pa ni v celoti 
49
Logično sklepanje v naravnem jeziku za slovenščino
povezano s poznavanjem resničnosti. Za nadaljnje raziskovanje gene-
riranja razlag pri logičnem sklepanju za slovenščino predlagamo upo-
rabo velikih jezikovnih modelov z več milijardami parametrov, tudi če 
niso bili učeni specifično za slovenščino. Koristil bi tudi veliki model, 
naučen na zadostni množici slovenskih besedil.
Testirane pristope bi lahko še izboljšali. Če bi namesto ali poleg 
prevodov množice ESNLI za vnaprejšnje učenje modela SloBERTa 
uporabili prevode množice, ki je bolj raznolika od ESNLI ali pa so pri-
meri v njej po izvoru bolj podobni tistim v SI-NLI, bi verjetno lahko na 
testni množici SI-NLI dosegli boljše rezultate. Prav tako bi rezultate 
morda lahko izboljšali z uporabo informacije o dvoumnih primerih ozi-
roma o nestrinjanju označevalcev. Oboje zahteva nadaljnje testiranje.
Največ potenciala za izboljšanje je pri generiranju razlag in upora-
bi GPT-3.5-turbo. Z bolj širokim testiranjem različnih navodil, tako za 
klasifikacijo kot za generiranje razlag, bi najverjetneje lahko izboljšali 
rezultate pri obeh nalogah. Prav tako bi bilo smiselno preizkusiti učenje 
z več deset ali več sto dodatnimi primeri, ki ponavadi izboljša dosežke 
modela (Brown idr., 2020). To zlasti velja za generiranje razlag, saj smo 
tam preizkusili le eno navodilo in učenje brez dodatnih primerov.
V času našega testiranja je bil dostop do modela GPT-4 (OpenAI, 
2023a), ki je izboljšana različica modela GPT-3.5-turbo, omejen. Ta mo-
del dosega boljše rezultate pri večini nalog. V prihodnje bi bilo smiselno 
preveriti, če in koliko boljše napovedi in razlage bi lahko dobili z njim.
Tako GPT-4 kot GPT-3.5-turbo sta v lasti podjetja OpenAI in sta 
dostopna le prek vmesnika tega podjetja, točni podatki o njuni zgradbi 
pa niso znani. Obstajajo javno dostopni odprti modeli, ki so po zmo-
gljivosti primerljivi ali skoraj primerljivi z njima, kakršen je na primer 
LLaMa-2 (Touvron idr., 2023). Podobne preizkuse bi lahko izvedli tudi 
na katerem od teh odprtih modelov.
Zahvala
Delo je podprla Javna agencija za znanstvenoraziskovalno in inovacij-
sko dejavnost Republike Slovenije (ARIS) iz državnega proračuna pre-
ko raziskovalnega programa št. P6-0411 (Jezikovni viri in tehnologije 
za slovenski jezik) in projekta PROP – Empirična podlaga za digitalno 
podprt razvoj pisne jezikovne zmožnosti (št. J7-3159).
50
Slovenščina 2.0, 2024 (1) | Razprave
Literatura
Bowman, S. R., Angeli, G., Potts, C., & Manning, C. D. (2015). A large anno-
tated corpus for learning natural language inference. Proceedings of the 
2015 Conference on Empirical Methods in Natural Language Processing 
(EMNLP).
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Nee-
lakantan, A., Shyam, …, & Askell, A. (2020). Language models are few-
-shot learners. Advances in neural information processing systems, 33, 
1877–1901.
Camburu, O.-M., Rocktäschel, T., Lukasiewicz, T., & Blunsom, P. (2018). e-
-SNLI: Natural Language Inference with Natural Language Explanations. 
Advances in Neural Information Processing Systems, 31.
CJVT UL. (2023). SloBench – Natural language inference (SI-NLI) leaderbo-
ard. Pridobljeno s https://slobench.cjvt.si/leaderboard/view/9 
DeepL Translate API. (2023). Pridobljeno s https://www.deepl.com/pro-api
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training 
of Deep Bidirectional Transformers for Language Understanding. Proce-
edings of the 2019 Conference of the North American Chapter of the As-
sociation for Computational Linguistics: Human Language Technologies, 
Vol. 1 (Long and Short Papers) (str. 4171–4186).
Erjavec, T., Fišer, D., & Ljubešić, N. (2021). The KAS corpus of Slovenian aca-
demic writing. Lang. Resour. Eval., 55(2), 551–583.
Fišer, D., Erjavec, T., & Ljubešić, N. (2016). JANES v0.4: Korpus slovenskih 
spletnih uporabniških vsebin. Slovenščina 2.0: empirične, aplikativne in 
interdisciplinarne raziskave, 4(2), 67–99.
Google Prevajalnik. (2023). Pridobljeno s https://translate.google.com/?hl=sl 
Klemen, M., Žagar, A., Čibej, J., & Robnik-Šikonja, M. (2022). Slovene Natural 
Language Inference Dataset SI-NLI, Slovenian language resource reposi-
tory CLARIN.SI, http://hdl.handle.net/11356/1707 
Klemen, M., Žagar, A., Čibej, J., & Robnik-Šikonja, M. (2024). SI-NLI: A Slove-
ne Natural Language Inference Dataset and its Evaluation. Proceedings 
of the 2024 Joint International Conference on Computational Linguistics, 
Language Resources and Evaluation (LREC-COLING 2024), Torino, Italia 
(str. 14859–14870). ELRA and ICCL. Pridobljeno s https://aclanthology.
org/2024.lrec-main.1294.pdf
Krek, S., Arhar Holdt, Š., Erjavec, T., Čibej, J., Repar, A., Gantar, P., Ljubešić, 
N., Kosem, I., & Dobrovoljc, K. (2020). Gigafida 2.0: The Reference Cor-
pus of Written Standard Slovene. Proceedings of the Twelfth Language 
51
Logično sklepanje v naravnem jeziku za slovenščino
Resources and Evaluation Conference, Marseille, France (str. 3340–
3345). European Language Resources Association. Pridobljeno s https://
aclanthology.org/2020.lrec-1.409
Kumar, S., & Talukdar, P. (2020). NILE: Natural Language Inference with Faithful 
Natural Language Explanations. Proceedings of the 58th Annual Meeting of 
the Association for Computational Linguistics (str. 8730–8742). Associa-
tion for Computational Linguistics. doi: 10.18653/v1/2020.acl-main.771
Lebar Bajec, I., Repar, A., Demšar, J., Bajec, Ž., Rizvič, M., Kumperščak, B., & 
Bajec, M.(2022). Neural Machine Translation model for Slovene-English 
language pair RSDO-DS4-NMT 1.2.6, Slovenian language resource repo-
sitory CLARIN.SI, http://hdl.handle.net/11356/1736 
Liu, H., Ning, R., Teng, Z., Liu, J., Zhou, Q., & Zhang, Y. (2023). Evaluating the 
logical reasoning ability of ChatGPT and GPT-4. Pridobljeno s file:///C:/
Users/student1/Downloads/Evaluating_the_Logical_Reasoning_Abili-
ty_of_ChatGP.pdf
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, …, & Stoyanov, V. 
(2019). RoBERTa: A robustly optimized BERT pretraining approach. Pri-
dobljeno s https://arxiv.org/pdf/1907.11692
Ljubešić, N., & Erjavec, T. (2011). hrWaC and slWac: compiling web cor-
pora for Croatian and Slovene. Proceedings of the 14th Internatio-
nal Conference on Text, Speech and Dialogue (str. 395–402). doi: 
10.1007/978-3-642-23538-2_50
Logar, N., Erjavec, T., Krek, S., Grčar, M., & Holozan, P. (2013). Written corpus 
ccKres 1.0, Slovenian language resource repository CLARIN.SI, http://
hdl.handle.net/11356/1034
McCoy, T., Pavlick, E., & Linzen, T. (2019). Right for the Wrong Reasons: Dia-
gnosing Syntactic Heuristics in Natural Language Inference. Proceedings 
of the 57th Annual Meeting of the Association for Computational Lingu-
istics, Florence, Italy (str. 3428–3448). Association for Computational 
Linguistics. doi: 10.18653/v1/P19-1334
McHugh, M. L. (2012). Interrater reliability: the kappa statistic. Biochemia 
medica, 22(3), 276–282.
Müller, A., & Guido, S. (2016). Introduction to Machine Learning with Python: 
A Guide for Data Scientists. O’Reilly Media.
OpenAI. (2022). Introducing ChatGPT. Pridobljeno s https://openai.com/
blog/chatgpt 
OpenAI. (2023a). GPT-4 Technical Report. Pridobljeno s https://arxiv.org/
pdf/2303.08774
52
Slovenščina 2.0, 2024 (1) | Razprave
OpenAI. (2023b). Models – OpenAI API. Pridobljeno s https://platform.ope-
nai.com/docs/models/gpt-3-5
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, 
C., …, & Lowe, R. (2022). Training language models to follow instruc-
tions with human feedback. Advances in Neural Information Pro-
cessing Systems, 35, 27730–27744. Pridobljeno s https://arxiv.org/
abs/2203.02155
Pančur, A., & Erjavec, T. (2020). The siParl corpus of Slovene parliamentary pro-
ceedings. Proceedings of the Second ParlaCLARIN Workshop (str. 28–34).
Poth, C., Pfeiffer, J., R“uckl’e, A., & Gurevych, I. (2021). What to Pre-Tra-
in on? Efficient Intermediate Task Selection. Proceedings of the 2021 
Conference on Empirical Methods in Natural Language Processing (str. 
10585–10605).
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., 
Li, W., & Liu, P. J. (2020). Exploring the limits of transfer learning with a 
unified text-to-text transformer. The Journal of Machine Learning Rese-
arch, 21(1), 5485–5551.
Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bas-
hlykov, N., …, & Scialom, T. (2023). Llama 2: Open foundation and fine-
-tuned chat models. Pridobljeno s https://arxiv.org/abs/2307.09288
Ulčar, M., & Robnik-Šikonja, M. (2021). SloBERTa: Slovene monolingual large 
pretrained masked language model. Proceedings of SI-KDD within the In-
formation Society 2021 (str. 17–20).
Ulčar, M., & Robnik-Šikonja, M. (2023). Sequence-to-sequence pretraining 
for a less-resourced Slovenian language. Frontiers in Artificial Intelligen-
ce, 6, 1–12. doi: 10.3389/frai.2023.932519 
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., 
Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in 
neural information processing systems, 30.
Wang, S., Fang, H., Khabsa, M., Mao, H., & Ma, H. (2021). Entailment as few-
-shot learner. Pridobljeno s https://arxiv.org/pdf/2104.14690 
Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., 
..., & Rush, A. (2020). Transformers: State-of-the-Art Natural Language 
Processing. Proceedings of the 2020 Conference on Empirical Methods in 
Natural Language Processing: System Demonstrations (str. 38–45).
Zhong, Q., Ding, L., Liu, J., Du, B., & Tao, D. (2023). Can ChatGPT understand 
too? A comparative study on ChatGPT and fine-tuned BERT. Pridobljeno 
s https://arxiv.org/pdf/2302.10198
53
Logično sklepanje v naravnem jeziku za slovenščino
Natural language inference for Slovene
In recent years, large language models have been the most successful appro-
ach to natural language processing. An important problem in this field is na-
tural language inference, which requires models to contain relatively broad 
general knowledge. Moreover, the requirement for models to explain their re-
asoning can offer additional insights into their functioning. We tested several 
approaches for natural language inference in Slovene. We used two Slovene 
large language models, SloBERTa and SloT5, as well as a much larger English 
model GPT-3.5-turbo. Training data consisted of the Slovene dataset SI-NLI 
and an additional 50,000 machine-translated samples from the English data-
set ESNLI. The SloBERTa model was fine-tuned on both datasets. Fine-tuning 
it on the SI-NLI dataset achieved a classification accuracy of 73.2% on the 
SI-NLI test set. Pretraining it on the ESNLI dataset improved its accuracy to 
75.3%. We observe that models make different types of errors compared to 
humans and that they generalize poorly across different datasets.
The SloT5 model was also fine-tuned on ESNLI to generate explanations 
for natural language inference samples. Less than a third of explanations were 
appropriate, with the model learning common sentence patterns from the do-
main and producing semantically meaningless explanations. We assume that 
the tested Slovene large language models with up to several hundred million 
parameters are capable of identifying and using language patterns, but their 
language understanding is not necessarily sufficient to understand reality. 
When the considerably larger GPT-3.5-turbo was used both for classificati-
on and explanation generation, it achieved an accuracy of 56.5% on the SI-
-NLI test set using zero-shot learning, but with 81% of the explanations being 
appropriate for the correctly classified samples. In comparison with smaller 
Slovene models, this model shows a reasonable understanding of reality but 
is limited by its lower Slovene proficiency.
Keywords: natural language inference, large language models, transformer ar-
chitecture, SloBERTa, SloT5, GPT-3.5-turbo, ChatGPT, explanations, Slovene, 
fine-tuning