101
MoJca koMpara LukančIč
prepoZnaVanje KrajšaV in raZVeZaV V anglešKih 
besedilih s področja VarstVosloVja Z algoritmom 
KrajšaVar ter orodjema chatgpt in perplexity
cobiss: 1.01
https://doi.org/10.3986/Jz.31.2.05
V prispevku se osredotočamo na uporabo orodij umetne inteligence, in sicer ChatGPT ter 
Perplexity, v procesu prepoznavanja krajšav in razvezav v angleških besedilih stroke, in sicer 
na primeru varstvoslovnih besedil, ter izsledke primerjamo s filtracijo besedil z algoritmom 
Krajšavar. Angleška besedila, ki smo jih uporabili pri filtraciji z orodjema umetne inteligence 
in algoritmom, smo ročno zbrali na podlagi tipološke klasifikacije angleških varstvoslovnih 
besedil. V prispevku predstavimo značilnosti algoritma Krajšavar, opišemo njegov razvoj in 
delovanje ter v nadaljevanju orišemo zbiranje besedil in pripravo gradiva za filtracijo. Osre-
dinimo se na uporabo orodij ChatGPT in Perplexity pri samodejnem prepoznavanju kraj-
šavno­razvezavnih parov v angleških varstvoslovnih besedilih, preverimo izsledke filtracije 
ter jih primerjamo z izsledki, pridobljenimi z algoritmom Krajšavar, in z rezultati ročnega 
pregleda.
Ključne besede: krajšave, angleščina, slovar, algoritem, umetna inteligenca
Recognizing Abbreviations and Their Expansions in English Criminal 
Justice and Security Texts Using the Krajšavar Algorithm, ChatGPT, 
and Perplexity 
This article examines the application of artificial intelligence tools, specifically Chat-
GPT and Perplexity, for recognizing abbreviations and their corresponding expansions 
in English professional texts dealing with criminal justice and security. The results are 
compared with those obtained through text filtering using the Krajšavar algorithm. The 
English texts used for filtering with both AI tools and the algorithm were manually 
collected based on a typological classification of English criminal justice and security 
texts. This article presents the main features of the Krajšavar algorithm, outlines its 
development and functioning, and describes the text collection and material preparation 
for filtering. The analysis focuses on using ChatGPT and Perplexity for the automatic 
recognition of abbreviation–expansion pairs in English criminal justice and security 
texts. The filtering results are evaluated and subsequently compared with those obtained 
through the Krajšavar algorithm and manual verification.
Keywords: abbreviations, English, dictionary, algorithm, artificial intelligence
Mojca Kompara Lukančič  Univerza v Mariboru, Fakulteta za turizem – Fakulteta za  
varnostne vede  mojca.kompara@um.si   https://orcid.org/0000­0003­2368­4161
 Prispevek temelji na raziskovalnih podatkih, ki se hranijo v Digitalni knjižnici Univerze v Ma-
riboru in so javno dostopni na povezavi https://dk.um.si/IzpisGradiva.php?lang=slv&id=95507.
Jezikoslovni zapiski 31.2 (2025), 101–118
102 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
 1  uVod
Položaj krajšav v slovenskem prostoru je bil podrobneje predstavljen v delih, ki 
so se osredinjala na njihovo prisotnost v normativnih priročnikih (gl. Kompara 
Lukančič 2018; Verovnik 2023) in slovarjih (Kompara Lukančič 2010). Že Gab-
rovšek (1994: 164) je izpostavil, da so s krajšavami »križi in težave«, da nastajajo 
hitro in da je pomembno, da so slovarji krajšav čim bolj novi. Hitro nastajanje 
krajšav, njihovo vključevanje v pravopise, splošne in specializirane slovarje ter 
priprava samostojnih krajšavnih slovarskih zbirk so privedli do uporabe računalni-
ških orodij, priprave algoritmov za samodejno prepoznavanje krajšav in razvezav 
v besedilih (njihov pregled sledi v nadaljevanju; gl. Kompara Lukančič 2018) ter 
uporabe umetne inteligence pri prepoznavanju krajšav in razvezav. 
Uporabo računalniških orodij v slovenskem leksikografskem prostoru 
zaznamo že pri izdaji Velikega nemško-slovenskega slovarja (Debenjak – Deben­
jak – Debenjak 1992). Izpostaviti je treba programa STEVE in EVE oz. EVA, 
ki ju je razvil Primož Jakopin in s pomočjo katerih so bili izdani Odzadnji slovar 
slovenskega knjižnega jezika po Slovarju slovenskega knjižnega jezika (Hajnšek­Holz 
– Jakopin 1996), Slovar govorov Zadrečke doline med Gornjim Gradom in Nazarjami 
(A–H) (Weiss 1998), Etimološki slovar slovenskega jezika (Bezlaj 1995), Slovenski 
etimološki slovar (Snoj 1997) in Slovenski pravopis (2001). Uporabo jezikovnih 
tehnologij pri sestavi slovarjev so izpostavili številni avtorji; gre za avtomatizi-
rane procese, ki so omogočili premik od klasičnega ročnega slovaropisja k delno 
avtomatiziranemu (Weiss 1991; Humar 2004; Košmrlj­Levačič – Seliškar 2004; 
Kosem – Gantar – Krek 2013; Rundell 2023). Uporaba jezikovnih tehnologij 
je bila ključna pri zasnovi najsodobnejših slovenskih digitalnih leksikografskih 
virov, in sicer Slovarja sopomenk sodobne slovenščine (2017), Kolokacijskega slo-
varja sodobne slovenščine (2018), Velikega slovensko-madžarskega slovarja (Kosem 
2024), Digitalne slovarske baze za slovenščino (2023) itn. O vključevanju jezikov-
nih tehnologij v slovaropisje in samodejni pripravi geselskih člankov pišeta tudi 
Kompara Lukančič in Holozan (2011), ki izpostavljata samodejni pristop pri prip-
ravi slovarjev krajšav. Gre za pripravo in uporabo algoritma Krajšavar, ki omo-
goča samodejno prepoznavanje krajšav in razvezav v elektronskih besedilih (za 
podroben pregled algoritmov, ki so bili pripravljeni za filtracijo angleških bese-
dil, gl. Kompara Lukančič 2018); z razvojem tega algoritma se avtorica tega pri-
spevka ukvarja že več let (Kompara Lukančič 2010; 2011; 2018). Pojav umetne 
inteligence v leksikografiji je sprva zamajal leksikografsko skupnost (de Schryver 
2023; Jakubíček – Rundell 2023; Vossen 2022; Lew 2023), a kmalu privedel do 
uporabe orodij umetne inteligence pri sestavi geselskih člankov (Lew 2023). V 
tem prispevku se ukvarjamo z njeno uporabo pri prepoznavanju krajšav in razve-
zav. Namen prispevka je na podlagi posodobljenega algoritma za prepoznavanje 
103Jezikoslovni zapiski 31.2 (2025)
krajšav in razvezav (Krajšavar) iz angleških besedil, ki sodijo v področje varstvo-
slovja, na podlagi besedilne tipologije za varstvoslovna besedila pridobiti kraj-
šavno­razvezavne pare in primerjati pridobljene izsledke z izsledki orodij umetne 
inteligence (ChatGPT in Perplexity).1 
 2  KrajšaVar – algoritem Za samodejno prepoZnaVanje KrajšaV in 
raZVeZaV V eleKtronsKih besedilih
Za krajšave se je družba zanimala že v času Cicera (Kompara Lukančič 2018). 
Morda je njihova tipološka značilnost pripomogla k temu, da so se z njihovim 
samodejnim zbiranjem že pred več kot dvema desetletjema začeli ukvarjati pred-
vsem v angleškem prostoru, in sicer s pojavom algoritmov za prepoznavanje kraj-
šav in razvezav oz. pomenov v elektronskih besedilih. V Kompara Lukančič 2018 
so podrobneje predstavljene značilnosti posameznih algoritmov, in sicer se delijo 
glede na značilnosti prepoznavanja krajšav in razvezav. Taghva in Gilbreth (1999) 
prepoznavata akronime, ki so zapisani z velikimi tiskanimi črkami in obsegajo 
od tri do deset znakov, razvezave pa črpata iz sobesedila, pri čemer imajo ključ-
no vlogo začetne črke. Yeates (1999) prav tako prepoznava akronime, zapisane 
z velikimi črkami, in razvezave prepozna iz sobesedila, pri čemer so omejene na 
začetne tri črke. Larkey idr. (2000) prepoznavajo akronime, zapisane z velikimi 
črkami, a dopuščajo tudi nabor izjem v smislu ostalih krajšavnih tipov, in sicer 
do največ devet znakov; razvezave prepoznava po vzorcu akronim (razvezava) 
ali razvezava (akronim). Byrd in Park (2001) prepoznavata akronime, zapisane z 
velikimi tiskanimi črkami, pri čemer mora biti velika tiskana vsaj ena črka; vklju-
čujeta tudi števke in akronime, dolge od dva do deset znakov. Razvezave iščeta po 
vzorcu akronim (razvezava) ali razvezava (akronim). Schwartz in Hearst (2003) 
prepoznavata akronime, zapisane v oklepaju ali zunaj njega; ti vsebujejo od dva 
do deset znakov; razvezave iščeta po vzorcu akronim (razvezava) ali razvezava 
(akronim). Zahariev (2004) prepoznava krajšave v oklepaju ali zunaj njega, razve-
zave pa po vzorcu akronim (razvezava) ali razvezava (akronim). Jun Xu Yalou in 
Huang (2005) prepoznavata akronime, zapisane z velikimi tiskanimi črkami, v se-
stavi od dveh do desetih znakov, razvezave pa po vzorcu akronim (razvezava) ali 
razvezava (akronim). Zhou, Torvik in Smalheiser (2006) prepoznavajo akronime, 
zapisane z velikimi tiskanimi črkami v oklepajih ali zunaj njih in z nekaj izjemami 
krajšavnih tipov; razvezave prepoznavajo po vzorcu akronim (razvezava) ali raz-
vezava (akronim). Šateva in Nikolov (2008) prepoznavata akronime, zapisane z 
velikimi tiskanimi črkami z do petimi znaki; razvezave prepoznavata iz sobesedila 
1 Raziskovalni	podatki	(Kompara	Lukančič	2025b)	so	na	voljo	na	naslednji	povezavi:	https://dk.um.si/
IzpisGradiva.php?lang=slv&id=95507.
104 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
po vzorcu akronim (razvezava) ali razvezava (akronim). Kuo idr. (2009) krajšave 
prepoznavajo tudi v oglatih oklepajih, pri čemer je lahko v oklepaju krajšava ali 
pa razvezava; uvajajo tudi uporabo vejice, pri čemer sta krajšava in razvezava 
ločeni z vejico. Gelernter in Balaji (2013) se usmerjata v mikrobesedila, v katerih 
so tudi krajšave, ki se pojavljajo v imenih krajev, ulic in cest, in sicer v kratkih 
tekstovnih sporočilih. Wu idr. (2015) pri prepoznavanju krajšav preučujejo upora-
bo nevronskih vektorskih predstavitev besed za razločevanje krajšav v kliničnem 
kontekstu v okviru treh metod, in sicer vektorske značilnosti na podlagi okoliške-
ga besedila, leve in desne vektorske značilnosti na podlagi okoliškega sobesedila 
ter maksimalne vektorske značilnosti na podlagi okoliškega sobesedila. Liu idr. 
(2017) se ukvarjajo s pridobivanjem razvezav na podlagi označevanja zaporedij v 
smislu pogojnih naključnih polj. Montalvo idr. (2018) predlagajo pet sistemov za 
prepoznavanje krajšavno­razvezavnih parov in tri sisteme za prepoznavanje kraj-
šav brez razvezav v sobesedilu. Veyseh idr. (2020; 2022) prepoznavajo krajšave v 
znanstvenih besedilih, in sicer z metodo identifikacije in razločevanja. Osredoto-
čajo se predvsem na dvoje: ekstrakcijo in razločevanje krajšav v nizu tujih jezikov, 
in sicer na primeru pravnih in znanstvenih besedil, ob pomoči označevanja in ob 
uporabi nevronskih mrež. Huang idr. (2022) se usmerjajo k prepoznavanju krajšav 
in razvezav na podlagi začetnih črk, ob predpostavki, da razvezave stojijo v nepo-
sredni bližini krajšave. 
Vsem algoritmom je skupno, da krajšave in razvezave prepoznavajo v angle-
ških elektronskih besedilih, z izjemo algoritma, ki ga je pripravila avtorica tega 
prispevka (Kompara Lukančič 2011; 2018), saj gre za prvi algoritem, ki krajšave 
in razvezave prepoznava v slovenskih elektronskih besedilih. Tu omenimo, da je 
bil algoritem iz leta 2011 pripravljen za filtracijo slovenskih besedil, algoritem 
Krajšavar pa je bil prirejen za filtracijo angleških besedil. Priprava slovenskega 
algoritma za prepoznavanje krajšav in razvezav se je pričela leta 2009 (Kompara 
Lukančič 2009), in sicer je bil v prvi fazi namenjen filtraciji slovenskih elektron-
skih besedil. V naslednjih letih se je avtorica z razvojem algoritma usmerila tudi v 
zametke filtracije tujih besedil, in sicer na primeru angleških in italijanskih (Kom-
para Lukančič 2011). Algoritem je bil zasnovan tako, da je prepoznaval samo 
krajšavno­razvezavne pare, saj je bila končni cilj algoritma sestava geslovnika 
za pripravo slovarja krajšav. Torej, če krajšava v besedilu ni imela razvezave, je 
algoritem ni prepoznal, prav tako velja za razvezavo, ki v besedilu ni imela kraj-
šave. Skladno s pravopisnimi pravili, da se krajšava ob prvi pojavitvi razveže, smo 
se odločili, da algoritem deluje tako, da najde tiste krajšavno­razvezavne pare, ki 
stojijo pred ali za krajšavo in so v oklepaju ali pa je v oklepaju krajšava. Algoritem 
preskoči vse krajšave, ki nimajo razvezave, prav tako preskoči krajšave, zapisane 
s posebnimi znaki, npr. pomišljajem ipd. Algoritem je bil ponovno posodobljen 
leta 2024 ob pomoči informatika dr. Petra Holozana. Ta je razvil posodobljeno 
105Jezikoslovni zapiski 31.2 (2025)
različico algoritma (gl. sliko 1), ki omogoča filtracijo obsežnejše količine besedil 
ter ekstrakcijo krajšav in razvezav v angleških besedilih. Algoritem je bil priprav-
ljen na podlagi tipoloških značilnosti angleških krajšav (gl. Kompara Lukančič 
2023a). 
Slika 1: Krajšavar – algoritem za samodejno prepoznavanje krajšav in razvezav v elektronskih 
besedilih 
Končna priprava algoritma za samodejno prepoznavanje krajšav in razvezav v 
angleških besedilih zajema nabor korakov, ki se začne s pripravo osnovnih pra-
vil – gre predvsem za upoštevanje tipoloških značilnosti angleških krajšav (gl. 
Kompara Lukančič 2011), ki so ključne pri prepoznavanju krajšav in v nada-
ljevanju razvezav. Sledita priprava pravil za prepoznavanje razvezav in končna 
implementacija v uporabniku prijazni digitalni obliki. Algoritem Krajšavar je 
bil sprva pripravljen za interno rabo in testiranje besedil. Kot je razvidno s sli-
ke 1, ga sestavljata dve okni: v prvo se vnese besedilo za filtracijo, v drugem 
oknu pa se nato pojavijo krajšavno­razvezavni pari. V ozadju preprostega upo-
rabniškega vmesnika poteka kompleksno delovanje algoritma, ki je opisano v 
nadaljevanju. 
V prvi fazi algoritem razdeli besedilo po posameznih besedah, pri čemer tudi 
ločila obravnava kot posamezne besede, in sicer zgolj zaradi postopka ločevanja. 
Tako kot predhodno opisani algoritmi krajšave in razvezave išče v nizu krajšava 
(razvezava), (krajšava) razvezava, razvezava (krajšava), (razvezava) krajšava. 
Krajšave in/ali razvezave torej išče levo ali desno od oklepaja. Algoritem filtrira 
besede iz besedila in išče uklepaj. Ko ga najde, nadaljuje in išče prvi zaklepaj, 
ki mu sledi. Če se med uklepajem in zaklepajem pojavi zgolj ena beseda, ki je 
zapisana z veliko začetnico ali je v celoti zapisana z velikimi tiskanimi črkami 
106 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
in je sestavljena iz vsaj dveh črk, algoritem predpostavlja, da gre za krajšavo. 
Algoritem išče v poljubnem nadaljevanju besedila in ni zamejen na isto poved. 
Pri iskanju razvezav začne z iskanjem besed, ki stojijo pred ali za oklepajem, in 
poskuša s sovpadanjem do desetih besed, ki stojijo pred ali za oklepajem. V nada-
ljevanju išče prvo besedo, ki sovpada s prvo črko v krajšavi, ki sledi uklepaju in 
je zapisana z veliko začetnico. Algoritem išče sovpadanje besed, ki stojijo levo 
ali desno od oklepaja, in sicer do deset besed, pri čemer preveri sovpadanje od 
prve do desete besede, saj utegnejo biti vmes besede, ki se ne krajšajo in kot take 
niso prisotne v krajšavi, npr. predlogi, vezniki. Tu je treba podariti, da ta postopek 
velja, če je v oklepaju krajšava. Če je v oklepaju razvezava, algoritem išče kraj-
šavo, ki stoji levo ali desno od oklepaja. Algoritem kot rezultat vrne besedilo od 
najdene ustrezne prve besede do vključno zaklepaja ne glede na druge besede v 
tem nizu, zapis začetnic teh besed in neprve črke v krajšavi. Na ta način najde tudi 
razvezave, v katerih nastopajo dodatne besede, npr. vezniki, predlogi – Univerza v 
Ljubljani (UL), in krajšave, ki vsebujejo črke, ki niso začetnice besed v razvezavi, 
npr. Andragoški center Republike Slovenije (ACS). Omeniti velja še tipološke zna-
čilnosti angleških krajšav, ki so drugačne od slovenskih (gl. Kompara Lukančič 
2011), npr. da z veliko začetnico zapisujejo naslove. 
 3  metodologija 
V prispevku se osredotočamo na uporabo algoritma Krajšavar pri filtraciji angle-
ških besedil s področja varstvoslovja in izsledke primerjamo z izsledki filtracije, 
pridobljene z orodjema ChatGPT in Perplexity. Področje varstvoslovja je z vidi-
ka jezikovnega raziskovanja, razvoja terminologije, prevajanja ipd. v slovenskem 
prostoru močno podhranjeno (Kompara Lukančič 2023b), primanjkuje referenč-
nih gradiv, ki so po večini zastarela, pa tudi slovarjev in glosarjev. Podrobno se je 
z varstvoslovjem ukvarjala Kompara Lukančič, ki je obenem opozorila na vrzel, 
ki jo je treba zapolniti, saj je razvoj jezika stroke ključen za obstoj jezika. Avtorica 
se je z jezikom stroke dotaknila tudi tipološke klasifikacije varstvoslovnih besedil 
(gl. Kompara Lukančič 2023; 2025), ki je po njenem mnenju nujna za sistematič-
no zbiranje in nadaljnjo analizo varstvoslovnih besedil ter poznavanje značilnosti 
varstvoslovnega strokovnega jezika. Avtorica varstvoslovna besedila deli glede na 
tipološko klasifikacijo, ki jo je pripravila med letoma 2023 in 2025 in ki temelji na 
klasifikaciji turističnih besedil, ki jo je razvila Mikolič (2007). Kompara Lukančič 
(2025) je tudi mnenja, da je klasifikacija, ki jo je pripravila Mikolič (2007), uni-
verzalna, torej uporabna tudi za druga področja strokovnega jezika in druge jezike. 
Kompara Lukančič (Kompara Lukančič – Smajla 2025) varstvoslovna besedila v 
prvi vrsti deli na tista, ki so namenjena javnosti, in tista, ki vsebujejo tajne podatke 
107Jezikoslovni zapiski 31.2 (2025)
in so zato interne narave. Besedilna tipologija s področja varstvoslovja je podrob-
neje opisana v Kompara Lukančič – Smajla 2025, v katerem se avtorica dotakne 
pomena tipologije, predvsem v smislu sistematičnega zbiranja besedil, opazovanja 
značilnosti posameznih besedil in pridobivanja nabora besedil za potrebe njihove 
filtracije z algoritmom Krajšavar. Kompara Lukančič (Kompara Lukančič – Smaj-
la 2025) pri svoji tipološki klasifikaciji področje varstvoslovja najprej razdeli na 
podpodročja varnosti, pravosodja, policije, kriminalistike, prava, zakonodaje in 
vojske. Kategorizacijo tipologije varstvoslovnih besedil razdeli glede na namen, 
referenco in medij ter zaradi preglednosti podpodročja združi v varnost, policijo, 
pravo in vojsko (Kompara Lukančič – Smajla 2025). Glede na tipološko katego-
rizacijo varstvoslovnih besedil besedila razdeli na (1) pravna besedila s področja 
varnosti, policije, prava in vojske, (2) znanstvena besedila s področja varnosti, 
policije, prava in vojske, (3) strokovna in poljudnoznanstvena besedila s področja 
varnosti, policije, prava in vojske, (4) publicistična besedila s področja varnosti, 
policije, prava in vojske, (5) splošna besedila s področja varnosti, policije, prava in 
vojske ter (6) promocijska besedila s področja varnosti, policije, prava in vojske. 
Klasifikacija varstvoslovnih besedil (gl. Kompara Lukančič – Smajla 2025) nam 
je omogočila sistematično zbiranje besedil po posameznih kategorijah, in sicer 
smo za potrebe naše analize zbrali angleška besedila, ki sodijo v podpodročja 
varstvoslovja, ki jih omenja Kompara Lukančič 2023b. 
Besedila smo pridobili ročno s spleta, in sicer z vnosom angleških ključnih 
besed s področja varstvoslovja, tj. police ‘policija’, crime ‘kriminal’, criminal justice 
‘varstvoslovje’, army ‘vojska’ in ‘security ‘varnost’. Besedila smo iskali skladno 
s tipološkimi značilnostmi, in sicer na svetovnem spletu v iskalniku Google ter 
Google Učenjak; slednjega smo uporabili predvsem za pridobivanje znanstvenih 
besedil. Zbrana besedila smo nato filtrirali z algoritmom za samodejno prepozna-
vanje krajšav in razvezav Krajšavar ter pridobili angleške krajšavno­razvezavne 
pare s področja in podpodročij varstvoslovja. V prispevku se osredotočamo na 
primerjavo izsledkov filtracije besedil z algoritmom Krajšavar ter z orodjema Cha-
tGPT in Perplexity. Za potrebe raziskave smo se želeli osrediniti na besedila, ki 
sodijo v enotno tipološko kategorijo, zato smo se odločili za znanstvene prispevke, 
tj. znanstvena besedila s področja varnosti, policije, prava in vojske (kategorija 2), 
ker so ta praviloma podobne oz. omejene dolžine in niso predolga oz. prekratka 
za ročno analizo vsebnosti krajšavno­razvezavnih parov. Skupno smo filtrirali 
21 prispevkov.2 SNamen raziskave je prikazati, kako orodji umetne inteligence 
ChatGPT in Perplexity delujeta pri prepoznavanju krajšav in razvezav. Upora-
bili smo prosto dostopno, neplačljivo različico orodja ChatGPT, ki je bila na 
voljo marca 2025, in ob vnosu napotkov naložili besedila oz. jih prekopirali v 
2 Seznam	prispevkov	je	dostopen	v	okviru	raziskovalnih	podatkov	(Kompara	Lukančič	2025),	gl.	
op.	1.	
108 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
iskalnik ter preverili točnost pri prepoznavanju krajšav in razvezav v angleških 
besedilih. Da smo primerjali rezultate, pridobljene z orodjem ChatGPT, smo 
uporabili še plačljivo različico orodja Perplexity, ki je bila na voljo marca 2025. 
Pri obeh orodjih smo uporabili enak napotek, in sicer niz v angleškem jeziku 
»In the attached text find abbreviations and their meanings/expansions« (sl. V 
priloženem besedilu poišči vse krajšave in njihove pomene). Nato smo primer-
jali izsledke, ki smo jih pridobili s filtracijo besedil z algoritmom Krajšavar ter 
orodjema ChatGPT in Perplexity. 
 4  iZsledKi raZisKaVe 
Raziskava je temeljila na filtriranju besedil iz druge tipološke kategorije (Kompara 
Lukančič – Smajla 2025), tj. znanstvena besedila s področja varnosti, policije, pra-
va in vojske. Za potrebe raziskave smo podrobneje analizirali 21 besedil, kar pred-
stavlja 10 % vseh besedil, ki so podrobneje predstavljena v Kompara Lukančič 
2025). V teh 21 besedilih je bilo po ročnem pregledu najdenih 99 krajšavno­razve-
zavnih parov, od katerih je Krajšavar prepoznal 82 parov, ChatGPT 71, Perplexity 
pa 63. Omeniti velja, da gre za eno pojavitev, tj. en krajšavno­razvezavni par, in ne 
za ponovitve para. Po podrobni analizi filtriranih besedil z algoritmom Krajšavar 
in po ročnem preverjanju krajšavno­razvezavnih parov v besedilih smo ugotovili, 
da je priklic 91 %, natančnost algoritma pa 83 %, pri čemer smo odstotke zaokro-
žili (F1 znaša 0,87). Krajšavar ni prepoznal 13 krajšav, v 19 primerih pa je prepoz-
nal krajšave, ki to niso. Za krajšavno­razvezavne pare, ki jih algoritem Krajšavar 
ni prepoznal, navajamo primere v preglednici 1.
Preglednica 1: Krajšavno-razvezavni pari, ki jih Krajšavar ne prepozna 
Pojavitev 
samostalnika 
poleg krajšave
Posebni znaki  
v razvezavi ali male  
črke v krajšavi
Posebne krajšave Zapis razvezav  
z malimi črkami
International Ship 
and Port Facilities 
Security Code 
(ISPS Code)
science and technology 
studies (STS) 
blood alcohol concentration 
(BAC)
standard operating 
procedures (SOPs)
road traffic injuries (RTIs)
Pamphlet (PAM) 
tactical standard 
operating procedure 
(TACSOP) 
ACC accidents 
SPER suspicious person
field manual (FM) 
international political 
sociology (IPS) 
sociology of scientific 
knowledge (SSK)
portable document 
format (PDF) 
 
 
 
109Jezikoslovni zapiski 31.2 (2025)
Primere krajšavno­razvezavnih parov, ki jih Krajšavar ne prepozna, smo v pre-
glednici 1 razdelili po načinu zapisa: pri kategoriji 1 imajo nizi poleg krajšave v 
oklepaju zapisan še samostalnik, ki ga algoritem Krajšavar ne more prepoznati. Pri 
kategoriji 2 sledijo zbrani pari, ki so sestavljeni iz posebnih znakov, in sicer vezaja 
v razvezavi ter malih črk v krajšavi. Tudi teh algoritem Krajšavar ne prepozna. 
Pri kategoriji 3 sledijo krajšave, ki so okrajšane na poseben način, npr. ACC – 
accidents. Sledi kategorija 4 – zapis razvezav z malimi črkami, kjer utegnemo kot 
vzrok za neprepoznavanje navesti zapis razvezav z malimi začetnimi črkami, npr. 
field manual (FM). 
Preglednica 2: Krajšavno-razvezavni pari, ki to niso in jih Krajšavar prepozna (nekaj primerov)
Imena, zapisana z veliko začetnico Tuji jezik Zapis z velikimi tiskanimi črkami 
Schneider : (Socialism)
Hellwig, first issued in (Hellwig)
Bourdieu : scientific capital (Bourdieu)
Gieryn has called boundary work (Gieryn)
William Stern, Paul Plaut, and Albert 
Hellwig (Wolffram)
(Nazionale) 
National 
Diaristic Archive 
Foundation 
(S) SPONSORING / 
MONITORING AGENCY NAME
(S) SPONSORING / 
MONITORING AGENCY NAME 
(S) S ACRONYM 
(S)  S REPORT NUMBER
V preglednici 2 so prikazani krajšavno­razvezavni pari, ki to niso, a jih algoritem 
Krajšavar prepozna kot take, in sicer gre za (1) imena, ki so zapisana z veliko zače-
tnico, (2) zapise v tujem jeziku, ki ni angleški, ki se v besedilu pojavijo v oklepaju, 
in (3) zapise z velikimi tiskanimi črkami. Tako Krajšavar kot orodji ChatGPT in 
Perplexity ob filtraciji krajšavno­razvezavne pare prikažejo v tolikšni pojavitvi, 
kot se pojavijo v besedilu. Za potrebe prikaza izsledkov smo uporabili samo eno 
pojavitev krajšavno­razvezavnega para, in sicer tako pri Krajšavarju kot pri obeh 
orodjih umetne inteligence. To pomeni, da pri orodjih ChatGPT in Perplexity ni 
bilo izrecnih navodil, da se zapiše samo prva pojavitev para, je pa bilo uporabljeno 
navodilo, da izpiše par tako, kot se pojavi. V ta namen podrobneje analiziramo 
besedilo št. 13. Izsledki so predstavljeni v preglednici 3.
110 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
Preglednica 3: Filtracija besedila z algoritmom Krajšavar ter orodjema ChatGPT in Perplexity
Št. 
besedila
Avtor Naslov Vir 
13. Shawn 
Neely, Chris 
M. Anson 
The Army and the Academy as Textual 
Communities: Exploring Mismatches 
in the Concepts of Attribution, 
Appropriation, and Shared Goals 
https://apps.dtic.mil/sti/pdfs/
ADA535143.pdf 
Krajšavar ChatGPT Perplexity
SAR  Same as 
Report 
TRADOC  Training 
and Doctrine 
Command 
AR  Army 
Regulation 
AKO  Army 
Knowledge Online 
CALL  Center 
for Army Lessons 
Learned 
TTPs  Tactics 
and Procedures 
BAS  Battalion 
Aid Station 
AMEDD  Army 
Medical Department 
DA  
Department of the 
Army 
Krajšavar ne najde:
standard operating 
procedures (SOPs)
tactical standard 
operating procedure 
(TACSOP) 
Pamphlet (PAM) 
field manual (FM) 
SOPs ­ Standard Operating Procedures
TRADOC ­ Training and Doctrine Command
USMA ­ United States Military Academy
U.S. ­ United States
U.S. Air Force Academy ­ United States Air 
Force Academy
U.S. Army ­ United States Army
KS ­ Kansas 
OMB ­ Office of Management and Budget 
SAR ­ Standard Annual Report 
SOP ­ Standard Operating Procedure
AKO ­ Army Knowledge Online
CALL ­ Center for Army Lessons Learned
TTPs ­ Techniques, Tactics, and Procedures
MAJ ­ Major
1LT ­ First Lieutenant
DA PAM 25­40 ­ Department of the Army 
Pamphlet 25­40: Army Publishing, Action 
Officer’s Guide
DA PAM 25­30 ­ Department of the Army 
Pamphlet 25­30: Army Publishing Program
RGL ­ Reading Grade Level
LTG ­ Lieutenant General
FM 3­24 Field Manual 3­24 
PR Public Relations
e.g. exempli gratia
etc. et cetera 
SOP: Standard Operating 
Procedure
TRADOC: Training and 
Doctrine Command
USMA: United States Military 
Academy
AR: Army Regulation
FM: Field Manual
DA PAM: Department of the 
Army Pamphlet
UCMJ: Uniform Code of 
Military Justice
AKO: Army Knowledge Online
CALL: Center for Army 
Lessons Learned
TACSOP: Tactical Standard 
Operating Procedure
DMOC: Division Medical 
Operations Center
MAJ: Major
1LT: First Lieutenant
AMEDD: Army Medical 
Department
RGL: Reading Grade Level
VMI: Virginia Military Institute
USNA: United States Naval 
Academy
CGSC: Command and General 
Staff College
BAS: Battalion Aid Station
PR: Public Relations
111Jezikoslovni zapiski 31.2 (2025)
Kot je razvidno iz preglednice 3, je po številu pridobljenih krajšavno­razvezavnih 
parov najuspešnejše orodje ChatGPT s 23 pridobljenimi pari, sledita Perplexity z 
20 in Krajšavar z devetimi. Po ročnem pregledu vsebnosti krajšavno­razvezavnih 
parov v besedilu jih je bilo najdenih 13. Krajšavar je tako spregledal štiri pare, in 
sicer standard operating procedures (SOPs), tactical standard operating procedure 
(TACSOP), Pamphlet (PAM) in field manual (FM). Razlogi, zakaj navedeni primeri 
niso bili prepoznani, so razloženi v preglednici 1. Opazimo, da Krajšavar sicer del-
no pravilno prepozna par Techniques, Tactics and Procedures (TTPs), pri katerem je 
sicer pozabil navesti prvo besedo, tj. Techniques, a je par vseeno prepoznal. Chat­
GPT par Techniques, Tactics and Procedures (TTPs) prepozna, Perplexity pa ne. 
Orodje ChatGPT sicer prepozna največje število krajšavno­razvezavnih 
parov, 23, a niso vsi prisotni v besedilu. Pravilno prepoznanih je šest parov: SOPs 
– Standard Operating Procedures, TRADOC – Training and Doctrine Command, SAR 
– Standard Annual Report, AKO – Army Knowledge Online, CALL – Center for Army 
Lessons Learned, TTPs – Techniques, Tactics, and Procedures. Ostali prepoznani 
pari se v besedilu ne pojavijo, npr. USMA – United States Military Academy, KS 
– Kansas, OMB – Office of Management and Budget itn. Izpostavimo še par SOP 
– Standard Operating Procedure, ta se v besedilu pojavi v paru standard opera-
ting procedures (SOPs) ter v zapisu tactical standard operating procedure (TAC-
SOP). Opazimo torej nepravilno prepoznavanja krajšavno­razvezavnega para SOP 
– Standard Operating Procedure. Orodje ChatGPT prepozna tudi nekaj okrajšav, 
npr. e.g. in etc., ki v besedilu nimata svoje razvezave. 
Orodje Perplexity je uspešnejše, saj prepozna 8 parov, tj. AMED ­ Army 
Medical Department, BAS ­ Battalion Aid Station, AKO ­ Army Knowledge 
Online, CALL ­ Center for Army Lessons Learned, TACSOP ­ Tactical Standard 
Operating Procedure itn. Tako kot ChatGPT prepozna par SOP ­ Standard Operat-
ing Procedure, ne pa para standard operating procedures ­ SOPs. Med krajšavno-
­razvezavnimi pari, ki se v besedilu ne pojavijo, so USMA ­ United States Military 
Academy, DA PAM ­ Department of the Army Pamphlet, UCMJ ­ Uniform Code 
of Military Justice, DMOC ­ Division Medical Operations Center, MAJ – Major 
in 1LT ­ First Lieutenant. Kot zanimivost izpostavimo, da orodje Perplexity pre-
pozna par RGL [Reading Grade Level], ki ga zaradi oglatih oklepajev Krajšavar 
ne prepozna, prav tako ta krajšavno­razvezavni par prepozna orodje ChatGPT. Za 
razliko od orodja ChatGPT pa Perplexity ne prepozna okrajšav tipa e.g. ali etc. 
V nadaljevanju v preglednici 4 številčno povzamemo, koliko dobljenih, pra-
vih in haluciniranih krajšavno­razvezavnih parov je bilo prepoznanih z algorit-
mom Krajšavar ter z orodjema ChatGPT in Perplexity, dodani pa so tudi izsledki 
ročnega pregleda. 
112 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
P
re
gl
ed
ni
ca
 4
: Š
te
vi
lo
 d
ob
lje
ni
h,
 p
ra
vi
h 
in
 h
al
uc
in
ir
an
ih
 k
ra
jš
av
no
-r
az
ve
za
vn
ih
 p
ar
ov
 
s K
ra
jš
av
ar
je
m
 te
r 
or
od
je
m
a 
C
ha
tG
PT
 in
 P
er
pl
ex
ity
 p
o 
po
sa
m
ez
ne
m
 b
es
ed
ilu
Št
. b
es
ed
ila
Št
ev
ilo
 p
ar
ov
 –
 
ro
čn
i p
re
gl
ed
D
ob
lje
ni
 p
ar
i s
 
K
ra
jš
av
ar
je
m
/%
D
ob
lje
ni
 p
ar
i s
 
C
ha
tG
PT
/%
D
ob
lje
ni
 
pr
av
i p
ar
i s
 
C
ha
tG
PT
/%
H
al
uc
in
ir
an
i s
 
C
ha
tG
PT
/%
D
ob
lje
ni
 p
ar
i s
 
Pe
rp
le
xi
ty
/%
D
ob
lje
ni
 
pr
av
i p
ar
i s
 
Pe
rp
le
xi
ty
/%
H
al
uc
in
ir
an
i s
 
Pe
rp
le
xi
ty
/%
1.
2
2 
(1
00
 %
)
2 
(1
00
 %
)
2 
(1
00
 %
)
5 
(2
50
 %
)
2 
(1
00
 %
)
2 
(1
00
 %
)
3 
(1
50
 %
)
2.
6
5 
(8
3 
%
)
5 
(8
3 
%
)
5 
(8
3 
%
)
14
 (2
33
 %
)
0 
(0
 %
)
0 
(0
 %
)
0 
(0
 %
)
3.
4
4 
(1
00
 %
)
4 
(1
00
 %
)
4 
(1
00
 %
)
4 
(1
00
 %
)
0 
(0
 %
)
0 
(0
 %
)
0 
(0
 %
)
4.
4
4 
(1
00
 %
)
4 
(1
00
 %
)
4 
(1
00
 %
)
4 
(1
00
 %
)
4 
(1
00
 %
)
4 
(1
00
 %
)
2 
(5
0 
%
)
5.
3
1 
(3
3 
%
)
3 
(1
00
 %
)
3 
(1
00
 %
)
13
 (4
33
 %
)
3 
(1
00
 %
)
3 
(1
00
 %
)
6 
(2
00
 %
)
6.
12
9 
(7
5 
%
)
9 
(7
5 
%
)
9 
(7
5 
%
)
15
 (1
25
 %
)
4 
(3
3 
%
)
4 
(3
3 
%
)
4 
(3
3 
%
)
7.
5
2 
(4
0 
%
)
6 
(1
20
 %
)
4 
(8
0 
%
)
4 
(8
0 
%
)
5 
(1
00
 %
)
4 
(8
0 
%
)
2 
(4
0 
%
)
8.
2
2 
(1
00
 %
)
2 
(1
00
 %
)
2 
(1
00
 %
)
7 
(3
50
 %
)
2 
(1
00
 %
)
2 
(1
00
 %
)
7 
(3
50
 %
)
9.
2
2 
(1
00
 %
)
2 
(1
00
 %
)
2 
(1
00
 %
)
6 
(3
00
 %
)
2 
(1
00
 %
)
2 
(1
00
 %
)
4 
(2
00
 %
)
10
1
1 
(1
00
 %
)
1 
(1
00
 %
)
1 
(1
00
 %
)
2 
(2
00
 %
)
1 
(1
00
 %
)
1 
(1
00
 %
)
6 
(6
00
 %
)
11
.
2
2 
(1
00
 %
)
0 
(0
 %
)
0 
(0
 %
)
7 
(3
50
 %
)
2 
(1
00
 %
)
2 
(1
00
 %
)
10
 (5
00
 %
)
12
.
3
2 
(6
6 
%
)
3 
(1
00
 %
)
3 
(1
00
 %
)
3 
(1
00
 %
)
3 
(1
00
 %
)
3 
(1
00
 %
)
13
 (4
33
 %
)
13
.
13
9 
(6
9 
%
)
6 
(4
6 
%
)
4 
(3
0 
%
)
17
 (1
30
 %
)
7 
(5
3 
%
)
5 
(3
8 
%
)
13
 (1
00
 %
)
14
.
6
5 
(8
3 
%
)
6 
(1
00
 %
)
5 
(8
3 
%
)
9 
(1
50
 %
)
4 
(6
6 
%
)
5 
(8
3 
%
)
16
 (2
66
 %
)
15
.
1
1 
(1
00
 %
)
0 
(0
 %
)
0 
(0
 %
)
6 
(6
00
 %
)
0 
(0
 %
)
0 
(0
 %
)
0 
(0
 %
)
16
.
1
1 
(1
00
 %
)
0 
(0
 %
)
0 
(0
 %
)
2 
(2
00
 %
)
1 
(1
00
 %
)
1 
(1
00
 %
)
4 
(4
00
 %
)
17
.
10
8 
(8
0 
%
)
6 
(6
0 
%
)
6 
(6
0 
%
)
3 
(3
0 
%
)
6 
(6
0 
%
)
6 
(6
0 
%
)
8 
(8
0 
%
)
18
.
3
3 
(1
00
 %
)
2 
(6
6 
%
)
2 
(6
6 
%
)
4 
(1
33
 %
)
2 
(6
6 
%
)
2 
(6
6 
%
)
7 
(2
33
 %
)
19
.
11
11
 (1
00
 %
)
7 
(6
3 
%
)
7 
(6
3 
%
)
4 
(3
6 
%
)
7 
(6
3 
%
)
7 
(6
3 
%
)
7 
(6
3 
%
)
20
.
3
3 
(1
00
 %
)
0 
(0
 %
)
0 
(0
 %
)
2 
(6
6 
%
)
3 
(1
00
 %
)
3 
(1
00
 %
)
6 
(2
00
 %
)
21
.
5
5 
(1
00
 %
)
3 
(6
0 
%
)
3 
(6
0 
%
)
4 
(8
0 
%
)
5 
(1
00
 %
)
5 
(1
00
 %
)
7 
(1
40
 %
)
Sk
up
aj
99
82
71
63
13
5
63
61
12
5
113Jezikoslovni zapiski 31.2 (2025)
Kot je razvidno iz preglednice 4, algoritem Krajšavar prepozna krajšavno-
­razvezavne pare pri vseh besedilih, ChatGPT pa ne najde pravilnih krajšavno­raz-
vezavnih parov pri besedilih 11, 15, 16, in 20. Orodje Perplexity ne najde pravih 
krajšavno­razvezavnih parov pri besedilih 2, 3 in 15, pri slednjih orodje dejansko 
ne najde nobenega krajšavno­razvezavnega para. Krajšavar največ krajšavno­raz-
vezavnih parov najde v besedilih 6, 13 in 19, ChatGPT pri besedilu 6, Perplexity pa 
pri besedilih 17 in 19. V preglednici 4 izpostavimo še krajšavno­razvezavne pare, 
ki to niso, in sicer primerjamo izsledke, pridobljene z orodjema umetne inteligence 
ChatGPT in Perplexity. Podrobnejši izsledki za algoritem Krajšavar so predstavljeni 
v preglednici 2; skupno je bilo prepoznanih 19 parov. Iz preglednice 4 je razvidno, 
da so halucinacije pri orodju ChatGPT prisotne pri 135 parih, pri orodju Perplexity 
pa pri 125 parih. Gre za pojav krajšavno­razvezavnih parov, ki jih v besedilu ni; med 
slednjimi izpostavimo krajšave, ki so v besedilih prisotne, npr. krajšave univerz ali 
organizacij. Razvezav v besedilih ni. Med primeri smo zaznali tudi prisotnost okraj-
šav. Podrobnejši pregled haluciniranih parov je viden v prilogi in v preglednici 5.
Preglednica 5: Halucinirani pari, ki se ne pojavijo v besedilu 13
ChatGPT Perplexity
USMA	-	United	States	Military	Academy
U.S.	-	United	States
U.S.	Air	Force	Academy	-	United	States	Air	Force	Academy
U.S.	Army	-	United	States	Army
KS	-	Kansas	
OMB	-	Office	of	Management	and	Budget	
SOP	-	Standard	Operating	Procedure
MAJ	-	Major
1LT	-	First	Lieutenant
DA	PAM	25-40	-	Department	of	the	Army	Pamphlet	25-
40:	Army	Publishing,	Action	Officer’s	Guide
DA	PAM	25-30	-	Department	of	the	Army	Pamphlet	25-
30:	Army	Publishing	Program
RGL	-	Reading	Grade	Level
LTG	-	Lieutenant	General
FM	3-24	Field	Manual	3-24	
PR	Public	Relations
e.g.	exempli	gratia
etc.	et	cetera	
SOP:	Standard	Operating	Procedure
USMA:	United	States	Military	Academy
DA	PAM:	Department	of	the	Army	
Pamphlet
UCMJ:	Uniform	Code	of	Military	Justice
DMOC:	Division	Medical	Operations	
Center
MAJ:	Major
1LT:	First	Lieutenant
RGL:	Reading	Grade	Level
VMI:	Virginia	Military	Institute
USNA:	United	States	Naval	Academy
CGSC:	Command	and	General	Staff	
College
PR:	Public	Relations
114 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
V preglednici 5 so razvidni pari, ki se po ročnem pregledu v besedilu 13 ne poja-
vijo. Pari iz besedila 13 so izpostavljeni, ker je bilo v tem besedilu največ haluci-
niranih. Po pregledu smo ugotovili, da se po večini pojavijo samo krajšave, npr. 
USMA, LTG, etc., ali pa samo razvezave, npr. Kansas. Opazimo še, da se med pari 
pojavi tudi niz RGL ­ Reading Grade Level, ki ga prepoznata obe orodji. Razveza-
va se pri slednjem v besedilu pojavi v oglatih oklepajih, zato Krajšavar tega para 
ne prepozna. Pri parih iz preglednice 5 lahko govorimo o dveh vrstah halucinacije. 
Poudariti velja, da orodje ChatGPT prepozna krajšave, ki se pojavijo v besedilu, 
npr. USMA in LTG, čeprav v besedilu ni njihovih razvezav, prepozna pa tudi 
pare, ki v besedilu sploh niso prisotni, npr. KS in CGSC. Tu bi želeli poudariti, 
da je bil cilj raziskave v naboru izbranih besedil iskati krajšavno­razvezavne pare. 
V ta namen je bilo tudi navodilo za filtracijo z orodjema ChatGPT in Perplexity 
usmerjeno v iskanje krajšavno­razvezavnih parov v priloženem besedilu, saj samo 
na tak način pridobimo primerljive izsledke z algoritmom Krajšavar, ki krajšavno-
­razvezavne pare išče izključno v izbranem besedilu. Tu velja izpostaviti, da tako 
ChatGPT kot Perplexity prepoznata nekaj več parov, kot jih je ročno najdenih v 
besedilu. To je seveda pozitivno, če želimo pridobiti čim več parov, negativna plat 
pa je, da so vmes tudi halucinacije in da utegnejo biti rezultati manj zanesljivi.
 5 sKlep
Prispevek se osredinja na primerjavo izsledkov filtracije angleških varstvoslov-
nih besedil z algoritmom Krajšavar in orodjema umetne inteligence (ChatGPT in 
Perplexity) v procesu prepoznavanja krajšavno­razvezavnih parov. Filtrirali smo 
21 besedil, ki smo jih zbrali na podlagi tipološke klasifikacije varstvoslovnih be-
sedil, in sicer smo zaradi usklajene dolžine in s tem lažjega ročnega pregledovanja 
kot kategorijo izbrali znanstvena besedila s področja varnosti, policije, prava in 
vojske (2). Ročno smo pregledali nabor krajšavno­razvezavnih parov v filtrira-
nih besedilih ter izsledke primerjali v smislu točnosti in natančnosti pridobljenih 
krajšavno­razvezavnih parov z algoritmom Krajšavar ter z orodjema ChatGPT 
in Perplexity. Iz pridobljenih izsledkov lahko povemo, da je pri prepoznavanju 
krajšavno­razvezavnih parov najbolj točen algoritem Krajšavar, ki pridobi 82 % 
točnih parov, sledita ChatGPT z 71 % in Perplexity s 63 %. Haluciniranih kraj-
šavno­razvezavnih parov, pridobljenih z orodjem ChatGPT, je za 214 % več kot 
pravih parov, z orodjem Perplexity pa za 204 % več. Tu velja omeniti, da so med 
haluciniranimi pari tudi tisti, ki v besedilu niso sestavljeni iz krajšave in razve-
zave; praviloma se pojavi samo krajšava. Smiselno je ločevati med pari, ki so v 
besedilu dejansko prisotni v obliki krajšave ali razvezave, ter pari, ki v besedilu 
sploh niso pristoni. V besedilu 13 orodje ChatGPT dopolni vse najdene krajšave, 
115Jezikoslovni zapiski 31.2 (2025)
orodje Perplexity pa dopolni razvezavo Virginia Military Institute s krajšavo VMI 
in razvezavo Uniform Code of Military Justice s krajšavo UCMJ. Orodje dopolni 
tudi preostale krajšave z izjemo krajšavno­razvezavnega para CGSC ­ Command 
and General Staff College, ki se v besedilu ne pojavi, torej orodje par povsem ha-
lucinira. Prednost orodij ChatGPT in Perplexity je nedvomno v tem, da najdeta 
pare krajšav in razvezav, tudi če se slednje ne pojavijo v besedilu. Te zmožnosti 
Krajšavar nima, saj išče samo krajšavno­razvezavne pare, ki se pojavijo v besedi-
lu. Cilj raziskave je bil vsekakor iskati izključno krajšavno­razvezavne pare, ki se 
pojavijo v besedilu, saj lahko na tak način primerjamo točnost algoritma in orodij 
umetne inteligence. Raziskava je pokazala visoko točnost algoritma Krajšavar, 
ki pa bo vsekakor dodatno izboljšan, npr. možnosti nalaganja dokumenta, kot to 
omogočata ChatGPT in Perplexity, saj se bo tako poenostavila filtracija. Prednost 
orodij umetne inteligence vidimo predvsem v zmožnosti pridobivanja krajšav in 
razvezav tudi izven filtriranega besedila, kar je seveda pozitivno pri izgradnji po-
tencialnih podatkovnih baz krajšavno­razvezavnih parov, ki utegnejo služiti kot 
gradivo za pripravo glosarjev ali slovarjev. Vsekakor bi bilo treba pri pogovornih 
botih raziskati, ali ti utegnejo delovati bolje, če se v navodila dodajo natančnejši 
opisi oz. če je treba take opise ponoviti pri vsaki posamezni filtraciji besedila. 
  literatura
Bezlaj 1995 =	France	Bezlaj,	Etimološki slovar slovenskega jezika 3: P–S, dopolnila in uredila Metka	
Furlan	–	Marko	Snoj,	Ljubljana:	Mladinska	knjiga,	1995.
Byrd – Park 2011	=	Roy	J.	Byrd	–	Youngja	Park,	Hybrid	TextMining	for	Finding	Abbreviations	and	
Their	Definitions,	IMB Thomas J. Watson Research Center	(2011),	167–170.
ChatGPT, marec 2025, https://chatgpt.com.	
Debenjak – Debenjak – Debenjak 1992	=	Doris	Debenjak	–	Božidar	Debenjak	–	Primož	Debenjak,	
Veliki nemško-slovenski slovar = Grosses deutsch-slowenisches Wörterbuch, Ljubljana: Držav-
na	založba	Slovenije,	1992.
de Schryver 2023	=	Gilles-Maurice	de	Schryver,	Generative	AI	and	Lexicography:	the	Current	State	
of	the	Art	Using	ChatGPT,	International Journal of Lexicography	36.4	(2023),	355–387,	DOI:	
https://doi.org/10.1093/ijl/ecad021.
Digitalna slovarska baza za slovenščino, 2023–,	 https://www.cjvt.si/blog/oznaka/digitalna-slovar-
ska-baza-za-slovenscino/.
Gabrovšek 1994	=	Dušan	Gabrovšek,	Kodifikacija	angleškega	jezika	v	specializiranih	enojezičnih	
slovarjih:	too	much	of	everything?, Vestnik 28.1–2	(1994),	150–180.
Gelernter – Judith 2013	=	Judith	Gelernter	–	Shilpa	Balaji,	An	algorithm	for	local	geoparsing	of	
microtext, Geoinformatica 17	(2013),	635–667.
Hajnšek-Holz – Jakopin 1996	=	Milena	Hajnšek-Holz	–	Primož	Jakopin, Odzadnji slovar slovenske-
ga jezika po Slovarju slovenskega knjižnega jezika,	Ljubljana:	Založba	ZRC,	ZRC	SAZU,	1996.	
Huang idr. 2022	=	Xiusheng	Huang	–	Bin	Li	–	Fei		Xia	–	Yixuan	Weng,	A	novel	initial	reminder	framework	
for	acronym	extraction,	v: SDU@AAAI-22,	2022, 	https://ceur-ws.org/	Vol-3164/paper29.pdf.
Humar 2004	=	Marjeta	Humar	(ur.),	Terminologija v času globalizacije: zbornik prispevkov s simpo-
zija Terminologija v času globalizacije, Ljubljana, 5.-6. junij 2003 = Terminology at the time 
of globalization, Ljubljana: Znanstvenoraziskovalni center SAZU, Založba ZRC = Scientific 
Research Centre SASA, ZRC Publishing, 2004.
116 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
Jakubíček – Rundell 2023	=	Miloš	Jakubíček	–	Michael	Rundell,	The	end	of	 lexicography?	Can	
ChatGPT	outperform	current	tools	for	post-editing	lexicography.	v: Electronic lexicography in 
the 21st century: invisible lexicography,	Brno:	Lexical	Computing,	2023,	518–533,	https://elex.
link/elex2023/wp-content/uploads/102.pdf.	
Kolokacijski slovar sodobne slovenščine, 2018–,	https://viri.cjvt.si/kolokacije/slv/#
Kompara Lukančič 2009	=	Mojca	Kompara	Lukančič,	Prepoznavanje	krajšav	v	besedilih,	Jeziko-
slovni zapiski 15.1–2	(2009),	95–112.	
Kompara Lukančič 2010	=	Mojca	Kompara	Lukančič,	Krajšavni	slovarji,	Jezikoslovni zapiski	16.2	
(2010),	111–129.
Kompara Lukančič 2011	=	Mojca	Kompara	Lukančič,	Razvoj	algoritma	za	samodejno	prepozna-
vanje	krajšav	in	krajšavnih	razvezav	v	elektronskih	besedilih,	Jezikoslovni zapiski 17.2	(2011),	
107–122.
Kompara Lukančič 2018	=	Mojca	Kompara	Lukančič,	Sinhrono-diahroni pregled krajšav v slo-
venskem prostoru in sestava slovarja krajšav,	Maribor:	Univerza	 v	Mariboru,	Univerzitetna	
založba,	2018.
Kompara Lukančič 2023a	=	Mojca	Kompara	Lukančič,	Compilation	of	English	entries	in	the	con-
temporary	 Slovene	 dictionary	 of	 abbreviations,	 International Journal of Lexicography	 36.2	
(2023),	195–210.	
Kompara Lukančič 2023b	 =	Mojca	 Kompara	 Lukančič, English for specific purposes: selected 
read ings from the field of English for criminal justice and security,	Maribor:	Univerza	v	Mari-
boru,	Univerzitetna	založba,	2023.
Kompara Lukančič 2025 =	Mojca	Kompara	Lukančič,	Prepoznavanje krajšav in razvezav v ang-
leških besedilih s področja varstvoslovja z algoritmom Krajšavar ter orodjema ChatGPT in 
Perplexity [zaključena	zbirka	raziskovalnih	podatkov],	2025,	https://dk.um.si/IzpisGradiva.ph-
p?lang=slv&id=95507.	
Kompara Lukančič – Holozan 2011	=	Mojca	Kompara	Lukančič	–	Peter	Holozan,	What	is	needed	
for	automatic	production	of	simple	and	complex	dictionary	entries	in	the	first	Slovene	online	
dictionary	of	abbreviations	using	Termania	website,	v:	Electronic lexicography in the 21st cen-
tury: new applications for new users,	ur.	Iztok	Kosem	–	Karmen	Kosem,	Ljubljana:	Trojina,	
2011,	140–146.
Kompara Lukančič – Smajla 2025	 =	Mojca	Kompara	Lukančič	 –	 Tilen	 Smajla,	Krajšavar—an	
algorithm	for	recognizing	English	abbreviations	in	texts	related	to	criminal	justice	and	security,	
International Journal of Lexicography 38.3 (2025),	237–269,	DOI:	https://doi.org/10.1093/ijl/
ecaf012.
Kosem 2024	=	Iztok	Kosem,	Veliki slovensko-madžarski slovar, različica	2.0,	rastoči	slovar,	Založba	
ZRC	SAZU,	2024–,	https://franja.si/slovar/sl-ma.
Kosem – Gantar – Krek 2013	=	Iztok	Kosem	–	Polona	Gantar	–	Simon	Krek,	Avtomatizacija	leksi-
kografskih	postopkov, Slovenščina 2.0 1.2	(2013),	139–164.
Košmrlj-Levačič – Seliškar 2004	=	Borislava	Košmrlj-Levačič	–	Tomaž	Seliškar,	Uporabniški	ra-
čunalniški	program SlovarRed 2.0,	v: Terminologija v času globalizacije,	ur.	Marjeta	Humar,	
Ljubljana:	Znanstvenoraziskovalni	center	SAZU,	Založba	ZRC,	2004,	179–199.
Kuo idr. 2009	=	Cheng-Ju	Kuo	–	Maurice	HT	Ling	–	Kuan-Ting	Lin	–	Chun-Nan	Hsu,	BIOADI:	a	
machine	learning	approach	to	identifying	abbreviations	and	definitions	in	biological	literature,	
v:	Eight International Conference on Bioinformatics 10 (2009),	S7,	https://bmcbioinformatics.
biomedcentral.com/articles/10.1186/1471-2105-10-S15-S7.
Larkey idr. 2000	=	Leah	S.	Larkey	–	Paul	Ogilvie	–	M.	Andrew	Price	–	Brenden	Tamilio,	Acrophile:	
an	Automated	Acronym	Extractor	and	Server	in	Digital	Libraries,	v:	Proceedings of the Fifth 
ACM Conference on Digital Libraries,	ur.	Peter	J.	Nürnberg	–	David	L.	Hicks	–	Richard	Futura,	
New	York:	Association	for	Computing	Machinery,	2000,	205–214.	
Lew 2023	=	Robert	Lew,	ChatGPT	as	 a	COBUILD	 lexicographer,	Humanit Soc Sci Commun	 10	
(2023),	704,	DOI:	https://doi.org/10.1057/s41599-023-02119-6.
Liu – Liu – Huang 2017	=	Jie	Liu	–	Caihua	Liu	–	Yalou	Huang,	Multi-granularity	sequence	labeling	
model	for	acronym	expansion	identification, Information Sciences 378	(2017),	462–474.
117Jezikoslovni zapiski 31.2 (2025)
Mikolič 2007	=	Vesna	Mikolič,	Tipologija	turističnih	besedil	s	poudarkom	na	turističnooglaševalskih	
besedilih,	Jezik in slovstvo	52.3–4	(2007),	107–116.
Montalvo idr. 2018	=	Soto	Montalvo	–	Raquel	Martínez	–	Mario	Almagro	–	Susana	Lorenzo,	MAM-
TRA-MED	at	Biomedical	Abbreviation	Recognition	and	Resolution	-	IberEval	2018,	v:	CEUR 
Workshop Proceedings,	ur. María	Teresa	Martín-Valdivia	–	María	Dolores	Molina-González	
–	Salud	María	Jiménez-Zafra, 2018,	1–8,	https://ceur-ws.org/Vol-2150/BARR2_paper1.pdf.
Perplexity = Perplexity, marec 2025, https://www.perplexity.ai 
Rundell 2023	=	Michael	Rundell,	Automating	the	creation	of	dictionaries:	are	we	nearly	 there,	v:	
Asialex 2023 Proceedings, Lexicography, Artificial Intelligence and Dictionary Users,	Seoul:	
Yonsey	University,	2023,	9.	
Schwartz – Hearst 2003	=	Ariel	S.	Schwartz	–	Marti	A.	Hearst,	A	simple	algorithm	for	identifying	
abbreviation	definitions	in	biomedical	texts,	v:	Proceedings of the Pacific Symposium on Bio-
computing,	ur.	Russ	B.	Altman	–	A.	Keith	Dunken	–	Lawrence	Hunter	–	Tiffany	A.	Jung	–	Teri	
E.	Klein,	Kauai:	Indiana	University	School	of	Medicine,	2003,	451–462.	
Slovar sopomenk sodobne slovenščine = Slovar sopomenk sodobne slovenščine,	2017–,	http://viri.
cjvt.si/sopomenke/slv/
Snoj 1998	=	Marko	Snoj,	Slovenski etimološki slovar, Ljubljana: Založba ZRC SAZU, 1998.
SP 2001 = Slovenski pravopis,	2014, www.fran.si.
Šatev – Nikolov 2008	=	Vesna	Šatev	–	Nicolas	Nikolov,	Using	the	Web	as	a	Corpus	for		Extracting	
Abbreviations	in	the	Serbian	Language,	v:	Jezikovne tehnologije: zbornik 11. mednarodne mul-
tikonference Informacijska družba – IS,	ur.		Tomaž	Erjavec	–	Jerneja	Žganec	Gros,	Ljubljana:	
Institut	Jožef	Stefan,	2008,	75–79.	
Taghva – Gilbreth 1999	=	Kazem	Taghva	–	Jeff	Gilbreth,	Recognizing	acronyms	and	their	defini-
tions,	International Journal on Document Analysis and Recognition	1.4	(1999),	191–198.	
Veyseh idr. 2020	=	Amir	Pouran	Ben	Veyseh	–	Franck	Dernoncourt	–	Thein	Huu	Nguyen	–	Walter	
Chang	–	Leo	Anthony	Celi,	Acronym	identification	and	disambiguation	shared	tasks	for	scien-
tific	document	understanding. arXiv preprint arXiv:2012.11760,	https://ceur-ws.org/Vol-2831/
paper33.pdf 
Veyseh idr. 2022	=	Amir	Pouran	Ben	Veyseh	–	Nicole	Meister	–	Franck	Dernoncourt	–	Thein	Huu	
Nguyen,	Acronym	extraction	and	acronym	disambiguation	shared	 tasks	at	 the	Scientific	Do-
cument	Understanding	Workshop	2022,	v:	Proceedings of the Scientific Document Understan-
ding Workshop 2022,	ur.	Amir	Pouran	Ben	Veyseh	idr.,	2022,	https://ceur-ws.org/Vol-3164/.
Vossen 2022	=	Piek	Vossen,	ChatGPT	Is	a	Waste	of	Time,	VU Magazine,	2022,	https://vumagazine.
nl/professor-piek-vossen-chatgpt-is-a-waste-of-time?lang=en.
Verovnik 2023	=	Tina	Verovnik,	Pomen	javne	razprave	za	prenovo	pravopisnih	pravil,	Škrabčevi dnevi 
12,	ur.	Danila	Zuljan	Kumar – Helena	Dobrovoljc,	Nova	Gorica:	Založba	Univerze,	2023,	35–43.	
Weiss 1998	=	Peter	Weiss,	Slovar govorov Zadrečke doline: med Gornjim Gradom in Nazarjami: 
poskusni zvezek (A–H), Ljubljana: Založba ZRC SAZU,	1998.
Weiss 1991	 =	Peter	Weiss,	Zasnova	novega	odzadnjega	 slovarja	 slovenskega	 jezika,	Jezikoslovni 
zapiski 1.1	(1991),	121–139.	
Wu idr. 2015	=	Yonghui	Wu	–	Jun	Xu	–	Yaoyun	Zhang	–	Hua	Xu,	Clinical	abbreviation	disambigu-
ation	using	neural	word	embeddings,	v:	Proceedings of BioNLP 15, ur. Kevin Bretonnel Cohen 
idr., Beijing: Association for Computational Linguistics, 2015, 171–176,	DOI:	 10.18653/v1/
W15-38.
Xu – Huang 2005	=	Jun	Xu	–	Ya-Lou	Huang,	A	machine	learning	approach	to	recognizing	acronyms	
and	their	expansion. v: 2005 International Conference on Machine Learning and Cybernetics 4,	
ur.	Daniel	S.	Yeung	–	Zhi-Qiang	Liu,	Guangzhou,	China:	Springer-Verlag,	2005,	2313–2319.
Yeates 1999	=	Stuart	Yeates,	Automatic	 extraction	of	 acronyms	 from	 text,	 v:	Proceedings of the 
Third New Zealand Computer Science Research Students, ur.	David	Bainbridge	–	Stuart	A.	
Yeast,	 1999,	 https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=31fcd-
3c1ac62b3612c071adc13c3b041644a2222.
Zahariev 2004	=	Manuel	Zahariev,	A (Acronyms),	doktorska	disertacija,	Simon	Fraser	University,	
School	of	Computing	Science,	2004.
118 Mojca Kompara Lukančič  PrePoznavanje krajšav in razvezav v angleških besedilih ...
Zhou – Torvik – Smalheiser 2006	=	Wei	Zhou	–	Vetle	 I.	Torvik	–	Neil	R.	Smalheiser,	ADAM:	
another	database	of	abbreviations	in	MEDLINE,	Bioinformatics	22	(2006),	2813–2818.
 
  summary
Recognizing Abbreviations and Their Expansions in English Criminal 
Justice and Security Texts Using the Krajšavar Algorithm, Chat GPT, 
and Perplexity
The integration of artificial intelligence (AI) tools into linguistic analysis has introduced 
novel methodologies for recognizing abbreviation–expansion pairs in domain­specific 
texts. This study evaluates the performance of ChatGPT and Perplexity in comparison 
with the Krajšavar algorithm, focusing on English­language texts within the field of crim-
inal justice and security studies. A manually prepared corpus of 21 scientific texts—span-
ning law enforcement, military, legal, and security domains—was subjected to automated 
filtering and manual validation.
 The Krajšavar algorithm, designed to detect abbreviation–expansion pairs explicitly 
present in text, demonstrated superior accuracy (82%) compared with ChatGPT (71%) 
and Perplexity (63%). However, both AI tools exhibited a high incidence of hallucinated 
pairs, with ChatGPT and Perplexity generating 214% and 204% more false positives than 
valid matches, respectively. Despite this limitation, the AI tools showed an enhanced ca-
pacity to infer expansions not explicitly stated, suggesting potential utility in constructing 
comprehensive abbreviation databases.
 The study underscores the importance of aligning tool capabilities with research 
objectives, particularly when precision in textual analysis is paramount. Future improve-
ments to the Krajšavar algorithm—such as the addition of document upload functional-
ity—may enhance its usability and integration. Overall, the findings highlight the comple-
mentary strengths and limitations of AI­driven and algorithmic approaches to abbreviation 
recognition within specialized corpora.