Delež minimalnih parov besed med besednimi oblikami in lemami Primož Jakopin The Share of Minimal Pairs for Word Forms and Lemmas o o fS • m HH Minimalni pari besed so pari, ki se med seboj razlikujejo samo v enem fo-nemu (nika, bika). V prispevku je s pomočjo besedilnega korpusa Nova beseda (za besedne oblike) in gesel v viru Besede slovenskega jezika (za leme) N prikazan delež teh parov glede na sosednje, dve črki oddaljene pare in glede na vse možne pare enako dolgih besed . Izkaže se, da delež minimalnih pa- ^ rov glede na sosednje pare raste z dolžino in da je bistveno večji pri bese- Z dnih oblikah kot pri lemah O hJ Minimal pairs differ by only a single phoneme (e . g . , pear/bear) . This article j/^ uses words from the index of the text corpus Nova beseda (New Word; 240 q million running words) and lemmas from the web resource Besede slovenskega jezika (Slovenian Words; 356,000 entries) to calculate the share of ^ minimal pairs with regard to near-minimal pairs in which words differ by two letters, and among all possible word pairs of equal length . The share ^ increases with word length and is also significantly greater for word forms than for lemmas 1 Uvod Pri ugotavljanju pomenskorazločevalnih enot (fonemov) v jezikoslovju in z njimi povezanih raziskavah (npr. Orešnik 2008) imajo pomembno vlogo t. i . minimalni pari besed. To so pari besed, ki se med seboj razlikujejo samo v enem fonemu, primer je npr. par (nika, bika). Namen prispevka je osvetliti njihov delež glede na sosednje, dve črki oddaljene besedne pare in vse možne pare enako dolgih besed, delež tako med besednimi oblikami kot tudi med besednimi lemami . Ker ustrezno velikega fonemsko zapisanega vira za slovenski jezik še ni na razpolago, sta bila za odgovor na hipotetično vprašanje s programom EVA, orodjem za obdelavo jezikovnih virov (Jakopin 1995), obdelana dva besedna vira: indeks besedilnega korpusa Nova beseda (Jakopin - Michelizza 2009) ter gesla v viru Besede slovenskega jezika (Gložančev idr. 2009), oba si je mogoče ogledati na spletnem naslovu http://bos . zrc-sazu. si/. E Z I K O S L 0 V z 1 Z A P I S K I 1 Ui • 9 2 2 Gradivo V obeh že v uvodu omenjenih besednih virih je bilo potrebno pred obdelavo opraviti ustrezen izbor . Odločiti se je treba za spodnjo in zgornjo mejo dolžine, do katere bi opazovali odnos med minimalnimi pari in med dve črki oddaljenimi pari . Spodnja meja se ponuja kar sama od sebe, to je dolžina treh črk, zgornja meja pa zahteva nekaj več premisleka. Po drugi strani pa je smiselno oba seznama omejiti glede na sestavo . Predvsem prvi ne vsebuje samo besed v običajnem pomenu, jezikovnih enot iz glasov za označevanje pojmov (SSKJ 1), ampak tudi nebesedne enote (Jakopin 2001), ki jih je posebno veliko med daljšimi enotami v indeksu. Tako je v njem med 6113 enotami z dolžino vsaj 30 znakov, najdaljša je dolga 249 znakov, le 61 takih, ki so sestavljene samo iz črk Prevladujejo spletni in elektronski naslovi, skupaj jih je 4332, na osmem mestu je prvo število, 134 znakov dolgi googol, s katerim sta si pomagala Larry Page in Sergej Brin, ko sta iskala ime za svoj zdaj vodilni iskalnik, najdaljša prava beseda, na 859. mestu, je vrstilni števnik šestmilijontidvestotriin-dvajsettisočtristodvaintrideseti, dolg 56 znakov, prvi trije samostalniki, dolgi 32, 31 in 30 črk: prapraprapraprapraprapravnukinja, klavstrofilofoboksenofilofobija in psihonevroendokrinoimunologija so pa že bolj na repu te skupine . Slika 1: Krivulja rasti za enote v indeksu Nove besede Da bi bili rezultati bolj značilni za slovenski jezik, so bile upoštevane le enote v indeksu, sestavljene samo iz črk in s frekvenco vsaj 5, merilu, ki ga je, sicer za angleški jezik, predlagal Sinclair (1991); pri drugem viru pa le gesla iz črk. S slike 1 je razvidno, da najpogostejše 4 besedne oblike v besedilih (je, v, in in na) skupaj pokrijejo 10 % celote, najpogostejših 500 skupaj približno polovico korpusa, za 75-odstotno pokritost jih je potrebnih že 8000, za 90-odstotno pa dobrih 32.000. Omejitev na pogostnost 5 sicer res odreže proč dve tretjini bolj eksotičnih enot, ki pa pokrijejo le približno 0,75 % korpusa . Enkratnic, besednih oblik, ki se v korpusu pojavijo samo enkrat (angl. hapax legomena), je namreč 783 .000, to je skoraj polovica (46,5 %) različnih enot. Za izbor zgornje meje dolžine, do katere bi opazovali obnašanje deleža minimalnih parov si je vredno ogledati porazdelitev dolžin bese- ^^ dnih enot v obeh virih, ki je prikazana na sliki 2 . ^^^ ^ o o fS • m HH < NN Z > O hJ ^ o NN N H Slika 2: Porazdelitev dolžin besed iz Nove besede in Besed slovenskega jezika Vrednosti za besedne oblike iz indeksa Nove besede označene svetlosivo, za gesla iz seznama Besede slovenskega jezika pa temnosivo Prve dosežejo vrh pri dolžini 8 črk, druge pri 9, in tudi upadanje proti večjim dolžinam je pri lemah dosti počasnejše. Avtor se je glede na prikazano odločil zgornjo mejo opazovane dolžine postaviti pri 17 . Preglednica 1: Obseg prvega vira, besednih oblik iz indeksa Nove besede Celoten indeks Frekvenca vsaj 5 Samo enote iz črk Dolžina 3-17 Različnih 1.684.465 510 . 007 466 556 463 876 Vseh 239 .786.693 237 .976.732 232.417.205 166.629 .956 Iz zadnje vrednosti drugega stolpca je razviden velik delež oblik z dolžino 2 . Že najpogostejših 12: je, in, na, da, za, se, ki, so, pa, ne, bi in po ima vsoto pogostnosti prek 40 milijonov . Drugi vir, gesla iz seznama Besede slovenskega jezika, je bolj v skladu s pričakovanji, najdaljša beseda v njem je že videni števnik, sledita samostalnika dvaalfahidroksibencilbenzimidazol in klavstrofilofoboksenofilofobija, na naslednjih mestih pa sta prislov primerjalnoliterarnozgodovinsko ter pridevnik filozofskolite-rarnozgodovinski Pot do gradiva za raziskavo je v tem primeru krajša: vseh gesel je 356.912, ko upoštevamo le različna gesla iz črk, jih ostane 352.242, po dolžinski omejitvi na 3-17 pa 345.339. K O S L 0 V z 1 Z A P I S K I 1 5 2 3 Delež minimalnih parov Za izračun tega podatka je treba najprej vedeti, koliko je vseh možnih besednih parov. Vzemimo za pomoč pri izpeljavi najpogostejše besedne oblike iz Nove besede, ki so dolge 5 črk: lahko, nekaj, sicer, proti, potem, drugi in treba. Če sta besedi dve, je možen en par: (lahko, nekaj). Če so besede 3, so pari trije: (lahko, nekaj), (lahko, sicer) in (nekaj, sicer). 4 besede dajo 6 parov, 5 besed 10, 6 besed 15 in 7 besed 21 parov: (lahko, nekaj), (lahko, sicer), (lahko, proti), (lahko, potem), (lahko, drugi), (lahko, treba), (nekaj, sicer), (nekaj, proti), (nekaj, potem), (nekaj, drugi), (nekaj, treba), (sicer, proti), (sicer, potem), (sicer, drugi), (sicer, treba), (proti, potem), (proti, drugi), (proti, treba), (potem, drugi), (potem, treba) in (drugi, treba). Gre za kombinacije (reda r med n elementi) brez ponavljanja (npr. Jamnik 1994: 241), v matematiki navadno označene kot C (n, r) = n (n - 1) (n - 2) ... (n - r + 1) = n! r(n - r)! V našem primeru je red r enak 2 in zveza se močno poenostavi: n C (n, 2) = = n (n - 1) n!(n - 2)! 2 (1) (2) Število besed v obeh opazovanih virih ni majhno, število možnih parov pa seveda zvezi (2) ustrezno večje . Pred desetletjem ali dvema bi ugotavljanje števila minimalnih parov in števila parov besed, ki se razlikujejo za dve črki za tehnologijo tistega časa predstavljalo znaten napor, danes pa je problem rešljiv v nekaj minutah procesorskega časa . Dobljene vrednosti so navedene v preglednici 2 . Preglednica 2: Pari glede na dolžino pri besednih oblikah iz Nove besede Dolžina n Vseh parov Minimalnih parov Parov z razdaljo 2 3 6.054 18 .322.431 106.105 2 . 211.662 4 14.156 100.189 .090 126. 958 2 276 598 5 33 227 552.000.151 137. 808 2.174 .036 6 51. 580 1.330.222.410 110 . 650 1.270.261 7 65 326 2.133 .710.475 84 453 552.932 8 71 575 2 561 454 525 75 376 309 .147 9 65 . 527 2.146.861.101 58 903 151.417 10 53 .424 1.427 .035 .176 42 454 73 224 11 39 086 763 .838 .155 28 .311 35 .316 12 26.615 354 .165 .805 17 .522 18 .460 13 16 . 860 142.121.370 10.606 9 .156 14 10 . 004 50.035 .006 5 984 4 389 15 5 791 16.764 .945 3 .198 2 020 16 2.988 4 462 578 1 566 876 17 1 663 1 381 953 837 434 Skupaj 463 876 11.602. 565 .171 810.731 9 089 928 Po pričakovanju so deleži minimalnih parov in njihovih sosedov večji pri krajših dolžinah in potem padajo, skupaj je delež minimalnih parov glede na celoto (810 .731 od 11.602. 565.171) zaokroženo 0,00007 ali 0,07 največji, 7 je pri dolžini 3, najmanjši, 0,027 pa pri dolžini 9 . Zanimiv je tudi odnos med minimalnimi pari in njihovimi sosedi, glede na dolžino . Če upoštevamo vse dolžine, je število minimalnih parov približno 9 % števila parov z razdaljo 2 ali enajstkrat manj. Pri parih kratkih besednih oblik je minimalnih parov v primerjavi s pari z razdaljo 2 malo, približno 5 % števila, potem pa se razmerje spreminja in pri dolžini 14 je minimalnih parov že več, pri dolžini 17 skoraj dvakrat več Preglednica 3: Pari glede na dolžino pri geslih v seznamu Besede slovenskega jezika Dolžina n Vseh parov Minimalnih parov Parov z razdaljo 2 3 1. 566 1 225 395 15 .176 207 .873 4 4 606 10.605 .315 22 506 317 .459 5 12.760 81 402 420 38 065 528 .196 6 21. 848 238 .656.628 39 376 444 021 7 33 693 567 .592.278 41 380 419 468 8 44 586 993 933 405 38 .341 364 .312 9 48 416 1.172.030.320 24 670 200 024 10 46 507 1.081.427 .271 14 .222 94 .913 11 39 469 778 .881.246 7 542 41 499 12 30 837 475 444 866 3 997 18 .417 13 22 540 254 .014 .530 1 868 6 850 14 15 . 364 118 .018 .566 896 2 742 15 10.461 54 .711.030 460 1. 307 16 6 570 21.579 .165 235 519 17 4 268 9 .105 .778 131 263 Skupaj 343 .491 5 . 858 .628 .213 248 .865 2.647 .863 o o fS • m HH < NN Z > O hJ ^ o NN N H Pri geslih iz seznama Besede slovenskega jezika, kjer izpeljane besedne oblike ne nastopajo in kjer tudi ni imen, je minimalnih parov manj . Skupaj je delež minimalnih parov glede na celoto (248.865 od 5. 858.628.213) zaokroženo 0,00004 ali 0,04 Največji, 12 je pri dolžini 3, najmanjši, 0,007 pa pri dolžini 13. Odnos med minimalnimi pari in njihovimi sosedi je zelo primerljiv: skupaj je prvih glede na druge spet približno 9 % ali enajstkrat manj. Pri nobeni dolžini število minimalnih parov ne preseže števila sosednjih parov, res pa je, da razmerje praktično monotono narašča, od 7 % pri dolžini 3 do 50 % pri dolžini 17 K O S L 0 V z 1 Z A P I S K I 1 Ui • 9 2 3 4 5 6 7 B 9 1Q 11 lE 13 14 15 16 17 d Slika 3: Razmerje med minimalnimi pari in pari z razdaljo 2 pri besednih oblikah Nove besede in geslih Besed slovenskega jezika Bolj nazorno je odnos med minimalnimi pari in pari z razdaljo 2 glede na dolžino besed razviden s slike 3. Prvi vir je označen s svetlosivo, drugi pa s temnosivo barvo 4 Sklep Jezik, besede in črke v njem, zabeležene v pisanem sporočilu, bi se komu, ki bi uporabljal drugačen način komunikacije, morda na drugi strani Hubblovega obzorja, le zelo na hitro in od daleč zdeli kot zaporedje naključno nabranih in s presledki razmejenih nizov črk in ločil . Že njihove pogostnosti razkrijejo nekaj osnovnih zakonitosti, množica pravil, ki se jo da razbrati iz njihovih odnosov, pa kaj kmalu preraste okvirje, ki smo jih vajeni pri opisu procesov v naravoslovnih znanostih. Tako tudi v prispevku ugotovljeni nelinearen in nemonoton odnos med minimalnimi pari besed in pari, ki se razlikujejo v dveh črkah, odpira nova vprašanja za empirični premislek in pojasnitev . Viri in literatura Gložančev idr. 2009 = Alenka Gložančev idr. 2009, Novejša slovenska leksika (v povezavi s spletnimi jezikovnimi viri), Ljubljana: Založba ZRC, 2009. Jakopin 1995 = Primož Jakopin, EVA - a Textual Data Processing Tool, TELRI Newsletter 2, December 1995, 13. Jakopin 2001 = Primož Jakopin, Words and nonwords as basic units of a newspaper ^^ text corpus, COMPLEX 2001 / 6th Conference on Computational Lexico- 'iT graphy and Corpus Research »Computational Lexicography and New EU ^^ Languages«, University of Birmingham, 49-65 Jakopin - Michelizza 2009 = Primož Jakopin - Mija Michelizza, Besedilni korpus Nova beseda, Mostovi 41 (2007/08), št. 1-2, 165-176. Orešnik 2008 = Janez Orešnik, Natural syntax: English reported speech, Studia ^ Anglica Posnaniensia 44 (2008), 218-252. ^ Sinclair 1991 = John Sinclair, Corpus, Concordance, Collocation, Oxford: Oxford ^ University Press, 1991. ^ SSKJ 1 = Slovar slovenskega knjižnega jezika 1, Ljubljana: DZS, 1970. Z > O hJ m o NN N H K O S L 0 V z 1 Z A P I S K I 1 Ui • 9 2 Primož Jakopin, Delež minimalnih parov besed med besednimi oblikami in lemami The Share of Minimal Pairs for Word Forms and Lemmas Summary This article investigates the shares of minimal pairs (pairs of words that differ only in a single phoneme such as nika/bika) among near-minimal pairs, in which words differ by two letters and among all possible word pairs of equal length . Because no suitable language resource with phonemes in lemmas and word forms is available for Slovenian, two resources for the written language were used: the index of the text corpus Nova beseda (New Word; 240 million running words, 500,000 different words) and lemmas from the web resource Besede slovenskega jezika (Slovenian Words; 356,000 entries) . They are both available at bos . zrc-sazu. si/index_en.html . The EVA language resource tool (http://www. laze .org/eva) was used for processing The number of all possible equal-length word pairs is large but manageable: 12 billion for word forms and 6 billion for lemmas . Figure 4: Frequencies of minimal word pairs (black), neighbouring word pairs (light grey) and all word pairs as related to word length for wordforms in Nova beseda As can be concluded from Figure 4, the share of minimal pairs among all word pairs and among near-minimal pairs increases with word length. It is also worth noting that the number of minimal pairs is smaller by an order of magnitude than the number of near-minimal pairs that differ by two letters, for word lengths from three to five letters For word lengths from six letters onwards, the difference between these two numbers steadily decreases, whereas with a word length of 13 letters or more the number of minimal pairs is even greater than the number of near-minimal pairs As could be expected, the share of minimal pairs is also substantially greater for word forms when compared to the share for lemmas