i i “2-1-Poniz” — 2010/5/5 — 14:21 — page 1 — #1 i i i i i i List za mlade matematike, fizike, astronome in računalnikarje ISSN 0351-6652 Letnik 2 (1974/1975) Številka 1 Strani 28–31 Denis Poniž: RAČUNALNIKI, JEZIKOSLOVJE IN LITERATURA Ključne besede: matematika. Elektronska verzija: http://www.presek.si/2/2-1-Poniz.pdf c© 1974 Društvo matematikov, fizikov in astronomov Slovenije c© 2010 DMFA – založništvo Vse pravice pridržane. Razmnoževanje ali reproduciranje celote ali posameznih delov brez poprejšnjega dovoljenja založnika ni dovo- ljeno. b t obrabljena fraza aoeni podatek, da dams ni vtE pdmbja 8;Lovdcovega udejstwvanja, kjclr ne bi bi la dobrodoHla uporaba pa- CluniLnikov. Veadar to ne veljo samo za t.h. ekeaktne ved= C f i - ziko, k w o , ~llatarrmlogijo, astronollufjo it$. 1, mamreE tudi w htrPPaniot5he maneeti Csociol~gijo, zgadovino, literarao uranost i td . ) . Tudi na teh m j i h so r a E u n a -sten in vseetrau- sko uperaban pripomoEek. Poskuiali born M ltratko opisati, kako se je uporaba računalniških metod razvijala na področju jeziko- slovja in znanosti o knji ževnosti in kako lahko z računalniki raziskuj emo i n opisujemo tisti material, ki pomeni osnovo vsake - ga pisanega sporočila, jezik v vseh njegovih razsežnostih. Prav ,z upo rabo računalniških metod s o se zelo z b l iža l a področja j ezi - ko s lov j a , lite rarne t eorij e in literarne zgo do v ine . Vsa tri pod- ročja namreč potrebujejo podobne podatke , seveda pa jih vsako področ j e opisuje in uporablja na drugačen način . Eno izmed področij, k j e r s o najprej z ače l i up orabljati raču­ naln i ke, je t.im. strojno prevajan je. Ke r vemo, koliko različnih knjig, člankov, poročil in č asop i sov izide na s vetu vsak dan v množici različnih jez i ko v , j e prenos sporoči l , s eve da pa t udi njihove vs e bine , omejen na določeno jezikovno področje. Vsako š i r j e n j e sporočila preko teh meja je povezano s prevajanjem . Ven- dar pa ima prevajanje, ki ga opravljaj o ljudj e, več poma nj k l j i - vo s t i : h i t r o st prevaj an j a je močno omejena, pr eva j a lec mora poz- n a t i strokovne i zraze za pos amezna področja, pri prevajanju pre- vo da lahko nastanejo hude pomenske napake itd. Za t o so me n i l i , da bi delo prevajalcev lahko opravljal i računski stroji - h i t r o , brez napak, k ad a r ko l i in iz kateregakoli jezika v drug jezik . Vendar pa se je pri prvih poskusih po kazalo, da ni mogoče prevajati iz jezika v jezik, ne da b i naleteli na hude težave. Tu ne mislimo samo na t e ž a ve , k i so nastale pr i prevajanju enakozvočnic (homo- nimovl ali soznačnic (sinonimovl, marveč tudi na vse pomanjklji- vo s t i in napake, k i so nastale z a r a d i premajhnega poznavanja slov- nične zgradbe, stavčne zgradbe in besednih značilnosti. Pr e va j a n j e beseda za besedo , t .j. računalnik s kuša prirediti vsaki besedi iz jezika, iz k a t e r e ga prevaja , ustrezno besedo v prevajanem jeziku, se je izkazalo za neuspešno. Za t o j e bilo treba začeti znova, ven- dar po drugi poti . Pri teh poskusih se je iz~azalo dvoje. Jezik je bolj zapleten mehanizem, ko t so predvidevali. Poleg tega pa v vsakdanjem govoru in pri pisanju ne upo r abl j amo i dealne ga jezika, torej takšnega, ki bi bil zgrajen na podlagi čistih slovničnih zakonitosti, brez izjem a li posebnosti . Jezik, ki ga govorimo ali pišemo, je sestav- lj en v veliki večini iz izjem. Za t o je nesmiselno pričakovati, da bi računalnik pr eva j a l brez napak, če ve mo, da je programiran ta- ko, da upošteva predvsem slovnična pravila in šele nato tudi iz- 29 jeme. Ker pa so spomini danes uporabljanih računalnikov premajhni, da bi lahko vanje programirali vse lZJeme, ki jih pozna neki je- zik (n .pr. slovenščina), še ni mogoče govoriti o uporabnem raču­ nalniškem prevajanju. Obenem z uporabo računalnikov na različnih področjih pa se je pričela razvijati posebna smer jezikoslovja, matematično jeziko- slovje (matematična lingvistika) . Matematična lingvistika, ki je posebej razvita v Sovjetski zvezi, na češkem, v Nemčiji in Zdru- ženih državah, poskuša v jezikih odkriti z matema~ičnimi metodami oblikovna i n vsebinska pravila . Matematična lingvistika uporablja tudi statistične metode, saj je v jeziku mogoče meriti poprečne vrednosti mnogih količin: frekvenco posameznih črk in glasov, zlo- gov, besed, dolžine zlogov , besed in stavkov, frekvence . posamez- nih besednih vrst (samostalnik, pridevnik, glagol, števnik, zai- me k , veznik, medrnet). Vse te količine govorijo o takšni ali dru- gačni naravi posameznih naravnih jezikov. Vsi ti podatki pa so zanimivi tudi za tiste, ki preučujejo književnost. Stil pisatelja, pesnika ali esejista je v marsičem odvisen od teh izmerljivih in določljivih količin. čimveč količin poznamo, laže in zanesljiveje lahko določimo stil nekega pisca, njegovo izrabo jezikovnih sredstev . To je pomembno za ugotavlja- n j e a vtorstva nepodpisanih besedil : če poznamo podatke za znana de l a nekega pisca, potem lahko te po qa t k e primerjamo s tistimi, ki smo jih dobili pri obdelavi neznanega besedila . Če dobimo po- dobne vrednosti, je zelo verjetno, da je znani pisec tudi avtor nepodpisanega teksta. Določneje: če pesnik v vseh svojih pesmih uporablja besede s poprečno dolžino 4,95 črke na besedo, potem je jasno, da je majhna verjetnost, da bo ' napisal pesem, kjer bodo imele besede poprečno dolžino 5,5 črke na besedo . Ze majhna odsto- panja navzgor ali navzdol so zelo pomembna in jih ne smemo zanema- riti. Računalniki pa so za znanost o književnosti pomembni še iz dru- gih razlogov. Z računalniki lahko obdelamo velike količine podat- kov, jih medsebojno primerjamo , jih na željo izpisujemo ali shra- nJuJemo na magnetni trak. Ce je bilo treba nekoč ročno opravlja- ti zamudna izpisovanja določenih b e s e d n i h vrst, danes to dela ra- čunalnik: precizneje, hitreje, podatki so uporabnejši, pregled- nejši in zato dostopnejši . Tako nastajaj o banke podatko v tudi za 30 ) področje književnosti: posebne ustanove, inštituti za jezikoslov- je ali književnost, hranijo dobljene in obdelane podatke na mag- netnih trakovih, tako so vsak trenutek dostopni za nadaljne raz- iskave. Povejmo še, da smo nekatere podatke izračunali tudi za slovenski jezik! Tako n.pr. poznamo razvrstitev črk po njihovi pogostnosti. V slovenskem jeziku je najpogostejša črka e, sledi- jo ji a, i, o in n . Najredkejše črke v slovenskem jeziku so h, š, c, ž in f. Črka f se pojavi v slovenskem besedilu poprečno samo enkrat na tisoč črk! Najpogostejša črka (e) pa se na tisoč črk pojavi več kot devetdesetkrat! Torej je na približno deset črk vsaj ena e. To lahko vsakdo poskusi na poljubnem slovenskem bese- dilu. Na koncu moramo omeniti še eno področje uporabe računalnikov. Povedali smo že, da so uspeli izračunati celo vrsto podatkov o naravi posameznih jezikov, obenem pa so uspeli izračunati tudi ne- katere slovnične zakonitosti. Da bi jezik še bolje spoznali, po- skušajo danes s pomočjo računalnikov pisati t.im. sintetične (u- metne) tekste. Le-ti nastajajo tako, da uporabijo določeno, močno poenostavljeno slovnično zgradbo (n.pr. priredni stavek, ki ima osebek, povedek in predmet) in om,ejen besedni zaklad . Računalnik potem izpiše vse možne stavke ." Na podlagi dobLj enih podatkov po- tem sklepajo o naravi posameznih jezikovnih zgradb, oslovničnih zakonitostih, pogostosti in uporabnosti posameznih besed, pomen- skem bogastvu, ki ga je mogoče še ohraniti pri okrnjeni slovnični strukturi. Včasih so lahko ti izpisi podobni modernističnim pesmim. Odtod tudi vesti, da računaLniki pišejo poezijo. To dvakrat ni res. Prvič računalnik ne more pisati poezije, saj računalnik ne misli in ne čustvuje. Drugič pa takšni poskusi nimajo namena ustvarjati pesmi, marveč rabijo raziskovanju jezikovne zgradbe in določanju obsežnosti besednega zaklada. Na področju jezikoslovja in književnosti so računalniki posta- li nepogrešljiv pripomoček. Na tem mestu ni mogoče opisati vseh možnosti, ki jih bo uresničila bodočnost. Verjetno pa mednje so- dijo računalniško prevajanje (predvsem strokovnih tekstov), uče­ nje tujih jezikov in shranjevanje vseh mogočih podatkov o lite- rarnih delih. Denis Poniž 31