Simon Krek UDK 811.163.6’374:004.5 DZS, Izobra`evalno zalo`ni{tvo simon.krek@dzs.si JEZIKOVNI PRIRO^NIKI IN NOVI MEDIJI ^lanek opisuje slovenske jezikovne priro~nike in druge vire podatkov o slovenskem jeziku, ki se nahajajo v neknji`nem digitalnem okolju. Za~enja s slovarji kot klasi~nimi priro~niki v razli~nih ra~unalni{kih oblikah, preko leksikonov besednih oblik in jezikovnih korpusov kot novih oblik jezikovnih priro~nikov do popolnoma ra~unalni{kih jezikovnih orodij, ki jih najdemo v urejevalnikih besedil, avtomatskih prevajalnih sistemov in govornih tehnologij. Zaklju~uje s kratko oceno stanja in predvidevanji glede nadaljnjega razvoja. 1 Uvod V naslovu razprave nastopata dve kategoriji, ki ju je nujno natan~neje opredeliti, vendar izklju~no za namene te razprave brez zahtev po terminolo{ki ob~eveljavnosti. Z izrazom jezikovni priro~nik bomo opredelili vse priro~ni{ke vire, ki so namenjeni javnosti kot vir podatkov o sodobnem slovenskem jeziku ali pri katerih nastopa sloven{~ina v paru s tujim jezikom. Nove medije pa bi najla`je opredelili ne s pozitivnim, temve~ z negativnim izborom kot vse medije, ki niso tradicionalni knji`ni medij jezikovnih priro~nikov. Jezikovni priro~niki oz. informacije o sloven{~ini v njih nastopajo v digitalizirani obliki, bodisi na ra~unalniku ali v drugih digitalnih okoljih. Deliti jih je mogo~e po razli~nih kriterijih, eden od njih je denimo razlikovanje med jezikovnimi priro~niki, ki jih v taki ali druga~ni obliki `e poznamo v knji`ni obliki in se z novo funkcionalnostjo pojavljajo v digitalnem okolju, do popolnoma programskih virov, ki izven digitalnega okolja ne obstajajo. Drugi mo`ni kriterij je digitalno okolje, v katerem se pojavlja dolo~en priro~nik, bodisi da gre za ra~unalni{ko okolje zaprtega tipa – aplikacija za osebni ra~unalnik, stre`nik, dlan~nik, specializirana naprava itd. ali komunikacijski medij – internet, mobilna telefonija. Na{a predstavitev poteka po tipih priro~nikov, ki v grobem sledi prehodu od knji`nih priro~nikov v digitalnem okolju do prej neznanih jezikovnih virov ali priro~nikov, s posameznimi skoki v druga podro~ja, kjer se je to zdelo smiselno. Jezik in slovstvo, let. 48 (2003), {t. 3–4 30 Simon Krek 2 Slovarji Najbolj klasi~ni jezikovni priro~niki v elektronski obliki so obstoje~i knji`ni slovarji, bodisi enojezi~ni ali dvojezi~ni, neposredno preneseni v ra~unalni{ko okolje. Preskok v digitalno okolje pa je obenem tudi kvalitativni preskok. Uporabnost slovarja v elektronski obliki je ob ustrezni programski opremi, ki omogo~a kompleksna iskanja po celotni slovarski bazi podatkov, vklju~no z vsebino gesel ali njegovimi posami~nimi deli, neprimerno ve~ja kot v knji`ni obliki. Slovarji se z digitalizacijo vsaj deloma znebijo tudi ene od osnovnih zadreg, ki so jih pri jezikih z abecednim zapisom spremljale `e od samih za~etkov – tiranije abecedne razvrstitve slovarskih izto~nic, ki je le najbolj{a med slabimi re{itvami in povzro~a te`ave pri iskanju vseh mo`nih sestavin jezika, ki niso neposredno in brez te`av najdljive preko osnovne oblike – ve~besednih leksemov, nepravilnih morfolo{kih oblik, izto~nic z neabecednim zapisom itd. (Landau 2001: 107–109). Slovarji se v digitalni obliki pojavljajo v ve~ini ra~unalni{kih okolij, kot aplikacije v vseh vrstah ra~unalnikov, na internetu, v obliki SMS sporo~il v mobilni telefoniji ali v specializiranih napravah, kot je denimo kombinacija opti~nega ~italca in slovarja – Quicktionary™. 2.1 Enojezi~ni slovarji Splo{nih enojezi~nih slovarjev v knji`ni obliki, ki opisujejo sodobni slovenski jezik, ni veliko. S to oznako bi lahko opredelili tri slovarje, med katerimi sta dva iz{la v zadnjem ~asu: Slovar slovenskega knji`nega jezika, ki je iz{el v petih zvezkih od l. 1970 do 1991 (SSKJ),1 Slovenski pravopis iz leta 2001 (SP 2001) in Veliki slovar tujk iz leta 2002 (VST 2002). Tem bi pogojno lahko dodali tudi Besedi{~e slovenskega jezika z oblikoslovnimi podatki (BSJ), tj. spisek besed, ki niso bile vklju~ene v SSKJ, ter Odzadnji slovar slovenskega jezika po Slovarju slovenskega knji`nega jezika (OSSJ), spisek izto~nic iz SSKJ, razvr{~enih po abecedi od zadnje ~rke do prve. V ~asu pisanja te razprave od prvih treh v elektronski obliki obstaja le Slovar slovenskega knji`nega jezika (skupaj z BSJ in OSSJ), ki se je v elektronski obliki prvi~ pojavil leta 1997 na enajstih disketah v programu ASP za operacijski sistem DOS in Windows podjetja Amebis. Trenutno je SSKJ dostopen v paketu s programom ASP32, ki deluje v obliki enouporabni{ke ali mre`ne aplikacije v razli~icah operacijskega sistema Windows za osebne ra~unalnike in stre`nike. Program ASP32 ne deluje v operacijskih sistemih Unix, Linux, MacOS in drugih. Druga elektronska oblika istega slovarja je javnosti dostopna v programu NEVA, razvitem v Laboratoriju za korpus slovenskega jezika Znanstvenoraziskovalnega centra SAZU, ki od leta 2000 omogo~a dostop do SSKJ preko svetovnega spleta na spletnih straneh ZRC SAZU . Dostop do slovarja SSKJ preko svetovnega spleta je brezpla~en.2 1 Bibliografski podatki vseh jezikovnih virov ter spletnih strani, ki so omenjeni v razpravi, se nahajajo na koncu med navedeno literaturo. 2 Jeseni 2003 lahko pri~akujemo tudi Slovenski pravopis (SP 2001) v elektronski obliki, in sicer v pro gramu ASP32, kasneje po analogiji s SSKJ najbr` tudi v prosto dostopni spletni varianti. Jezikovni priro~niki in novi mediji 31 Program ASP32 je »klasi~ni« slovarski vmesnik s funkcijami, ki so postale standard pri podobnih programih: razli~ne mo`nosti tiskanja gesel in geslovnika, mo`nost dodajanja opomb, prilagajanja velikosti ali barv ~rk na ekranu, »sito«, ki s skrivanjem posameznih delov gesla omogo~a bolj{i pregled vsebine pri dalj{ih geslih, odpiranje ve~ oken z ve~ gesli itd. Predvsem pa je mo~no orodje za kompleksna iskanja – z nadomestnimi znaki za en (?) ali niz znakov (*) ter operatorji IN, ALI, NE, BLIZU ter t. i. NOTRANJI NE in NOTRANJI IN, ki delujeta znotraj posameznega niza iskanih znakov. Celotno slovarsko bazo lahko preiskujemo po posameznih delih gesel: geslo, zaglavje, razlaga, primer, podgeslo in kvalifikator, iskanja po posameznih segmentih lahko tudi poljubno kombiniramo. I{~emo lahko po vseh »posebnih« znakih, ki se nahajajo v SSKJ, od naglasnih znamenj za izgovarjavo besede do gr{kih ~rk in matemati~nih znakov. Ena od uporabnih lastnosti programa ASP32 je tudi mo`nost shranjevanja in iskanja po izboru gesel, kar nam olaj{a pogosta iskanja po geslih, ki smo jih iz celote `e izlo~ili s kompleksnej{im iskalnim pogojem. Mo`nosti pri spletnem vmesniku so v primerjavi z ASP32 skromnej{e, vendar tudi ta omogo~a iskanje po celotni vsebini SSKJ, kar je dovolj za osnovno uporabo. Od nadomestnih znakov pozna znak za niz (*), operatorji pa so naslednji: : vsebuje != ni enako %< dol`ina polja manj{a kot !: ne vsebuje < manj kot %= dol`ina polja enaka = je enako > ve~ kot %> dol`ina polja ve~ kot 32 Simon Krek Z omenjenimi operatorji lahko i{~emo po poljih izto~nica, opis (vsebina gesla razen izto~nice) in kvalifikator, pri ~emer za iskanje po izto~nicah npr. uporabljamo okraj{avo »ge«. Pri iskalnem pogoju /ge=peta/ nam tako iskalnik izpi{e le geslo »peta«, pri iskanju /peta/ pa dobimo za~etek spiska 385 gesel, kjer se v vsebini gesla nahaja ta niz ~rk. Iskalnik poka`e ob vsakem iskalnem pogoju, koliko je bilo vseh zadetkov, izpis gesel pa je omejen na 25. 2.2 Dvojezi~ni slovarji Dvojezi~ni slovarji so bili poleg ~rkovalnikov, ki jih obravnavamo kasneje, pravzaprav prvi jezikovni priro~niki, ki so – ob koncu 80-ih in na za~etku 90-ih let {e v »piratski« varianti – obstajali tudi v obliki ra~unalni{ke aplikacije, takrat za operacijski sistem DOS, kar govori o veliki potrebi po njih. Veliki nem{ko-slovenski slovar (Debenjak 1992) je bil leta 1994 prvi dvojezi~ni slovar, ki je bil legalno dostopen v ra~unalni{ki obliki v opisanem programu ASP za DOS in Windows (Romih in dr. 2002b). Temu so sledili drugi dvojezi~ni slovarji in trenutno so v tej obliki dostopni vsi obse`nej{i in novej{i dvojezi~ni slovarji zalo`be DZS, osemjezi~ni Evropski slovar Zalo`be Mladinska knjiga (ES 1995) ter nekaj manj{ih avtorskih slovarjev, ki jih je izdalo podjetje Amebis . [irjenje interneta v devetdesetih letih prej{njega stoletja je s seboj prineslo tudi silovit razmah dostopnosti dvojezi~nih slovarjev, vendar je (pri tujih jezikih) razvoj potekal izrazito v dveh smereh. Kot rahlo kaoti~no globalno omre`je nudi brezpla~en Jezikovni priro~niki in novi mediji 33 dostop do mno`ice slovarjev zelo razli~nega izvora, navadno pa so to zbirke, ki so rezultat akademskih projektov, posameznih navdu{encev, starej{e verzije sodobnih slovarjev in podobno. S~asoma so se poleg splo{nih brskalnikov na svetovnem spletu pojavili tudi specializirani iskalniki, ki iskano besedo ali zvezo i{~ejo po vseh brezpla~no dostopnih slovarjih, npr. , , itd. V ve~ini primerov je tem slovarjem skupna bodisi nedokon~anost, zastarelost, relativno majhen obseg ali fragmentarnost, vendar imajo seveda tudi tak{ni viri svojo vrednost. Angle{~ina je pri tem edina izjema, saj so nekatere zalo`be najbr` zaradi hude konkurence za~ele nuditi brezpla~en dostop tudi do svojih najnovej{ih in najbolj{ih slovarjev.3 Ve~ina tujih zalo`nikov pa svoje slovarske paradne konje ponuja v obliki verificiranega dostopa za denarno nadomestilo, pogosto v integrirani obliki z vsemi viri, ki jih imajo na voljo, tipi~en primer je denimo stran zalo`be Oxford University Press . Odli~na knji`nica povezav do spletnih virov za slovenski jezik (in za tuje jezike) se nahaja na strani . Ve~ji splo{ni dvojezi~ni slovarji s sloven{~ino kot izhodi{~nim ali ciljnim jezikov v pla~ljivi obliki za zdaj {e niso dostopni na svetovnem spletu. Od slovarjev, ki obstajajo tudi v knji`ni obliki in na CD-ROM-u, velja morda izpostaviti osemjezi~ni Evropski slovar, ki za vsak jezik po navedbah zalo`be ponuja 10.000 izto~nic4 in je na voljo brezpla~no na spletnem portalu , preko povezave Vede`. Zanimivo je, da prav dvojezi~ni slovarji navadno prednja~ijo pri prehodu v druge tehnologije, saj jih najdemo v okoljih, ki presegajo aplikacije za osebne ra~unalnike ali internet. Do dvojezi~nih podatkov iz osemjezi~nega Evropskega slovarja je poleg svetovnega spleta mogo~e priti tudi preko digitalne telefonije, s pomo~jo sporo~il SMS. Na navedeni spletni strani je opisan postopek po{iljanja SMS-jev s slovarsko vsebino. Manj{i obojesmerni angle{ki, italijanski, francoski in hrva{ki dvojezi~ni slovar z nekaj nad {est tiso~ gesli (po navedbah proizvajalca) je mogo~e dobiti tudi za dlan~nike z operacijskim sistemom PalmOS . Povsem druga~en dostop do slovarjev pa ponuja zanimiva kombinacija opti~nega ~italca, programa za razpoznavo ~rk in slovarja v pripomo~ku z imenom Quicktionary , . Sloven{~ina je v njem zastopana v dvojezi~nem angle{ko-slovenskem paru. S konico – opti~nim ~italcem – te debelej{emu svin~niku podobne naprave z zaslonom iz teko~ih kristalov lahko potegnemo po besedilu, natisnjenem na papir, in na zaslonu preberemo prevod besede ali besedne zveze, ~e je ~italec pravilno prepoznal ~rke in ~e beseda ali zveza obstaja v slovarju. Opti~no branje in prepoznava ~rk delujeta zanesljivo, 3 To sicer ni tema razprave, a naj omenimo le nekaj slovarjev: Longman Dictionary of Contemporary English , Cambridge Advanced Learner’s Dictionary , Merriam-Webster’s Collegiate Dictionary itd. 4 To {tevilko je najbr` potrebno vzeti z malce rezerve, kajti sam iskalnik ASP32 izkazuje, da je npr. {tevilo slovenskih izto~nic 7.828, vsaka dvo- ali ve~besedna izto~nica tipa »dobro jutro« ali »kurilno olje« pa je obravnavana kot samostojno geslo. 34 Simon Krek ~eprav na za~etku morda potrebujemo nekaj ~asa, da se privadimo na pravilno lego pri potegu naprave preko besedila. Sam slovar je o~itno nastal na podlagi ene od elektronskih verzij Velikega angle{ko-slovenskega slovarja (Grad 1978), ~eprav predelane, najbr` manj vsebinsko kot predvsem z ra~unalni{kimi postopki. V njem so tako ostali mnogi Gradovi kuriozumi,5 {tevilo samih gesel pa je najbr` precej manj{e, kot ga navajajo proizvajalci (300.000). Listanje po osnovnem geslovniku poka`e grobo oceno okrog 40.000 gesel brez podgesel in frazeolo{kih enot, kar je pribli`no polovica Velikega angle{ko-slovenskega slovarja, vendar pri tak{ni napravi kar spo{tljiva {tevilka. 2.3 Tezavri ali slovarji sinonimov Kot je znano, za slovenski jezik slovar sinonimov ali tezaver v knji`ni obliki ne obstaja. Na tej to~ki je elektronska razli~ica torej prehitela bolj logi~no predhodno knji`no obliko, saj podjetje Microsoft v svojem programskem paketu Microsoft Office od lokalizirane slovenske razli~ice MS Office 97 (zadnja je slovenski MS Office XP), ponuja tudi orodje, ki uporabniku predlaga sopomenke. Slovar, ki ga orodje uporablja, je razmeroma nedodelan, saj je za besedo fant denimo zmo`en sproducirati sopomenski niz mladeni~, de~ek, fanti~, pob, mo{ki, mo`, mladinec, paglavec, ki seveda niso sopomenke v strogem pomenu, temve~ ozna~ujejo osebe mo{kega spola razli~nih starosti z razli~nimi pomeni na razli~nih stilnih ravninah. Da bi zanesljivo opravljal obljubljeno funkcijo, bi bila potrebna (predvsem jezikoslovna) dodelava, saj je za uspe{no uporabo potrebno dodobra poznati slovenski jezik, da se pri izbiri ustrezne sopomenke ne ope~emo. Kljub vsemu pa je ob omenjenih omejitvah tudi tak vir seveda dobrodo{el. 2.4 Terminolo{ki enojezi~ni ali dvojezi~ni slovarji Kot smo `e omenili, so terminolo{ki slovarji takoreko~ idealni priro~nik za medij, kakr{en je internet. ^e i{~emo prevod ali razlago nekega termina, nas pravzaprav ne zanima, ali je v slovarju deset ali deset tiso~ izto~nic. Vsaka ad hoc sestavljena lista terminov s prevodi ali razlagami, ki jih je sestavil bodisi navdu{eni amater ali akademsko znanstveno telo, ki lahko na svetovnem spletu sproti dopolnjuje terminologijo nekega podro~ja brez dragega tiskanja, nam bo dala (bolj ali manj zanesljivo) informacijo. Na svetovnem spletu kar mrgoli tovrstnih virov, ki jih lahko najdemo s pomo~jo splo{nih iskalnih orodij, kakr{ni so Google, Altavista, Najdi.si itd. ali specializiranih za slovarje, ki so omenjeni v poglavju o dvojezi~nih slovarjih. V spletni slovarski zbirki povezav je mogo~e najti terminolo{ke 5 Eden od slavnej{ih je denimo paramedic – »zdravnik padalec«. Pri slovenskem prevodu gre za izjemno redek pomen angle{ke izto~nice, ki ozna~uje zdravnike v padalskih enotah ameri{ke vojske ali civil- ne zdravnike, ki se v primeru potrebe s padalom spustijo na nedostopna obmo~ja. Manjka pa izjemno pogosti in prakti~no edini smiselni prevod – »bolni~ar/-ka«. Jezikovni priro~niki in novi mediji 35 slovarje z zelo razli~nih podro~ij, od zootehnike do besedja na temo slapov, bogato knji`nico povezav najdemo tudi na strani , precej manj{o tudi na portalu Matkurja . Med vsemi terminolo{kimi slovarji gotovo izstopa Evroterm , terminolo{ka baza s spletnim iskalnikom Sektorja za prevajanje Slu`be Vlade RS za evropske zadeve, ki vsebuje ve~ kot 30.000 dvojezi~nih (slovenskoangle{kih) vpisov in je nastala pri prevajanju evropske zakonodaje v slovenski jezik (@eljko 2002). Geslovnik je {tirijezi~ni, zato lahko i{~emo angle{ke, francoske, nem{ke in slovenske izto~nice. Iskalnik omogo~a tudi iskanje z nadomestnimi znaki, vendar je pri kompleksnej{ih iskanjih bolje prebrati navodila, kajti namesto (morda obi~ajnej{ega) vpra{aja kot znaka za poljubno ~rko uporabljamo piko, vpra{aj pa pomeni, da se predhodna ~rka v besedi lahko pojavi ali ne, znak $ na koncu besede pomeni, da se zveza kon~a na to besedo, v obi~ajnej{ih vlogah pa lahko uporabimo oglate in zavite oklepaje in druge funkcije t. i. regularnih izrazov. 3 Leksikoni (besednih oblik) Mo`nosti hranjenja in hitrega dostopanja do velikih koli~in podatkov ter potrebe povsem ra~unalni{kih jezikovnih orodij, kot so ~rkovalniki, delilniki, besedilni korpusi, avtomatski prevajalniki itd. so s seboj prinesli tudi potrebo in mo`nost organiziranja t. i. leksikonov besednih oblik pri pregibnih besednih vrstah, ki so nujni zlasti pri jezikih z velikim {tevilom oblikoslovnih paradigem. Te informacije so bile do ra~unalni{ke dobe v precej skr~eni obliki navadno dostopne v zaglavju enojezi~nih (ali dvojezi~nih) slovarjev kot – denimo v SSKJ – rodilni{ka oblika ednine pri samostalnikih in pridevnikih ali prvoosebna oblika ednine pri glagolih, z ob~asnimi opozorili pri izjemah, ter v oblikoslovnih razdelkih slovnic slovenskega jezika. Informacija tako v slovnici (nekaj primerov paradigme) kot v slovarju (pri posamezni besedi le ena ali nekaj oblik) je bila torej dokaj rudimentarna in je za uporabo v resnici predpostavljala poznavanje slovnice oz. oblikoslovnih paradigem. Uporabni{ko gledano je sklepanje iz osnovne oblike na vse oblike besede za doma~e govorce sloven{~ine predvsem pri oblikah, ki so oblikoslovno te`avnej{e in morda manj v rabi, sorazmerno naporno, za tujce, ki se u~ijo sloven{~ino, pa takoreko~ neobvladljivo. Ra~unalni{ki medij je za tovrstni priro~nik precej bolj primeren kot knji`na oblika, najbr` celo edini mo`ni, kajti izpisovanje vseh oblik dolo~ene besede je prostorsko precej potratno, predvidljivost oblik glede na paradigmo, v katero spada, pa vendarle sorazmerno velika. Leksikoni besednih oblik so javno dostopni v dveh medijih. Na spletu najdemo orodja, ki imajo funkcijo iskalnika po ra~unalni{kem leksikonu besednih oblik, na dveh mestih. Zanimivo je, da je logika iskanja pri obeh ravno obratna. Z orodjem, ki ga najdemo na spletnih straneh ZRC SAZU , povezava »Dolo~anje osnovnih besednih oblik«, lahko ugotavljamo osnovno obliko dolo~ene besede. Dol`ina seznama, ki ga lahko damo hkrati v preverjanje, ni omejena, {tevilo osnovnih oblik v geslovniku, ki ga uporablja iskalnik, pa ni znano. 36 Simon Krek Orodje, ki ga lahko najdemo na spletnih straneh podjetja Amebis , omogo~a obratno pot – od osnovne oblike iskane besede do razpredelnice z vsemi njenimi oblikami, i{~emo pa lahko le samostalnike in pridevnike. Iskanje po posameznih oblikah besede ne da rezultata, iskalnik prepoznava le obliko za imenovalnik ednine. Isto podjetje ponuja tudi aplikacijo z imenom Amebisov besedni zaklad , ki deluje v `e omenjenem programu ASP32 za okolje Windows, s katero lahko preiskujemo leksikon besednih oblik z geslovnikom, ki obsega nad 250.000 izto~nic, tudi lastnoimenskih. S tem orodjem lahko i{~emo po osnovnih in po vseh ostalih oblikah, v kombinaciji s slovni~no kategorijo, ki je pripisana osnovni obliki.6 Leksikoni besednih oblik so izjemno pomembni za vse mogo~e aplikacije na podro~ju jezikovnih tehnologij in obe omenjeni aplikaciji sta pravzaprav stranski produkt drugih orodij (Romih in dr. 2002a), pri katerih nujno potrebujemo informacijo o osnovni obliki besede in njeni oblikoslovni paradigmi – ~rkovalnika in oblikoslovno-skladenjskega ozna~evalnika, potrebnega pri t. i. lematizaciji velikih zbirk besedil. 4 Besedilni korpusi Korpusi so obse`ne zbirke besedil, po katerih lahko i{~emo z ra~unalni{kim orodjem, ki se imenuje konkordan~nik (Erjavec 96/97, Gorjanc 1999b, Gorjanc 2000). Ra~unalni{ki korpusi so nekako pred dvajsetimi leti nadomestili zbirke listkovnega gradiva, na podlagi katerih so v predra~unalni{ki dobi navadno nastajali slovarji – med njimi tudi SSKJ – v zadnjih desetih letih pa je napredek tehnologije z mno`i~ no uporabo interneta in skokovitim porastom ra~unalni{kih kapacitet omogo~il, da je korpus skupaj s konkordan~nikom postal standardni vir podatkov o jeziku ali kar jezikovni priro~nik, na katerega se lahko obrnemo ob jezikovnih zadregah (Hirci 1998, Pisanski 1998). Med razli~nimi tipi korpusov vlogo jezikovnega priro~nika navadno najbolje opravlja t. i. referen~ni korpus – ~imbolj obse`na zbirka sodobnih besedil, ki odra`a stanje v dolo~enem jeziku glede na razli~ne jezikovne zvrsti. Z iskanjem po referen~nem korpusu je mogo~e spremljati jezikovno delovanje dolo~ene jezikovne skupnosti in na podlagi tega sprejemati lastne jezikovne odlo~itve. ^e ima jezikovna skupnost jezik dobro opisan v drugih jezikovnih priro~ nikih, jim lahko slu`i kot dopolnilo. V slovenskem primeru, kjer slovarji temeljijo na `e zastarelem gradivu, pa jih lahko do neke mere celo nadomesti. Korpus je pravzaprav vsaka zbirka besedil, ki je zbrana za dolo~en namen – za opis sodobnega jezika bomo potrebovali denimo veliko zbirko sodobnih besedil, za vzporedni korpus bomo potrebovali besedila, ki obstajajo prevedena v dveh (ali ve~) jezikih, za korpus strokovnih besedil pa nabor besedil z dolo~enega strokovnega podro~ja. Skupaj z besedili za iskanje po korpusu potrebujemo tudi konkordan~nik, ra~unalni{ki program, ki omogo~a hitra iskanja po celoti zbranih besedil 6 Podrobnej{o analizo tega elektronskega pripomo~ka lahko najdemo v razdelku Ocene in poro~ila v tej publikaciji. Jezikovni priro~niki in novi mediji 37 po poljubnih pogojih. Da bi izbolj{ali uporabnost korpusov, lahko v besedilo korpusa z razli~nimi postopki vnesemo tudi dodatne informacije, najbolj obi~ajno so to t. i. lematizacija in oblikoslovno-skladenjsko ozna~evanje (Jakopin in Bizjak 1997, Zupan 1999), kjer vsaki besedi pripi{emo njeno osnovno obliko ali skladenjsko vlogo. V nadaljevanju opisujemo korpuse slovenskega jezika, ki so javno dostopni na svetovnem spletu. 4.1 Enojezi~ni Trenutno najve~ji enojezi~ni korpus slovenskega jezika je korpus FIDA , projekt dveh akademskih in dveh industrijskih partnerjev, ki je dostopen preko interneta za pla~ilo, razen za raziskovalce na Filozofski fakulteti Univerze v Ljubljani ter na Institutu Jo`ef Stefan (Erjavec 1998, Erjavec in dr. 1998, Gorjanc 1999a, Romih 1998b, Stabej 1998). Brezpla~en je testni dostop, pri katerem je {tevilo izpisanih konkordan~nih vrstic omejeno na deset. Konkordan~nik ASP32, s katerim i{~emo po korpusu (Gorjanc in Vintar 2000), ima poleg mo`nosti kompleksnih iskanj, ki so opisana zgoraj v slovarski varianti, dodana tudi orodja, ki omogo~ajo statisti~ne izra~une in razli~na filtriranja glede na okolico iskalnega pogoja. Korpus sestavljajo sodobna besedila v obsegu 100 milijonov besed, nastala v 90-ih letih prej{njega stoletja in so uravnote`ena po standardnih korpusnojezikoslovnih kriterijih, kar pomeni, da so v njem zastopana v dolo~enih odstotkih glede na zvrst (umetnostna, neumetnostna, strokovna, humanisti~na in dru`boslovna, naravoslovna in tehni~na itd.) in prenosnika (knji`na, periodi~na, ~asopisna, revialna, dnevna, tedenska itd.). Korpus je v sorazmerno visokem odstotku lematiziran (besedam je pripisana osnovna oblika, po kateri je mogo~e iskati), vendar so v primeru, ko je pri eni od oblik besede mo`nih ve~ osnovnih oblik, pripisane vse mo`ne oblike. Drugi najve~ji korpus slovenskega jezika je korpus Nova beseda , povezava »Nova beseda«, ki nastaja v Laboratoriju za korpus slovenskega jezika na In{titutu za slovenski jezik Frana Ramov{a ZRC SAZU. Korpus je brezpla~no dostopen preko interneta in obsega 95 milijonov besed, od tega nekaj nad 84 milijonov iz ~asopisa DELO, ostalo pa sestavljajo ra~unalni{ka revija Monitor, starej{e in novej{e slovensko leposlovje ter prevodna literatura. Konkordan~nik z imenom NEVA, s katerim i{~emo po korpusu, omogo~a enostavno iskanje po besedah (tudi z zvezdico kot nadomestnim znakom za poljubni niz ~rk) in frazah. Izpisujemo lahko poljubno {tevilo konkordanc, okolice iskalnega pogoja ni mogo~e statisti~no obdelati, filtrirati ali razvr{~ati. Korpus ni lematiziran, kematiziran je le njegov enomilijonski del, dostopen preko povezave »Oblikoslovno ozna~ena besedila«. Konkordan~nik omogo~a tudi iskanje po listi vseh besed, ki se pojavljajo v korpusu, pri ~emer je mogo~e iskati po frekvenci besed, dol`ini glede na {tevilo ~rk ter z operatorjema IN ter IN NE. Tretji korpus, dostopen preko interneta, je kronolo{ko prvi, vendar bistveno manj{i enomilijonski korpus, brezpla~no dostopen na straneh Instituta Jo`ef Stefan . Uporabnost korpusa je glede na koli~ino besedil v 38 Simon Krek primerjavi z gornjima dvema sorazmerno manj{a, funkcija in vrednost korpusa pa je pravzaprav v pionirski vlogi, ki je postavila osnove za oblikovanje drugih korpusov, predvsem korpusa FIDA, glede formata, lematizacije in drugih postopkov gradnje korpusov. Konkordan~nik Corpus Workbench, razvit v Stuttgartu (Institut für Machinelle Sprachverarbeitung) omogo~a preprosto iskanje po besedah (z zvezdico kot nadomestnim znakom za poljubni niz ~rk) in frazah. [tevilo izpisov je omejeno na 500 konkordan~nih vrstic. Med omenjenimi korpusi sta prva dva uporabna kot korpusna jezikovna priro~nika, vsak od njiju pa ima svoje prednosti in slabosti. Prednosti korpusa Nova beseda sta predvsem prosta dostopnost ter sprotno dopolnjevanje, slabosti pa izrazita neuravnote`enost in nelematiziranost. Dokon~no sklepanje o jeziku ve~inoma na podlagi vsebine enega ~asopisa je jezikoslovno sporno in lahko privede do napa~nih jezikovnih odlo~itev. Prednosti in slabosti korpusa FIDA so temu ravno nasprotne. Korpus je relativno dobro uravnote`en, ka`e torej sorazmerno ustrezno podobo slovenskega pisnega jezika, in je tudi lematiziran. Kot problem pa se ka`e nerazdvoumljenost lem pri oblikah, kjer jih je mo`nih ve~ – pri obliki »levi« je navedena lema »lev« kot `ival, »levi« kot pridevnik ter glagol »leviti« – ter seveda pla~ljivi dostop. 4.2 Vzporedni S konkordan~nikom IMS Corpus Workbench lahko i{~emo tudi po dveh paralelnih angle{ko-slovenskih korpusih . Prvi je korpus ELAN (Erjavec 1999a, Erjavec 1999b, Vintar 1999a), enomilijonska zbirka prevedenih ve~inoma pravnih in drugih besedil ter roman 1984 Georgea Orwella, zbranih v projektu z istim imenom na Institutu Jo`ef Stefan . Druga je nekaj manj kot enomilijonska zbirka besedil z imenom TRANS s podro~ij medicine, strojni{tva, zakonodaje/prava, geologije in turizma, zbranih na Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani v okviru {tudentskega seminarskega dela . Vzporedni korpusi so oz. bi lahko bili izjemno pomembni viri predvsem za prevajalce, slovaropisce in za celo podro~je jezikovnih tehnologij, ki se ukvarja z avtomatskimi prevajalnimi sistemi. Zdi pa se, da je {e vedno zelo te`ko priti do vzporednega korpusa splo{nega jezika (^ermák 2002: 274), saj je za razliko od enojezi~ nih korpusov splo{nih paralelnih korpusov izjemno malo, veliko bolje pa so zastopani na posameznih strokovnih podro~jih kot podlaga in vir za terminolo{ke slovarje, kar navsezadnje ka`e tudi sestava obeh omenjenih paralelnih korpusov (Vintar 1999b, Vintar 2002). Jezikovni priro~niki in novi mediji 39 4.3 Korpusi strokovnih besedil V okviru Sektorja za prevajanje Slu`be Vlade RS za evropske zadeve je od leta 2002 preko interneta prosto dostopen tudi celoten pribli`no 1,8 milijonski korpus prevodov zakonodaje Evropske unije . Korpus uporablja isto iskalno orodje – v tem primeru v funkciji konkordan~nika – kot slovar Evroterm, z istimi iskalnimi mo`nostmi. Vpisani izraz je lahko v angle{~ini ali sloven{~ini, izpis pa je lahko enojezi~en ali dvojezi~en in od te izbire je tudi odvisno ali ga uporabljamo kot enojezi~ni ali vzporedni korpus. Iskanje lahko omejimo tudi na razli~na specializirana podro~ja zakonodaje: finance, kmetijstvo, okolje, primarno zakonodajo, promet ter zunanjo in varnostno politiko. 4.4 Svetovni splet Svetovni splet (world wide web) je s {iritvijo v preteklih desetih letih pravzaprav sam postal neke vrste megakorpus, po katerem lahko i{~emo podobno kot po drugih velikih zbirkah besedil (Kilgarriff 2001). Razvit je bil tudi konkordan~nik , ki uporablja poljubni splo{ni iskalnik (Google, Altavista, Metacrawler, Alltheweb ali Northern Light) in izpisuje konkordan~ne vrstice ter opravlja nekaj osnovnih funkcij konkordan~nikov, kot so iskanje kolokacij, filtriranje in urejanje po abecedi levo in desno od iskalnega pogoja. ^e iskalnik dovoljuje omejitev iskanja po domeni (npr. iskanje po kon~nici .si), lahko i{~emo samo po straneh, ki so napisane v sloven{~ini. Spletni konkordan~nik deluje sorazmerno po~asi, tako da je za enostavna iskanja pravzaprav la`je uporabljati kar splo{ne iskalnike, konkordan~nik pa za raziskovanje okolice iskane besede. Pri pridobivanju jezikoslovnih podatkov s svetovnega spleta se znajdemo tudi pred znanimi zadregami: besede niso lematizirane, {e vedno se pojavljajo te`ave s krilatimi znaki, predvsem pa je medij preve~ kaoti~en za dokon~na sklepanja o frekvenci, rabi ali pomenu besede ali besedne zveze. Slu`i lahko le kot dodatna sekundarna informacija. 5 Jezikovna orodja v pisarni{kih programskih paketih 5.1 ^rkovalniki ^rkovalnike – programsko orodje, ki preverja pravilnost zapisa besed v razli~nih programih, od urejevalnikov besedil, programov za razpoznavo ~rk, za namizno zalo`ni{tvo, po{tnih programov itd. – smo omenjali `e ve~krat (Ko{ir in dr. 1998, Romih 1998a). Tudi ~rkovalniki so eno od orodij, ki so bili v ra~unalni{kem okolju takoj aktualni in so se pojavili med prvimi. Prvi slovenski ~rkovalnik je bil Mspell avtorja Miha Mazzinija z za~etka devetdesetih let, razvoj ~rkovalnikov pa je po tem ~asu {el v dve smeri oz. se je dogajal v dveh okoljih. En (ve~inski) del slovensko pi{o~ih uporablja ~rkovalnik, ki je del Microsoftovega pisarni{kega paketa slovenske razli~ice urejevalnika besedil Word 7 do MS Office XP in je delo podjetja 40 Simon Krek Amebis. Razli~ne generacije istega ~rkovalnika lahko najdemo tudi v drugih programih, denimo v malce starej{em urejevalniku besedil WordStar, WordPerfectu (do razli~ice Corel WordPerfect 8), programu za razpoznavo ~rk OmniPage in drugih programih, lahko pa ga uporabljamo tudi kot samostojno aplikacijo MikroBesAna za operacijski sistem Windows in DOS . Program vsebuje skoraj 1,2 milijona besednih oblik. Drugi del slovensko pi{o~e publike uporablja prosto dostopne ~rkovalnike aspell, ispell in myspell, ki so del projekta GNUsl . Aplikacija je nastala v okviru skupine za slovenjenje pri dru{tvu Lugos, v sodelovanju s podjetjem Amebis, in uporablja pribli`no enak slovar kot ~rkovalnik za MS Office (Ko{ir 2002). Za prosto dostopni brezpla~ni pisarni{ki program OpenOffice.org, ki obstaja v slovenski lokalizirani razli~ici za operacijska sistema Windows ter Linux , je slovenski ~rkovalnik in na voljo na spletni strani . 5.2 Delilniki Delilnik, orodje za delitev besed po pravilih slovenskega pravopisa, lahko v obliki modula za vgradnjo najdemo na istih spletnih naslovih kot oba ~rkovalnika, za razliko od njiju pa je slovarska baza delilnikov razli~na. Delilnik podjetja Amebis je podobno kot ~rkovalnik `e vgrajen v pisarni{ki paket Microsoft Office od slovenske razli~ice urejevalnika besedil Word 7 naprej. 5.3 Preverjanje slovnice Poleg ~rkovalnika in delilnika besed, najstarej{ih standardnih komponent v urejevalnikih besedil, v njih najdemo tudi orodja za preverjanje skladenjske pravilnosti stavkov. Niti Microsoft Office niti drugi urejevalniki takega orodja za slovenski jezik {e nimajo. Edino samostojno orodje za preverjanje slovnice, vendar le za operacijski sistem DOS, ponuja podjetje Amebis pod imenom BesAna . 5.4 Seznami samopopravkov Seznam samopopravkov je orodje, ki je na voljo v paketu Microsoft Office kot integrirana aplikacija in ni na voljo denimo kot vgradni modul. Gre za spisek pogostih tipkarskih napak, ki jih delajo uporabniki pri uporabi urejevalnika besedil. ^e imamo orodje vklju~eno, urejevalnik sam nadomesti besedo iz spiska »napa~nih« besed s »pravo« besedo. Dodati je potrebno, da se pri spisku napa~nih besed skriva tudi kak{na jezikovna past, saj med njimi najdemo tudi pare, kjer gre za besede z razli~nimi pomeni (tehnica – tehtnica), na razli~ni stilni ravni (ko{arka{ – ko{arkar), neustaljeno rabo, morda celo z manj ustrezno izbiro (nadobudne` – nadebud Jezikovni priro~niki in novi mediji 41 ne`), ne le za klasi~ne napake, kjer orodje nadome{~a lektorja in korektorja (precednik – predsednik, povdarek – poudarek; skald – sklad, ail – ali). Za prosto dostopne urejevalnike besedil je na spletni strani na voljo spisek t. i. napa~nih besednih oblik, ki sicer skriva {e ve~ omenjenih jezikovnih pasti, saj gre precej dale~ v jezikovni normativizem. Tako med napa~nimi besedami najdemo tudi naslednje: bojler, brzina, bud`et, candra, cedejka, cimra, citadela, cukrarna, displej, duhamoren itd. 6 Avtomatski prevajalni sistemi Avtomatski prevajalni sistemi so pri slovenskem jeziku na za~etku razvoja. To podro~je, ki je takoreko~ sveti gral ra~unalni{kega jezikoslovja in je od petdesetih let prej{njega stoletja do`ivljalo vzpone in padce, je v zadnjih letih do`ivelo nesluten razmah in pri »velikih« jezikih rezultati `e zdavnaj ne zbujajo ve~ le prizanesljivih nasme{kov. Zavedati se je treba, da avtomatski prevajalniki verjetno nikoli ne bodo v celoti nadomestili prevajalcev, lahko pa spravijo dokument ali npr. spletno stran v obliko, ko uporabnik brez znanja izhodi{~nega jezika razbere osnovno sporo~ilo ali temo. Za sloven{~ino kot jezik z majhnim {tevilom govorcev, razmeroma {ibko finan~no podporo in sorazmerno majhnim {tevilom ljudi, ki se ukvarjajo z jezikovnimi tehnologijami, je sedanje stanje na tem podro~ju dokaj logi~no. Vendarle pa lahko, kot re~eno, spremljamo prve poskuse v smer programske opreme, ki ponuja avtomatsko prevajanje. Prvi je doma~ proizvod, drugi prihaja iz tujine. Podjetje Amebis ponuja prevajalnik, ki zna prevajati iz sloven{~ine v angle{~ino, na voljo pa je kot programski paket v treh razli~nih izvedbah , preizkusiti ga je mogo~e tudi preko svetovnega spleta , kjer omogo~a prevajanje besedila z najve~ petsto besedami. Za zgodnjo razvojno fazo prevajalnik sorazmerno dobro opravi svoje delo, prevod omogo~a osnovno razumevanje originalnega besedila, do ravni, na kateri se nahajajo najbolj{i prevajalniki med angle{~ino, franco{~ino, nem{~ino itd. pa mu manjka {e kar precej. Drugi sistem je prevajalnik med celo mno`ico jezikov in obstaja v ve~ razli~icah za razli~ne operacijske sisteme oz. medije, tudi preko svetovnega spleta . Med {estintridesetimi jeziki je tudi sloven{~ina (in kot zanimivost, hrva{~ina, bosan{~ina in srb{~ina). Testno prevajanje preko spleta , ~e je na podlagi tega mogo~e o ~em sklepati, poka`e, da sloven{~ina v tem prevajalnem sistemu {e ni dosegla ravni, ki bi omogo~ala razumevanje besedila brez znanja izhodi{~nega jezika, preizkusiti pa je bilo mogo~e le angle{koslovenski in slovensko-angle{ki par.7 7 Morda le hudomu{ni utrinek – pri prevajanju osnovne strani portala www.CNN.com je prevajalni sistem rubriko Politics prevedel s »politi~na mahinacija«. 42 Simon Krek 7 Govorne tehnologije Sinteza in analiza govora je zadnje podro~je te razprave in v nekem smislu sega `e preko njenega osnovnega zastavka, ki ostaja pri priro~nikih za slovenski jezik v digitalni obliki. Najbolj tipi~ni produkt na tem podro~ju, ki bi {e vklju~eval osnovno temo, bi bil fond zapisov izgovarjave besed v slovenskem jeziku, ki bi bil na voljo javnosti, tipi~no v obliki elektronskega slovarja z izgovarjavo besed, vendar takega priro~nika za sloven{~ino ni. [e najbli`e temu je morda zbirka izgovarjav pogostih izrazov, {tevilk in podobnih uporabnih zvez, namenjenih turistom na spletni strani v okviru spletnega priro~nika Sloven{~ina za popotnike. Od orodij za sintezo in analizo govora, ki so na voljo javnosti, so za zdaj vsa na strani sinteze, ki je – kot ka`e – la`ja polovica dveh sicer dokaj razli~nih tehnologij (Gros 2000, Gros 2001, Ka~i~ in dr. 1998, [ef in dr. 1998). Za sloven{~ino obstaja ve~ sistemov za sintezo govora: prvi je bil razvit na Institutu Jo`ef Stefan, imenuje se Govorec in se nahaja na strani . Primarno je namenjen slepim in slabovidnim za delo z ra~unalnikom, sistem je za njih brezpla~no dostopen, mogo~e ga je v obliki datoteke shraniti z interneta in namestiti na ra~unalnik z operacijskim sistemom Windows. Podjetje Masterpoint pa ponuja program eBralnik, ki omogo~a testno uporabo preko svetovnega spleta na strani . 8 Prihodnost Prihodnost slovenskih ra~unalni{kih jezikovnih priro~nikov najbr` lahko vidimo v sedanjem stanju podobnih virov pri drugih jezikih z ve~jimi finan~nimi in ~love{kimi mo`nostmi. Povpre~ni uporabnik ra~unalnika in drugih tehnologij, ki je govorec jezika, kjer poteka najbolj dinami~en razvoj, lahko tvori besedila v maternem jeziku s pripomo~ki, ki mu svetujejo glede besedi{~a in struktur, ki jih uporablja, sorazmerno uspe{no lahko razume besedila v tujem jeziku brez poznavanja jezika in lahko govorno komunicira z ra~unalnikom ter drugimi digitalnimi napravami. Govorec sloven{~ine bo verjetno {e nekaj ~asa prikraj{an pri ve~ segmentih. Najbolj pomembna za nadaljnji razvoj so pravzaprav podro~ja, kjer nih~e drug ne more opraviti dela za neko jezikovno skupnost, pri segmentih, ki so vezani na jezik, ne pa na samo tehnologijo. Prva zadrega torej nastane `e na ravni, ki {e ni ra~unalni{ka, je pa nujen pogoj za kvalitetne jezikovne pripomo~ke v digitalnem mediju – spodobna dokumentiranost stanja sodobnega jezika v obliki, ki je primerna za pre- nos v digitalne aplikacije, od vseh vrst slovarjev do uspe{nega oblikoslovno-skladenjskega ozna~evalnika. Brez teh elementov je te`ko graditi naprej. Drug pomemben element je racionalnost pri uporabi razpolo`ljivih finan~nih sredstev in ~love{kih potencialov, kajti jasno je, da ~e ena in ista ra~unalni{ka aplikacija lahko v primerljivih ekonomskih okoli{~inah zadovolji potrebe petdeset milijonov uporabnikov ali dveh milijonov, bodo prvi imeli petindvajsetkrat ve~ mo`nosti, da do nje pridejo. Ta premisa v tej jezikovni skupnosti do sedaj ni bila najbolj upo{tevana. Jezikovni priro~niki in novi mediji 43 Literatura ^ermák, Franti{ek, 2002: Today’s corpus linguistics: Some open questions, International Journal of Corpus Linguistics 7/2. 265–282. Erjavec, Toma`, 1996/97: Ra~unalni{ke zbirke besedil. Jezik in slovstvo 2/3. 81–95. Erjavec, Toma`, 1998a: Oznake korpusa FIDA. Ka~i~, Zdravko, (ur.): Uporabno jezikoslovje 6. Tematska {tevilka »Jezikovne tehnologije«. 85–95. Erjavec, Toma`, 1999a: Making the ELAN Slovene/English Corpora. Language Technologies – Multilingual Aspects. Špela Vintar (ur.): Proceedings of the workshop within the framework of the 32th Annual Meeting of the Societa Linguistica Europea, 8–11 July 1999. Ljubljana: Filozofska fakulteta, Oddelek za prevajanje in tolma~enje. 23–30. Erjavec, Toma`, 1999b: Slovensko-angle{ki korpus ELAN. Slavisti~na revija 47/4. 515–522. Erjavec, Toma`, Gorjanc, Vojko in Stabej, Marko, 1998: Korpus FIDA. Toma` Erjavec in Jerneja Gros (ur.): Jezikovne tehnologije za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ljubljana: Institut Jo`ef Stefan. 124–127. Gorjanc, Vojko, 1999a: Kaj in kako v korpus FIDA. Razgledi 13, 23. jun. 1999. 7–8. Gorjanc, Vojko, 1999b: Korpusi v jezikoslovju in korpus slovenskega jezika FIDA. Kr`i{nik, Erika in Lokar, Meta (ur.): 35. seminar slovenskega jezika, literature in kulture. Ljubljana: Center za sloven{~ino kot drugi/tuji jezik pri Oddelku za slovanske jezike in knji`evnost Filozofske fakultete Univerze v Ljubljani. 47–59. Gorjanc, Vojko, 2000: Nekatere mo`nosti jezikoslovne izrabe enojezikovnih korpusov. Orel, Irena in Lokar, Meta (ur.): 36. seminar slovenskega jezika, literature in kulture. Center za sloven{~ino kot drugi/tuji jezik pri Oddelku za slovanske jezike in knji`evnosti Filozofske fakultete Univerze v Ljubljani. 335–348. Gorjanc, Vojko in Vintar, [pela, 2000: Iskanja po Korpusu slovenskega jezika FIDA. Erjavec, Toma` in Gros Jerneja (ur.): Informacijska dru`ba, Jezikovne tehnologije. Ljubljana 17.–19. okt. 2000. 20–26. Gros, Jerneja, 2000: Samodejno tvorjenje govora iz besedil: postopek za izdelavo sintetizatorja slovenskega govora. Ljubljana: Zalo`ba ZRC SAZU. Gros, Jerneja, 2001. Sinteza slovenskega govora – jezikoslovni vidiki. Orel, Irena in Lokar, Meta (ur.): 37. seminar slovenskega jezika, literature in kulture. Ljubljana: Filozofska fakulteta, Oddelek za slovanske jezike in knji`evnost, Center za sloven{~ino kot drugi/tuji jezik. 21–31 Hirci, Nata{a, 1998: Korpusi v prevodoslovju. Toma` Erjavec in Gros Jerneja (ur.): Jezikovne tehnologije za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ljubljana: Institut Jo`ef Stefan. 113–118. Jakopin, Primo` in Bizjak, Aleksandra, 1997: O strojno podprtem oblikoslovnem ozna~evanju slovenskega besedila. Slavisti~na revija 45/3-4. 513–532. Ka~i~, Zdravko in Horvat, Bogomir, 1998. Izgradnja infrastrukture potrebne za razvoj govorne tehnologije za slovenski jezik. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konfe 44 Simon Krek rence/Proceedings of the Conference. 6. do 7. oktober 1998. Ljubljana: Institut Jo`ef Stefan. 100–104. Kilgarriff, Adam, 2001: Web as corpus. Proceedings of Corpus Linguistics 2001. Lancaster: University of Lancaster. Ko{ir, Ale{, 2002. Sodobni prosti ~rkovalniki in baze pravilnih besednih oblik. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije/Language Technologies. Zbornik konference/Proceedings of the Conference. 14. do 15. oktober 2002. Ljubljana: Institut Jo`ef Stefan. 171–172. Ko{ir, Ale{, Peterlin, Primo` in Erjavec, Toma`, 1998. GNUSL: Prosto programje in sloven{~ina. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije za slovenski jezik/ Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ljubljana: Institut Jo`ef Stefan. 35–41. Landau, Sidney I., 2001: Dictionaries, The Art and Craft of Lexicography, 2nd Edition. Cambridge: Cambridge University Press. Pisanski, Agnes, 1998. Virtualna u~ilnica: uporaba interneta pri pou~evanju tujih jezikov. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ljubljana: Institut Jo`ef Stefan. 96–99. Romih, Miro, 1998a: Amebis in jezikovne tehnologije. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije za slovenski jezik/Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ljubljana: Institut Jo`ef Stefan. 29–34. Romih, Miro, 1998b: Direktorijska struktura korpusa FIDA. Ka~i~, Zdravko (ur.): Uporabno jezikoslovje 6. Tematska {tevilka »Jezikovne tehnologije«. 79–84. Romih, Miro in Holozan, Peter, 2002a. Infrastruktura za razvoj jezikovnih tehnologij – korpus FIDA in sistem ASES. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije/ Language Technologies. Zbornik konference/Proceedings of the Conference. 14. do 15. oktober 2002. Ljubljana: Institut Jo`ef Stefan. 166. Romih, Miro in Holozan, Peter, 2002b. Elektronski slovarji. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije/Language Technologies. Zbornik konference/Proceedings of the Conference. 14. do 15. oktober 2002. Ljubljana: Institut Jo`ef Stefan. 165. Stabej, Marko, 1998: Besedilnovrstna sestava korpusa FIDA. Ka~i~, Zdravko (ur.): Uporabno jezikoslovje 6. Tematska {tevilka »Jezikovne tehnologije«. 96–106. [ef, Toma`, Dobnikar, Ale{, Gams, Matja`, Grobelnik, Marko, 1998. Slovenski govor na internetu. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije za slovenski jezik/ Language Technologies for the Slovene Language. Zbornik konference/Proceedings of the Conference. 6. do 7. oktober 1998. Ljubljana: Institut Jo`ef Stefan. 60–64. Vintar, [pela, 1999a: A Lexical Analysis of the ELAN Slovene-English Parallel Corpus. [pela Vintar (ur.): Language Technologies – Multilingual Aspects. Proceedings of the workshop within the framework oh the 32th Annual Meeting of the Societa Linguistica europea, 8–11 July 1999. Ljubljana: Filozofska fakulteta, Oddelek za prevajanje in tolma~enje. 63–69. Vintar, [pela, 1999b: Ra~unalni{ko podprto iskanje terminologije v slovensko-angle{kem vzporednem korpusu. Uporabno jezikoslovje 7-8. 156–169. Vintar, [pela, 2002. Avtomatsko lu{~enje izrazja iz slovensko-angle{kih vzporednih besedil. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije/Language Technologies. Zbornik Jezikovni priro~niki in novi mediji 45 konference/Proceedings of the Conference. 14. do 15. oktober 2002. Ljubljana: Institut Jo`ef Stefan. 78–85. Zupan, Jure, 1999: Problemi in nekaj re{itev ra~unalni{kih obdelav slovenskih besedil. Slavisti~na revija 47/3. 277–296. @eljko, Miran, 2002. Pripomo~ki na spletu za prevajalce zakonodaje EU. Erjavec, Toma` in Gros, Jerneja (ur.): Jezikovne tehnologije/Language Technologies. Zbornik konference/ Proceedings of the Conference. 14. do 15. oktober 2002. Ljubljana: Institut Jo`ef Stefan. 33–38. Slovarji BSJ – Slovar slovenskega knji`nega jezika z odzadnjim slovarjem slovenskega jezika in besedi{~em slovenskega jezika z oblikoslovnimi podatki. Elektronska izd. na plo{~i CD-ROM, 1998. Ljubljana: DZS, SAZU in ZRC SAZU. Debenjak, Bo`idar, Doris in Primo`, 1992. Veliki nem{ko-slovenski slovar. Ljubljana: DZS. ES – Evropski slovar, 1995. Ljubljana: Mladinska knjiga. Grad, Anton, [kerlj, Ru`ena in Vitorovi~, Nada, 1978. Veliki angle{ko-slovenski slovar. Ljubljana: Dr`avna zalo`ba Slovenije. OSSJ – Slovar slovenskega knji`nega jezika z odzadnjim slovarjem slovenskega jezika in besedi{~em slovenskega jezika z oblikoslovnimi podatki. Elektronska izd. na plo{~i CDROM, 1998. Ljubljana: DZS, SAZU in ZRC SAZU. SP – Slovenski pravopis, 2001. Ljubljana: SAZU in In{titut za slovenski jezik Frana Ramov{a ZRC SAZU. SSKJ – Slovar slovenskega knji`nega jezika z odzadnjim slovarjem slovenskega jezika in besedi{~em slovenskega jezika z oblikoslovnimi podatki. Elektronska izd. na plo{~i CDROM, 1998. Ljubljana: DZS, SAZU in ZRC SAZU. VST – Veliki slovar tujk, 2002. Ljubljana: Cankarjeva zalo`ba. Spletne strani Slovarji: a) enojezi~ni b) dvojezi~ni 46 Simon Krek c) terminolo{ki Leksikoni: Korpusi: a) enojezi~ni b) dvojezi~ni c) terminolo{ki d) spletni Jezikovna orodja v pisarni{kih programskih paketih: Avtomatski prevajalni sistemi: Govorne tehnologije: