[pela Vintar UDK 811.163.6’42:81’374:004 Univerza v Ljubljani, Filozofska fakulteta spela.vintar@guest.arnes.si KAJ IZVIRA IZ JEZIKOVNIH VIROV Jezikovni viri, kot so korpusi, leksikoni in tezavri, pa tudi ozna~evalniki in druge temeljne tehnologije, niso sami sebi namen, temve~ slu`ijo za izdelavo pomembnih jezikovnih priro~nikov in uporabni{kih aplikacij. Prispevek predstavi na~ine izrabe jezikovnih virov v jezikoslovne in nejezikoslovne namene s poudarkom na uporabni{kem vidiku. Med prvimi omenjamo predvsem korpusne metode pri opisovanju jezika v leksikografiji, slovnici in prevodoslovju, nato sledi pregled {ir{e znanih jezikovnih orodij, kot so ~rkovalniki, slovarji sopomenk ali prevajalniki. V zadnjem ~asu se razvoj vse bolj osredoto~a na pomensko usmerjene aplikacije, na primer razvr{~anje in povzemanje dokumentov, iskanje podatkov in gradnjo ontologij. V drugem delu prispevka pobli`e opi{emo dve podro~ji izrabe korpusnih virov, in sicer lu{~enje terminologije in pridobivanje medicinskih spoznanj s pomo~jo rudarjenja besedil. 1 Uvod Z nekajletno zamudo za »velikimi« jeziki je tudi pri nas korpusno jezikoslovje za`ivelo kot dinami~no interdisciplinarno podro~je raziskovanja in ustvarjanja. Z mejnikom, ki ga predstavlja korpus slovenskega jezika FIDA , z vse dalj{im seznamom drugih korpusnih virov za slovenski jezik in nenazadnje z na~rtovanimi in teko~imi projekti nadaljnje izgradnje slovenske jezikovnotehnolo{ke infrastrukture je podro~je nedvomno preseglo kriti~no to~ko adolescence. Obenem pa je zdaj tudi ~as, da se izraziteje in bolj sistemati~no posvetimo ciljem, ki bodo s pomo~jo korpusov postali dosegljivi in zaradi katerih se je vse skupaj sploh za~elo. ^lanek se tako posve~a izrabi korpusov in predstavlja le ozek vpogled v nepregleden spekter tehnologij, aplikacij in dejavnosti, ki temeljijo na elektronskih zbirkah besedil in vklju~ujejo precej ve~ kot le z jezikoslovjem povezana podro~ja. V prvem delu pregledno predstavimo nekatera tradicionalna in sodobnej{a podro~ja izrabe korpusnih virov, v drugem delu pa nekoliko pobli`e opi{emo dva na~ina pridobivanja podatkov iz korpusov, in sicer lu{~enje terminologije (Term Extraction) in rudarjenje podatkov iz besedil (Text Mining). Jezik in slovstvo, let. 48 (2003), {t. 3–4 78 [pela Vintar 2 Korpusi v jezikoslovju Splo{na utemeljitev korpusnega pristopa, kot ga povzema na primer Geoffrey Leech (1991), je, da »omogo~a raziskovanje jezika s pomo~jo primerov jezikovne rabe iz resni~nega `ivljenja.« V skladu s tem je poglavitno in najstarej{e podro~je izrabe korpusov povezano z opisovanjem razli~nih plati dolo~enega jezika, na primer besedi{~a, slovnice, stilnih zna~ilnosti, komunikacijsko-funkcionalnih zvrsti in drugih. ^eprav so jezikovni opisi od nekdaj ~rpali iz besedilnih virov in pogosto vklju~evali podrobno in dolgotrajno pregledovanje gradiva, so ra~unalni{ki korpusi prinesli metodolo{ki preporod v malone vse veje jezikoslovja. Tako si danes nekaterih, predvsem leksikografskih opravil brez ustrezne ra~unalni{ke podpore sploh ne moremo ve~ zami{ljati, z vse ve~jimi korpusi in bolj{imi na~ini avtomatskega ozna~evanja pa je mogo~e avtomatsko pridobiti korpusne dokaze tudi za kompleksnej{e jezikovne pojave, na primer kohezivnost besedil ali stilne posebnosti. V nadaljevanju na{tejemo le nekaj korpusnih metod, ki so korenito spremenile dotlej uveljavljene jezikoslovne prakse (glej tudi Thomas in Short 1996; McEnery in Wilson 1992). 2.1 Leksikografija ^eprav je `e Samuel Johnson pri pisanju prvega angle{kega slovarja navajal prime- re iz literature, je zajemanje in opisovanje besedi{~a s pomo~jo ra~unalni{kega korpusa neprimerno la`je in hitrej{e. Izpis konkordanc, se pravi korpusnih pojavitev izbrane besedne oblike, in njihovo urejanje po levih ali desnih kolokatorjih nam poka`e frazeolo{ko obna{anje izto~nice, razli~ni sobesedilni vzorci nam pomagajo razbrati njene pomene in rabo. S statisti~nimi cenilkami, kot sta na primer vzajemna vrednost (MI) ali logaritem razmerij verjetja (LL), pridobimo {e podrobnej{e podatke o kolokatorjih. ^e je korpus oblikoskladenjsko ozna~en, lahko okolje izto~ nice raziskujemo {e bolj usmerjeno, na primer tako, da si ob samostalni{kem geslu prika`emo vse pridevnike ali predlo`ne zveze. Pogostost pojavitve, seveda ob upo{tevanju sestave korpusa, njegove (ne)uravnote`enosti in (ne)reprezentativnosti, predstavlja pomemben kriterij pri izdelavi samega geslovnika in pri opisovanju dolo~enega gesla. Pogostej{i pomeni naj bi bili navedeni najprej, prav tako nam pogostost pomaga pri opisovanju idiomatike in frazeologije. Spremljevalni korpusi, ki se stalno dopolnjujejo z novimi besedili, so za leksikografa vir podatkov o tem, kaj je v jeziku novo, kaj se spreminja in kaj izumira. In ker korpusi vsebujejo tudi podatke o avtorju, na~inu, kraju in ~asu izdaje, lahko opazujemo zvrstno, regional- no ali ~asovno specifi~nost izbranega leksema. S korpusi se je spremenil tudi na~in oblikovanja razlage ali definicije gesla. Medtem ko so bile razlage v~asih oblikovane po na~elu ena~be in (skladenjske) izmenjljivosti, npr. nalupiti – z lupljenjem priti do dolo~ene koli~ine ~esa (SSKJ), je Cobuildov pristop prinesel razlage v obliki vezanih in lahko berljivih povedi (Pearson 1998), npr. ^e lupimo toliko ~asa, da imamo olupljenega dovolj, smo nekaj nalupili. Primeri rabe, ki so jih pri klasi~nem pristopu leksikografi skovali sami, so pri Cobuildovem pristopu avtenti~ni stavki iz korpusa. Kaj izvira iz jezikovnih virov 79 2.2 Slovnica Za opazovanje oblikoslovnih in skladenjskih vzorcev v jeziku potrebujemo ozna~eni korpus, avtomatska skladenjska raz~lemba (parsing) pa za ve~ino jezikov {e ni na voljo. Kljub temu se s polavtomatskimi metodami pospe{eno ustvarjajo »globoko« ozna~eni korpusi oziroma »drevesnice« (treebanks), na primer Penn Treebank z 1,6 milijoni besed ali International Corpus of English s pribli`no milijonom besed oziroma 90.000 drevesi. Podobni projekti so na voljo {e za bolgar{~ino, ~e{~ino, italijan{~ino, kitaj{~ino, nem{~ino, {pan{~ino in druge jezike, slovenske »drevesnice« zaenkrat nimamo.1 Prednost skladenjsko ozna~enih korpusov je, da omogo~ajo opazovanje in primerjavo slovni~nih struktur, predvsem pa sklepanje o tem, kaj je v jeziku bolj in kaj manj tipi~no. A tudi korpusi brez globinske raz~lembe lahko slu`ijo kot pomemben vir za slovni~ni opis jezika, {e posebej glede na zvrst, register in prenosnik. Tu bi si za sloven{~ino `eleli {e raz{iritve korpusa FIDA z na primer govornim korpusom, korpusom internetnih besedil in dopolnitvijo manjkajo~ih strokovnih podro~ij. Ra~unalni{ka obdelava velikih besedilnih zbirk pa nam omogo~a u~inkovitej{e zbiranje podatkov tudi za bolj specifi~ne jezikoslovne raziskave. Kenny (2001) na primer je s pomo~jo nem{ko-angle{kega korpusa izvirnih in prevodnih literarnih besedil opazovala strategije pri prevajanju jezikovno kreativnih elementov, kot so novotvorjenke ali slengovski izrazi. Njena hipoteza je predvidevala, da pri prevajanju pogosto pride do normalizacije ali ubla`itve izstopajo~ega pojava. Seveda se pojavi vpra{anje, kako s pomo~jo korpusa raziskovati izvirnost. Kenny uporabi ve~ metod, med njimi na primer opazovanje enopojavnic ali hapax legomena, ki ka`ejo na jezikovno neobi~ajnost, pa tudi tistih besed, ki se pojavljajo zgolj pri dolo~enem avtorju ali v okviru dolo~enega dela. Primerja tudi leksikalno gostoto izvirnikov in prevodov ter ugotavlja, da do normalizacije res prihaja, po drugi strani pa odkrije tudi {tevilne primere, ko prevajalci ubla`itev izvirnega jezikovnega sredstva kompenzirajo z nadomestnimi strategijami. [tudija vsekakor poka`e, da je z iznajdljivo uporabo korpusnih metod mogo~e formalizirati tudi navidez tako neulovljive pojave, kot je izvirnost. 3 Korpusi in uporabni{ke jezikovne tehnologije Pomen jezikovnih virov navadno najglasneje poudarjajo jezikoslovci, ki `elijo z njihovo pomo~jo priti do ~im natan~nej{ih opisov jezika, in pa ra~unalni{ki jezikoslovci, ki se ukvarjajo z razvijanjem metod za avtomatsko obdelavo in analizo naravnega jezika. Z uporabni{kega vidika se prizadevanja prvih ka`ejo v obliki bolj{ih in druga~nih slovarjev, slovnic in drugih jezikovnih priro~nikov, pa tudi na primer skozi bolj{e metode za u~enje in pou~evanje jezika. Dose`ki ra~unalni{kega jezikoslovja so {ir{i javnosti manj znani, ~eprav se vsaj z nekaterimi jezikovnimi tehnologijami dnevno sre~uje. 1 Dober pregled korpusnih virov, tudi ozna~enih, je na strani http://devoted.to/corpora. 80 [pela Vintar 3.1 Splo{no znana jezikovna orodja Kot del pisarni{kega paketa MS Office imamo za sloven{~ino na voljo preverjanje ~rkovanja in slovar sopomenk, obstajajo pa tudi prosto dostopni ~rkovalniki za urejevalnik Emacs in okolje Unix/Linux. ^rkovalnik deluje na podlagi leksikona besed in besednih oblik, ki ga najla`e pridobimo iz korpusa. Naprednej{i urejevalniki besedil samodejno zaznajo jezik dokumenta in vklju~ijo ustrezna jezikovna orodja. Ve~ina mobilnih telefonov je opremljenih s samodejnim dopolnjevanjem besed pri pisanju kratkih sporo~il, ki prav tako temelji na slovarju pogostih besed in besednih oblik. Za sloven{~ino je to orodje {e precej nepopolno, na splo{no pa se mora tak dopolnjevalnik ravnati po pogostostih rabe besed v kratkih sporo~ilih, saj je ta besedilna vrsta – podobno kot e-po{tna sporo~ila – zelo specifi~na in nam podatki o rabi in pogostosti iz referen~nega korpusa le malo koristijo. Dobro znana, ~eprav neprimerno bolj zapletena aplikacija je tudi strojni prevajalnik, ki ga za jezikovni par angle{~ina-sloven{~ina razvija podjetje Amebis d. o. o. ^eprav tehnologija strojnega prevajanja tradicionalno ni temeljila na korpusnih virih, ampak na obse`nih dvojezi~nih leksikonih in transformacijskih pravilih, se v zadnjih petnajstih letih razvoj osredoto~a na statisti~ne metode in strojno u~enje na podlagi vzporednih korpusov. Eden takih sistemov je Egypt (Och in Ney 2000), prednost statisti~nega prevajanja pa je jezikovna neodvisnost, saj lahko sistem nau~imo na vzporednem korpusu katerega koli jezikovnega para. Za komercialne namene statisti~no strojno prevajanje sicer {e ni zrelo, so pa v teku tudi poskusi u~enja sistema Egypt na slovensko-angle{kih vzporednih korpusih IJS-ELAN in TRANS (Vi~i~ in Erjavec 2002). Preden zapustimo jezikovne tehnologije za sloven{~ino in pogledamo naokrog, je treba omeniti pri nas zelo `ivahno podro~je govornih tehnologij, ki se uspe{no vklju~ujejo v razli~ne uporabni{ke aplikacije, na primer govorne vmesnike pri mobilni telefoniji (poslu{anje e-po{te in kratkih sporo~il), pripomo~ke za slabovidne in slepe, u~ne pripomo~ke za otroke in {e marsikaj. Ker se govornim tehnologijam posve~a drug prispevek v tej publikaciji, se tu z njimi ne ukvarjamo podrobneje. 3.2 Pomensko usmerjene aplikacije Z uporabo jezikovnih tehnologij so se razvila {tevilna orodja, ki sku{ajo na tak ali druga~en na~in poleg oblikoskladenjskih zna~ilnosti naravnega jezika zajeti tudi pomen. Sem sodi na primer samodejno razvr{~anje dokumentov (Document Classification), pri katerem mora sistem prepoznati klju~ne besede, jih razvrstiti po pomembnosti in na podlagi tega dokument razvrstiti v eno od danih kategorij. Prepoznavanje klju~nih besed je lahko statisti~no, se pravi s primerjavo pogostosti besed v celotni zbirki dokumentov in po posameznih dokumentih, lahko pa temelji na splo{nih tezavrih tipa WordNet ali podro~nih ontologijah. Samodejno razvr{~anje je pomembno na primer pri spletnih iskalnikih in imenikih, v podjetjih in ustanovah, ki se sre~ujejo z velikim pritokom dokumentov, v dokumentalistiki in bibliotekarstvu in drugod. Sorodne aplikacije so se razvile tudi za upravljanje z Kaj izvira iz jezikovnih virov 81 elektronsko po{to. Program (npr. Xtramindov Mail-Minder; http://www.xtramind. com/english/html/products/email_response_management.html) na podlagi analize prejetih sporo~il predlaga naju~inkovitej{o razdelitev v mape, nato pa pri vsakem prihajajo~em sporo~ilu samodejno zazna jezik in ga s pomo~jo klju~nih besed, zna~ilnih vzorcev in podatkov iz oglavja sporo~ila razvrsti v eno od map. Dodatne mo`nosti programa vklju~ujejo {e samodejno povzemanje sporo~il in samodejno tvorjenje odgovorov. Povzemanje (Text Summarization) je v ~asu vsesplo{ne informacijske prezasi~enosti nedvomno koristna aplikacija. Danes je na voljo prek deset komercialnih povzemovalnikov,2 med njimi tudi Microsoftov, ki ga je mogo~e vklju~iti v Word in druge programe. Zgodnji povzemovalniki so prav tako temeljili na lu{~enju klju~nih besed in vrednotenju povedi glede na informativno te`o. Povzetek, katerega dol`ino lahko uporabnik dolo~i sam, je tako sestavljen iz ustreznega {tevila visoko uvr{~enih povedi, katerih notranja zgradba ostane nespremenjena. Naprednej{a orodja vklju~ujejo jezikovno odvisne komponente oblikoskladenjske analize in zmorejo mnogo ve~, med drugim tudi preoblikovanje povedi tako, da je zajeta le klju~na informacija, pa tudi povzemanje mno`ice dokumentov. Pomensko usmerjene aplikacije se sre~ujejo s specifi~nimi jezikovnotehnolo{kimi problemi, ki ostajajo predmet `ivahnih raziskav. Eden izmed njih je razdvoumljanje besed (Word Sense Disambiguation), kjer sku{amo za ve~pomensko besedo v danem besedilu na podlagi njene okolice ugotoviti, kateri od mo`nih pomenov je zares v igri. V ta namen se dobro obnesejo statisti~ne metode, kot so skupkanje (clustering) ali razvr{~anje (classification), kjer sobesedilo ve~pomenske besede predstavlja njen kontekstni vektor. Z izra~unom razdalj med posameznimi vektorji je mogo~e ugotoviti, za kateri pomen gre. Zanimiv prikaz eno- in dvojezi~nega skupkanja z vizualizacijo rezultatov je bil zgrajen na in{titutu CSLI Univerze v Stanfordu v okviru projekta Infomap . Za razvoj vseh naprednej{ih jezikovnih orodij so neobhodno potrebni jezikovni viri, kot so korpusi, oblikoslovni leksikoni, splo{ni in podro~ni pomenski tezavri, leksikoni lastnih imen in drugi. [ele z njimi je namre~ mogo~e razviti jezikovno specifi~na orodja, ki so zmo`na pomenske obdelave besedil. 4 Iskanje podatkov in rudarjenje besedil Pomembno podro~je, na katerem se jezikovne tehnologije {ele uveljavljajo, je iskanje podatkov (Information Retrieval). Izraz pomeni dostopanje do relevantnih dokumentov v velikih zbirkah na podlagi poizvedbe v naravnem jeziku, se pravi spiska besed, iskane fraze ali cele povedi v obliki vpra{anja. Najbolj znana in najve~ja zbirka dokumentov, do katerih dostopamo na tak na~in, je svetovni splet, na {tevilnih strokovnih podro~jih pa se vzdr`ujejo tudi drugi elektronski arhivi, na 2 Pregled jezikovnih tehnologij, vklju~no s povzemovalniki, nudi stran Language Technology World http://www.lt-world.org. 82 [pela Vintar primer zbirke pravnih aktov, medicinskih ~lankov, tehni~nih opisov proizvodov, upravnih kartotek itd. Najenostavnej{i iskalniki v besednem kazalu preprosto poi{~ejo dokumente, ki vsebujejo iskane besede, in jih razvrstijo glede na {tevilo njihovih pojavitev. A to zagotovo ni naju~inkovitej{i na~in, kajti pogostost besede ni vselej merilo za njeno klju~nost, poleg tega pa je s tem iskanje omejeno le na dano besedno obliko. Za merjenje relevantnosti besede za dolo~eni dokument znotraj zbirke se na splo{no uporablja cenilka tf.idf (Term Frequency – Inverse Document Frequency) (Baeza- Yates in Ribeiro-Neto 1999), ki temelji na predpostavki, da je beseda tem bolj zna~ilna za posamezni dokument, ~im manj ostalih dokumentov jo vsebuje, in ~im ve~krat se v tem dokumentu pojavlja. A za uspe{nej{e iskanje je treba, {e posebej pri oblikoslovno razgibanih jezikih, vklju~iti vse besedne oblike, po mo`nosti pa {e njene sopomenke. Tako danes mnogi spletni iskalniki vklju~ujejo jezikovna orodja, ki najprej samodejno razpoznajo jezik poizvedbe, nato pa izlo~ijo nepomembne besede, kot so vezniki, ~leni in predlogi, razen ~e je niz ozna~en kot fraza. Zatem lahko sledi krnjenje, ki je poenostavljena razli~ica lematizacije, ali prava lematizacija oziroma {irjenje poizvedbe z drugimi besednimi oblikami. Mnogi spletni iskalniki prepoznajo tudi napa~no zapisane besede, in sicer preprosto na podlagi pogostosti besednih oblik. Naprednej{e iskanje, ki se uporablja ve~inoma za podro~ne zbirke dokumentov, vklju~uje {irjenje iskalnega pogoja s podobnimi besedami ali sinonimi iz tezavra. Namesto ro~no izdelanih tezavrov se navadno {e bolje obnesejo avtomatski, ki iz dane zbirke dokumentov izlu{~ijo skupinice besed s podobnimi kontekstnimi vektorji. Posebno podro~je iskanja podatkov pa je medjezi~no iskanje (Cross-Language Information Retrieval), pri katerem iskalnik za dano poizvedbo poi{~e tudi dokumente v jezikih, ki niso enaki kot jezik poizvedbe (glej tudi Dimec 2002). Medjezi~no iskanje lahko temelji na strojnem prevajanju, kjer se prevede bodisi zgolj poizvedba bodisi celotna zbirka dokumentov. Na podro~jih, kjer so na razpolago ob{irne ve~jezikovne ontologije, kot je na primer Unified Medical Language System (UMLS) za medicino, lahko iskanje poteka tudi preko t. i. pojmovnega prenosa. V poizvedbi se najprej poi{~ejo pomembni podro~ni pojmi, ki so ozna~eni z jezikovno neodvisno kodo, prek te kode pa je mogo~ prenos poizvedbe v klju~ne izraze ciljnega jezika. Prototip takega sistema je bil razvit v projektu MuchMore in je dostopen na spletu na naslovu http://lit.dfki.uni-sb.de:8000/prototype/index.html. Za podro~ja, kjer tak{nih ontologij ni, je s pomo~jo dvojezi~nega slovarja in dane (dvojezi~ne) zbirke dokumentov mogo~e izdelati dvojezi~ni tezaver pomensko podobnih besed (similarity thesaurus), ki prav tako omogo~a u~inkovito prevajanje in {irjenje poizvedbe. Nekoliko sorodno podro~je, kjer se ra~unalni{ko jezikoslovje sre~uje z informatiko in umetno inteligenco, je rudarjenje besedil (Text Mining) kot posebno podro~je rudarjenja podatkov. Tu ne gre za dostopanje do dokumentov, ampak za pridobivanje znanja iz besedilnih zbirk, {e posebej tak{nega znanja, ki prej ni bilo eksplicitno dostopno.3 Metode rudarjenja besedil obsegajo lu{~enje terminologije in klju~ 3 Povzeto po {tudijskih gradivih Hinricha Schuetzeja in Chrisa Manninga za predmet Text Mining na Stanfordski univerzi, http://www-csli.stanford.edu/~schuetze/. Kaj izvira iz jezikovnih virov 83 nih besed na eni strani, kar v napredni obliki postane lu{~enje ontolo{kega znanja, se pravi pojmov in razmerij med njimi, na drugi strani pa gre za odkrivanje novih povezav in korelacij med podatki, pogosto s pomo~jo vizualizacije, kar vodi do novih strokovnih spoznanj. Gradnja ontologij oziroma jezikovno neodvisnih mre` pojmov, njihovih lastnosti in razmerij med njimi je v zadnjem ~asu posebej aktualno podro~je, ki je v ospredje stopilo s semanti~nim spletom, idejo o pomensko organiziranem internetu, kjer so spletne informacijske in druge storitve dostopne prek metapodatkov, standardiziranih ontologij in pametnih agentov . Ker za mnoga podro~ja ob{irnih ontologij {e ni, njihova ro~na izdelava pa zahteva precej truda in ~asa, se pospe{eno razvijajo metode avtomatske gradnje ontologij iz (predvsem) besedilnih virov (glej npr. Maedche in Staab 2001). V naslednjem razdelku nekoliko pobli`e opi{emo dva primera izrabe jezikovnih virov, od katerih je prvi neposredno, drugi pa posredno povezan tudi s postopki rudarjenja besedil. 5 Dva primera izrabe jezikovnih virov 5.1 Pridobivanje novih medicinskih spoznanj Medicina je izrazito kompleksno in {iroko podro~je, kjer se neprestano pojavljajo odkritja novih bolezni, povzro~iteljev, u~inkovin in interakcij med njimi. Najbolj ute~ena pot za {irjenje novih spoznanj je preko strokovnih ~lankov, ki izhajajo v nekaj tiso~ mednarodnih serijskih publikacijah in zbornikih znanstvenih sre~anj. Danes je precej{nji del teh publikacij dostopen tudi preko interneta, pri ~emer je najbogatej{i vir baza Medline oziroma njen javno dostopni vmesnik PubMed , ki vsebuje bibliografske podatke ~lankov z naslovi in povzetki iz ve~ kot 4.000 strokovnih revij, skupaj preko 10 milijonov ~lankov od leta 1966 do danes. Ni torej presenetljivo, da se je pojavila zamisel o izkori{~anju tega obse`nega korpusa za odkrivanje novih povezav in znanstvenih spoznanj. Naloga se na prvi pogled morda zdi nesmiselna, kajti ~e `elimo iz korpusa izlu{~iti dolo~eno znanje, mora biti to na tak ali druga~en na~in ubesedeno, to pa pomeni, da ni novo. Toda medicina je tako razvejano podro~je, da so mnoga znana dejstva o, denimo, povezavi med dolo~eno farmakolo{ko snovjo in odzivom organizma omejena zgolj na tisto specialisti~no stroko, ki se s tem ukvarja. Obenem so o istem odzivu organizma pod druga~nim specialisti~nim vidikom morda znana druga dejstva, povezava teh dejstev pa morda pomeni novo medicinsko spoznanje. Tak{en pristop prvi opisuje Swanson (1991), ki s pomo~jo naslovov in povzetkov ~lankov iz Medlinea sku{a ugotoviti vzro~ne povezave med simptomi, zdravili in rezultati. V eni svojih raziskav se je osredoto~il na migrenski glavobol in prehranske vzroke zanj. Njegova metoda je razmeroma enostavna: ^e imamo problem A (migrenski glavobol) in ciljni prostor vzrokov C (prehrana), lahko zberemo litera 84 [pela Vintar turo o A in literaturo o C. ^e obstajajo tak{ni elementi B, ki se v literaturi pogosto pojavljajo tako v zvezi z A kot v zvezi s C, lahko postavimo hipotezo A › B › C. Pri migrenskem glavobolu se je od prehranskih vzrokov osredoto~il na magnezij in v Medlineu zasledil naslove, kot so: • Stress is associated with migraines [Stres je povezan z migrenami] • Stress can lead to a loss of magnesium [Stres lahko povzro~i pomanjkanje magnezija] • Calcium channel blockers prevent some migraines [Zaviralci kalcijevih kanal~kov lahko prepre~ujejo migreno] • Magnesium is a natural calcium channel blocker [Magnezij je naravni zaviralec kalcijevih kanal~kov] Presek dveh specialisti~nih podro~ij torej pomaga identificirati faktorje, ki pripeljejo do novih povezav, v tem primeru do povezave med pomanjkanjem magnezija in migrenskim glavobolom. Pri zgoraj navedenih primerih sta vmesna ~lena stres in zaviralci kalcijevih kanal~kov. Swanson je na ta na~in postavil ve~ novih hipotez in nekatere tudi objavil v medicinskih revijah, nekaj pa so jih kasneje tudi potrdili z eksperimentalnimi dokazi. Ta zgodnji pristop je temeljil na precej rudimentarnih postopkih in je zahteval veliko ~love{kega dela pa tudi medicinskega znanja. Odtlej so se razvila naprednej{a orodja, ki uporabljajo jezikovno analizo besedil, semanti~no ozna~evanje medicinskih terminov in pomenskih razredov, razvr{~anje dokumentov po pomembnosti in druge metode za ~im ve~jo avtomatizacijo procesa odkrivanja znanja. Tako orodje je sistem DAD (Weeber in soavtorji 2000), ki medicinskemu strokovnjaku omogo~a razvijanje in testiranje hipotez na podlagi baze ~lankov PubMed in medicinskega metatezavra UMLS . Z uporabni{ko prijazno zasnovo, ki v ozadju kljub temu skriva napredne jezikovne in podatkovne obdelave, je njegovim avtorjem uspelo ustvariti inovativen pripomo~ek za rudarjenje besedil. Sicer pa se rudarjenje podatkov v biomedicini zadnje ~ase usmerja predvsem v genske raziskave, ki ne temeljijo toliko na rudarjenju besedil kot na odkrivanju vzorcev v – doslej znanih – genomih. Zaradi izredne vplivnosti, {e posebej pa finan~ne vrednosti teh raziskav se na to temo po svetu letno zgodi kar nekaj znanstvenih posvetov, eden od pomembnej{ih je sklican tudi za jesen 2003 v »sosednjem« Dubrovniku.4 4 Data and Text Mining for Bioinformatics, ECML/PKDD 2003, http://www.cs.kuleuven.ac.be/conference/ecmlpkdd/. Kaj izvira iz jezikovnih virov 85 5.2 Dvojezi~no lu{~enje terminologije S preprostimi besedami bi to tehnologijo lahko opisali kot (pol)avtomatsko strokovno slovaropisje, vendar namen avtomatskega lu{~enja terminologije iz besedil – v nasprotju z raz{irjenim prepri~anjem – ni samodejna izdelava slovarjev, temve~ podpora razli~nim dejavnostim in tehnologijam, kjer je pisanje strokovnih slovarjev le ena izmed njih. Dvojezi~no lu{~enje terminologije (Bilingual Term Extraction) (prim. Vintar 2002) pomeni iskanje strokovnih izrazov in njihovih prevodnih ustreznic v dvojezi~nem, navadno vzporednem korpusu strokovnih besedil. Potrebe po dvojezi~nih terminolo{kih virih imajo predvsem prevajalci, poleg njih pa tudi terminologi, tehni~ni pisci, dokumentalisti in bibliotekarji ter sami strokovnjaki dolo~enega podro~ja. Samodejno razpoznavanje terminologije je tudi komponenta aplikacij, kot so prevajalska namizja, iskalniki podatkov, povzemovalniki in drugo. Pri lu{~enju terminologije za prevajalske namene ima korpusni pristop {e to prednost, da s samo sestavo korpusa lahko bistveno vplivamo na kakovost, sodobnost in doslednost dobljenih rezultatov, hkrati pa tako pridobljeni izrazi in njihove ustreznice predstavljajo dinami~en in po meri zgrajen terminolo{ki vir. Te`ava, da za mnoga podro~ja nimamo na voljo ustreznih vzporednih korpusov, je sicer {e vedno tu, vendar se z vse bolj raz{irjeno uporabo pomnilnikov prevodov v prevajalskih okoljih postopoma zmanj{uje. Sama tehnologija je sestavljena iz iskanja izrazov v enem in drugem jeziku ter iskanja prevodnih ustreznic. Za ugotavljanje, kaj je v strokovnem korpusu termin in kaj ne, uporabljamo razli~ne statisti~ne in jezikoslovno utemeljene postopke, ki jih lahko povzamemo z naslednjimi hipotezami in odgovori nanje: • ^e je izraz termin, se bo v strokovnem besedilu pojavljal bolj pogosto kot v splo{nem besedilu. Na podlagi te hipoteze merimo klju~nost besed, in sicer s primerjavo pogostosti v strokovnem korpusu in referen~nem korpusu splo{nega jezika. • Mnogi termini vsebujejo tujejezi~ne sestavine, simbole ali kratice, ki jih v splo{nih besedilih ne sre~amo. Pri iskanju terminov se torej osredoto~imo na elemente, ki so neobi~ajni oziroma jih leksikon opazovanega jezika ne vsebuje. • ^e je ve~besedna enota termin, se bo v bolj ali manj nespremenjeni obliki pojavljala skozi celoten strokovni korpus. Osredoto~imo se torej na kolokacije, ki so stabilne. • Termini imajo tipi~ne skladenjske oblike, npr. pridevnik + samostalnik (natrijev klorid). Ti skladenjski vzorci so deloma vezani na splo{ne slovni~ne zna~ilnosti jezika, v veliki meri pa so odvisni tudi od strokovnega podro~ja. Ugotavljanje terminolo{ko relevantnih vzorcev je zato pomemben del lu{~enja terminologije, ki klju~no vpliva na kakovost rezultatov. Na vsak na~in pri tem potrebujemo oblikoskladenjsko ozna~eni korpus. S pomo~jo teh na~el in kombinacije statisti~nih in jezikovnih orodij je mogo~e iz korpusa izlu{~iti terminolo{ke kandidate. Za iskanje prevodnih ustreznic se uporablja postopek besedne poravnave, pri katerem za vsako besedno obliko v prvem 86 [pela Vintar jeziku korpusa izra~unamo najverjetnej{e prevodne ustreznice v drugem jeziku. Pri oblikoslovno bogatih jezikih se obrestuje, ~e pred lu{~enjem prevodnih parov opravimo lematizacijo, se pravi pretvorbo v osnovno obliko. Na voljo je nekaj prosto dostopnih programov za besedno poravnavo, med njimi Twente (Hiemstra 1998) in Giza++, ki se je razvila v okviru prej omenjenega projekta Egypt. Ko smo iz korpusa pridobili dvojezi~ni leksikon, je prej prepoznane termine mogo~e poravnati z njihovimi prevodnimi ustreznicami. Orodja za dvojezi~no lu{~enje terminologije niso novost, a si kljub temu pot v komercialne aplikacije {ele utirajo. Novej{e razli~ice prevajalskih orodij, kot sta TRADOS in DéjaVu, vklju~ujejo preproste prepoznavalnike izrazov in njihovih ustreznic, bolj{i sistemi pa so {e vedno bodisi skriti v velikih korporacijah kot inter- no programje bodisi v razvoju na raziskovalnih ustanovah. Prvi poskus takega sistema je bil zgrajen tudi za jezikovni par angle{~ina-sloven{~ina (Vintar 2002). Za testna korpusa smo uporabili vzporedna besedila s podro~ij jedrske tehnike in gospodarske zakonodaje. Kakovost izlu{~enih terminolo{kih parov smo ocenjevali s pomo~jo podro~nega strokovnjaka in poklicne terminologinje. [e posebej slednja je rezultate ocenila razmeroma ugodno, saj je kakovost predlaganih izrazov presegala 65 odstotkov, kakovost prevodnih ustreznic pa je zna{ala celo 78 odstotkov. Ker so tak{ni sistemi najbolj smiselni za uporabo v ve~jih prevajalskih okoljih, kjer nastajajo velike koli~ine vzporednih besedil, je tudi njihovo zasnovo treba ustrezno prilagoditi uporabni{kim potrebam. Iz tega razloga ni pri~akovati, da bi se v bli`nji prihodnosti pojavili lu{~ilniki izrazja za {ir{e uporabni{ke kroge, zato pa lahko uporaba specifi~no zasnovanih orodij bistveno pove~a u~inkovitost podjetij, ki jim je ukvarjanje s strokovnim izrazjem del vsakodnevnega posla. 6 Sklep Jezikovna infrastruktura, kamor sodijo korpusi, leksikoni, tezavri, ozna~evalniki in druga orodja za obdelavo besedil ter {iroka paleta govornih tehnologij, nikakor ne slu`i le jezikoslovcem, ampak predstavlja bistveni del sodobne informacijske infrastrukture. Globalni dele` jezikovnih podatkov v razmerju do numeri~nih in drugih strukturiranih podatkovnih virov je po ve~ini ocen med 70 in 80 odstotkov v prid prvih, zato jezikovne tehnologije odpirajo vrata do ve~ine ra~unalni{ko berljivega ~love{kega znanja. Ra~unalni{ko jezikoslovje je v zadnjih nekaj desetletjih do`ivelo revolucionarne premike. Od slovni~nih pravil je preko statisti~nih metod nastopila doba strojnega u~enja, od skromnih podatkovnih virov in pol`je obdelave smo danes z elektronskimi viri besedil in procesorskimi zmogljivostmi tako reko~ neomejeni. Ra~unalniki prevajajo, govorijo, urejajo prihajajo~o po{to in nanjo odgovarjajo, v nekaj sekundah izmed milijona dokumentov izberejo tistega, ki ga i{~emo, nadzorujejo vsebino na{ega hladilnika in manjkajo~e predlagajo v obliki nakupovalnega spiska. Pa vendar smo ob misli na to, da bi ra~unalniki naravni jezik obdelovali podobno uspe{no kot druge vrste podatkov, {e vedno na pragu prej omenjenih vrat. Ko jih Kaj izvira iz jezikovnih virov 87 bomo zares in nepreklicno prestopili, bo verjetno treba ra~unalnik preimenovati v, na primer, jezikalnik… Literatura Baeza-Yates, R. in Ribeiro-Neto, B., 1999: Modern Information Retrieval. Boston: Addison Wesley Longman. Dimec, J., 2002: Medjezi~no iskanje. Knji`nica 1–2. Ljubljana. Hiemstra, Djoerd, 1998: Multilingual Domain Modelling in Twenty-One: Automatic Creation of a Bi-directional Translation Lexicon from a Parallel Corpus. Proceedings of the 8th CLIN meeting. 41–58. Kenny, D., 2001: Lexis and creativity in translation. A corpus-based study. Manchester: St. Jerome. Leech, G. N., 1991: The state of the art in corpus linguistics. Aijmer, K., Altenberg, B. (ur.): English Corpus Linguistics. London: Longman. 8–29. Maedche, A. in Staab, S., 2001: Ontology learning for the Semantic Web. IEEE Intelligent Systems, 16(2). 72–79. McEnery, T. in Wilson, A., 1992: Corpus Linguistics. Edinburgh: Edinburgh University Press. Och, F.-J. in Ney, H., 2000: Statistical machine translation. Zbornik rednega letnega sre~anja European Association for Machine Translation (EAMT 2000). Ljubljana. 39–46. Pearson, J., 1998: Terms in Context. Amsterdam: John Benjamins. Swanson, D. R., 1991: Analysis of Unintended Connections Between Disjoint Science Literatures. Proceedings of SIGIR 1991. 280–289. Thomas, J. in Short, M., 1996: Using Corpora for Language Research. London: Longman. Vi~i~, J. in Erjavec, T., 2002: Vsak za~etek je te`ak: avtomatsko u~enje prevajanja sloven{~ine v angle{~ino. Zbornik konference Jezikovne tehnologije, v sklopu konference Informacijska dru`ba 2002. Ljubljana: Institut Jo`ef Stefan. Vintar, [., 2002: Avtomatsko lu{~enje izrazja iz slovensko-angle{kih vzporednih besedil. Zbornik konference Jezikovne tehnologije, v sklopu konference Informacijska dru`ba 2002. Ljubljana: Insitut Jo`ef Stefan. Weeber, M., H. Klein, A. R. Aronson, J. G. Mork, L. Jong-van den Berg in R. Vos, 2000: Text-Based Discovery in Biomedicine: The Architecture of the DAD-system. Proceedings of the American Medical Informatics Association 2000 Symposium, Los Angeles, CA. Spletne strani Bookmarks for Corpus-Based Linguists Concept Based Information Representation and Retrieval – Infomap Data and Text Mining for Bioinformatics, ECML/PKDD 2003 88 [pela Vintar FIDA – korpus slovenskega jezika Hinrich Schuetze – Text Mining (CSLI Stanford) Language Technology World Multilingual Concept Hierarchies for Medical Information Retrieval and Organization – MuchMore Demo PubMed Unified Medical Language System W3C – Semantic Web < http://www.w3.org/2001/sw/ > Xtramind MailMinder