Spela Arhar1 in Vojko Gorjanc2 UDK 811.163.6'324 'Amebis, d. o. o., Kamnik spela.arhar@amebis.si 2Univerza v Ljubljani, Filozofska fakulteta vojko.gorjanc@guest.arnes.si KORPUS FidaPLUS: NOVA GENERACIJA SLOVENSKEGA REFERENČNEGA KORPUSA Prispevek predstavlja korpus FidaPLUS, ki je nadgradnja slovenskega referenčnega korpusa. Korpus, ki ga na eni strani odlikujejo velika obsežnost, ažurnost, potrebna j ezikoslovna označenost ter uravnoteženost in heterogenost, na drugi zmogljiv in informacijsko podprt konkordančnik, je na internetu prosto dostopen za splošno uporabo. V članku se osredotočava predvsem na predstavitev izboljšav novega referenčnega korpusa glede na predhodne, tj. predvsem na izboljšavo lematizacije korpusnih besedil, izboljšavo statistik za iskanje kolokatorjev, nadgradnjo konkordančnega vmesnika ter izgradnjo informacijske mreže, ki jo za delo s korpusom potrebuje uporabnik. Navajava tudi podatke o sami strukturi korpusa, saj je razumevanje korpusne sestave za interpretacijo jezikovnih informacij ključnega pomena. Obenem skušava umestiti novi korpus v slovenski raziskovalni prostor kot pomemben mejnik ne le za korpusno, pač pa jezikoslovje nasploh. 1 Uvod Informacijska družba pomeni za izmenjavo informacij, kjer je delež jezikovnih v razmerju do numeričnih in drugih strukturiranih podatkovnih virov kar med 70 in 80 odstotkov (Vintar2003: 86), velik izziv, kije spodbudil in še spodbuja oblikovanje načel in metod za soočanje z izzivi njihovega hranjenja, hierarhiziranja in prenosljivosti. Spoznanje o zares svobodni komunikaciji, ki jo pogojuje komunikacija v maternem jeziku, je privedlo do splošno sprejetega načela zagotavljanja možnosti kreativnega uresničevanja vsakega posameznika v svojem jeziku ob hkratni možnosti izmenjave informacij med jeziki. Ob tem pa se je za zagotavljanje teh potreb oblikoval tudi neodvisni dokumentacijski jezik, s katerim se zagotavlja izmenjava jezikovnih informacij, njihova trajnost in prenosljivost tako v enem jeziku kot pri prenosu iz jezika v jezik. Zato je za vsak jezik pomembno, da si zagotovi učinkovito sodobno jezikovno infrastrukturo. Shematično bi lahko rekli, da jezikovna infrastruktura za določen jezik obsega jezikovne vire - korpuse, podatkovne zbirke, elektronske slovarje, leksikone itd. - ter orodja za njihovo pripravo, vzdrževanje in uporabo. Pri aktivnostih, ki so 96 Špela Arhar in Vojko Gorjanc povezane z oblikovanjem jezikovne infrastrukture za določen jezik, je potrebno sodelovanje strokovnjakov s področja humanistike in družboslovja ter tistega dela računalništva, ki se ukvarja z naravnimi jeziki, zato je treba pri njenem razvoju čim bolj učinkovito povezati strokovnjake z omenjenih področij. Osrednji segment jezikovne infrastrukture so jezikovni viri, med njimi predvsem korpusi. Ti so danes tudi edini relevantni vir za sodobne jezikovne opise in oblikovanje učinkovitih jezikovnotehnoloških aplikacij. Projekti za zagotavljanje jezikovnih virov za slovenščino so bili že do sedaj v veliki meri usmerjeni v gradnjo besedilnih korpusov - kar je tudi razumljivo, saj ti pomenijo neobhodno osnovo za ves nadaljnji razvoj jezikovne infrastrukture - ob tem pa se je v slovenskem jezikoslovnem prostoru kot posebno raziskovalno izhodišče, utemeljeno strogo empirično, v okviru katerega se jezik opisuje izključno na podlagi jezikovnih podatkov iz besedil, izoblikovalo tudi področje korpusnega jezikoslovja. Korpusno jezikoslovje je v slovenskem jeziku z zaključenimi projekti oblikovanja prvih celovitih korpusov uspešno končalo začetno in seveda nujno potrebno fazo za nadaljnji razvoj. Ob tem je zaradi medstrokovnega sodelovanja pri gradnji korpusov pripravilo tudi solidno izhodiščno platformo za širok razvoj področja jezikovnih virov za slovenščino. Oblikovani korpusi slovenskega jezika pa so bili pobudni tudi za vrsto celovitih korpusnih študij, tako enojezičnih kot tudi kontrastivnih (Gorjanc 2002, 2005b; Jakopin 2002; Vintar 2003; Gantar 2004; Pisanski Peterlin 2005; Arhar 2006a), prav tako pa so postali korpusi, še posebej referenčni korpus FIDA, vse bolj nepogrešljiv del jezikoslovnega raziskovalnega dela sploh, predvsem ko gre za leksikalne oz. leksikalnopomenske študije (npr. Gorjanc in Krek 2001; Jakopin 2001; Vintar 2001; Drstvenšek 2003; Gantar 2003; Krek 2003; Kržišnik 2003; Vintar in Gorjanc 2003; Erjavec in Vintar 2004; Krek 2004; Gorjanc, Krek in Gantar 2005; Holz 2005; Žagar 2005; Kosem 2006). Hkrati pa se je ob uporabi korpusa FIDA v jezikoslovnih raziskavah izkazalo, kako jezikovne informacije hitro zastarijo, kar je privedlo do načrtovanja novega, obsežnejšega in izpopolnjenega referenčnega korpusa slovenskega jezika, ki ga predstavljamo v nadaljevanju. 2 O projektu V drugi polovici devetdesetih let prejšnjega stoletja je bil osrednji korpusni projekt priprava referenčnega korpusa obsega 100 milijonov besed, kar je bil po zgledu britanskega nacionalnega korpusa BNC takrat velikostni standard referenčnih korpusov (Erjavec, Gorjanc in Stabej 1998; Gorjanc 1999). Slabost korpusa FIDA, ki smo se je od samega začetka zavedali, je bila njegova dostopnost. Korpus je bil sicer dostopen, a brez plačila le za projektne partnerje, vsi drugi pa so za dostop do korpusa morali plačati financerjema projekta. Načrt za kvantitativno in kvalitativno nadgradnjo korpusa FIDA ter zagotovitev proste dostopnosti korpusa za nekomercialne namene je postal realen, ko je bil za financiranje izbran projekt Jezikovni viri za slovenščino.1 Prvotna ideja o novem korpusu in projektno financiran obseg korpusa je bil 300 milijonov besed. Ker pa je bilo v okviru tega projekta v zalogi besedil zbranega bistveno več gradiva, je zaradi možnosti angažiranja dela sredstev dveh projektov v okviru Ciljnega raziskovalnega programa Republike Slovenije2 bilo na koncu procesirano več kot še enkrat toliko besedilnega gradiva, prav tako pa se je lahko zagotovilo informacijsko podporo za nemoteno delovanje korpusa. Kot je razvidno, je projekt v neke vrste neformalni korpusni konzorcij povezal raziskovalce s treh slovenskih univerz in znotraj njih petih fakultet ter osrednjega raziskovalnega inštituta. To je pri dokončni obliki korpusa v marsikaterem segmentu omogočilo njegovo kvalitativno rast, prav tako pa je bil neformalni konzorcij partnerjev mesto srečevanja in spoznavanja ter navezovanja stikov raziskovalcev z različnih institucij in področij, kar že daje visoke sinergijske učinke tudi na drugih področjih delovanja, predvsem v okviru novih in pripravljajočih se projektov, prav tako pa tudi povezovanja med institucijami na področju pedagoškega dela. 3 Korpus FidaPLUS Korpus FidaPLUS je referenčni korpus (zaenkrat le pisnega) slovenskega jezika. Obsega približno 621.150.000 besed iz različnih virovjezika vsakdanje rabe, predvsem časopisov, revij, strokovne ter leposlovne literature, interneta ter besedilnega drobiža.3 Periodiko - vsega skupaj je v korpusu zastopanih okrog sto edicij časopisov ter revij - je prispevalo 53 različnih besedilodajalcev, knjižno gradivo 29 besedilodajalcev.4 Korpus FidaPL US j e nastal na podlagi korpusa FIDA in izkušenj pri njegovi gradnji ter prejetih povratnih informacij v zvezi z njegovo uporabo. Gradnjo korpusa FidaPL US lahko strnemo v nekaj sklopov, znanih že tudi iz strokovnih razpravljanj v zvezi z drugimi korpusnimi projekti (Atkins idr. 1992: 2): - specifikacija korpusa in njegova oblika, - strojna in programska oprema, - zajem besedil in označevanje korpusnih dokumentov, - procesiranje zbranega gradiva, - končna oblikovanost korpusa in povratne informacije v zvezi z njim. 1 L6-5409: Jezikovni viri za slovenščino. Vodja projekta dr. Marko Stabej (Univerza v Ljubljani, Filozofska fakulteta). Partnerja pri projektu: Univerza v Ljubljani, Fakulteta za družbene vede in Institut Jožef Stefan, Ljubljana. Sofinancerja: DZS d. d., Ljubljana in Amebis, d. o. o., Kamnik. 2 V6-012: Oblikovanje slovenskega korpusnega omrežja. Vodja projekta dr. Marko Stabej (Univerza v Ljubljani, Filozofska fakulteta). Partnerji pri projektu: Univerza v Ljubljani, Fakulteta za družbene vede; Univerza na Primorskem, Fakulteta za humanistične študije; Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko; Institut Jožef Stefan, Ljubljana. V6-0122: Zasnova na korpusu temelječih slovarskih in slovničnih opisov slovenskega jezika. Vodja projekta dr. Vojko Gorjanc (Univerza v Ljubljani, Filozofska fakulteta). Partnerja pri projektu: Univerza v Ljubljani, Fakulteta za družbene vede in Univerza v Mariboru, Pedagoška fakulteta. 3 Besedilni drobiž je skupna oznaka za besedilne vrste - običajno krajšega formata in prav tako kratke dobe uporabnosti - s katerimi se srečujemo v vsakodnevnem življenju, npr. vozovnice, vstopnice, oglasi, sporedi prireditev ipd. 4 Seznam besedilodajalcev je na voljo na internetni strani -Besedilodajalci. Cilj projekta je bil oblikovati referenčni korpus slovenskega jezika velikega obsega, pri čemer je bila najprej zagotovljena ustrezna strojna in programska oprema ter s pomočjo podjetja Amebis orodja za procesiranje zbranega gradiva; s procesiranjem podatkov se zagotavlja čim večjo uporabnost, izmenljivost ter trajnost, kar omogočajo standardi za prenos in zapis jezikovnih podatkov. Čeprav se razmislek v zvezi s postopki zajemanja besedil zdi dokaj trivialen, pa so se korpusi prav na tem nivoju velikokrat znašli pred nerešljivo težavo: kako sploh organizirati zbiranje besedil ter prepričati besedilodajalce, da odstopijo svoja besedila za namene korpusa. Prav zaradi nepredvideno zapletenih postopkov se je pri mnogih korpusih gradnja precej zavlekla (Atkins idr. 1992: 3). Glede na izkušnje pri zbiranju besedil za korpus FIDA se je organiziralo tudi zbiranje besedil za korpus FidaPLUS, pri čemer velja poudariti, da je bilo prav zbiranje besedil časovno in organizacijsko najzahtevnejši del projekta. S pridobivanjem besedil je povezano še eno temeljno vprašanje, ki ga mora vsak resno zastavljen korpusni projekt rešiti pred začetkom gradnje, tj. zagotavljanje varovanja avtorskih pravic; tudi tu smo izhajali iz izkušenj pri gradnji korpusa FIDA (Gorjanc 1999: 52). Za vsa besedila, vključena v korpus FidaPLUS, velja, da je bila z nosilci avtorskih pravic podpisana pogodba o odstopu besedil za projektne namene. 3.1 Zgradba korpusa Ker je korpus FidaPLUS zasnovan kot referenčni korpus slovenskega jezika, ki naj skuša čim bolj celovito predstaviti slovenski diskurzni univerzum, je bila pred začetkom zbiranja besedil oblikovana mreža kriterijev za zajem raznoterih besedil glede na vrsto predvsem besediloslovnih in sociolingvističnih parametrov, tako da so se besedila za vključitev v korpus od samega začetka zbirala ciljno. Zaradi svoje velikosti in raznoterosti besedil, ki so vključena v korpus, je ta glede na predstavljene taksonomije razdeljen na podkorpuse, za katere so bili prav tako oblikovani parametri za zajem besedil vanje. 3.1.1 Besedila glede na čas izida Poleg novozbranega gradiva, ki prinaša predvsem besedila, ki so izšla v slovenskem prostoru med letoma 1996 ter 2006, je v korpus FidaPLUS v celoti zajeto tudi gradivo korpusa FIDA, ki je po letnicah izida nekoliko starejše. Spodnji graf prikazuje število besed v korpusu glede na letnico izida izvornega besedila, pri čemer črno obarvani del stolpca prikazuje delež besed, ki ga prinašajo besedila iz korpusa FIDA, belo obarvani del stolpca pa delež besed v novozbranih besedilih.5 5 Dodatne informacije o gradivu glede na leto izida, lektoriranost, zvrst ter tip besedila so na voljo na internetni strani . Graf 1: Besedila glede na čas izida. 2.2.2 Besedila glede na lektoriranost Zaradi specifik slovenskega jezikovnega prostora je podatek o lektoriranosti besedila ključen za ustrezno dokumentiranost besedila. Korpus FidaPLUS prinaša večinoma besedila javnega značaja (periodiko ter knjižno gradivo), ki jim je bila avtomatsko dodeljena oznaka lektoriranosti - to gradivo predstavlja 92,35 % vsega gradiva. Oznaka nelektoriranosti je bila pripisana 0,63 % gradiva, brez podatka o lektoriranosti pa je ostalo 7,02 % gradiva. lektoriranost število besed v besedilih delež v korpusu lektorirana besedila 573.634.246 92,35 % nelektorirana besedila 3.885.837 0,63 % ni podatka 43.629.917 7,02 % skupaj 621.150.000 100 % Tabela 1: Besedila glede na lektoriranost. 2.2.3 Besedila glede na zvrst Zvrstna delitev nam v kontekstu dokumentiranja besedil korpusa FidaPLUS pomeni v prvi vrsti delitev na umetnostna ter neumetnostna besedila, saj je za ustrezno uravnoteženost referenčnega korpusa ta podatek najbolj relevanten. Na drugem nivoju se označuje podzvrst umetnostnega oz. neumetnostnega besedila, pri čemer se umetnostna delijo na prozo, poezijo ter dramatiko, neumetnostna pa najprej na strokovna ter nestrokovna, na tretjem nivoju pa strokovna še glede na stroko (družboslovna ter humanistična besedila na eni in naravoslovna ter tehnična besedila na drugi strani). Spodnje tabele prinašajo informacije o zastopanosti zgoraj naštetih kategorij v korpusu FidaPL US. zvrst število besed v besedilih delež v korpusu umetnostna besedila 21.568.943 3,48 % neumetnostna besedila 598.871.741 96,41 % ni podatka 709.316 0,11 % skupaj 621.150.000 100 % Tabela 2: Besedila glede na zvrst. umetnostna besedila število besed v besedilih delež med umetnostnimi pesniška besedila 366.215 1,70 % prozna besedila 20.178.021 93,55 % dramska besedila 480.957 2,23 % ni podatka 543.750 2,52 % skupaj 21.568.943 100 % Tabela 3: Umetnostna besedila. neumetnostna besedila število besed v besedilih delež med neumetnostnimi strokovna 62.064.156 10,36 % nestrokovna 536.314.560 89,55 % ni podatka 493.025 0,08 % skupaj 598.871.741 100 % Tabela 4: Neumetnostna besedila. strokovna besedila število besed v besedilih delež med strokovnimi humanistična in družboslovna 19.331.249 31,15 % tehnična in naravoslovna 38.202.106 61,55 % ni podatka 4.530.801 7,30 % skupaj 62.064.156 100 % Tabela 5: Strokovna besedila. 3.1.4 Besedila glede na tip Glede na tip je gradivo korpusa FidaPLUS označeno kot časopisno, revijalno, knjižno, internetno ter drugo. Prva ter druga kategorija sta nadalje členjeni glede na pogostnost izhajanja časopisa oz. revije. Zadnja kategorija, tj. drugo, prinaša v veliki večini gradivo, pri katerem podatki za kategorizacijo niso bili na voljo, sem pa je všteto tudi neobjavljeno gradivo ter zapisi parlamentarnih razprav. Spodnje tabele prinašajo informacije o zastopanosti naštetih kategorij v korpusu FidaPLUS. tip število besed v besedilih Delež v korpusu internetno gradivo 7.682.895 1,24 % knjižno gradivo 54.306.387 8,74 % časopisno gradivo 405.347.516 65,26 % revijalno gradivo 144.494.504 23,26 % drugo 9.318.698 1,50 % skupaj 621.150.000 100 % Tabela 6: Besedila glede na tip. časopisno gradivo število besed v besedilih Delež med časopisi dnevno 286.920.301 70,77 % večkrat tedensko 25.477.856 6,29 % tedensko 92.948.337 65,26 % ni podatka 1.022 22,93 % skupaj 405.347.516 100 % Tabela 7: Časopisno gradivo. revijalno gradivo število besed v besedilih Delež med revijami tedensko 62.347.735 43,15 % štirinajstdnevno 10.966.644 7,59 % mesečno 64.237.952 44,46 % redkeje kot na mesec 2.357.301 1,63 % priložnostno 4.580.176 3,17 % ni podatka 4.696 0,01 % skupaj 144.494.504 100 % Tabela 8: Revijalno gradivo. 3.2 Označenost korpusa Jezikoslovno označevanje korpusa pomeni dodajanje jezikoslovne interpretacije besedilnemu gradivu, kar posledično pomeni pripisovanje podatkov o trenutnem razumevanju jezikovnih fenomenov; ob upoštevanju metajezikovnosti oznak je to postopek, ki lahko bistveno pripomore k uporabnosti korpusnih podatkov, seveda ob jasnem zavedanju, da jezikoslovne oznake prav nič ne govorijo o realnosti in avtentičnosti korpusnih podatkov (Leech 1997: 2, 4). Eden od osnovnih postopkov jezikoslovnega označevanja je lematizacija, pripisovanje leme oz. osnovne oblike besede vsaki korpusni pojavnici. V okviru korpusnega jezikoslovja ta tip označevanja dolgo ni bil posebej aktualen, saj za angleščino velja, da je zaradi izjemno majhne oblikoslovne variantnosti postopek nekako redundanten (Leech 1997: 15), toliko bolj pa je pomemben za jezike z bogato morfologijo, med katere sodi tudi slovenščina. Tako kot velja za vse postopke označevanja, je tudi lematizacija lahko ročna ali avtomatska, za večje korpuse je seveda aktualna le druga; to pa je zaradi pogoste besedilne homografije zelo kompleksen postopek, zato za slovenščino velja, da besede v korpusu sicer lahko lematiziramo razmeroma natančno, a v splošnem dvoumno (Džeroski in Erjavec 2000: 14). Posledično je bilo prav v razvoj postopkov razdvoumljanja vloženega pri korpusu FidaPLUS veliko truda. V nadaljevanju predstavimo prav to, ne spuščamo pa se v natančnejšo predstavitev pripisovanja oblikoskladenjskih oznak, ki so prav tako avtomatsko pripisane pojavnicam v korpusu FidaPL US. 3.2.1 Izboljšave lematizacije Lematizator, uporabljen že za lematizacijo besedil korpusa FIDA, je bil na podjetju Amebis za potrebe lematizacije korpusa FidaPLUS dodatno nadgrajen z možnostjo razdvoumljanja besednih oblik v primeru več obstoječih možnih lem ter konstrukcije v leksikonu neobstoječih lem na osnovi besedne končnice. 3.2.1.1 V leksikonu neobstoječe leme Temelj lematizacije korpusov FIDA ter FidaPLUSje Amebisov elektronski leksikon besednih oblik, v katerem so vsaki vneseni besedi pripisane ustrezne pregibne variante. Med obdelavo besedila lematizator vsako obravnavano besedno obliko primerja s podatki iz leksikona. V primeru neobstoja iskane oblike v leksikonu sta predvideni dve alternativni možnosti. Prvi poskus iskanja ustrezne leme je upoštevanje tipičnih odklonov od knjižne norme v sodobnem pisnem jeziku - netipični sklanjatveni vzorci, zapis skupaj oz. narazen, neupoštevanje premen ali njihova hiperkorektura itd. Primera: stricom se lematizira v stric, nevem v vedeti. Drugi poskus je avtomatska konstrukcija leme na osnovi prepoznave besedne končnice. Ta postopek prinaša s seboj določene težave, saj programsko ugibanje ne ločuje med dejanskimi besednimi končnicami ter drugimi (enakopisnimi) morfemi: besedo Americana (iz Enciklopedija Americana) program npr. iz končnice prepozna za samostalnik moškega spola in posledično lematizira v American, enako Palace (hotel Palace) v Palaec, besedo online prepozna za pridevnik in lematizira v onlin itd. Napačno konstruirane leme so sicer redke, vezane pa predvsem na tuje besede oz. lastna imena. Primer uspešne konstrukcije sta denimo lemi Pomurec ter Goodyear, ustrezno pripisani oblikama Pomurci ter Goodyearju. V primeru da leme ni mogoče avtomatsko uganiti, ostane besedna oblika v korpusu nelematizirana. Med procesom lematizacije se vsi takšni primeri (vključno s tistimi, za katere je bila lema konstruirana) zapisujejo v seznam, ki je po končanem postopku osnova za nadgradnjo leksikona besednih oblik. Po lematizaciji korpusa FidaPLUS najdemo na vrhu tega seznama predvsem razne krajšave, dele naslovov internetnih strani (dok., del., Ur., jpg, www.), nečrkovne nize (1:0, 6:3), dele tujih lastnih ter občnih imen (World, Group, Salt, Edward), pa tudi nekaj polnopomenske slovenske leksike (Frka, igrovje, multinovela). 3.2.1.2 Razdvoumljanje besednih oblik Pogostejši od primerov neobstoja leme v leksikonu so primeri, ko je za eno obliko možnih več različnih lem, npr. različnica padalo, kjer sta možni lemi padati ali padalo. Iskanje prave možnosti poteka v več korakih. V prvi fazi razdvoumljanja besedne oblike so izločene tiste leme, ki so za dano obliko najmanj verjetne. Ta selekcija poteka na osnovi pravil (npr. pri besedah, ki se sredi stavka začenjajo z veliko začetnico, so izločene leme, ki se začenjajo z malo), pa tudi na osnovi kolokacijskih podatkov o besedah, kadar so ti na voljo (v primeru besedne zveze pitna voda je denimo iz nabora možnosti avtomatsko izločena lema vod). Sledi avtomatska stavčnočlenska analiza besedila, pri kateri so s seznama preostalih potencialnih lem izločene še tiste, ki so skladenjsko manj verjetne, nato pa je izmed preostalih možnosti v končni fazi izbrana ena sama, ki je glede na kontekst obravnavane besedne oblike najverjetnejša (če se npr. beseda lepo pojavlja pred glagolom, bo izbrana prislovna lema lepo in ne pridevniška lep). Korpus FidaPLUS: nova generacija slovenskega referenčnega korpusa 103 3.2.1.3 Nova kanala za iskanje po korpusu Zaradi novih lematizacijskih možnosti sta bila v iskalne metode Konkordančnika ASP32 uvedena dva nova kanala za iskanje, peti ter šesti kanal.6 Za iskanje zadetkov s pomočjo lem so tako sedaj na voljo trije kanali (prvi, tretji ter peti), prav tako trije za iskanje s pomočjo oblikoskladenjskih oznak (drugi, četrti ter šesti). Z uporabo različnih kanalov določimo stopnjo avtomatske razdvoumljenosti želenega iskalnega pogoja. Najvišj a kanala, peti ter šesti, prinašata popolnoma nerazdvoumljeno stanje, tretji ter četrti kanal prinašata vmesno stanje (ko so najmanj verjetne leme že izločene iz nabora možnih), prvi ter drugi kanal pa prinašata končno stanje po razdvoumljanju - ko je besedni obliki pripisana le še ena sama lema. Za primer navajava potek razdvoumljanja besedne oblike leta v spodnjem zadetku iz korpusa FidaPL US: Splošno popularnost je swing dosegel okrog leta 1935. Stopnje razdvoumljanja, ki jih lahko razberemo iz XML-jevske oznake obravnavane besede,7 so naslednje: - Prva, nerazdvoumljena stopnja, t. i. lemmass, prinaša za obravnavano obliko tri možne leme: leto, letati ter let. V primeru uporabe petega iskalnega kanala bo obravnavani zadetek uvrščen v konkordančni niz, če je iskalni pogoj katerakoli od teh treh lem (#5leto, #5letati, #5let). - Vmesna stopnja, t. i. lemmas, prinaša dve možni lemi: leto ter let. V primeru uporabe tretjega iskalnega kanala bo obravnavani zadetek uvrščen v konkordančni niz, če je iskalni pogoj katera od teh dveh lem (#3leto, #3let), ne pa tudi, če je iskalni pogoj lema letati (#3letati). - Zadnja, razdvoumljena stopnja, t. i. lemma, prinaša le lemo leto. V primeru uporabe prvega iskalnega kanala bo obravnavani zadetek uvrščen v konkordančni niz le, če je iskalni pogoj lema leto (#1leto), ne pa tudi, če je iskalni pogoj lema let ali letati (#1let, #1letati). 3.3 Orodje za analizo Spletno orodje za analizo korpusa, Konkordančnik ASP32, je bilo, tako kot lematizator, razvito pri podjetju Amebis za potrebe iskanja po korpusu FIDA. V preteklem letu je bil v okviru projekta FidaPLUS konkordančnik nadgrajen tako funkcijsko kot tudi oblikovno. Glavne izboljšave so: preglednejši prikaz informacij v konkordančnem nizu, nadgradnja statistik za iskanje kolokacij v korpusu, možnost vzorčenja konkordančnega niza ter boljša urejenost informacij za pomoč pri iskanju. 6 Možnost uporabe kanalov je bila predstavljena že pri korpusu FIDA (Gorjanc in Vintar 2000). Kanal je skupno ime za možnosti kompleksnega iskanja želenih zadetkov v korpusu, kjer uporabljamo bodisi iskanja po lemah bodisi iskanja s pomočjo oblikoskladenjskih oznak (t. i. kod MSD). Več informacij o uporabi kanalov pri iskanju po korpusu FidaPLUS v Arhar 2006b; priročnik je dostopen tudi na spletnih straneh korpusa. 7 Do označenega besedila lahko dostopamo iz konkordančnega niza korpusa, s klikom na prikaz širšega sobesedila obravnavanega zadetka. 3.3.1 Nove informacije v konkordančnem nizu V konkordančnem nizu dobimo informacije o minimalnem sobesedilu zadetkov, ki ustrezajo želenemu iskalnemu pogoju. Jedro konkordancje obarvano rdeče, sobesedilo črno. Struktura dostopa do dodatnih informacij ostaja enaka kot pri korpusu FIDA: na levi strani vsakega zadetka sta povezavi na informacijo o viru zadetka (bibliografski podatki o izvoru besedila) ter povezava na širše sobesedilo zadetka (dolžine približno enega odstavka). Po novem že sama povezava na bibliografske podatke zadetka prinaša nekaj informacij o viru. Pri zadetkih, izvirajočih iz časopisov ter revij, je namesto številčne šifre vira izpisana koda vira (v večini primerov je to kar ime revije oz. časopisa, pri daljših imenih v ustrezno skrajšani obliki). Pomenonosne so tudi barve kode - zelena označuje časopisno, modra revijalno, vijolična knjižno gradivo, oranžna internetna besedila ter siva drugo oz. neoznačeno gradivo. Pm SSffliE IDO % oti: 1 do: 24 naid. 1721 Izi/oiin od$tav«k DELO........ 0000057 Konstantin Rajkin vvlogi znamenitega Gregorja Samse virtuozno preobrazi v DNEVNIK..... 0000070 potimo toliko, zato je hoja prijetnejša, ni nadležnega KMEČKI.GLAS. 0002 575 FAMILY pa je vsebuje pol manj in odganja samo leteči MLADINA..... 0001050 do konca visceralno odstranjevanje polžje premikajočega se in bebavo ječečega RADAR....... 0000227 vzhoda do zahoda, se potil vvročini, odganjal GORENJ.GLAS. 0002509 19.00 0015992..... 0000432 . Izračunali so, da kakšnih 60.000 vrst DNEVNIK..... 0000592 in odpadlim listjem kot pa s človeško krvjo. Glede PRIMORSKE... 0000005 hrane kot in$ekticide. herbicide in fungicide v škropivih proti 0013416..... 0003886 negovalni sprej preprečuje pike 30KER....... 0003178 sistem zdravljenja; dočim se Padli zanašajo na povodenj šibkejšega 0027855..... 0002362 problem, zalo se založite z dobrim sredstvom za odganjanje DNEVNIK..... 0001132 so bili hermetično zaprti, so sumljivo gledali. Ta DELO........ 0000329 pojemo vsaj 50 mg vitamina B1, bo naš znoj KMEČKI.GLAS. 0000095 . Stoletja, če je bilo zaradi tega kaj manj 0031287..... 0000585 Za vekami zeleni sloni in podoben KMEČKI.GLAS. 0000818 Pisal sem že o sredstvih za odganjanje VZAJEMNA.... 0002925 kosmatinec že pobegnil, zato so na pomoč poklicali zatiralce DNEVNIK..... 0000559 moremo prisiliti, saj ni z zakonom predpisana. Uničevanje HOPLA....... 0000194 moram dotakniti rože, ki jo je prej zagotovo obiskal 0026688..... 0000141 so kosmati in po kotih imamo naravne rezervate za hišni VEČER....... 0000211 , kije nedavno patentiral melijine proizvode zoper glive in HOPLA....... 0000618 ponoči enako strahovito mraz. Ves čas sta se otepala JANA........ 0005699 tagetesi (preprosta roža z močnim vonjem, ki odganja KONKORDANCA mrčes . To uspešno in večkrat (doma in na tujem mrčesa , popotnika pa ne nazadnje spremljajo tudi čudovite jesenske barve mrčes. mrčesa . Pred durmi je Resident Evil 4. ki je mrčes in bolhe, pil le vodo in jedel samo kruh MRČES IZ PEKIA mrčesa izumre vsako leto preprosto zaradi uničevanja tropskih gozdov. To mrčesa torej še uživajte teh nekaj tednov, dokler raznovrstna zalega mrčesu , plevelu in plesnim. V organizem jih največ vnesemo mrčes , fluid s takojšnjim učinkom razgradi strup insektov in blaži mrčesa in kombinacijo urokov ter brutalne zračne sile. Ljudje in mrčesa . V zaprti sobi je varneje kot spirale proti komarjem mrčes si najde pot v svobodo, brž ko pa se mrčesu smrdel« in ga pregnal. V nekaterih azijskih mrčesa , kobilic, gosenic in hroščev, se ne ve mrčes , ki gazi živce. mrčesa (repelenti). Navsezadnje ne pozabimo na zaščito pred mrčesa , ki bodo osemnogo nadlogo poskušali ujeti, mrčesa je potrebno opraviti trikrat na štirinajst dni. Kljub temu mrčes , me spreleti srh. je razložila svoj odpor do mrčes . (Ne počisti tega kotal V njem se mrčes. mrčesa in divjih živali, jedla pa tisto, kar sta mrčes ) prebarvamo z barvo za les banranje ponovimo dvakrat. Slika zaslona 1: Del konkordančnega ni^a za iskalmipogoj #1mrčes. 3.3.2 Nadgradnja statistik za iskanje besednih kolokatorjev Sodobnejše prime^ave metod za pridobivanje kolokacij iz korpusa (Pearce 2002) so pokazale, da statistična vrednost MI oz. njena optimizacija MI3 prinašata neuravnotežene rezultate za besede, ki se v korpusu redko pojavljajo. Statistiki temeljita na odnosu med pogostnostjo pojavitev dveh besed: upošteva se razmere med številom njunih samostojnih pojavitev ter številom njunih sopojavitev. V primeru da se ena od besed v korpusu pojavlja le enkrat, bosta besedi tako na seznamu kandidatk za kolokacije uvrščeni zelo visoko, saj se sopojavljata v sto odstotkov primerov. V literaturi predlagana metoda (Dunning 1993), ki se preferiranju nizkopogostnih zadetkov izogne, je logaritem verjetnosti oz. log-likelihood (LL). Rezultat te statistike prinaša informacijo o razmerju med dejanskim ter pričakovanim stanjem sopojavljanja dveh besed, pri čemer je pričakovano stanje, da sta besedi med seboj popolnoma neodvisni, tj. da se sopojavljata po naključju.8 Kadar se dejansko ter pričakovano stanje ujemata, je rezultat statistike nič. Višji ko je rezultat, manjša je verjetnost, da se besedi sopojavljata naključno. Ker so za različne tipe raziskav uporabne različne statistične vrednosti za iskanje kolokacij, so v statističnih orodjih Konkordančnika ASP32 na voljo vse tri opisane statistike. Konkordančnik omogoča pridobivanje kolokacij sekundarno iz konkordančnega niza. Prvi del para besed, kandidatk za kolokacijo, je konkordančno jedro. Potencialni kolokatorji konkordančnega jedra so določeni glede na mesto v konkordančnem nizu, ki ga zasedajo (npr. prva beseda levo od jedra). Na podlagi teh informacij j e izdelan seznam potencialnih kolokatorj ev za obravnavano konkordančno jedro, ki ga lahko naknadno urejamo glede na rezultate statistik, pogostnost zadetkov ali preprosto po abecedi. ŠT. KOLOKATOR POJAVITVE ABS. POJAV VREDNOST MI VREDNOST MI3 VREDNOST LL 1 pik 415 5660 10.386005 27.779940 3656.750815 2 ličinka 194 4071 9.764369 24.964195 1543.998837 3 čebela 133 10455 7.859001 21.969566 713.019231 4 opraševati 51 225 12.014268 23.359119 562.912130 5 hraniti 152 28568 6.601439 21.097294 561.004496 6 koristen 159 39818 6.187374 20.813140 502.138728 7 privabljati 78 4888 8.185998 20.756802 452.660497 8 nadležen 80 5571 8.033831 20.677688 447.779343 9 loviti 114 24671 6.397985 20.063765 390.746961 10 pajek 80 9279 7.297798 19.941655 368.665129 11 deževnik 48 1186 9.528698 20.698623 366.512973 12 ptič 74 8215 7.361032 19.779939 347.255385 13 pekel 66 6711 7.487706 19.576494 320.890276 14 prehranjevati 56 3748 8.091074 19.705784 317.784234 15 škodljiv 96 22939 6.255072 19.424997 311.459932 16 droben 109 33328 5.899361 19.435730 304.691823 17 voden2 119 41849 5.697536 19.487172 302.951024 18 pajkovec 29 184 11.490043 21.206005 299.375793 19 nevretenčar 37 747 9.820113 20.239020 297.302391 20 dvoživka 39 1359 9.032696 19.603501 271.311424 Tabela 9: Seznam prvih 20 kolokatorjev za samostalnik žuželka, urejenih po vrednosti LL v okviru od treh besed levo do treh besed desno od jedra [-3, 3]. 8 Temeljna predpostavka, da se besede v jeziku lahko pojavljajo naključno, je seveda neustrezna, kljub temu pa statistika prinaša rezultate, ki so za avtomatsko pridobivanje kolokacij iz korpusov izredno uporabni. 3.3.3 Vzorčenje konkordančnega niza Vzorčenje konkordančnega niza ponuja možnost zmanjšanja konkordančnega niza na določeno število zadetkov, glede na odločitev uporabnika, koliko konkordanc želi pri nadaljnjem delu s korpusom pregledovati. To orodje je alternativa drugim možnostim krajšanja niza, npr. izločanju, pri katerem je vneseni podatek delež zadetkov, ki jih želi uporabnik iz niza izločiti. Izločanje zadetkov je funkcija, ohranjena iz projekta FIDA, prav tako ostajajo v Konkordančniku ASP32 na voljo vsa ostala konkordančna orodja, razvita v tem obdobju: možnost urejanja konkordanc po abecednem vrstnem redu konkordančnega jedra ali okoliških besed, možnost sitanja konkordančnega niza (izločanje neželenih zadetkov iz niza po različnih kriterijih), možnost mešanja zadetkov (v primeru želje po naključnem vrstnem redu zadetkov v nizu) ter možnost izločanja morebitnih ponovljenih zadetkov iz niza. 3.3.4 Pomoč za uporabnike Poleg natisljivega priročnika za učenje dela s korpusom (Arhar 2006b) je uporabnikom na voljo tudi hitra pomoč, dostopna iz samega konkordančnika: na uvodni strani konkordančnika ter pod iskalno vrstico tako osnovnega kot razširjenega iskanja. Pomoč prinaša tri tipe informacij: - zgoščena predstavitev iskalnih metod, - tabelni prikaz oblikoskladenjskih oznak (kode MSD), - načini zapisa posebnih znakov v iskalno vrstico. Pomoč na uvodni strani konkordančnika poleg tega prinaša še seznam ikon, ki se v konkordančniku pojavljajo, skupaj s kratko oznako delovanja. 4 Zaključek ali kaj in kako naprej Zagotavljanje stalne dinamične rasti referenčnega korpusa bo morala biti v prihodnje ena od prioritet pri oblikovanju jezikovnih virov za slovenščino, vse bolj pa bo tudi v slovenskem prostoru treba razmišljati o spletu kot korpusu - ob vseh omejitvah, ki se jih v primeru slovenščine moramo zavedati, saj idej angleškega prostora, v katerem se o tovrstni možnosti najbolj razpravlja, zaradi specifičnega položaja, ki ga ima angleščina tudi v spletnem okolju, ne moremo neposredno prenašati v slovenskega. Kako pomembno je vzpostaviti dinamičen referenčni korpus, je pokazala že izkušnja s korpusom FIDA, ki je v nekaj letih po nastanku že kazal jasne znake staranja. Ob zagotavljanju stalne rasti referenčnega korpusa je potrebno nenehno nadgrajevati tudi orodja za njegovo oblikovanje in označevanje, prav tako pa razvijati tudi orodja za analizo, ki bodo omogočala kar največjo možno stopnjo avtomatizacije analitičnih postopkov. Čeprav se zavedamo, da bi moralo biti zagotavljanje stalne rasti referenčnega korpusa ena od absolutnih prioritet slovenskega prostora, pa ob obstoječem načinu financiranja, kjer se sredstva pridobiva z razpisi za določeno časovno obdobje, to ne bo prav lahka naloga. Najprej zato, ker uspešnim in odmevnim projektom v zdajšnjem sistemu ni zagotovljena možnost nadaljnjega financiranja, v veliki meri tudi zato, ker na ravni financiranja raziskovalne dejavnosti v Republiki Sloveniji za jezikoslovje ni bila izdelana strategija financiranja znanstvenoraziskovalne dejavnosti s prednostnimi cilji in ob upoštevanju mednarodne primerljivosti in odmevnosti rezultatov projektov. Financer pa hkrati ne spodbuja projektov med različnimi sodelujočimi partnerji in z zagotovljenim sofinanciranjem, ampak že s tipi razpisov in z metodologijo ocenjevanja prijavljenih projektov favorizira prav določene raziskovalne institucije, predvsem inštitutskega in ne univerzitetnega tipa, za katere ni treba, da izkazujejo mednarodno primerljivost in vpetost v mednarodni raziskovalni prostor.9 Področje korpusnega jezikoslovja se je v veliki meri oblikovalo tudi ob gradnji in analizi govornih korpusov. Postali so nepogrešljiv vir, ko gre za celovite jezikovne opise; ti so namreč opozorili na vrsto jezikovnih rab, specifičnih za govorjena besedila. Šele s pojavom govornih korpusov so tudi podatki sistematično vključeni tudi npr. v slovarske jezikovne opise. Za slovenščino je prvi velik korak k oblikovanju govornega korpusa že narejen: pripravljen je pilotni govorni korpus, pri katerem so se oblikovala tudi merila za zajem besedil in njihovo označevanje v referenčnem govornem korpusu slovenskega jezika (Zemljarič Miklavčič 2006). Realizacija govornega korpusa bo v prihodnje prav gotovo morala biti ena od prioritet pri oblikovanju jezikovnih virov za slovenščino. Nenazadnje pa je ob obstoječih jezikovnih virih in razvitih postopkih korpusne analize za slovenščino najbrž že skrajni čas za oblikovanje celovitih jezikovnih opisov. Nedopustno bi namreč bilo, če bi se ti ob obstoječi infrastrukturi gradili mimo nje in z že zdavnaj zastarelimi metodološkimi postopki. Literatura Andersen, Poul, 1998: Language Technology and Multilinguality - The European Dimension. Erjavec, Tomaž in Gros, Jerneja (ur.): Jezikovne tehnologija za slovenski jezik/Language Technologies for the Slovene Language. Ljubljana: Institut Jožef Stefan. 9-13. Arhar, Špela, 2006a: Gradnja specializiranega korpusa. Jezik in slovstvo 51/1. 53-67. 9 Pri ocenjevanju projektov na Agenciji za raziskovalno dejavnost Republike Slovenije za področje humanistike velja metodologija, s katero se iz skupnega maksimalnega števila točk 30 kot kriterij izločata znanstvena/raziskovalna uspešnost prijavitelja (citiranost) - vedno se prijavljenemu projektu avtomatsko pripiše 0 točk - in relevantnost sredstev drugih uporabnikov - tudi tu se prijavljenemu projektu avtomatsko pripiše 0 točk, minimalizirani pa sta tudi oceni tujih recenzentov glede kakovosti projekta in znanstvene/ raziskovalne uspešnosti prijavitelja, dvakrat le po 3 točke. Večino točk tako prinesejo podatki iz COBISS-a (vrednotenje pri humanistiki je tu zgodba zase) in ocena relevantnosti domačih recenzentov, dvakrat po 12 točk. Taka metodologija dopušča financiranje projektov, ki v nobenem (tudi metodološkem) segmentu niso mednarodno primerljivi in tistih nosilcev projektov, ki niso vpeti v mednarodni raziskovalni prostor. Tudi za t. i. nacionalne vede to pomeni zapiranje vase brez zdrave in nujne mednarodne prevetritve vsebin in metodologij raziskovanja na področju celotne humanistike. Za primerjavo naj navedemo, da se projekti s področja družboslovja ocenjujejo drugače, 5 točk prinaša znanstvena/raziskovalna uspešnost (citiranost), prav toliko tudi morebitna sredstva drugih uporabnikov, tuji recenzenti pa prinašajo še enkrat toliko točk kot domači (10 : 5) . Arhar, Spela, 2006b: Kaj početi z referenčnim korpusom FidaPLUS. Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. Elektronski vir. . (Dostopno 18. maja 2007.) Atkins, Sue in Clear, Jeremy, 1992: Corpus Design Criteria. Literary and Linguistic Computing 7/1. 1-16. Biber, Douglas, 1993: Representativeness in Corpus Design. Literary and Linguistic Computing 8/4. 243-257. Biber, Douglas, Conrad, Susan in Reppen, Randi, 1998: Corpus Linguistics. Investigating Language Structure in Use. Cambridge: Cambridge University Press. Čermak, František, 2002: Today's corpus linguistics. Some open questions. International Journal of Corpus Linguistics 2. 243-257. Drstvenšek, Nina, 2003: Vloga besedilnega korpusa pri postavitvi geselskega članka v enojezičnem slovarju. Jezik in slovstvo 48/5. 65-81. Dunning, Ted, 1993: Accurate Methods for the Statistics of Surprise and Coincidence. Computational Linguistics. 19/1. 61-74. Džeroski, Sašo in Erjavec, Tomaž, 2000: Strojno učenje lematizacije neznanih slovenskih besed. Erjavec, Tomaž in Gros, Jerneja (ur.): Jezikovne tehnologije/Language Technologies. 14-19. Erjavec, Tomaž, Gorjanc, Vojko in Stabej, Marko, 1998: Korpus FIDA. Jezikovne tehnologije za slovenski jezik /Language Technologies for the Slovene Language. Ljubljana: Institut Jožef Stefan. 124-127. Erjavec, Tomaž in Vintar, Spela, 2004: Korpus kot podpora slovarju informacijskega izrazja slovenskega jezika. Uporabna informatika 12/2. 97-106. Gantar, Polona, 2003: Stalnost in spremenljivost Irazema v slovarju. Gajda, Stanislaw in Vidovič Muha, Ada (ur.): Wspolczesnapolska islowenska sytuacjaj^zykowa. Opole: Uniwersytet Opolski, Instytut Filologii Polskiej/Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. 209-223. Gantar, Polona, 2004: Frazem in njegovo besedilno okolje. Doktorska disertacija. Mentorica A. Vidovič Muha. Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. Gorjanc, Vojko, 1999: Korpusi v jezikoslovju in korpus slovenskega jezika FIDA. 35. seminar slovenskega jezika, literature in kulture. 47-59. Gorjanc, Vojko, 2002a: Jezikoslovna načela gradnje računalniških besedilnih zbirk strokovnih jezikov. Doktorska disertacija. Mentorica A. Vidovič Muha. Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. Gorjanc, Vojko, 2002b: Jezikovna infrastruktura: kje je tu slovenščina? 38. seminar slovenskega jezika, literature in kulture. 257-270. Gorjanc, Vojko, 2003: Odkrivanje leksikalnih sprememb s pomočjo korpusa. Gajda, Stanislaw in Vidovič Muha, Ada (ur.): Wspolczesna polska i slowenska sytuacja jqzykowa. Opole: Uniwersytet Opolski, Instytut Filologii Polskiej/Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. 99-111. Gorjanc, Vojko, 2005a: Tracking lexical changes in the reference corpus of Slovene text. Corpus Linguistics Around the World. Amsterdam, New York: Rodopi. 91-100. Gorjanc, Vojko, 2005b: Uvod v korpusno jezikoslovje. Domžale: Izolit. Gorjanc, Vojko, 2006: Korpusno jezikoslovje in leksikalni opisi slovenskega jezika. Slavistična revija (posebna številka). 137-149. Gorjanc, Vojko in Vintar, Špela, 2000: Iskanja po Korpusu slovenskega jezika FIDA. Erjavec, Tomaž in Gros, Jerneja (ur.): Jezikovne tehnologije/Language Technologies. Ljubljana 17.-19. oktober 2000. 20-26. Gorjanc, Vojko in Krek, Simon, 2001: A corpus-based dictionary database as the source for compiling Slovene-X dictionaries. Proceedings of the COMPLEX 2001 6'h Conference on Computational Lexicography and Corpus Research. 41-47. Gorjanc, Vojko, Krek, Simon in Gantar, Polona, 2005: Slovenska leksikalna podatkovna zbirka. Jezik in slovstvo 50/2. 3-19. Holz, Nanika, 2005: Mesto Velikega slovarja tujk v slovenski leksikografiji. Jezik in slovstvo 50/1. 87-99. Jakopin, Primož, 2001: Words and nonwords as basic units of a newspaper text corpus. Proceedings of the COMPLEX 2001 6"^ Conference on Computational Lexicography and Corpus Research. 49-65. Jakopin, Primož, 2002: Entropija v slovenskih leposlovnih besedilih. Ljubljana: Založba ZRC. Kilgariff, Adam, 2001: Web as Corpus. Proceedings of the Corpus Linguistics conference. Lancaster: Lancaster university centre for computer corpus research on language. 242-244. Kosem, Iztok, 2006: Definicijski jezik v Slovarju slovenskega knjižnega jezika s stališča sodobnih leksikografskih načel. Jezik in slovstvo 51/5. 25-45. Krek, Simon, 2003. Sodobna dvojezična leksikografija. Jezik in slovstvo 48/1. 45-60. Krek, Simon, 2004: Slovarji serije COBUILD in formalizacija definicijskega jezika. Jezik in slovstvo 49/2. 3-16. Krek, Simon in Kilgariff, Adam, 2006: Slovene Word Sketches. Erjavec, Tomaž in Gros, Jerneja (ur.): Jezikovne tehnologije/Language Technologies. Ljubljana: Institut Jožef Stefan. 62-67. Kržišnik, Erika, 2003: Novosti v slovenski frazeologiji. Gajda, Stanislaw in Vidovič Muha, Ada (ur.): Wspolczesna polska i slowenska sytuacja jqzykowa. Opole: Uniwersytet Opolski, Instytut Filologii Polskiej/Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. 191-208. Leech, Geoffrey, 1997: Introducing corpus annotation. Garside, Roger, Leech, Geoffrey in McEnery, Antony (ur.): Corpus Annotation. Linguistic Infomation from Computer Text Corpora. London, New York: Longman. 1-18. Pearce, Darren, 2002: A comparative evaluation of collocation extraction techniques. Proceedings of the 3rd Language Resources Evaluation Conference (LREC 2002). Las Palmas, Kanarski otoki: ELRA. Pisanski Peterlin, Agnes, 2005: Konvencije rabe medbesedilnih elementov. Doktorska disertacija. Mentorica I. Kovačič. Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. Stabej, Marko, 1998: Besedilnovrstna sestava korpusa FIDA. Kačič, Zdravko (ur.): Uporabno jezikoslovje 6. Tematska številka »Jezikovne tehnologije«. 96-106. Stabej, Marko, 2003: Jezikovne tehnologije in jezikovno načrtovanje. Jezik in slovstvo 3-4. 5-18. Vintar, Špela, 2001: Using parallel corpora for translation-oriented term extraction. Babel 47/2. 121-132. Vintar, Špela, 2003: Uporaba vzporednih korpusov za računalniško podprto ustvarjanje dvojezičnih terminoloških virov. Doktorska disertacija. Mentor R. Šušteršič. Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. Vintar, Špela in Gorjanc, Vojko, 2003: Identifying markers of semantic relations in Slovene. Strani jezici 1-2. 37-44. Zemljarič Miklavčič, Jana, 2006: Korpus govorjene slovenščine. Erjavec, Tomaž in Gros, Jerneja (ur.): Jezikovne tehnologije/Language Technologies. Ljubljana: Institut Jožef Stefan. 124-127. Žagar, Mojca, 2005: Determinologizacija (na primeru terminologije fizike). Jezik in slovstvo 50/2. 35-48.