Vojko Gorjanc UDK 81’42:004.4 Univerza v Ljubljani, Filozofska faklteta, vojko.gorjanc@guest.arnes.si KORPUSI IN JEZIKOSLOVJE S prihodom korpusov je v jezikoslovju na voljo ve~ kakovostnih podatkov o jezikovni realnosti kot kadarkoli prej. Z razvojem metodologij gradnje in analize korpusov pa se je razvila tudi metodologija, ki omogo~a temeljit vpogled v jezikovno delovanje in u~inkovite jezikovne opise. Ob uporabni{ko usmerjenih gradivnih opisih jezika in njegovega delovanja pa se oblikujejo tudi novi strokovni diskurzi, ki se sopostavljajo tradicionalnim; v dana{nji dru`bi znanja se namre~ na~ini ustvarjanja in prena{anja znanja ter intelektualnih ve{~in v njej oblikujejo v demokrati~nem dialogu med ustvarjalci vedenja in tistimi, ki to vedenje potrebujejo. 1 Jezikovna realnost in jezikoslovje Za izhodi{~e na{ega razmisleka o korpusih in jezikoslovju nam bo slu`ila teza G. Sampsona, plenarnega predavatelja na leto{nji konferenci Corpus linguistics (Lancaster, 28.–31. 3. 2003). Spodbujen s predhodnimi {tudijami, ki so pokazale, da se je ra~unalni{ko jezikoslovje v devetdesetih letih popolnoma usmerilo v korpusne podatke, je naredil raziskavo o razmerju med empiri~no in intuitivno zasnovanimi jezikoslovnimi {tudijami. Analiziral je razprave v reviji Language v zadnjih petdesetih letih in ugotovil, da se dele` empiri~nih {tudij ni bistveno pove~al, {e ve~, v drugi polovici devetdesetih let prej{njega stoletja je njihov dele` glede na sredino devetdesetih celo upadel; na nek na~in se je ponovila slika sredine {estdesetih in za~etka sedemdesetih, ko je glede na petdeseta bistveno upadel dele` empiri~nih {tudij in porasel dele` intuitivno zasnovanih. 1.1 Prvi prelom: dva vzporedna diskurza V zgodnjih petdesetih in v za~etku {estdesetih so v reviji Language prevladovale izrazito empiri~no zasnovane foneti~ne in morfolo{ke {tudije, z vstopom generativne slovnice pa so v {estdesetih mo~no porastle intuitivno zasnovane. ^eprav se s ~asovne distance prelom v generativno slovnico ne zdi tako usoden, saj Jezik in slovstvo, let. 48 (2003), {t. 3–4 20 Vojko Gorjanc je tudi drugemu delu jezikoslovja bilo omogo~eno razvijanje svojih jezikoslovnih konceptov, pa se je diskusija med predstavniki jezikoslovja, ki temelji na delu z obse`nim na~rtno zbranim gradivom, in predstavniki generativne slovnice zaostrila v {estdesetih letih 20. stoletja do te mere, da sta podro~ji `iveli lo~eno in oblikovali tudi dva popolnoma lo~ena strokovna diskurza. [ola okrog Chomskega je zavra~ala veliko koli~ino jezikovnih podatkov za temelj jezikoslovnih raziskav (Malmkjar 1996: 74), prvi poskusi gradnje korpusa pa so bili ozna~eni kot »popolna izguba ~asa«, saj naj bi govorec dolo~enega jezika v desetih minutah produciral za jezikoslovce ve~ ilustrativnega gradiva, kot ga je na voljo v ve~milijonskih besedilnih korpusih (Biber in Finegan 1991: 204). Jezikoslovje, ki je utemeljevalo principe korpusnega jezikoslovja v {estdesetih letih, se je tako v veliki meri organiziralo prav kot jezikoslovni pristop v opoziciji do jezikoslovnega dela Chomskega ne le glede gradiva kot osnove jezikovega opisa, ampak tudi v razmerju do uporabne vrednosti raziskovalnih rezultatov – korpusni opisi so se od samega za~etka usmerjali v podro~je uporabnosti in se potrjevali v stiku z uporabniki jezikovnega znanja in ne le znotraj ozko zaprtega jezikoslovnega kroga. Vpra{anje absolutne zadostnosti korpusa ali absolutne zadostnosti intuicije, ki jo predvideva Chomsky, je s ~asovne distance gledano umetno ustvarjena dilema. Delo s korpusom res temelji na veliki koli~ini zbranih besedil, ki so podlaga za jezikovno analizo, a se ne odreka intuiciji. [estdeseta leta tudi v slovenskem prostoru izpostavijo jezikovne opise, temelje~e na na~rtno zbranem gradivu, in v slovarskih priro~nikih zavrnejo mo`nost opisa jezikovnih elementov, ki nimajo podlage v jezikovni realnosti: Slovenci smo navajeni, morda bolj kakor drugi narodi, da zaradi narodnostne ogro`enosti zelo pazimo, da se v knji`ni jezik ne vna{a preve~ tujega, oz. tega, ~esar ne izkazuje literarna tradicija. Zdaj bo v slovarju registriranega mnogo ve~: to, kar je bilo priznano kot dobro, manj dobro in tudi to, kar je veljalo za slabo. Hoteli smo prikazati knji`ni jezik v naj{ir{em pomenu besede: `iv, poln, z dubletami, notranjimi nasprotji, vzporednimi isto~asnimi normami, jezik sredi zagona in razvoja. /.../ Slovar bo registriral dejansko stanje v jeziku, torej osnove njegove norme, s kvalifikatorji in kvalifikatorskimi pojasnili pa bodo vstavljene v ta okvir posebnosti, dvojnosti in izjeme (Suhadolnik 1968: 4–5). Jezikovni podatki v korpusu ne morejo biti smiselno interpretirani brez interpretativnih zmo`nosti raziskovalcev. Pri uporabi korpusnih podatkov je dragocena tako intuicija govorcev dolo~enega jezika kot jezikoslovcev. Vendar je pri informatorjih mo`na veliko ve~ja manipulacija, povezana s (samo)spra{evanjem, »Ali lahko tako re~em?« in odgovori »Da, lahko to re~em.« in v nadaljevanju »Ampak tega nikoli ne bi rekel.« (McEnery in Wilson 1996: 12). Kritika Chomskega, da korpusni podatki niso jezikoslovno relevantni, saj se nekateri stavki ne bodo pojavili, ker »so povsem o~itni, drugi, ker so nepravilni, spet nekateri, ker so nevljudni« (Kennedy 1998: 23), ka`ejo na dva v osnovi res druga~na pristopa v jezikoslovju, povezana v veliki meri z normativnim vrednotenjem jezika, pa tudi vpra{anjem stilisti~ne vrednosti besedil oz. dobrega/slabega jezika. Seveda pa vpra{anje o kakovosti jezikovnih podatkov ostaja eno klju~nih vpra{anj korpusnega jezikoslovja: Vpra{anje referen~nosti /korpusa/ je v svoji globalni razse`nosti pomembno jezikovnofilozofsko vpra{anje, povezano z za~etkom in razvojem sodobnega korpusnega jezikos Korpusi in jezikoslovje 21 lovja. Kak{na koli~ina izpri~anih besedil in stavkov je potrebna, da lahko ustrezno ponazarja jezikovno zmo`nost chomskyjevskega idealnega rojenega govorca? Zlasti ob upo{tevanju enega od osnovnih teoremov tvorbno-pretvorbne slovnice, da jezikovna oziroma slovni~na zmo`nost, ki jo sestavlja omejeno {tevilo pravil razli~nega reda, govorcem omogo~a tvorbo in razumevanje neskon~nega {tevila stavkov oziroma izjav? Popolnoma jasno je, da noben korpus ne more vsebovati neskon~nega {tevila slovni~no pravilnih (in komunikacijsko ustreznih) stavkov. Vpra{anje je le, katero kon~no {tevilo lahko vzamemo za metonimijo neskon~nega in kako se raziskovalci pri uporabi korpusa zavedajo, da ima ne glede na svojo kon~no velikost vsak korpus poleg vseh prednosti, ki na marsikaterem jezikoslovnem podro~ju izpri~ano omogo~ajo ustreznej{e in u~inkovitej{e raziskovanje in uporabnost, na koncu vendarle status metonimi~nosti (Stabej 1998). Prav zana{anje generativne slovnice na intuicijo rojenega govorca je spodbudilo razvoj korpusnega jezikoslovja, v veliki ve~ini vezanega na angle{ki jezik, v okoljih, kjer je imela anglistika mo~no tradicijo, a govorcem ni bila prvi jezik, npr. Belgija, Nizozemska, Norve{ka, [vedska. Korpusno gradivo je v teh okoljih pomenilo pravi razcvet anglistike in v veliki meri pripomoglo k {e ve~ji metodolo{ki raznolikosti angle{kega jezikoslovja. Zana{anje Chomskega na intuicijo rojenih govorcev je bilo izzvano predvsem z novimi smermi jezikoslovja, ki so se za~ele dinami~no pojavljati v petdesetih letih 20. stoletja, predvsem sociolingvistike, psiholingvistike, pragmatike in analize diskurza. Razvoj uporabnega jezikoslovja je zahteval podatke o jezikovni rabi, in sicer tako naravnih govorcev nekega jezika kot prvega kakor tudi kot drugega ali tujega jezika. Posebej je ta segment podatkov o jezikovni rabi relevanten za {tudije u~enja jezika in raziskave nekega jezika kot tujega jezika. V angle{kem okolju je bilo to podro~je tudi zaradi razvoja v pomembno industrijsko panogo, ki je spodbujala in financirala tovrstne raziskave, `e zgodaj izjemno razvit samostojni segment uporabnega jezikoslovja. Zana{anje na intuicijo je v generativni slovnici privedlo tudi do definiranja idealnega govorca. Predvsem sociolingvisti~ne raziskave in utemeljitev funkcijskega pristopa v jezikoslovju so pokazale na nevzdr`nost takega izhodi{~a. Takoj ko je bil v izhodi{~e postavljen vidik nemonolitnosti jezikovne pojavnosti, je idealni naravni govorec nezadosten, saj njegovo jezikovno vedenje ne more zajeti celotne jezikovne pojavnosti in njene variabilnosti. Danes predvsem referen~ni korpusi sku{ajo zajeti ~im ve~jo paleto jezikovne pojavnosti, seveda z jasnim zavedanjem, da je zajetje jezikovne razli~nosti v celoti nemogo~e (^ermák 2002: 269). Ali, kot je bilo tudi v na{em prostoru `e opozorjeno: /O/staja dejstvo, da tudi referen~ni korpus ne more zajeti vseh jezikovnih mo`nosti, kar bi lahko zajeli v naslednjo formulacijo: v jeziku je lahko tudi tisto, ~esar v korpusu ni. K temu sodi tudi zrcalna trditev: vse, kar je v korpusu, je tudi (bilo) v jeziku (Stabej 1998). Analize korpusov angle{~ine so pokazale na vrsto jezikovnih rab, ki bi jih z vidika jezikovne intuicije ozna~ili kot nemogo~e, z normativnega vidika pa ozna~ili kot napake. Tovrstne analize so opozorile na v~asih prevelike posplo{itve v skladu z `eljo po sistematizaciji. V {estdesetih letih se je tudi v slovenskem prostoru sku{alo na~rtno presegati normativisti~ni pogled na jezik, ki ni imel opore v realnih jezikovnih podatkih; gre za {e vedno aktualne ideje, ki tudi danes `ivo zadevajo slovensko jezikoslovno realnost: 22 Vojko Gorjanc Pri nas smo bili vajeni razlikovati besede zelo pav{alno po tem, ali so pravilne ali nepravilne, in smo imeli za to ocenjevanje v ve~ini primerov neprimerne, navadno nejezikovne kriterije. Zgodilo se je, da je bila posamezna beseda ali zveza `e dolgo v splo{ni rabi, pa je ta ali oni odkril, da gre za kalk ali vsaj paralelo v tujem jeziku, in `e je bila obsojena kot germanizem ali romanizem ali izposojenka. Strah pred resni~nimi in navideznimi napakami je bil tako velik, da tudi v primeru, ~e je bila beseda z mnogimi nespornimi dokazi rehabilitirana, nikoli ve~ ni bila nevtralna. Zato pri nas pravzaprav ni bilo ~loveka, ki bi o sebi lahko rekel, da obvlada slovenski knji`ni jezik. In izrazne mo`nosti, ki so bile v omenjenih razmerah `e tako majhne, so se {e zmanj{evale. /.../ Slovar bo o vsaki besedi, o vsakem pomenu in obliki povedal, kdaj, kje in kako jo je mogo~e uporabljati, da bo zvenela nevtralno, ali pa bo nakazal smer do nevtralnega knji`nega izraza. /.../ Vse to bo, upamo, pripomoglo k prenehanju preganjanja izoliranih jezikovnih napak in utrdilo zavest o normalnosti govorjenega oz. pisanega jezika povpre~nega izobra`enca, isto~asno pa poglobilo resni~no, {iroko in poglobljeno zanimanje za slovensko besedo v celoti (Suhadolnik 1968: 5, 6). Nenazadnje je navezava procesiranja naravnih jezikov kot potencialnega prihodnjega sistema analize in sinteze besedil naravnih jezikov na realne korpusne podatke nujna, zato da bi v kon~ni fazi tovrstne aplikacije res lahko u~inkovito delovale. Podporo jezikovnotehnolo{kim re{itvam lahko nudijo le korpusni podatki. Jezikovni opisi, ki so za jezikovne tehnologije funkcionalni, namre~ vsebujejo veliko ve~ podatkov o besedilnem okolju, ki jih omogo~ajo le obse`ni korpusi (Taubert 1995: 109–110). 1.2 Drugi prelom: dva vzporedna diskurza nekoliko druga~e ^e je bilo v {estdesetih zmanj{anje empiri~nih raziskav povezano s pojavom izredno mo~ne in vplivne jezikoslovne {ole, pa lahko spremembo v drugi polovici devetdesetih pripisujemo predvsem odporu tradicionalnega jezikoslovja do spremembe znanstvenega diskurza in diskurza sodobne dru`be sploh; diskurz je v informacijski dru`bi postal bistveno bolj demokrati~en, odprt za razli~nost metodolo{kih pristopov, z mo~no interdisciplinarnostjo strok pa tudi na prepihu ne le ozko specializirane strokovne javnosti, ampak javnosti sploh. Ob tako spremenjenem znanstvenem diskurzu pa je v tradicionalnih diskurzih pri{lo do {e ve~jega odpora do novih pogledov in do zapiranja vase. Pri omenjenih procesih gre za zna~ilnost sodobne dru`be, na~ine ustvarjanja in prena{anja znanja ter intelektualnih ve{~in v njej. Na ravni visoko{olskega prenosa znanja lahko opazujemo paralelne procese kot pri raziskovalni dejavnosti; strnjeno gre za slede~e: Tradicionalni diskurzi v visokem {olstvu so – ~isto samoumevno – izhajali iz perspektive tistega, ki vrednost ustvarja in posreduje, poenostavljeno re~eno: iz perspektive profesorja. Tej »Arhimedovi to~ki« akademskega znanja so bile podrejene vse {tudijske strukture. /N/astajajo~i novi diskurzi preobra~ajo prav to to~ko in jo na novo utemeljujejo na perspektivi tistega, ki vednost potrebuje in i{~e/./ (Zgaga 2003: 2). Tako je v diskusiji na konferenci Corpus linguistics velik del publike na plenarnem zasedanju zavrnil relevantnost revije Language kot indikatorja stanja na podro~ju Korpusi in jezikoslovje 23 celotnega jezikoslovja. Opozorjeno je bilo, da gre za revijo, ki s svojo uredni{ko politiko goji tradicionalni jezikoslovni diskurz, prav uporabno jezikoslovje, ki je korpuse v svoj metodolo{ki aparat `e celovito vgradilo, pa ga `e dolgo na~rtno presega, hkrati pa je s svojo »uporabnostjo« nenehno izpostavljeno presoji uporabnikov jezikovnega znanja. Ob tem in prav zato si ne dovoljuje sodbe z apriorno vzvi{ene pozicije enega pogleda, ki svoj tip znanstvenega diskurza ocenjuje kot edino relevantnega, relevantnost dosega znotraj ozkega strokovnega kroga, vse ostale pa hierarhi~no vrednoti ali jih celo izklju~uje s podro~ja »pravega« znanstvenega diskurza. 2 Korpusi v jezikoslovju in korpusno jezikoslovje Delo v zvezi s korpusi je danes povezano z razli~nimi aktivnostmi; oblikovanje kakovostnih korpusov pa zahteva u~inkovito sodelovanje jezikoslovcev z raziskovalci s podro~ja dru`boslovnih ved in ra~unalni{tva, predvsem tistega dela, ki se ukvarja z naravnimi jeziki. Popolnoma odprta diskusija enakovrednih partnerjev lahko pripelje do visokih sinergijskih u~inkov, ki jih pri interdisciplinarnem delu pri~akujemo. 2.1 Gradnja korpusov zdru`uje tako jezikoslovce kot ra~unalni{ke strokovnjake, saj je delo na podro~ju oblikovanja korpusa vezano tako na na~ela njihove gradnje kot na zagotavljanje ustreznega elektronskega zapisa, ki v nadaljevanju omogo~a analizo jezikovnih podatkov (Kennedy 1998: 9). Pri na~elih gradnje korpusov je najprej potrebno pripraviti okvirni na~rt gradnje, ki zajema serijo premislekov in odlo~itev. V osnovi bi jih lahko strnili v naslednje sklope (Atkins et al. 1992: 2): • specifikacija korpusa in njegova oblika, • strojna in programska oprema, • zajem besedil in ozna~evanje korpusnih dokumentov, • procesiranje zbranega gradiva, • kon~na oblikovanost korpusa in povratne informacije v zvezi z njim. V najve~ji meri so jezikoslovni premisleki v zvezi s korpusom vezani na prvo alinejo, torej specifikacijo korpusa in njegovo obliko. Temeljni premislek je vezan na tip korpusa, ki ga `elimo graditi; ta za seboj potegne odlo~itve v zvezi z jezikom besedil (enojezi~ni ali ve~jezi~ni korpus), s ~asovnim zajemanjem besedil (sinhroni ali diahroni korpus), premislek o zajemu besedil glede na prenosnik (pisni ali govorni korpus) itd. Izhodi{~ni jezikoslovni premislek pri osrednjem tipu korpusa, tj. referen~nem korpusu, ki `eli predstaviti dolo~en jezik v ~im {ir{em obsegu njegove pojavnosti, pa je vezan tudi na dolo~itev parametrov za uravnote`enost v korpusu zajetih besedil na eni strani (Biber 1993: 243) ter njihovo jezikoslovno ozna~enostjo v korpusu na drugi (Atkins et al. 1992: 7–8). Prav to so parametri, ki dvigajo kakovost jezikovnim podatkom v korpusu, saj je razumljivo, da korpus, ki zajema samo leposlovna 24 Vojko Gorjanc besedila ali samo besedila enega ~asopisa, ne more biti kakovosten vir za npr. refe ren~ne jezikovne priro~nike. Da bi z gradnjo sploh lahko za~eli, je potrebna tehni~na podpora, ki mora od samega za~etka slediti zahtevam tako glede strojne kot programske opreme ter biti sposobna oblikovati orodja za procesiranje zbranega gradiva. Prav pri procesiranju podatkov se je potrebno odlo~ati tako, da jezikovnim podatkom zagotovimo ~im ve~jo uporabnost, izmenjavo ter trajnost, kar v zadnjem ~asu omogo~ajo standardi za prenos in zapis jezikovnih podatkov. ^eprav se razmislek v zvezi s postopki zajemanja besedil zdi dokaj trivialen, pa so se korpusi prav na tem nivoju velikokrat zna{li pred nere{ljivo te`avo: kako sploh organizirati zbiranje besedil ter prepri~ati besedilodajalce, da za namene korpusa svoja besedila odstopijo. Prav zaradi nepredvideno zapletenih postopkov se je pri mnogih korpusih njihova gradnja precej zavlekla, tako da se danes vsi zavedajo zahtevnosti in zamudnosti zbiranja besedil (Atkins et al. 1992: 3). S pridobivanjem besedil je povezano {e eno temeljno vpra{anje, ki ga mora vsak resno zastavljen korpusni projekt re{iti pred za~etkom gradnje, tj. zagotavljanje varovanja avtorskih pravic. Potrebno je poznavanje podro~ja varovanja avtorskih pravic, in sicer tako na mednarodni kot dr`avni ravni, ter v skladu s tem oblikovanje ustreznih re{itev (Atkins et al. 1992: 4). Prav izku{nje pri starej{ih korpusih, ki vpra{anja avtorskih pravic niso zadovoljivo re{ile, tako da danes tovrstnih podatkov sploh ni mogo~e uporabljati, so oblikovalce kasnej{ih korpusov prisilile v razmislek ter iskanje ustreznih re{itev. Pri kon~ni obliki korpusa je z vseh vidikov smiselno spremljati odzive na re{itve, jih sistemati~no obdelati ter razmisleke v zvezi z gradnjo revidirati ter tako pri njegovi nadgradnji dosegati ve~jo kakovost ter prijaznost do uporabnikov. ^eprav se zdi samoumevno, pa je mogo~e vendarle potrebno izpostaviti potrebo po gradnji korpusa tako, da lahko sproti sledimo jezikovnim spremembam, torej zasnovati delo na na~in, da lahko novo besedilno gradivo v korpus nenehno vklju~ujemo. [ele korpusni podatki nam lahko dajo pravo sliko o jezikovnem razvoju in te`njah jezikovnega razvoja; podatki, zbrani po npr. listkovni metodi za starej{e slovarje, za tovrstne raziskave zaradi omejenosti informacij niso primerni (^ermák 2002: 268). Ob tem seveda ne gre za metodolo{ka vpra{anja, ampak najve~krat za vpra{anja financiranja projektov, ki imajo za cilj vedno samo nek vmesni cilj brez pravega kon~nega cilja. 2.2 Razvoj orodij za delo s korpusom je vezan predvsem na podro~je ra~unalni{kega jezikoslovja (Kennedy 1998: 9), danes pa nekateri {iroko dostopni programi omogo~ajo tudi ra~unalni{ko manj izobra`enim uporabnikom korpusa samostojen razvoj manj kompliciranih programskih orodij, ki si jih za svoje specifi~ne potrebe lahko oblikujemo sami; ob tem se vzporedno razvijajo tudi postopki in metode korpusne analize. 2.3 Ob delu s korpusi se razvijajo druga podro~ja jezikovnih tehnologij, ki za svoje izhodi{~e potrebujejo kvalitetne jezikovne vire; sem sodi razvoj ~rkovalnikov, razli~nih slovni~nih pregledovalnikov, elektronskih slovarjev in tezavrov pa tudi sinteze in analize govora ipd. Korpusi in jezikoslovje 25 2.4 V jezikoslovju sodijo na podro~je korpusnega jezikoslovja raziskave za potrebe opisnega jezikoslovja, kamor tradicionalno sodijo razli~ne vrste slovni~nih in leksikalnih analiz (Kennedy 1998: 9) – predvsem leksikologija in leksikografija sta podro~ji, ki `e po tradiciji izhajata iz sistemati~no zbranega gradiva (McEnery in Wilson 1996: 90); prav slovarji, narejeni na podlagi korpusov, pa so tudi prvi res {iroki javnosti dostopni rezultati jezikoslovne uporabe korpusov.1 S pojavitvijo ve~ jega {tevila {ir{i javnosti dostopnih razli~nih tipov korpusov pa se njihova uporabnost {iri predvsem na tradicionalno gradivno usmerjena jezikoslovna podro~ja, kot so besediloslovje, prevodoslovje, sociolingvistika, stilistika ipd. (McEnery in Wilson 1996: 98–101, 111). 2.5 Korpusno jezikoslovje trenutno pomeni zbirni pojem za niz razli~nih aktivnosti v zvezi s korpusi, pri tem pa je zhodi{~e analize velika koli~ina na~rtno zbranega avtenti~nega gradiva in empiri~na analiza dejanskih vzorcev jezikovne rabe (Biber et. al. 1998: 5); {ele pojav ra~unalnikov in oblikovanje metod zbiranja ter gradnje korpusov je omogo~ilo pridobiti veliko koli~ino relevantnih aktualnih jezikovnih podatkov za jezikoslovne {tudije; sodobni jezikovni opisi tako lahko temeljijo na empiri~ni analizi zares velike koli~ine avtenti~nih besedil (Biber et. al. 1998: 9–10). Gre za zna~ilnosti jezikovnih podatkov, ki jih starej{im zbirkam jezikovnih podatkov ne moremo pripisati (^ermák 2002: 265). Uporaba ra~unalnika z avtomati~nimi in interaktivnimi tehnikami omogo~a analizo velike koli~ine jezikovnih podatkov. Z razvojem tehnik korpusne analize koli~ina jezikovnih podatkov ne predstavlja ovire, pa~ pa prav obratno, z ve~jo koli~ino podatkov lahko pridemo do novih informacij; za dolo~ene postopke korpusne analize pa so sploh primerni samo izjemno veliki korpusi. Z uporabo tako kvantitativnih kot kvalitativnih analiz se lahko gradijo novi jezikovni opisi; kvantitativne analize se pojavljajo v izhodi{~u vsakega korpusnega pristopa, pomenijo relevanten jezikovni podatek, ki pa ga je seveda potrebno {e interpretirati in razlo`iti (Biber et. al. 1998: 5, 8–9; Gorjanc 2002: 90-106). Ko govorimo o korpusnem pristopu v jezikoslovju, sre~amo pojma delni in popolni korpusni pristop (Tognini-Bonelli 2001). Popolni korpusni pristop sugerira uporabo korpusa neodvisno od uveljavljenih jezikoslovnih interpretacij, kar v bistvu pomeni, da bi bil mogo~ le s »surovim« besedilnim gradivom brez kakr{nihkoli jezikoslovnih oznak. [ele opazovanje »surovih« besedil in njihova analiza brez sklicevanja na obstoje~e jezikoslovne modele bi v lahko oblikovalo zares neodvisni in neobremenjeni korpusni pristop. Prav zaradi zavedanja obremenjenosti analiz z obstoje~imi jezikoslovnimi koncepti se danes raje govori o korpusu kot viru za preverjanje hipotez na eni in viru za gradnjo hipotez na drugi strani. Ob korpusu kot viru za gradnjo hipotez o jeziku se oblikuje jedro korpusnega jezikoslovja, korpus je pri tem v izhodi{~u jezikoslovnih analiz, oblikovana je metodologija gradnje korpusov in korpusne analize, na tej osnovi se gradijo jezikovni opisi in oblikujejo jezikovnotehnolo{ke aplikacije. Ob tem pa podro~je ostaja odprto za druge veje jezikoslovja, ki korpus uporabljajo le kot klasi~no gradivo zgolj za preverjanje svojih hipotez. 1 V slovenskem prostoru je prvi pravi korpusni slovarski projekt priprava velikega angle{ko-slovenskega slovarja Oxford-DZS; o njem natan~neje poro~amo v tej {tevilki. 26 Vojko Gorjanc 3 Sklep Korpusi so v jezikoslovno delo vnesli besedilno gradivo, ki je koli~insko in kakovostno absolutno preseglo predra~unalni{ke gradivne zbirke, hkrati pa pokazalo na njihove omejitve in izpostavilo pomanjkljivosti. Vendar pa pojav korpusov v jezikoslovju pomeni mnogo ve~ kot zgolj gradivo za jezikoslovno analizo. Korpusno jezikoslovje je ob metodologiji gradnje korpusov oblikovalo tudi metodologijo korpusne analize in novih jezikovnih opisov; ti v svojem izhodi{~u prisegajo na jezikovno realnost in tudi ob nepri~akovanih rezultatih ne podlegajo intuiciji, vklju~ujejo ve~ podatkov o tipi~nem besedilnem okolju ter sploh podatkov o komunikacijski realnosti. Delo s korpusi je usmerjeno izrazito uporabni{ko, v svoj strokovni diskurz korpusno jezikoslovje tako izrazito vklju~uje dialog z uporabniki vedenja, ki se ustvarja in posreduje. Kljub programski odprtosti podro~ja za vse veje jezikoslovja pa je komunikacija s tradicionalnimi jezikoslovnimi {olami in strokovnimi praksami velikokrat ote`ena, {e posebej takrat, ko tradicionalni diskurz vrednostno hierarhizira pojavljajo~e se nove strokovne diskurze, ki jih narekujejo spremembe v sodobni dru`bi. Literatura Atkins, Sue, Clear, Jeremy in Oster, Nicholas, 1992: Corpus Design Criteria. Literary and Linguistics Computing 7/1. 1–16. Biber, Douglas in Finegan, Edward, 1991: On the exploitation of computerized corpora in variation studies. Aijmer, Karin in Altenberg, Bengt (ur.): English Corpus Linguistics. London in New York: Longman. 204–220. Biber, Douglas, 1993: Representativeness in Corpus Design. Literary and Linguistics Computing 8/4. 243–257. Biber, Douglas, Conrad, Susan in Reppen, Randi, 1998: Corpus Linguistics. Investigating Language Structure in Use. Cambridge: Cambridge University Press. ^ermák, Franti{ek, 2002: Today’s corpus linguistics. Some open questions. International Journal of Corpus Linguistics 7/2. 265–282. Gorjanc, Vojko, 1999: Korpusi v jezikoslovju in korpus slovenskega jezika FIDA. Kr`i{nik, Erika in Lokar, Meta (ur.): 35. seminar slovenskega jezika, literature in kulture. Ljubljana: Center za sloven{~ino kot drugi/tuji jezik pri Oddelku za slovanske jezike in knji`evnosti Filozofske fakultete 47–59. Gorjanc, Vojko, 2002: Jezikoslovna na~ela gradnje ra~unalni{kih besedilnih zbirk strokovnih jezikov. Doktorska disertacija. Mentorica prof. dr. Ada Vidovi~ Muha. Ljubljana: Univerza v Ljubljani, Filozofska fakulteta. Kennedy, Graeme, 1998: An Introduction to Corpus Linguistics. London: Longman. Malmkjar, Kirsten, 1996 (1991): The Linguistic Encyclopedia. London, New York: Routledge. Korpusi in jezikoslovje 27 McEnery, Tony in Wilson, Andrew, 1996: Corpus Linguistics. Edinburgh: Edinburgh University Press. Sampson, Geoffrey, 2003: Are we nearly there yet, Mum? Archer, Down, Rayson, Paul, Wilson, Andrew in McEnery, Tony (ur.): UCREL Technical Paper number 16. Special issue. Proceedings of the Corpus Linguistics 2003 conference, Lancaster, 28–31 March 2003. Lancaster: Lancaster university (UK). 678. http://www.grsampson.net/Aawn.html Stabej, Marko, 1998: Besedilnovrstna sestava korpusa FIDA. Ka~i~, Zdravko (ur.): Uporabno jezikoslovje 6. Tematska {tevilka »Jezikovne tehnologije«. 96–106. Suhadolnik, Stane, 1968: Koncept novega slovarja slovenskega knji`nega jezika. 4. seminar slovenskega jezika, literature in kulture. Predavanja iz jezika. 1–11. Teubert, Wolfgang, 1995: Language Resources: The Foundations of a Pan-European Information Society. Rettig, Heike s sodelovanjem Júlie Pajzs in Gáborja Kissa (ur.): TELRI: »Language Resources for Language Technology«. Proceedings of the First European Semminar, Tihany, September 15 and 16. 105–128. Tognini-Bonelli, Elena, 2001: Corpus Linguistics at Work. Amsterdam, Philadelphia: John Benjamins. Váradi, Tamás, 2000: Corpus Linguistics – Linguistics or Language Engineering? Erjavec, Toma` in Gros, Jerneja (ur.): Informacijska dru`ba, Jezikovne tehnologije. Ljubljana 17.–19. okt. 2000. Ljubljana: In{titut Jo`ef Stefan. 1–5. Zgaga, Pavel, 2003: Bolonjski proces terja mnogo ve~ kot »mehansko« spremembo strukture {tudija. Teze za posvet »Modeli {tudija in uresni~evanje bolonjskega procesa«, Ljubljana, 4. 6. 2003.