Leksikalna baza za slovenščino: komu, zakaj in kako (naprej)? Polona Gantar m Cobiss: 1.01 V prispevku so opisane smernice pri oblikovanju leksikalne baze za slovenščino, zlasti vprašanje različnih uporabnikov ter vrste in načina strukturira- N nja leksikalno-slovničnih podatkov v njej. Posebej so izpostavljene dileme, ki zadevajo določitev obsega in izbora leksikalnih enot ter razporeditev leksi- ^ kalno-slovničnih podatkov ob upoštevanju predpostavke, da bodo podatki v Z leksikalni bazi za slovenščino namenjeni primarno spletnim aplikacijam in ^ sodobnim elektronskim medijem. q Ključne besede: leksikalna podatkovna baza, uporabniška prijaznost, stavčne j definicije, leksikografija, spletni slovarji ^^ m The Slovenian lexical database: For whom, why, and how (to proceed)? ^ This article describes the guidelines in the formation of the Slovenian lexical database, especially the issue of various users and the types and manners ^ of structuring lexical and grammatical information in this database. Special emphasis is placed on questions dealing with the scope and selection of lexical units and the arrangement of lexical and grammatical information, while taking into account the premise that information in the lexical database is primarily intended for web applications and modern electronic media. Keywords: lexicography, lexical database, user friendliness, sentence definitions, online dictionaries 1 Namen Leksikalna baza za slovenščino (LBS)1 se izdeluje z namenom, da bo vsebovala zadostno količino relevantnih na korpusu temelječih podatkov o slovenskem besedišču, ki se jih tradicionalno pričakuje od priročnikov tipa slovar. Predvsem torej, kaj neka leksikalna enota pomeni in v kakšnem besedilnem in situacijskem kontekstu jo govorci običajno uporabljamo. Na podlagi kompleksnega opisa leksikalnih enot v LBS naj bi bilo mogoče izdelati različne končne opise z različnimi kombinacijami vsebovanih podatkov in v različnih končnih izdelkih, pri čemer je mogoče izpostaviti zlasti splošni enojezični in šolski slovar, slovar za učenje slovenščine kot tujega jezika, dvojezične slovarje in priročnike, ki se osredotočajo samo na določen tip leksikalno-slovničnih podatkov, npr. kolokacijski in sinonimni slovar, slovar Dostopna na: http://www.slovenscina.eu/Vsebine/Sl/Domov/Domov.aspx. večbesednih izrazov, frazeologije ipd. V tem smislu je LBS namenjena predvsem leksikografom in jezikovnim analitikom ter še ne predstavlja končnega izdelka. N V procesu oblikovanja leksikalne baze pa smo začeli razmišljati o LBS kot o 1 bazi jezikovnih podatkov, ki bi jo bilo mogoče povezati z drugimi bazami jezikov-^ nih podatkov in jo v obliki večpredstavnega spletnega jezikovnega portala ponuditi O neposredno uporabnikom v čim bolj prijazni obliki ter na različnih stopnjah informa-s tivnosti in zahtevnosti, pri tem pa izkoristiti možnosti, ki jih ponuja spletni medij. V L končni fazi bi to pomenilo, da mora uporabnik v iskalniku zgolj identificirati svoj je- 0 zikovni (pravopisni, slovarski, slovnični) problem, sistem pa mu na podlagi različnih v baz strukturiranih jezikovnih podatkov ponudi ustrezen in zanesljiv odgovor. N 1 1.1 Preprostost, strokovnost in doseganje avtoritete priročnika »Obstajata dve poti k učinkovitejši rabi slovarjev: z prva je, da radikalno izboljšamo slovarje, druga je, da radikalno izboljšamo uporabnike.«2 > (Atkins - Varantola 2008: 337) ^ Pri zasnovi LBS smo veliko razmišljali o tem, kako si uporabnik dejansko predstavlja zanesljiv odgovor ter v kolikšni meri je pomembna in na kakšnih podlagah se vzpostavlja avtoriteta priročnika.3 Osnovna dilema ostaja med (a) preprosto infor-^ macijo, ki je na račun nujno potrebne kratkosti manj podrobna, s tem pa tudi manj ^ obremenjena s terminologijo in manj poučna, in (b) daljšimi opisi, podkrepljenimi z 7 jezikoslovno analizo problema, s strokovno literaturo in pripadajočo terminologijo. 2 Ob tem se neizogibno zastavljata vprašanji, katere strategije uporabiti za doseganje 1 uporabniške prijaznosti, ne da bi se pri tem morali odreči strokovnosti, in kakšen je . dejansko »eleganten in učinkovit pomenski opis«, kot ga denimo omenjata Čermak (2009: 26) in Rundell (2010), ko govorita o uporabniški prijaznosti, učinkovitosti in zanesljivosti slovarske informacije. Usmeritev k spletni končni obliki LBS (pri čemer so knjižni izdelki vedno lahko njen neposredni produkt) je pomembno vplivala na spremembe v oblikovanju in strukturiranju podatkov v bazi. Vprašanja, ki so bila tradicionalno povezana z iskanjem najboljših rešitev pri logičnem urejanju podatkov, kjer je moral uporabnik obvladati tudi logiko notranje strukturiranosti gesla (abecedna ureditev, vsebina gesla, oblika iztočnice, gnezdenje, terminologija ipd.), so postala bolj ali manj tehnične narave: abecedna ureditev ni več relevantna, poznavanje logične ureditve gesla v smislu razumevanja besednovrstnih konverzij, osnovne oblike, gnezdenja ipd. ni več potrebno, in tudi ne omejitev količine informacij z vidika porabe prostora. Nastala pa je vrsta novih vprašanj, povezanih z značilnostmi in možnostmi spletnega medija, med drugim: (a) opredelitev obsega leksikalne enote oz. segmenta besed, ki predstavlja za uporabnika potencialni slovarski problem; 2 3 »There are two direct routes to more effective dictionary use: the first is to radically improve the dictionary; the second is to radically improve the users.« (Prevod P. G.) To vprašanje velja v prvi vrsti za pravopis, vendar pa je pomembno tudi za slovarske informacije, zlasti pri stopnji pomenske členitve in pri pomenskih opisih. (b) strukturiranost leksikalno-slovničnih podatkov v različnih stopnjah zahtevnosti oz. informativnosti; jh (c) organizacija spletne strani z vidika navigacije in iskanja podatkov (hi- ® tra dostopnost in učinkovitost dane informacije) ter povezava tako na druge ,!., podatkovne vire znotraj spletnega portala kot na druge razpoložljive spletne ^ jezikovne vire; ^ (č) način prikaza besedila na strani (stalne in opcijske rubrike) ter medbese-dilne povezave (hiperpovezave, pasice, pomoč ipd.); (d) oblikovne možnosti elektronskega besedila s stališča multimedijskosti ^ (vključitev slik, zvoka, videa, izvažanje in tiskanje podatkov, dodajanje za- ^ znamkov ipd.); (e) možnost povezav z drugimi bazami, kot so npr. Wikipedija, Wordnet, ^ FrameNet, in s spletom nasploh. Poleg za človeškega uporabnika je bila LBS že od samega začetka predvidena tudi za namene računalniške obdelave naravnega jezika (RONJ), konkretneje za izboljšanje razčlenjevalnika4 in označevalnika5 za slovenščino, računamo pa tudi, da bo na podlagi LBS mogoče narediti prve poskuse samodejnega razdvoumljanja pomenov slovenskih leksemov. Temu namenu so podrejeni podatki o (a) besedno-vrstni strukturiranosti pomensko relevantnih besednih zvez (ali stavčnih fraz, npr. ® pridevnik + samostalnik; samostalnik + samostalnik v rodilniku) - t. i. skladenjske strukture in stavčni vzorci (pri glagolskih iztočnicah), in (b) beleženje udeležencev ^ s t. i. semantičnimi tipi v stavčno strukturiranih pomenskih shemah. Semantični ^ tipi udeležencev so skupaj s pomenskimi indikatorji (neposrednimi nadpomenkami ali sinonimi) tudi kandidati za dopolnjevanje slovenske ontološke mreže sloWNet6 ^ (Fišer 2009). 1.2 Ciljni uporabniki Glede na izhodiščno dvonamenskost LBS sta tudi potencialna uporabnika LBS dva: človek in računalnik. Človeškemu uporabniku so v prvi vrsti namenjene pomenske informacije: pomenska členitev (z oblikovanjem pomenskega menija), opis pomena s pomenskim indikatorjem in pomensko shemo, ki predstavlja izhodišče za oblikovanje stavčno strukturiranih razlag (Gantar - Krek 2009), razlaga ter kolokacije in korpusni zgledi. Vse druge informacije - skladenjske strukture in stavčni vzorci, vključno s semantičnimi tipi udeležencev v stavčno strukturirani razlagi pri posameznih pomenih glagolov ter pri nekaterih pomenih pridevnikov in samostalnikov - so namenjene primarno RONJ in slovničnim analizam. Rezultate skladenjske razčlenitve za poljubno besedilo v slovenščini je mogoče preveriti na spletnem servisu projektne strani http://razclenjevalnik.slovenscina.eu/ (dostop 29. 9. 2011). Program je bil razvit pri projektih Jezikoslovno označevanje slovenščine (http://nl.ijs.si/ jos/) in Sporazumevanje v slovenskem jeziku, njegovo delovanje pa je mogoče preizkusiti na: http://oznacevalnik.slovenscina.eu (dostop 29. 9. 2011). Več o projektu na http://lojze.lugos.si/~darja/slownet.html (dostop 29. 9. 2011). Z 1.2.1 Združljivost različnih profilov uporabnikov Človeški uporabnik LBS zajema tri profile: (a) splošnega uporabnika, pri čemer se N predvideva raven zahtevnosti in obvestilnosti na ravni srednješolske oz. gimnazij-1 ske izobrazbe (prim. SSKJ 1, Uvod: XI),7 kar glede vsebine informacij ustreza tudi ^ (b) šolskemu uporabniku in (c) vsaj v nekaterih segmentih tudi učencu slovenščine O kot tujega jezika. Tujejezični in šolski uporabnik, ali bolje, vsebina leksikalno-slov-s ničnih podatkov, ki so namenjeni enemu ali drugemu, zahteva upoštevanje dolo-L čenih specifik in razlik. Šolskemu uporabniku smo se želeli približati z izborom 0 specializiranega besedišča (gl. 1.3.1),8 obenem pa smo prilagodili tudi pomenske v opise v obliki pomenskih indikatorjev in pomenskih shem, ki predstavljajo izhodišče za oblikovanje razlag stavčnega tipa. Poleg splošnih načel smo pri oblikovanju pomenskih indikatorjev težili k razumljivosti in kratkosti, hkrati pa naj bi pomenski indikatorji kot gradniki pomenskih menijev vzpostavljali zadostno mero pomenske Z razločevalnosti glede na druge pomene besede v iztočnici. Poleg tega smo menili, A da so za razumevanje pomena z vidika uporabnikov, ki se slovenščino učijo kot tuji P jezik, najprimernejši pomenski opisi v obliki stavčnih definicij, ki najbolj naravno 1 (npr. z izkazano tipično skladenjsko realizacijo, kot je denimo pri nekaterih pridev-s nikih povedna ali primarno prilastkova raba, povratnosvojilnost pri glagolih ipd.) ^ vključujejo podatke o besedilnem okolju, v katerem se realizira pomen. Poleg tipič-1 ne skladenjske rabe gre predvsem za izpostavitev udeležencev, razmerij med njimi 7 in okoliščin (tudi zunajjezikovnih), ki so potrebne za razumevanje posameznega • pomena. Kljub omenjenim premislekom pa ostaja odprto vprašanje, ali je omenjeni 1 trojni profil uporabnika dejansko združljiv tudi v enem samem slovarskem izdelku. • V nadaljevanju projekta želimo zato konkretne rešitve, zlasti berljivost stavčnih 2 razlag in obvestilnost pomenskih menijev, preveriti pri različnih ciljnih skupinah uporabnikov. 1.3 Vrsta in strukturiranje leksikalno-slovničnih podatkov 1.3.1 Viri Primarni nabor iztočnic v LBS izhaja s seznama 5000 najpogostejših lem v korpusu FidaPLUS, ker pa je bil v okviru projekta SSJ zgrajen nov milijardni referenčni korpus Gigafida (Logar Berginc - Šuster 2009; Logar Berginc - Krek 2010), smo v nadaljevanju izdelave LBS podatke pridobivali iz novega korpusa. Poleg tega smo z namenom približati se šolskemu uporabniku na podlagi korpusa osnovno- in Dejstvo, da se 60 % populacije po končani srednji šoli ali gimnaziji vpiše na fakulteto, narekuje potrebo po novi definiciji splošnega uporabnika, pri čemer izobrazbeno izhodišče v smislu večje ali manjše zahtevnosti oz. preprostosti slovarja ni bistveno - vsaj v našem primeru ne, saj smo si prizadevali za preproste pomenske opise in zmanjšanje slovničnega in slovarskega metajezika ne glede na izobrazbeno lestvico potencialnega uporabnika. Pri zasnovi baze ali slovarja je smiselno končnega uporabnika opredeliti predvsem glede na to, ali gre za otroka ali za odraslega uporabnika in ali so podatki in njihov opis namenjeni rojenemu govorcu ali učencu tujega jezika (Atkins 2008: 37). LBS bo ob zaključku aktivnosti (junij 2012) vsebovala 2500 iztočnic, od tega jih bo približno 500 vključenih na podlagi učbeniškega geslovnika. 8 9 SkE (http://www.sketchengine.co.uk/) (dostop 29. 9. 2011) je le eno od - sicer že solidno standardiziranih - orodij za luščenje leksikografskih podatkov iz korpusa. Jezikovno oz. slovensko specifične parametre za luščenje podatkov bomo pri izdelavi LBS testirali pri poskusu samodejne izdelave gesel, kjer bomo kot učno množico uporabili v bazi že struk-turirane leksikalno-slovnične podatke. 10 Na korpusu FidaPLUS smo preizkusili slovaško varianto slovnice besednih skic, ki jo je za potrebe izdelave Slovarja sodobnega slovaškega jezika (Slovn^k sučasneho slovenske-ho jazyka (A-G)) izdelal Vladim^r Benko, v prihodnje pa nameravamo preizkusiti tudi sistem avtomatskega luščenja relevantnih leksikografskih podatkov iz korpusa, ki ga uporabljajo na Inštitutu za nemški jezik v Mannheimu in ki ga je razvil Cyril Belica. srednješolskih učbeniških besedil izdelali geslovnik s približno 1000 lemami, kjer smo poleg frekvence upoštevali še večpomenskost (strokovni izrazi, ki imajo tudi ^ splošni pomen, in strokovni izrazi, ki prehajajo v splošni jezik), splošno rabljene ® aktualne prevzete besede, pa tudi besede, ki so po našem mnenju za šolskega uporabnika zanimive z vidika učnih vsebin, nove predmetnosti (neregistrirani izrazi v SSKJ) in generacijske pripadnosti. ^ Izhajajoč iz vsaj deloma različnih potreb predvidenih skupin ciljnih ^ uporabnikov, je smiselno v LBS s širokim spektrom uporabnosti zajeti čim več leksikalno in slovnično relevantnih podatkov. Z vidika sodobne leksikografije to ni ^ več mogoče brez obsežnih besedilnih korpusov, hkrati pa obsežne količine podatkov ^ poleg izstopajočih frekventnih pojavov pokažejo tudi jezikovno variantnost in posebnosti v vsej njihovi razsežnosti. To dejstvo neizogibno vodi v iskanje ^ odločitev, kaj od obrobnega je poleg tipičnega za uporabnika prav tako zanimivo/ ^ pomembno, ne nazadnje tudi z vidika pojavov, ki se v jeziku šele uveljavljajo oz. se uveljavljajo zgolj v specifičnih jezikovnih situacijah. Odločitve glede tega morajo med drugim upoštevati dejstvo, da npr. orodje Sketch Engine (SkE),9 ki omogoča hitrejše pridobivanje relevantnih podatkov iz korpusa, določenih relacij bodisi zaradi zapletenosti slovnice besednih skic, ki so pogoj za generiranje kolokacijskega obnašanja besed, bodisi zaradi nefrekventnosti določenega pojava/posebnosti ne izpostavi. Ena izmed rešitev tega problema je sprotno izboljševanje slovnice besednih skic na podlagi povratnih informacij iz baze ter preizkušanje slovnic in orodij, ki so bili izdelani za druge jezike.10 Druga rešitev je odločitev, da ostaja ^ temeljni vir za pridobivanje leksikalno-slovničnih podatkov v LBS ročna analiza ^ najmanj 150 do 300 konkordanc. Na podlagi ročne analize konkordanc leksikograf W izdela osnovno pomensko sliko besede (določi osnovne pomene in podpomene), oblikuje pomenski meni, registrira tipični besedilni kontekst za posamezne pomene, udeležence (oz. prehodnost pri pridevnikih in samostalnikih), stalne zveze in frazeološke enote. Ko je na tej podlagi izdelana osnovna pomenska slika konkretne leme v iztočnici, je s pomočjo orodja Sketch Engine oz. aplikacije Besedne skice za slovenščino (Krek - Kilgarriff 2006) izdelan kolokabilni del geselske strukture (kolokacije in pripadajoče skladenjske strukture), s pomočjo aplikacije GDEX, ki je bila v okviru projekta prilagojena posebej za slovenščino (Kosem idr. 2011), pa so izbrani dobri korpusni zgledi. E Z Primer 1: Glagolsko geslo s pripadajočimi pomenskimi in kolokacijskimi podatki POPOPRATI glagol 1. dodati poper 2. popestriti O 1. indikator dodati poper s pomenska shema če ČLOVEK popopra JED ali ŽIVILO, ji doda poper, s L čimer dobi poseben, nekoliko pekoč okus 0 kolokacije v [rahlo, obilno] popoprati N popoprati [jed, meso, zrezke] 1 razširjene kolokacije popoprati s [črnim, belim, zmletim, mletim] poprom Z popoprati z [grobo, sveže] zmletim poprom A skladenjske zveze p popoprati po okusu 1 2. indikator popestriti S pomenska shema če ČLOVEK popopra IZJAVO, DOGODEK ali VZDUŠ- K JE, jo s pripombo ali dejanjem zaostri ali naredi bolj zanimivo hH 7 Dodatnih gradivnih virov pri izdelavi LBS ne predvidevamo, se pa pri razbiranju • pomena in oblikovanju pomenskega opisa stalnih zvez, ki so v rabi na specializi- 1 ranih področjih in hkrati del splošnega jezika, avtorji zatekajo tudi k spletnemu • iskanju informacij. Take zveze je namreč pogosto težko pomensko opisati zgolj 2 na podlagi konkordanc, saj zahtevajo specializirano vedenje, hkrati pa mora biti njihov opis preprost, namenjen splošnemu uporabniku in ne strokovnjaku. Glede na to, da LBS ni zasnovana kot terminološka baza in da hkrati predvidevamo njeno objavo znotraj širšega jezikovnega portala, se ponuja možnost napotitve uporabnika na relevanten vir v obliki spletnih povezav, npr. Wikipedija, islovar ipd. Za zdaj se v primeru terminoloških stalnih zvez, ki jih uvrščamo pod posamezne pomene ali od pomena neodvisno, odločamo le za navedbo ustreznega področja rabe (t. i. področne oznake), ki pa je lahko kombinirana z razlago v pomenski shemi: Primer 2: Umestitev stalnih zvez v samostalniško geslo GREDA samostalnik 1. indikator del vrta pomenska shema greda je del vrta ali njive, v katerem so v vrsti posajene rastline SZ-pomen topla greda SZ-pomen zaprta greda pomenska shema topla greda je umetno narejen prostor, ki zagotavlja toplotne razmere, v katerih je mogoče gojiti ali prezimovati rastline kolokacije [prenosna] topla greda 82 [sejati, posejati, posaditi] v toplo gredo SZ-geslo topla greda oznaka ekologija pomenska shema topla greda je rezultat procesa, pri katerem se toplotno sevanje, ki prihaja v ozračje z Zemlje, vrača nazaj in povzroča višjo temperaturo, kot bi bila, če bi Zemljino površje ogrevalo le sonce kolokacije [učinek] tople grede [povzročati] toplo gredo 1.3.2 Vrste leksikalnih enot v leksikalni bazi za slovenščino Glede na možnosti spletne postavitve LBS je za uporabnika poznavanje logične urejenosti podatkov znotraj gesla manj pomembno. Pomembno pa je pri vključevanju podatkov določiti vrsto in obseg leksikalne enote, na katero so podatki pripeti. V LBS obravnavamo kot leksikalno enoto (a) vsak pomen in podpomen besede v iztočnici ter (b) stalne zveze in (c) frazeološke enote. Te enote v LBS predvidevajo pomenski opis, so lahko opredeljene glede na področje rabe, stil in besedilni kontekst (s t. i. oznakami) ter imajo evidentirano tipično besedilno okolje. Poleg tega kot samostojne enote v LBS obravnavamo tudi t. i. skladenjske zveze, ki so ustaljeni večbesedni delci jezika, za katere je značilno, da izkazujejo relativno pomensko prozornost (pomenskega opisa zato zanje ne predvidevamo) in strukturno trdnost ob relativno spremenljivem besedilnem okolju oz. oblikovno napovedljivem vezljivostnem mestu, npr. pod vplivom česa, v skladu s čim/kom, v času (česa), v barvi (česa) ipd. Vrste leksikalnih enot v LBS in struktura leksikalno-slovničnih podatkov, ki jih predvidevajo m hH NN Z > O hJ m o NN N H Leksikalna enota Pomenski opis Sintagmatika Oblike rabe RONJ pomen ali podpomen - indikator - pomenska shema - kolokacije - razširjene kolokacije -besednovrstna konverzija* - restrikcije (ustaljenost v določenem številu, skladenjskem položaju ipd.) - oblikovanje ontologij - formalizacija besednozvezne strukture, npr. Prid + Sam - stavčni vzorci - formalizacija udeležencev v stavčni razlagi stalna zveza - indikator/ razlaga - kolokacije - variante - oblike rabe skladenjska zveza - kolokacije - oblike rabe - pretvorbe frazeološka enota - indikator/ razlaga - kolokacije - oblike rabe - pretvorbe * Besednovrstno konverzijo (nominalizacija, adjektivizacija ipd.) in homonimijo (prekriv-nost celotne paradigme znotraj iste besedne vrste) obravnavamo kot samostojne (pod)-pomene in ne kot samostojne iztočnice ali podiztočnice. Z 1.3.3 Obseg leksikalne enote Razmerja med posameznimi vrstami leksikalnih enot - v LBS zlasti med kolokaci-N jami, razširjenimi kolokacijami in stalnimi zvezami, med razširjenimi kolokacijami 1 in skladenjskimi zvezami, med kolokacijami in stalnimi zvezami in ne nazadnje ^ med stalnimi zvezami in frazeološkimi enotami - so večkrat zabrisana, zato so poO trebna čim bolj jasna načela, ki leksikografom omogočajo čim bolj enotne odloči-s tve. Pri snovanju LBS smo se pri določanju vsebinskih in formalnih parametrov za L prepoznavanje zgoraj omenjenih leksikalnih enot opirali tako na teoretična spozna- 0 nja kot na praktične izkušnje pri analizi korpusa (Gantar idr. 2009; 2009a). Izkazalo v se je, da posamezne besede izkazujejo bolj ali manj obsežne kolokabilne nize. Teoretično je mogoče predvidevati, da kolokabilno zaprti nizi napovedujejo pomensko in strukturno trdnost zveze, torej potencialne stalne zveze ali frazeološke enote, in obratno: bolj odprt oz. obsežen kot je kolokabilni niz, več možnosti je, da gre za Z tipično besedilno okolje besede, tj. za kolokacijo in ne za leksikalizirano (stalno ali A frazeološko) zvezo. V praksi pa se je izkazalo, da je obsežnost kolokabilnega niza P glede na prepoznavanje samostojnih leksikalnih enot relativna, npr. šola v pomenu 1 'ustanova' kolocira z besedami kot osnovna, višja, srednja, visoka ipd. in hkrati s skupaj z omenjenimi pridevniki tvori samostojne leksikalne enote, ki potrebujejo ^ lastni pomenski opis: osnovna šola, srednja šola, visoka šola itd. Rešitev, ki smo jo 1 glede tega sprejeli v LBS, je, da navedemo celotni kolokacijski niz pri ustreznem 7 pomenu samostalnika, hkrati pa še samostojne stalne zveze, ki jih pomensko opiše- • mo in jim določimo njihovo lastno kolokabilno okolje, če obstaja, npr. [vpisati se, 1 hoditi] v osnovno šolo, [končati, obiskovati] osnovno šolo, [devetletna, osemletna] • osnovna šola itd. To pomeni, da bo uporabniku podatek na voljo v obliki kolokacije 2 in stalne zveze s pomenskim opisom. V nadaljevanju projekta želimo določiti in preveriti predvsem mehanizme samodejnega prepoznavanja leksikalno relevantnih besednih zvez, in sicer z upoštevanjem že registriranih in formaliziranih skladenjskih struktur, ki se tipično pojavljajo pri posameznih besednih vrstah, s testiranjem različnih statističnih vrednosti medbesedne povezovalnosti in z izboljšavami slovnice besednih skic v orodju Sketch Engine. Strategije pri ločevanju kolokacij od stalnih zvez se pri različnih besednih vrstah razlikujejo. Pri pridevnikih predvidevamo večje število stalnih zvez in manj samostojnih pomenov. Pri samostalnikih registriramo stalne zveze pod posameznimi pomeni ali pa od pomena neodvisno, če tvorijo pomensko samostojne leksikalne enote. Pri glagolih stalnih zvez ne beležimo zaradi možnosti različnih funkcijskih realizacij (konverzij oz. transformacij), ki jih omogočajo glagolske zveze. Zveze glagola z ustaljeno besednozvezno kombinacijo (tipično predloga in samostalnika) beležimo bodisi pri ustrezni samostalniški iztočnici (gl. primere spodaj), pri frazeo-loških enotah (če presodimo, da gre za pomensko in/ali strukturno samosvojo enoto, ki potrebuje lasten pomenski opis) ali pri skladenjskih zvezah (brez pomenskega opisa), saj menimo, da nastopajo predvsem kot niz različic ob sicer trdnem bese-dnozveznem jedru, npr. Primer 3: Skladenjske zveze pri samostalniških iztočnicah [začiniti, soliti, popoprati, sladkati ...] po okusu [prebijati se, živeti, shajati, životariti, preživeti ...] iz meseca v mesec [padati, prileteti, spustiti se] pod kotom [x] stopinj [gibati se, krožiti, vrteti, masirati, nadaljevati] v smeri urnega kazalca Z vidika tujejezičnega uporabnika (ki se uči slovenščino kot tuji jezik) ostaja odprto ^ vprašanje, ali je tudi omenjene skladenjske zveze smiselno pomensko opisati, saj je „ merilo pomenske prozornosti, ki pravi, da je »pomen zveze več kot vsota pomenov njenih delov« (Atkins - Rundell 2008: 167), vezano na občutek rojenega govorca, pomisleke glede razumljivosti takih zvez pa vzbuja tudi dejstvo, da niso vedno ne- ^ posredno prevedljive v tuji jezik, npr. češ. po čase/začas^^ ^ sln. čez čas/sčasoma; ang. in (less than) no time ^ sln. v hipu/kot bi trenil/takoj;^'2 nem. höchste Zeit ^ ^ sln. skrajni čas.13 Z Možnost podrejanja stalnih zvez posameznemu pomenu besede v iztočnici > (gl. zgoraj primer greda) med drugim predvideva iskanje - in posledično posredo- q vanje tega podatka uporabniku - pomenske sorodnosti stalne zveze kot celote ali ^ njenih sestavin s katerim od pomenov iztočnice. Ker je tako pomensko povezanost ^ težko identificirati in ker se je v praksi pokazalo, da so odločitve slovaropiscev pogostokrat različne ali celo nasprotujoče si, ostaja vprašanje smiselnosti pomenskega ^ podrejanja stalnih zvez sploh. Iz istih razlogov smo se odločili, da pomensko ne ^ podrejamo frazeoloških enot, čeprav je v nekaterih primerih pomenska povezava ^ katere od sestavin frazeološke enote s katerim od registriranih pomenov očitna (gl. v nadaljevanju primer samostalnika oblak). Prepoznavanje razlik med stalnimi zve- ^ zami in frazeološkimi enotami je za spletno postavitev LBS za uporabnika manj pomembno, saj tako ene kot druge predvidevajo enak tip podatkov: pomenski opis (in pomensko členitev), registracijo različic in pretvorbenih možnosti, evidentiranje tipičnega besedilnega okolja in predstavitev s korpusnimi zgledi. V primerjavi s posameznimi pomeni besede v iztočnici stalne zveze in frazeo-loške enote ne predvidevajo strukturne analize, kar je zlasti pomembno za frazeološke enote, za katere velja, da imajo anomalno strukturno in pomensko zgradbo,14 zato njihove formalne sestave ne beležimo v obliki skladenjskih struktur. Odprto pri tem ostaja vprašanje, ali je ta praksa z vidika RONJ dejansko sprejemljiva tudi za stalne zveze, ki so v primerjavi s frazeološkimi enotami pogosto strukturirane kot običajne samostalniške, pridevniške in prislovne zveze, npr. Sam + Prid: arhivsko vino, varovalna barva, biotska raznovrstnost/raznolikost; Sam + Sam: avtomobil bomba itd. Primer za češčino je povzet po: Slovnik česke frazeologie a idiomatiky: vyrazy neslove-sne, Praha: Academia, 1988. Primer za angleščino s slovenskim ustreznikom je povzet po: Veliki angleško slovenski slovar 2: L-Z, Ljubljana: DZS, 2006. Primer za nemščino s slovenskim ustreznikom je povzet po: Doris Debenjak idr., Veliki nemško-slovenski slovar, Ljubljana: DZS, 1993. »[...] frazem ali idiom je enkratna zveza najmanj dveh prvin, od katerih vsaj ena funkcionira v konkretni zvezi na drugačen način kot v drugih zvezah oz. se kot taka pojavlja zgolj v konkretnem izrazu« (Čermak 1985: 177). Prevod P. G. 85 11 12 z V nadaljevanju bomo pri izdelavi LBS preverjali tudi različne načine navajali nja pretvorbenih možnosti, ki jih izkazuje dejanska raba frazeoloških enot (tj. raz-N merje med osnovno obliko enote in tipičnimi variantnimi oblikami in pretvorbami), 1 in možnosti opisa pomenskih odtenkov, ki jih različne stavčne funkcije frazeoloških ^ enot prinašajo s seboj, čeprav gre v večini primerov le za variantne oz. pretvorbene O možnosti izhodiščnih samostalniških ali glagolskih zvez, npr. trn v peti: biti čigav s trn v peti, biti trn v peti koga, biti trn v peti za koga, biti trn v čigavi peti, biti komu L trn v peti itd. 0 Posebej smo se ustavili ob vprašanju, kako obravnavati razmerje med metafo-v ričnim pomenom besede in pomenom frazeološke enote kot celote. Glede na to, da se za pomensko podrejanje frazeoloških enot besednim pomenom nismo odločili, se zastavlja vprašanje, ali določene zveze obravnavati kot kolokacije pri ustreznem (navadno metaforičnem) pomenu besede ali kot frazeološke enote s samostojnim Z pomenskim opisom in predvidljivim besedilnim okoljem. Primer za to je npr. samoA stalnik oblak, pri katerem je eden od pomenov 'nekaj nerealnega ali oddaljenega, P česar si ljudje želijo ali o čemer sanjarijo', ki se v istem pomenu pojavlja tudi v bolj 1 ali manj ustaljenih zvezah, kot denimo: [živeti, plavati, biti] v oblakih; spustiti se s z oblakov (na trdna/realna tla/na zemljo), hkrati pa tudi zunaj njih, kot denimo v ^ zgledu S prijatelji boste sanjali o novih načrtih, a bo za zdaj vse ostalo v oblakih. hH 7 1.3.4 Stopnja in način pomenske členitve • Leksikalne enote členimo v LBS pomensko zelo podrobno na podlagi priporočila, 1 da je to smiselno predvsem v fazi oblikovanja podatkovne baze (Atkins - Rundell • 2008: 268). S podrobno razdeljenimi pomeni v podatkovni bazi je namreč slovaro- 2 piscem na voljo celoten spekter možnosti, iz katerih lahko izpeljejo več različnih slovarjev. V praksi to pomeni, da temelji pomenska členitev na različnih kolokator-jih, zlasti pri pridevnikih, npr. SMUČARSKI pridevnik 1 namenjen smučanju in smučarjem kolokacije smučarska [vozovnica, karta] smučarski [center, tečaj] smučarska [šola] 1.1 o opremi za smučanje kolokacije smučarski [čevelj] smučarske [palice] 2 o športu kolokacije smučarski [skoki, poleti] smučarski [reprezentant] Smiselnost podrobne pomenske členitve je torej predvsem v možnosti poznejše sinteze in v uporabnosti za različne končne izdelke in/ali uporabnike, se pa kljub temu poraja dilema, ali je podrobna pomenska členitev enako smiselna pri vseh besednih vrstah. Iz zgornjega primera je razvidno, da bistvo pomena dejansko temelji na jh samostalniškem jedru, npr. smučarske palice, s tem pa se vsaj v strukturi leksikalne r^ baze znova zastavlja vprašanje razmejevanja med kolokacijami in stalnimi zvezami. (a) Osamosvojitev pragmatične informacije ali vključitev v pomenski opis? ^ Vse leksikalne enote v LBS predvidevajo pomenski opis, in sicer na dveh ravneh: ^ (a) s t. i. pomenskimi indikatorji, ki so primarno namenjeni oblikovanju pomenske- ^ ga menija (sinonimi in neposredne nadpomenke, s katerimi dosežemo hitro navigacijo po geslu in možnost hitre in ustrezne identifikacije »pomenskega« problema), ter (b) v obliki stavčno strukturirane pomenske sheme pri glagolih in nekaterih pomenih pridevnikov in samostalnikov ali (b1) v obliki razlage, zlasti pri (nevezljivih) ^ samostalnikih in stalnih zvezah. Ključni pomenski opis, ki mora zadovoljiti troj- ^ ni profil potencialnega uporabnika, je stavčno strukturirana pomenska shema oz. ^ razlaga. Bistvo stavčne razlage je med drugim vključitev pragmatičnih pomenskih ^ sestavin (podčrtano), ki so nujno potrebne za ustrezno razumevanje in tvorjenje besedila, npr. ® hJ CRKNITI glagol 1 umreti ® če rečemo, naj ČLOVEK crkne, na zelo grob način povemo, da nam je vsee- ii£ no, če umre, ali da mu to celo privoščimo ^ 1.1 poginiti če rečemo, da je ŽIVAL crknila, na grob način povemo, da je poginila W 1.2 oveneti ^ če rečemo, da RASTLINA crkne, na grob način povemo, da oveni, navadno zato, ker zanjo ne skrbimo ali ker nima ustreznih razmer za uspevanje Sprva smo za pragmatične informacije predvideli samostojni element , in sicer z namenom, da bi bilo mogoče iz celotne baze naknadno samodejno pridobiti pragmatične informacije, povezane s pomenom posamezne leksikalne enote. V praksi pa se je pokazalo, da so posamezni pragmatični segmenti znotraj pomenskih razlag težko opredeljivi, ker so sestavni del celotnega pomenskega opisa. Hkrati se je tudi pokazalo, da leksikografi posameznih elementov znotraj pomenskih opisov ne prepoznavajo kot pragmatične (ali jih prepoznavajo zelo različno), in ne nazadnje so precej slabi tudi rezultati anket, ki merijo razumevanje zlasti slovničnih in pragmatičnih informacij v obliki okrajšav, torej v obliki metain-formacij, ločeno od pomenskega opisa (Rozman idr. 2010). V spodnjih zgledih so podčrtani pragmatični deli razlag, ki jih avtorji niso vključili v samostojni element : če ČLOVEK benti nad drugim ČLOVEKOM, DOGAJANJEM ali obstoječimi RAZMERAMI, izraža negodovanje ali nestrinjanje, navadno tako, da uporablja kletvice in žaljive besede če ČLOVEK blebeta, veliko govori, navadno nepremišljeno ali o nepomemb-W nih STVAREH Z 1 brezbarven OBRAZ ali del obraza je bled, navadno zaradi negativnih čustev, ^ kot sta jeza ali strah O s Zaradi omenjenih ugotovitev smo opustili ločevanje pragmatičnih elementov zno-L traj pomenske sheme/razlage, hkrati pa smo uvedli element , v katerem o imamo možnost eksplicitno opredeliti lastnosti pomena, kot so specifičen govorni v položaj, npr. v neformalni/formalni situaciji, odnos govorca do vsebine sporočila, npr. odklonilno, slabšalno, kot grožnja ipd. Trenutno se seznam možnih oznak pragmatičnega tipa še dopolnjuje na podlagi korpusne analize konkordanc. Z Z 1.3.5 Skladenjske informacije v LBS in omejitve v rabi A Korpusna analiza in tudi tipična skladenjska razmerja, ki jih zapolnjujejo koloka- P cije, kažejo, da so izbire med možnimi skladenjskimi realizacijami (tj. tistimi, ki 1 jih omogoča slovenska slovnica) pogostokrat omejene bodisi (a) zgolj na določene s izbire, kar je zlasti pogosto pri frazeoloških enotah, da so (b) bolj tipične v kateri ^ od možnih skladenjskih realizacij (npr. pasivizacija, raba pridevnika v povedkovem 1 določilu, omejenost v določeni osebi, spolu, številu ipd.) ali pa (c) posamezne mo- 7 žnosti govorci izkoriščamo bolj ali manj enakovredno. • 1 (a) Implicitnost ali eksplicitnost skladenjskih in drugih slovničnih omejitev • v rabi 2 Tovrstne informacije, zlasti ko gre za omejene ali celo nerealizirane sicer možne izbire, so po našem mnenju zelo pomembne za šolskega uporabnika in za učenca slovenščine kot tujega jezika, pa tudi za RONJ, zato predvidevamo dve možnosti njihovega eksplicitnega beleženja: (a) znotraj skladenjskih struktur v elementu restrikcija (poudarjeno), npr. ARGUMENT samostalnik struktura: gbzbrezosebno SBZ2 kolokacija [zmanjkuje, zmanjka] argumentov CIVILIST samostalnik struktura: gbz na SBZ4navadno v množini kolokacija: [streljati] na civiliste DVOUMEN pridevnik struktura: Kol-rbz PBZ2v samostalniški rabi kolokacija: [nekaj, veliko] dvoumnega in (b) v obliki tipičnih stavčnih vzorcev (pri glagolih), ki poleg prototipične skladenjske realizacije, razvidne iz stavčne razlage, izkazujejo še druge tipične možno- ^ sti, npr. • BRITI glagol ^ če se MOŠKI brije |ali| če si MOŠKI brije BRADO ali BRKE, si s PRIPO- ^ MOČKOM odstranjuje dlake ^^ • briti se ^ • kdo se brije ^ • briti si kaj ^ • briti se s čim BENTITI glagol če ČLOVEK benti nad drugim ČLOVEKOM, DOGAJANJEM ali obstoječimi RAZMERAMI, izraža negodovanje ali nestrinjanje, navadno tako, da uporablja kletvice in žaljive besede • kdo benti • bentiti nad čim/kom • bentiti čez koga/kaj • benti na koga/kaj ® • bentiti, ker • bentiti zaradi česa ^ Tretja možnost izražanja skladenjskih omejitev v LBS je implicitna, vključena v W stavčno razlago pomena besede v iztočnici (podčrtano), kar pride do izraza zlasti pri pridevnikih in samostalnikih: POZOREN pridevnik 1 ustrežljiv če je ČLOVEK pozoren do drugega ČLOVEKA, je do njega ustrežljiv in mu izkazuje naklonjenost NOTA samostalnik 1 značilnost če neke LASTNOSTI dajejo IZDELKU, KRAJU ali DEJANJEM svojo noto, se v njem izražajo in ga delajo posebnega 2 Sklep Leksikalna baza za slovenščino vsebuje kompleksno strukturo leksikalno-slovnič-nih podatkov na podlagi korpusne analize in je namenjena izdelavi različnih končnih izdelkov slovarskega tipa. Obenem je zasnovana kot baza podatkov, ki bo uporabniku dostopna v okviru širšega jezikovnega portala na spletu. Poleg slovarskih podatkov vsebuje tudi podatke, ki so primarno namenjeni računalniški obdelavi in z izboljšavi jezikovnotehnoloških aplikacij za slovenščino. Izraba spletnega medija je za razliko od klasičnih slovarjev v knjižni obliki izpostavila nove probleme pri N vključevanju in strukturiranju leksikalno-slovničnih podatkov. Pri tem je v ospredju 1 zagotavljanje relevantne, hitro dostopne in zanesljive informacije na uporabniku ^ čim bolj prijazen način. Podatki v leksikalni bazi za slovenščino so namenjeni trem različnim profilom uporabnikov - splošnemu, šolskemu in učencu slovenščine kot S tujega jezika -, hkrati pa so sprejete konkretne rešitve pri upoštevanju različnih L potreb posameznega profila, med drugim z vključitvijo učbeniškega geslovnika, z 0 oblikovanjem razlag stavčnega tipa in z navajanjem tipičnih skladenjskih uresniči-v tev in omejitev v njihovi rabi. Pri nadaljnjem delu za leksikalno bazo bomo z vidika treh tipov uporabnikov s pomočjo anket preverili učinkovitost pomenskih opisov, uporabnost pomenskih izbir in ustrezno razmejitev informacij glede na predvidene tipe v bazi opisanih leksikalnih enot. Z A p Literatura 1 S Atkins 2008 = Sue Atkins, Theoretical Lexicography and its Relation to Dictionary-^ -making, v: Practical lexicography: a reader, ur. Thierry Fontenelle, Oxford: 1 Oxford University Press, 2008, 31-50. 7 Atkins - Rundel 2008 = Sue Atkins - Michael Rundell, The Oxford Guide to Prac- • tical Lexicography, Oxford: Oxford University Press, 2008. 1 Atkins - Varantola 2008 = Sue Atkins - Krista Varantola, Monitoring Dictionary • Use, v: Practical lexicography: a reader, ur. Thierry Fontenelle, Oxford: Ox- 2 ford University Press, 2008, 337-375. Čermak 1985 = František Čermak, Frazeologie a idiomatika, v: František Čermak - Josef Filipec: Česka lexikologie, Praha: Academia, 1985, 166-248. Čermak 2009 = František Čermak, Leksikografovi zapiski o korpusnem slovarju, Jezik in slovstvo 54 (2009), št. 3-4, 25-42. Fišer 2009 = Darja Fišer, sloWNET - slovenski semantični leksikon, v: Infrastruktura slovenščine in slovenistike, Ljubljana: Znanstvena založba Filozofske fakultete, 2009 (Obdobja 28), 145-149. Gantar idr. 2009 = Polona Gantar idr., Specifikacije za izdelavo leksikalne baze za slovenščino: standard za izdelavo posamezne leksikalne enote v leksikalni bazi, Projekt »Sporazumevanje v slovenskem jeziku« ESS in MŠŠ, 2009 (http://www.slovenscina.eu/Media/Kazalniki/Kazalnik6/SSJ_Kazalnik_6_ Specifikacije-leksikalna-baza_v1.pdf). Gantar idr. 2009a = Polona Gantar idr., Specifikacije za izdelavo leksikalne baze za slovenščino: opis analize referenčnega korpusa, Projekt »Sporazumevanje v slovenskem jeziku« ESS in MŠŠ, 2009 (http://www.slovenscina.eu/Media/ Kazalniki/Kazalnik5/SSJ_Kazalnik_5_Specifikacije-opis-analize-korpusa_ v1.pdf). Gantar - Krek 2009 = Polona Gantar - Simon Krek, Drugačen pogled na slovarske definicije: opisati, pojasniti, razložiti?, v: Infrastruktura slovenščine in slove- nistike, Ljubljana: Znanstvena založba Filozofske fakultete, 2009 (Obdobja 28), 151-159. 3 Kosem idr. 2011 = Iztok Kosem - Miloš Husak - Diana McCarthy, GDEX for Slove- ^ ne, Proceedings of the 2nd international conference on electronic lexicography, ^ eLEX2011 (http://www.trojina.si/elex2011/elex2011_proceedings.pdf). Krek - Kilgarriff 2006 = Simon Krek - Adam Kilgarriff, Slovene Word Sketches, ^ v: Jezikovne tehnologije 5, ur. Tomaž Erjavec - Jerneja Žganec Gros, Lju- ^ bljana: Inštitut Jožef Stefan, 2006, 62-65. ^ Logar Berginc - Krek 2010 = Nataša Logar Berginc - Simon Krek, New Slovene corpora within the Communication in Slovene project, v: Abstract: International Conference SLAVICORP, Corpora of Slavic Languages, 22-24 November 2010, 8. Logar Berginc - Šuster 2009 = Nataša Logar Berginc - Simon Šuster, Gradnja no- ^ vega korpusa slovenščine, Jezik in slovstvo 54 (2009), št. 3-4, 57-68. Rozman idr. 2010 = Tadeja Rozman idr., Nova didaktika poučevanja slovenskega jezika: sporazumevanje v slovenskem jeziku, Ljubljana: Ministrstvo za šolstvo in šport - Amebis, 2010. Rundell 2010 = Michael Rundell, Defining Elegance, v: A Way with Words: Recent Advances in Lexical Theory and Analysis, A Festschrift for Patrick Hanks, ur. Gilles-Maurice de Schryver, Kampala: Menha Publishers, 2010 (Linguistics ® Series). SSKJ 1 = Slovar slovenskega knjižnega jezika 1: A-H, Ljubljana: SAZU - ZRC ^ SAZU, Inštitut za slovenski jezik - Državna založba Slovenije, 1970. ^ H J The Slovenian lexical database: For whom, why, and how (to proceed)? w N Summary hH The Slovenian lexical database contains a complex structure of lexical and grammatical information based on corpus analysis and is intended for the production of S various dictionary-type final products. At the same time, it is designed as a database L that will be accessible to users as part of a broader linguistic portal on the web. In 0 addition to lexicographic information, it also contains information primarily intend-v ed for computer processing and for improving language technology applications for Slovenian. In comparison to traditional dictionaries in book format, the use of web-based media has presented new issues in the inclusion and structuring of lexical and grammatical information. Here the emphasis is on ensuring relevant, quickly acces-Z sible, and reliable information in the most user-friendly manner. The information in A the Slovenian lexical database is intended for three different user profiles: general P users, students, and those learning Slovenian as a foreign language. At the same 1 time, concrete solutions have been adopted for taking into account different needs s of individual profiles, among other things including a textbook glossary, designing sentence-type definitions, and citing typical syntactic realizations and limitations 1 in their use. Further work on the lexical database from the perspective of the three 7 types of users will involve using a survey to check the effectiveness and applicability of the semantic descriptions and the suitable demarcation of information with Z 1 regard to anticipated types of lexical units described in the database.