Strokovne razprave Računalniške tehnologije za prevajanje Špela Vimar Oddelek za prevajanje in tolmačenje Filozofska fakulteta e-mail: spela.vintar@gue5t.ames.si Povzetek Sodobnemu prevajalcu pomeni računalnik mnogo več kot pisalni stroj. Z različnimi orodji za računalniško podprto prevajanje, kamor poleg črkovalnikov, elektronskih slovarjev tn tezavrov sodijo predvsem programi s pomnilnikom prevodov in terminološke banke, je pri nekaterih vrstah besedil mogoče prevajalski proces pospešiti, izboljšati in poceniti, poleg teh pa v prevajalsko prakso prinaša korenite spremembe tudi internet. Prispevek podaja pregled jezikovnih tehnologij in virov za prevajalce od zametkov strojnega prevajanja do programskih orodij, ki so se razvila v zadnjem desetletju, spregovori pa tudi o uporabi korpusov pri prevajanju in vplivu sodobnih informacijsko-komunikacijskih medijev na to področje, V zaključku orišemo položaj v Sloveniji in nakažemo smernice za učinkovitejše uvajanje teh tehnologij v naš prevajalski prostor, predvsem z oblikovanjem ustreznih študijskih programov. Abstract To a technologically aware translator a computer is more than s imply a typewriter. Tools for Computer-Assisted Translation - an umbrella term embracing spcllcheckers, on-line dictionaries and thesauri as well as Translation Memory and Terminology Management systems - have the potential to raise tiie quality, speed and cost effectiveness of the translation process. It is also undergoing profound changes due to the explosive growth of the internet. The paper gives an overview of translation technologies and resources from their beginnings in machine translation to fiie software producís developed during the past few years. Described are applications of textual corpora in translation and the impact of new information and communication media in this field. The concluding section outlines the present situation in Slovenia and suggests ways for further implementation of translation technologies, especially by (re-)designing translator-training curricula. UVOD Naravni jezik je eden najkompleksnejših sistemov, kar se jili je razvilo skozi človekovo cvalircijo, prevajanje pa kot prenašanje sporočil med temi sistemi eden najbolj zapletenih miselnih procesov, pri katerem ostajajo mnoga vprašanja S psihološkega in jezikoslovnega vidika nepojasnjena. Razvijanje računalniških tehnologij, ki bi znale ta proces simulirati ali vsaj optimizirati nekatere njegove dele, je zato že dolgo izziv tako jezikoslovcem kot računalničarjem. Prva desetletja živahnega raziskovanja so skupaj z mnogimi razočaranji in težavami utemeljila nastanek novih znanstvenih področij računalniškega jezikoslovja In prevodoslovja in prispevala pomembna spoznanja, ki so med drugim povzročila preobrat v "klasični" lingvistiki in povratek k empiričnim metodam v jezikoslovju. Danes so strojni prevajalniki človeka povsem ali delno nadomestili že v številnih industrijskih vejah, kjer se rutinska prevajajo določeni enostavni tipi besedil, in pri mnogih prevajalskih nalogah, kjer Uporabniku zadošča grobi prevod. Na dru^i strani imajo jezikovni profesionalci, med katere sodijo tudi prevajalci, danes na voljo številna računalniška orodja, ki omogočajo, hitrejše in bolj kakovostno prevajanje nekaterih vrst besedil, sodobne informacijske in komunikacijske tehnologije pa prevajalcem nudijo hiter dostop do jezikovnih virov in podatkov z vsega sveta. V času globa lizacijje in evropskih integracij, ko produkcija novih besedil in zahteve po prevodih nezadržno naraščajo, se od prevajalcev na eni strani pričakuje, da bodo svoje delo opravljali hitro in kakovostno, po drugi strani pa zaradi velikih količin besedil sedanjih visokih cen prevodov ne bo več mogoče ohranjati. Poznavanje prevajalskih oro3ij in drugih jezikovnih tehnologij bo v prihodnje tako nujen del prevajalčeve izobrazbe in pogoj /.a njegovo konkurenčnost. 1999-šlevilka i -letnik VII i/jomb ml NFORM&T IKA Strokovne razprave STROJNO PREVAJANJE NEKOČ IN DANES Izraz strojno prevajanje (MT - Machinc Translation) navadno označuje računalniške sisteme za prevajanje naravnih jtv.ikov, pri katerih je prevajalski proces do največje možne mere avtomatiziran. Ti sistemi vključujejo lastne eno- in večjezične leksikone, programe za morfološko in sintaktično analizo in sintezo, razreševanje večpomenskosti, prepoznavanje večbesednih semantičnih enot in druge kompleksne mehanizme, ki naj bi omogočali avtomatski prevod s čim manj napakami. Vloga uporabnika pri takih sistemih ni vselej povsem odpravljena, pri interaktivnih sistemih je za razreševanje večpomenskosti predvidena človekova pomoč, skoraj pri vseh sistemih pa je potrebna predpriprava (pre-editing) izvirnega besedila in poprava (pott-editing) rezultatov (Hutchins, 1992). Prve resne raziskave na tem področju so se pričele kmalu po vojni v ZDA na MIT-u, leta 1954 pa sta IBM in Georgetown University že predstavila pivi sistem za strojno prevajanje iz ruščine v angleščino, katerega besednjak je bil omejen na 250 besed in je obsegal le šest slovničnih pravil. Čeprav so bili rezultati skromni, je ta poskus prepričal ameriško vlado in širšo javnost, da je zamisel uresničljiva, zato so v naslednjih letih v ZDA predvsem v strateške namene finančno podprli vrsto tovrstnih projektov, živahno raziskovanje pa se je pričelo tudi v Evropi in Sovjetski zvezi. Že v začetku Šestdesetih let pa se je začetno navdušenje pričelo krhati, saj se je že na leksikalni ravni pojavila vrsta težav, povezanih predvsem z razreševanjem večpomenskosti, tj. homografije in poli-semije. Leta 1966 je posebni odbor ameriške vlade AU'AC, ki je imel nalogo ovrednotiti dotedanje rezultate in oceniti možnosti za nadaljnji razvoj, podal znamenito uničujoče poročilo, katerega posledica je bila, da je bila finančna pomoč ukinjena skoraj vsem projektom na tem področju, težišče raziskav pa se je vsaj za naslednje desetletje preselijo v Evropo. Tu se je razvoj nadaljeval, vendar pogojen s povsem drugačnimi potrebami, V Evropi kot izrazito mnogoje/.ičnem prostoru je razvoj narekovala predvsem Evropska gospodarska skupnost, ki je najprej podprla sistem za angleško-francoske prevode Systran (ta ji' bil mnogo prej zasnovan v ZDA za potrebe US Air Force), nato pa velikopotezni projekt EUROTRA za prevajanje med vsemi jeziki tedanje EGS. 11 krati z novimi projekti so se razvijali tudi različni pristopi k izgradnji sistemov za strojno prevajanje. Prvi poskusi so temeljili na t.i. direktnem pristopu, ki razen zelo osnovne morfološke analize ni vseboval drugih modulov za jezikovno analizo in je bilo tako prevajanje bol] ali manj omejeno na zamenjavo posameznih besed s pomočjo dvojezičnega leksikona. Na podlagi pomanjkljivosti tega pristopa so pri projektu Systran razvili t.i transferni pristop, ki prevajanje na ravni j g 1 jpombi nilNFO RMAT IKA povedi razdeli v fazo analize, dvojezičnega transfera in sinteze. Posamezni moduli pri transfernem sistemu so tako zasnovani za določeni par jezikov, pri čemer se v prvi fazi analizira izhodiščna stavčna struktura (parsing), v drugi se ta prevede v ustrezno strukturo ciljnega jezika, v tretji fazi pa se oblikuje ciljna poved. Vzporedno s tem poteka proces oblikoslovne analize in sinteze. Projekt EURQTRA je zaradi svoje izrazito mnogojezične usmerjenosti .skušal razviti lasten pristop, t i. interlingua, katerega osnovna zamisel je prevajanje vseh jezikov v nekakšen medjezik oziroma univerzalno, jezikovno neodvisno strukturno in Semantično ponazoritev stavČnih členov ter odnosov med njimi v odvisnosti od povedka. V svoji idealni različici bi taka vmesna oblika omogočala prevajanje v vse jezike sveta, saj bi bilo iz nje mogoče neposredno oblikovati poved v ciljnem jeziku. Zal se je kmalu pokazalo, da stvar ni tako preprosta, zato se je razvoj preusmeril v iskanje medjezikovnih elementov v skupini izbranih jezikov, s čimer je pri izgradnji sistemov za strojno prevajanje mogoče izkoristiti podobnosti med jeziki in se pri odpravljanju napak osredotočiti na razlike (Hutchins, 1992). Danes veČina znanih sistemov temelji na transfernem pristopu, pri tem pa se pri boljših sistemih vse bolj uveljavljajo empirični pristopi Tako se za razjasnjevanje skladenjske ali leksikalne večpomenskosti uporabljajo vzporedni korpusi, ki računalniku pri vsaki obstoječi negotovost nudijo zbirko primerov iz resničnih besedil, na podlagi katerih se je sistem s pomočjo primerjave frekventnosti sposoben odloČiti za pre vod n o u s trezn ico. Predvsem za večje jezike je na trgu vse več komercialnih prevajalskih programov, ki se med seboj v kakovosti in ceni zelo razlikujejo. Boljši med njimi imajo vgrajene tudi specialne leksikone /a posamezna področja, ki olajšujejo razreševanje večpomenskosti, ponujajo pa tudi možnost hranjenja že prevedenih in popravljenih besedil, ki programu nato služijo za vzor pri novih prevodih (Schubert, 199H), Strojni prevajalniki so prisotni tudi na Internetu, ponekod vsebovani v iskalnih orodjih (Systran1 v povezavi z Alta visto2, Langenscheidt TI Professional3, Translation Experts4 itd.). V podjetjih, kjer prevajanje deloma ali v celoti poteka strojno, se v produkcijo besedil uvaja t,i. nadzorovani jezik (controlled language), ki z vnaprej definiranim besediščem in stavenimi strukturami zagotavlja kakovost in terminološko ustreznost strojnih prevodov. V ta namen so nekateri uporabniki 1 U R L: http ://bebelftsh.a itavista, digital, com/ 2 URL: h ttp://www. sy3 trnnmt.con» 3 LRL: bitp://www. langenscheidt,tfe/ubersefz/il/tiru 4 URL:httpj'/www.tranexp.com/ 1999-številka l letnikVII Strokovne razprave razvili programska orodja za prevajanji besedil v nadzorovani jezik oziroma za preverjanje le-tega pred strojnim prevajanjem. Za slovenščino uporabnih strojnih prevajalnikov še nimamo, čeprav je to področje izziv za mnoge, ki se ukvarjajo z jezikovnimi tehnologijami. Poleg tega, da je slovenščina že zaradi svoje morfološke bogatosti s tega vidika zapleten jezik, pa je mnogo hujša ovira dejstvo, da za slovenščino Šele gradimo osnovne jezikovne vire in orodja, ki so za izdelavo strojnega prevajalnika neizogibno potrebni, npr. program za oblikosktadenjsko analizo, dvojezične leksikone, korpus za izdelavo eno- ali dvojezičnega leksikona itd. Nekaj poskusov izgradnje sistema za strojno prevajanje se je zgodilo na Institutu Jožef Štefan, od komercialnih ustanov pa tu brez dvoma prednjači podjetje Amebis s svojim angleško-slovenskim prevajalnikom Presis, ki je zaenkrat še v eksperimentalni fazi (Romih, 1998), V zvezi s strojnim prevajanjem se postavlja vprašanje, ali je ta orodja sploh smiselno razvijati pri nas, saj imajo tuji proizvajalci potrebno znanje in izkušnje že zbrane, po drugi strani pa je pridobivanje lastnih izkušenj na tem področju pomembno zaradi morebitnega sodelovanja z drugimi v bodoče, kar je bil pri podjetju Amebis tudi odločilni argument za razvijanje lastnega sistema, PROGRAMSKA ORODJA ZA RAČUNALNIŠKO PODPRTO PREVAJANJE Programi za strojno prevajanje prevajalce v nekaterih Specifičnih segmentih sicer že nadomeščajo, za veliko večino prevajanih besedil pa še vedno velja, da obstoječa orodja ne morejo izdelali zadovoljivih prevodov oziroma bi bila predpriprava besedil in poprava rezultatov strojnega prevajanja mnogo preveč zamudna. Za jezikovne profesionalce so se tako v zadnjih desetih letih razvila orodja) ki skušajo prevajalski proces olajšati, optimizirati in poceniti, ne pa simulirali. Med orodja za računalniško podprto prevajanje (CA T--Compu ter-A ided Trnu sin t ion) v širšem smislu sodijo vse jezikovne tehnologije, ki prevajalcu služijo kot pripomoček na poti do prevoda, se pravi tudi črkovalniki, tezavri, elektronski slovarji in drugi elektronski podatkovni viri, V ožjem pomenu pa so pomemben korak na tem področju predvsem programi za izdelavo in vzdrževanje terminoloških bank ter programi s pomnilnikom prevodov (TM -Translatum Mtnnonj). Pomnilniki prevodov Pomnilnik prevodov je podatkovna zbirka vzporednih dvo- ali večjezičnih prevodnih enot (tmnslatioii unit). Prevodna enota je navadno poved, lahko pa tudi večji (npr. odstavek) ali manjši tlel besedila (npr. naslov, polje v tabeli, alinea itd.}, ki je v izvirniku in prevodih zapisana v pomnilnik. Temeljna predpostavka pri uporabi tega orodja je torej, da se pri nekaterih vrstah besedil določene strukture, formulacije ali cele povedi ponavljajo, zato pomnilnik prevodov med prevajanjem v ozadju išče podobne ali enake enote in jih ponudi prevajalen. Kadar sta si nova prevodna enota in enota iz pomnilnika le podobni, gre za t.i. megleni zadetek (juzz\/ nuitch), ki ga program poišče na podlagi ujemanja posameznih besed ali besednih nizov. Stopnja ujemanja oziroma podobnosti je navadno izražena v odstotkih, prag ujemanja pa lahko uporabnik nastavi sam. Kadar je nova prevodna enota povsem enaka enoti, ki je že zapisana v pomnilnik, gre za polni zadetek (i:xact nuitch). Primer:s Prevodna enota v pomnilniku prevodov: Rcpairs must bc mode by Irained fitters on h/. P«; popravila mora izvajati ustrezni strokovnjak. Nova prevodna enota: Rcpairs on clcctrical aftplinnces mu si ¡>c madebj/ Irained fitters imh/. (73%) Pomnilnik prevodov nastaja sproti med prevajanjem, če pa imamo na razpolago že prevedena besedila v izvirniku in prevodu v elektronski obliki, lahko pomnilnik ustvarimo tudi s pomočjo orodja za vzporejanje (alignment), ki obe besedili razdeli na segmente, te poravna v pare izvirnik-prevod in jili shrani v pomnilnik. Ker pomnilnik prevodov nima vgrajenih modulov za m orfos in taktično analizo prevodnih enot, ampak je sposoben prepoznavati podobnost le na ravni besed ali besednih nizov, je teoretično uporaben za vse jezikovne pare, praktično pa za vse jezike, za katere je zagotovljena znakovna podpora. Dejanska uporabnost pomnilnikov prevodov je v veliki meri odvisna od značilnosti besedil, ki jih želimo prevajati, saj temelji na predpostavki, da se v določenih vrstah besedil stavki, besedni nizi ali posamezni izrazi v bolj ali manj nespremenjeni obliki ponavljajo. To velja predvsem za nekatere besedilne vrste iz družine tehničnih in strokovnih besedil, na primer navodila za uporabo, tehnične opise, nekatera pravna besedila itd. Poleg l.i. faktorja ponavljanja na učinkovitost dela s pomnilnikom prevodov vplivajo še drugi dejavniki v okviru besedila in izven njega, npr. povprečna dolžina prevodnih enot, obseg prevajalskega projekta (dolžina besedila), velikost, število in kakovost terminoloških bank in pomnilnikov prevodov, ki jili imamo na razpolago pred prevajanjem, ipd. 5 ¿a primerje bil uooiabljvn program 7R/1DOS / ionstutvr'n Workbench, 1999 Številka 1 - letnik VII lip* wiiin ml N FO-RM ATI KA Strokovne razprave Dejanska uporabnost tega orodja je torej močno odvisna od narave prevajalskega dela oziroma od značilnosti besedil, ki jih prevajamo. To je razvidno (udi iz prakse, saj se programi s pomnilnikom prevodov najhitreje uveljavljajo prav v velikih industrijskih ¡podjetjih, kjer se prevajajo velike količine besedi) z istega področja in kjer se že prevedena besedila pogosto posodabljajo in izdajajo na nOvo (tipičen primer so navodila za uporabo oz. uporabniški priročniki). Druga velika skupina uporabnikov zajema mednarodne in državne upravne organe (npr. Hvropski parlament). Program s pomnilnikom prevodov je lahko del urejevalnika besedil (Word, WordPerfect), lahko pa ima lastno delovno namizje, v katerega uvozimo dokument, ki ga želimo prevesti. Med najpomembnejše tovrstne proizvode sodijo TRADOS Translator's Workbench6 (zraven sodita še terminološki program M uit ¡Term in orodje za vzporejanje WinAlign), IliM Translation Manager', STAR Transit in TermStar8, ATRTL DejaVu" in drugi. Programi za gradnjo, vzdrževanje in izmenjavo terminoloških bank Vsi strokovni in tehnični prevajalci se vsakodnevno srečujejo s termini, ki jih v splošnih slovarjih ni najti, pogosto pa tudi v specialnih in področnih slovarjih ne. Večina strokovnih in znanstvenih področij se danes razvija tako hitro, da novih izrazov slovaropisje ne more spremljati. Hkrati je terminološka doslednost in natančnost prav pri strokovnih in tehničnih besedilih ključnega pomena, in tako tudi ključni pogoj /a funkcionalen prevod. Prevajalec ali prevajalski tim si zato pogosto ustvarja lastne terminološke glosarje ali banke, ki naj bi pomagale pri zagotavljanju terminološke enotnosti vsaj za določeni prevajalski projekt, če že ne za celo stroko. V ta namen so na voljo Številna programska orodja, s katerimi je mogoče terminološke vnose strukturirati, posodabljati, povezovati med seboj in po njih iskati. Standardni terminološki vnos je sestavljen i/, številnih polj (Arntz/Picht, 1995: 231)), ki določeni termin ustrezno opredeljujejo, npr. izvirni termin, definicija, primer iz besedila in vir, klasifikacijski ključ, prevodi, sinonimi in antonimi, grafični prikaz itd. Pri računalniških programih za gradnjo terminoloških bank se polja pri vnosu v grobem delijo na glavo vnosa, kjer so shranjeni upravni podatki (datum vnosa, ime vnaša 1-ca, datum zadnje spremembe, ime spreminjevalca, zaporedna Številka, podatki o prevajalskem projektu 6 URI: httn:Uwww,tracin$.cam/ 7 URI: http://vrWW.softwarB.Jbm.com/ad/trsnslat/eqfnOb02.html 8 URL■ htb>;//www. trans/it. Mi/sWfrans/r. htm 9 URU http://www.atr1l.corn/ 10 URL: htUi://www2.echo.lu/edic/ itd.), indeksna polja (termin v različnih jezikih, sinonimi itd.), besedilna polja (definicija, opomba, primer itd.) in atributna polja (slovnični kvalifikatnrji itd.). Starejši sistemi (npr. Eurodicautom10, terminološka banka Evropske komisije) so sicer omogočali vnašanje številnih jezikovnih, strokovnih in upravnih podatkov, niso pa zagotavljali navzkrižnih povezav med vnosi in posameznimi izrazi ter izmenljivosti podatkov. Sodobni programi za gradnjo terminoloških bank omogočajo oblikovanje vnosne sheme v skladu s specifičnimi potrebami prevajalskega projekta, navzkrižne povezave, ki terminološke vnose strukturirajo v semantične mreže, grafične prikaze, v zadnjem Času pa so bili oblikovani tudi standardi za zapis tovrstnih podatkovnih zbirk, ki zagotavljajo njihovo izmenljivost (MARTIF; ISO 12200) (Reinke/Schmitz, 1998). Programi za gradnjo terminoloških bank so navadim vgrajeni v programe s pomnilnikom prevodov ali so del istega programskega paketa. Med najpogosteje uporabljanimi je MultiTerm podjetja TRADOS, sledijo pa mu STAR-ov Termstar, Al Ril,-o v iermVVatch in drugi. Tudi na področju terminologije se odpirajo nove poti s spoznanji korpusnega jezikoslovja. Računalniška zbirka besedil z določenega strokovnega področja je izredno dragocen vir pri gradnji terminoloških bank, če pa imamo na razpolago ustrezna računalniška orodja, je mogoče le-to celo delno ali povsem avtomatizirati. Z uporabo vzporednih korpusov je mogoče iz izhodiščnega besedila avtomatsko izdelati seznam potencialnih terminoloških izrazov in nato na podlagi vzporednih konkordanc iz ciljnega besedila izluščiti predloge za prevodne ustrežnice. To bi bil nedvomno hiter in učinkovit način za gradnjo terminoloških bank za določeno področje, saj nam hkrati omogoča tudi Vpogled v dejansko rabo termina v besedilu. Žal je predpogoj za lo ustrezna zbirka vzporednih besedil v elektronski obliki, ki je pogosto ni enostavno dobiti. Druga programska orodja Za specifična področja prevajanja se razvijajo tudi posebna orodja, posebej tam, kjer je povpraševanje veliko in je od njih mogoče pričakovati tržne prednosti. Nekaterim velikim podjetjem se celo splača razvijati lastne programe s pomnilnikom prevodov ali sisteme za upravljanje s terminologijo, ki so prirejeni posebnim zahtevam uporabnikov in vgrajeni v celotni pretok besedil in delovne procese. V zadnjih letih je ena od najhitreje rastočih vej na področju računalništva lokalizacijska industrija, ki s seboj prinaša tudi ogromne količine prevajalskega dela. Za prevajanje programskih paketov in njihove dokumentacije se na Široko uporabljajo prej omenjeni programi s pomnilniki prevodov v povezavi s terminološkimi bankami, poleg tega pa je na tržišču na voljo K/*wnfjij(i)NFORMATtKA 1999 ■ Številka 1 lelnik VII Strokovne razprave nekaj posebnih lokilizacijskih programskih orodij, ki so št' posebej koristna pri prevajanju programskih datotek in vsebujejo poleg gornjih komponent tudi vali-dacijske funkcije. Med najbolj uporabljanimi orodji so Corel Catalyst, Applocalize, Accent Global Development Kit, Microsoft RLToolset itd. (Esselink, 1998). KORPUSI PRI PREVAJANJU Računalniške zbirke besedil ali korpusi so za izdelavo vsakršnih jezikovnih virov - najsi gre za eno- ali dvojezične slovarje, slovnice, črkovalnike, tezavre, terminološke banke ali pomnilnike prevodov -neprecenljivega pomena, saj naj bi odražali stanje določenega jezika ali podjezika v njegovi besedilni manifestaciji v danem času in prostoru. Z razvojem zmogljivih računalnikov se je uresničila tudi možnost gradnje velikih računalniških korpusov z več sto milijonov besedami, vzporedno s tem pa se razvijajo tudi vse boljša računalniška orodja za njihovo izgradnjo, analizo, upravljanje in iskanje po njih. Za prevajalce so zanimivi predvsem vzporedni korpusi, ki vsebujejo poravnane stavke izvirnika in njegovega prevoda v enega ali več jezikov, pri prevajanju v tuji jezik pa tudi enojezični korpusi bodisi splošnega jezika bodisi kakšne jezikovne podvrste (npr, korpusi literarnih, strokovnih ali publicističnih besedil). Ker za slovenski jezik večjih enojezfčnih ali vzporednih korpusov še nimamo, si slovenski prevajalci trenutno lahko še najbolj pomagajo s hjjejezičnimi korpusi, ki so - skupaj z iskalnimi orodji - dosegljivi na internetu. Za angleški jezik sta takšna npr. British National Corpus" in The Bank of English12, z a nemški daje korpuse na razpolago projekt Cosmas1'. Med najpogosteje uporabljanimi metodami pri delu s korpusi so izdelava frekvenčnih seznamov in iskanje konkordanc in kolokacij (Sinclair, 1991). Čeprav frekvenčni seznam ni nič drugega kol štetje, kolikokrat se določena beseda ali besedna zveza v korpusu pojavi, nam lahko že ta preprosta statistična obdelava nudi uporabne in pogosto presenetljive - rezultate. V angleško govorečem svetu - za angleški jezik obstaja tudi največ tovrstnih virov in raziskav - so na primer rezultati raziskav o frekventnosti posameznih časovnih glagolskih oblik pošteno pretresli dotlej veljavne temelje angleške slovnice in posledično tudi metodike pouka angleškega jezika. Konkordancai je prikaz pojavov določene besede ali niza skupaj s sobesedilom (KVVR - keyword in context): Orodje za iskanje konkordanc v korpusu nam tako za vsako poizvedbo prikaže zadetke v korpusu 11 UR L: h ttp;//in(o.Qx,ac. uk/bnc/ 12 URt: hitfl:/ft/tarila, cobulld.coUlns.coMk/ 13 URL htU);//www,ld&-mannheim.de/kl/corpora-me.html skupaj z neposrednim kontekstom v besedilu, pri Čemer je ta lahko omejen na število znakov ali besed levo in desno od iskanega niza, na poved, verz ali odstavek, pri nekaterih konkordančnih orodjih je tudi uporabniško nastavljiv. Pregled konkordanc za določeni niz, besedo alt besedno zvezo je pri prevajanju lahko zelo koristen. Posebej pri prevajanju v tuji jezik nas pogosta zanima, v kakšnem kontekstu je določeno besedo ali frazo mogoče uporabiti, s katerim predlogom se veže, ali jo je mogoče uporabiti figurativno in podobno. Če imamo na voljo dovolj velik korpus ciljnega jezika, si lahko ogledamo primere rabe iskane besede v dejanskih besedilih, kar je še posebej koristno pri neo logi /.mili, izposojenkah in drugih besedah, ki jih v običajnih slovarjih (še) ni mogoče najti. Kadar imamo na voljo vzporedni korpus, lahko s pomočjo vzporednih konkordanc iščemo možne prevodne ustreznice. Ce imamo za iskano besedo v izhodiščnem jeziku na voljo npr. petdeset primerov njene pojavitve v stavku skupaj s prevodom, lahko primerjamo frekventnost posameznih prevodnih ustrežnic in njihove kontekste, kar močno olajša izbiro primernega prevoda, v našem besedilu. Ker veČina orodij za iskanje po korpusih podpira tudi divje iskanje ali regularne izraze, je mogoče iskali tudi dele besed, morfeme, besede, ki se z določenim nizom končajo ali začnejo, sopojav dveh ali več besed in podobno. Tudi ta možnost je pri prevajanju pogosto dragocena, na primer kadar nas zanima, kako se v sodobnem jeziku obnaša določeni besedotvorni morfem ali kadar za določeno besedo iščemo rimo. Meti najbolj znanimi orodji za iskanje po korpusih, ki so za sprejemljivo ceno naprodaj tudi prek inteineta, so WordsmithM, MonoConc15za iskanje po enojezičnih in ParaConc1'' za iskanje po vzporednih korpusih. Uporaba korpusov pri prevajanju se uveljavlja šele zadnja leta, ko je vse več korpusov - vsaj za večje jezike - javno dostopnih preko internet a. Za lastne potrebe si lahko prevajalec ustvari tudi svoj manjši korpus, ki ga nato uporablja bodisi s pomočjo orodij, ki jih nudijo programi s pomnilnikom prevodov (tudi I i pogosto omogočajo iskanje konkordanc), bodisi s pomočjo enega od zgoraj naštetih orodij. INTERNET - ZAKLADNICA INFORMACIJ ZA PREVAJALCE Internet je v zadnjem desetletju revolucionarno vplival na številna področja Človekovega delovanja in življenja, v zadnjih letih pa postaja tudi vse bolj nepogrešljivo orodje za prevajalce. Za učinkovito izkoriščanje 14 URL: http://www.ndinect.co.uk,'čleiical/ 15 URL:http;//vvmv.aWel.com/new.html 16 glej prejšnji 1999 ■ številka 1 - letnik Vil i ijAitiiiJurH NFORMAT IKA Strokovne razprave možnosti, ki jih ta medij ponuja, ji' bistveno predvsem, kako dobro se prevajalec znajde v internetnem morju informacij in storitev. Pri prevajanju se prevajalec srečuje z najrazličnejšimi besedili s številnih področij, in prevajalski problemi, ki se ob tem pojavljajo, pogosto niso rešljivi zgolj s pomočjo slovarjev in leksikonov na domači polici ali trdem disku. Včasih se delo zatakne zaradi nerazumevanja izhodiščnega besedila, zaradi manjkajočega izraža v tujem ali maternem jeziku, pogosto pa si je za kakovosten prevod potrebno razširiti strokovno in jezikovno znanje z določenega področja, lo znanje prevajalci tradicionalno iščejo v knjižnicah, pri ustreznih ustanovah, ki se s področjem ukvarjajo, pri strokovnih svetovalcih in prevajalskih kolegih. Danes lahko dobršen del tega - časovno izredno zamudnega - iskanja opravimo preko intemeta, ki hkrati služi kot Ogromna knjižnica in komunikacijski medij za Vzpostavljanje stikov z. viri informacij. Izmed številnih možnosti, ki jih ta medij prevajalcu ponuja, jih naštejmo le nekaj: Iskanje izrazja Na svetovnem spletu je na voljo množica eno- in večjezičnih splošnih in področnih slovarjev, nekaj tudi slovenskih'7, za tuje jezike pa tudi številne terminološke banke. Obstaja kar nekaj spletnih strani, ki takšne povezave zbirajo, pri nas je ena takšnih domaČa stran Društva znanstvenih in tehniških prevajalcev Slovenije"1. Poleg tega številne strokovne ustanove, ministrstva, podjetja ipd. na svojih straneh objavljajo manjše teminološke slovarje za svoje področje ali povezave do njih. Iskanje primerljivih besedil Predvsem kadar prevajamo besedilne vrste, ki nam niso povsem domaČe, je v veliko pomoč, če imamo na razpolago sorodno besedilo v ciljnem jeziku, iz katerega lahko sklepamo o besedilnih in stilnih konvencijah, ki za določeno besedilno vrsto veljajo, se seznanimo s področjem in izrazjem itd, Internet je neizčrpen vir primerljivih besedil, znali jih moramo le najti, hkrati pa se zavedati, da je njihova kakovost dostikrat vprašljiva, Vzpostavljanje stikov z ustanovami, kontaktnimi osebami Včasih lahko prevajalski problem razreši le strokovnjak z določenega področja. Prek interneta lahko po vsem svetu iščemo ustanove in kontaktne osebe ter jih po elektronski poŠti prosimo za nasvet. J 7 URL: http://www.sigov.si/stovar.titml iS URL: http;//nMw.rtruswo-Hps.ii/ Poštni seznami in novičarske skupine Jezikoslovcem in prevajalcem je na voljo več mednarodnih poštnih seznamov (mailing lists) in hoviČarskih skupin (newsgroups), v okviru katerih je mogoče postavljanje vprašanj in obveščanje o novostih stroke. Trek poštnih seznamov imamo hkrati na voljo rojene govorce vseh mogočih jezikov, ki lahko hitro razrešijo dvome pri prevajanju v tuji jezik. Nekateri poštni seznami imajo tako veliko članov, da lahko na zastavljeno vprašanje pričakujemo več deset odgovorov že v roku ene ure. Spremljanje stroke in tehnološkega razvoja Prek internets lahko prevajalci prebirajo strokovne publikacije in revije, izvejo za dogodke in novosti na področju stroke in spremljajo razvoj na področju jezikovnih tehnologij. Pogosto je nove programe mogoče preskusili ali m naložiti preskusne različice. Trženje lastnih storitev na internetu Oglaševanje preko interne ta je V tujini že nekaj let ena najbolj cvetočih dejavnosti, pri nas pa to postaja šele v zadnjem času. Podobno kot je danes za vsakega ponudnika storitev samoumevno, da je njegova telefonska Številka v imeniku, bo čez nekaj let verjetno veljalo za internelno prisotnost. Predstavljanje svojih znanj in dejavnosti na internetu ima tudi to prednost, da doseže morebitno naročnike izven meja Slovenije, prevajanje pa sodi med dejavnosti, ki jih je v celoti mogoče opravljati na daljavo. ZAKLJUČEK V Sloveniji si prevajalske tehnologije le počasi utirajo pot v prakso, tako da je položaj težko presojati na podlagi konkretnih izkušenj. Kar se tiče programskih orodij, se ta postopoma uvajajo v proces prevajanja slovenske zakonodaje in drugih meddržavnih dokumentov na prevajalskem oddelku Službe Vlade RS za evropske zadeve (KrstiČ, 1998), vse več pa jih uporabljajo tudi prevajalske agencije. Nekoliko počasneje se zanje odločajo velika izvozno usmerjena podjetja, pri katerih tudi narava prevajalskega dela ni vselej primerna za uvajanje teb orodij. Po drugi strani je Slovenija očitno premajhno tržišče, da bi proizvajalci prevajalskih programov te dejavno Iržili pri nas, tako da velika večina prevajalcev v podjetjih, pa tudi samostojnih, ne pozna prednosti, ki jih ti programi lahko nudijo. Računalniško podprlo prevajanje v širšem smislu od prevajalca zahteva splošno računalniško in informacijsko osveščenost, ki zajema različne spretnosti in znanja od Urejevalnika besedil, elektronskih slovarjev in interne ta do učinkovite izrabe drugih „pimh, ral N FORM ATI Ki 1999 številka i - letnik VII Strokovne razprave jezikovnih virov, kot so korpusi. Pri razvijanju te osveščenosti imajo pomembno vlogo na eni strani študijski programi /.a prevajalce, na drugi pa pospešena gradnja in zagotavljanje osnovnih jezikovnih virov iri tehnologij v slovenskem prostoru. Čl: se; na kratko posvetimo prvim, študij prevajanja pri nas nudi pred dvema letoma ustanovljeni Oddelek za prevajanje in tolmačenje tia Filozofski fakulteti v Ljubljani Znanja s področja prevajalskih tehnologij si študenti pridobijo v okviru predmeta Prevajalska orodja,ki mu je v drugem letniku študija namenjenih 30 ur, v tem času pa skušamo študentom posredovati vsaj površen vpogled v področje. Večina prevajalskih institutov po Evropi področju jezikovnih tehnologij namenja večjo pozornost, takšna pa so tudi priporočila Evropske komisije; ki so bila izoblikovana v okviru projekta l.ETRAC20 (kanguage Engineering for Translator Curricula). V skladu s temi naj bi v okviru izobraževanja prevajalcev jezikovnim tehnologijam namenili vsaj 1(1 odstotkov vseh ur po predmetniku, poleg tega pa naj bi predmetniki vsebovali še možnost i/.birnih predmetov /a poglobljeno spoznavanje področij, kot so strojno prevajanje, računalniško jezikoslovje, terminologija, korpusno jezikoslovje, osnove programiranja za jezikoslovce, programska orodja za lokalizacijo itd. Na Oddelku za prevajanje in tolmačenje si prizadevamo, da hi bilo vsaj nekatere od omenjenih vsebin v naslednjih dveh letih mogoče ponuditi tudi tukajšnjim bodočim prevajalcem, I udi izgradnji jezikovnih virov in te lin o logi j se v zadnjih letih pri nas posveča precej pozornosti. V teku je projekt F1DA21 (¿rjaveč et al, 199H), v okviru katerega nastaja prvi referenčni korpus za slovenski jezik, institut Jožef Štefan pa se vključuje v različne evropske projekte, v sklopu katerih se gradijo večjezični jezikovni viri - vzporedni korpusi in leksikoni (MUl TEXT-East,22 ELAN23, CONCEDH24). Nad področjem bo odslej bdelo pred kratkim ustanovljeno Slovensko društvo za jezikovne tehnologije25. Slovenija se vključuje v evropske politične in gospodarske tokove, / njimi pa naraščajo tudi potrebe po prevajanju in hkrati njegovi optimizaciji V Evropi je postalo uvajanje, razvoj,strandardizacija in evalvac-ija prevajalskih tehnologij ena od prioritet v procesu evropske integracije, to pa bo v naslednjih letih - če želimo nadoknaditi zamujeno - še toliko bolj veljalo za slovenski prevajalski prostor. 19 URL: rtitpY/wwwža/nes.si/isvlhtaflndex.htm 20 URL: http://mYM.iai.uni sb.de/LUMC/home.html 21 URL: http://mw.rida.net 22 URL:http:i7nljjs.si/MFJ 23 URL: http://sotaris3.id5 mannheinj.de/elan/ 24 URL: http://nl.ijs.si/tomai/Concede.html 25 URL: http://nUls.si/sdjt/ VIRI 1. Arntz, R. in Picht, H. (1995) Einführung in die Terminologiearbeit. Hildesheim, Zurich, New York: Georg Olms. 2. Brungs, B. (1996) Translation Memories als Komponente integrierter Übersetzungssysteme. Saarbrücker Studien zu Sprachdatenverarbeitung und Übersetzen. Saarbrücken: Universität des Saartandes. 3. Erjavec, T. <1997) Računalniške zbirke besedil. Jezik in slovstvo, 42/2-3, s ti: 8196. http://nl. ijs.si/et/Bib/SIKorpus/slKorpus-la2/ 4. Erjavec. T. et al (1998) Korpus Fida. V: Erjavec, T., Gros, J. (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik, v sklopu simpozija Informacijska divžba '98. Ljubljana: Institut Jožef Stefan. 5. Esselink, B. (1998) A Practical Guide to Software L oca liza t/on. .Amsterdam, Philadelphia: John Benjamins. 6. Falcone, S. (1998) Translation Aid Software. Translation Journal 2 (1). http ://www. Bccurapid.com/joumal/03TM2.htm 7. Heyn„ M. (1997) Present and future needs in the CAT-wodd. http://www.trados.ch/english/pressrel.htm S. Heyn, M. (1998) Integrating machine translation into translation memory systems. http://www. trados.ch/english/pressrel.htm 9. Hirci, N. (1998) Korpusi v prevodoslovju. V: Erjavec, T., Gros, J. (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik, v sklopu simpozija Informacijska dmžba '98. Ljubljana: Institut Jožef Stefan. 10. Holloway, T. (1996) Translation Memory Software. ITI Bulletin. August 1996, str. 16-27. 11. Hutchins, W. J.; Somers, H. L. (1992) An Introduction to Machine Translation. L ondon: Academic Press. 12. Krstii.A. (1908) Problematika prevajanja zakonodaje Evropske unije. i/; Erjavec. T., Gros, J. (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik, v sklopu simpozija Informacijska družba '98, Ljubljana: Institut Jožef Štefan. 13. Pearson, Jennifer (1998) Terms in Context. Amsterdam. Philadelphia: John Benjamins. 1999 številka 1 - letnik VI! i i/*™!» ml N FORM ATI KA Strokov\f, razprave 14. Reinke, U. in Schmitz, K.-D. (1998) Testing thc Machine Readable Terminology Interchange Format (MARTIF). Saarbrücker Studien zu Spuchda tenvera rbei tu i ig und Ubersetzen. Saarbrücken: Universität des Saarlandes. 15. Romih, M. (1998) Amebis In jezikovne tehnologije. V: Erjavec, t, Gros, J. (ur.) Zbornik konference Jezikovne tehnologije za slovenski jezik. \rSklopu simpozija informacijska družba '98. Ljubljana: Institut Jožef Stefan. 16. Schubert. K. (1998) Zur Automatisierbarkeit des Übersetzern;, Zbornik kongresa Modelle der Übersetzung -Grundlagen für Methodik. Bewertung, Computcrmod-eHietung, Saarbrücken, november 1998. Saarbrücken: Universität des Saarlandes. 17. Seybold,M.(1995) Terrninologievenwaltung unter Windows - Eine vergleichende Untersuchung. Saarbrücker Studien zu Sprachdatenverarbeitung und Übersetzen. Saarbrücken: Universität des Saarlandes. 18. Sinclair, J. (1991) Corpus. Concordance, Collocation. Oxford: Oxford University Press. 19. Skubic.A. (1997) Računalniški programi za prevajanje. MostoviXXXI, str. 28-37. 20. Spies, C. (1995) Vergleichende Untersuchung von integrierten Übersetzungssystemen mit Translation MemoryKomponente. Saarbrücker Studien zu Sprachdatenverarbeitung und Übersetzen. Saarbrücken: Universität des Saarlandes. 21. Vintar, Š.: Erjavec, 1. C1998J Prednosti in omejitve programov s pomnilnikom prevodov. Zbornik II. kongresa .Jezik za danes in jutri", Društvo za uporabno jezikoslovje Slovenije. Špela Vintar je diplomirala iz nemičine in angleščine na Filozofski fakulteti v Ljubljani z diplomskim delom o uporabnosti programov $ pomnilniki prevodov Od oktobra 1998 je zaposlena na Oddelku za prevajanje in tolmačenje kot asistent stažist in poučuj predmet Prevajalska orodja. 24 iipvmhiiANFORMATIKA 1999 - ilevilka 1 - letnik VII 4 *