16 MOSTOVI 2/1989/XXIV Peter Tancig Računalniško prevajanje MachineTranslation The paper deals with many facets of machine (aided) translation (M(A)T). the topič of M(A)T is put into a broader framework, extending from simple word Processing techniques, involving editing and formatting, across desk top publishing to a fuzzy area of naturaI language components such as spelling checkers, style and grammar checkers, and copy editing aids. The less ambitious level of MAT consists of MAHT (machine aided human translation), HAMT (Human Assisted Machine Translation) and TD (Terminology Data banks). MTproper is discussed from its enthusiastic beginnings, which dealt an almost fatal blow to the fieldofMT. Today's setting of automated Office and electronic networks is a naturaI 'habitat’ for more ambi¬ tious MTsystems, which are thus a natural extension of the information technology. The paper continues with a more thorough discussion of 3 approaches to the design ofMT sy- stems and concludes with a taxonomy ofMTgeneraiions and developmentperiods. More concrete details of operational MT systems and an assessment of the state-of-the-art in Yugoslavia are left for a subsequent presentation. UVOD Jezik in računalnik Jezik je osnovno komunikacijsko sredstvo med ljudmi, ki v vedno večji meri uporabljajo računalnike pri svojih dejavnostih. Spekter aplikacij računalniške obdelave jezika je zato izredno širok - naštejmo jih le nekaj: - informacijski sistemi nad tekstualnimi bazami podatkov, - leksikografija in leksikologija,. - komunikacija človek-računalnik, - raziskovanje jezika in literature, - pisanje besedil, - prevajanje, - dokumentalistika, - založništvo, - poučevanje. Računalniško (podprto) prevajanje je eno od 7 aplikativnih področij računalniške obde¬ lave naravnega jezika, za katera predvidevajo (< Joh-85 >) za leto 1995 samo v ZDA proda¬ jo v vrednosti 1,5 milijarde US$. Teh 7 aplika¬ tivnih področij le naštejmo, nekaj več o njih pa je v (): MOSTOVI 2/1989/XXIV 17 urejanje oblikovanje eno-, dvo- in več¬ jezični slovarji terminološke banke -pravopis -stil naravno-jezikovne-slovnica komponente -deljenje WP- 'obdelava teksta) -DTP - (namizno I založništvo) I I prelom strani grafično oblikovanje uredniški stil l MAT-'-- MT (strojno (strojno prevajanje) podprto prevajanje) MAHTJ (strojno podprto človeško prevajanje) L HAMT (človeško podprto strojno prevajanje) Slika 1 Širše okolje računalniškega in računalniško podprtega prevajanja 1. vmesniki za dostop v naravnem jeziku k velikim računalnikom; 2. vmesniki za dostop v naravnem jeziku k malim računalnikom; 3. vmesniki za dialog v naravnem jeziku; 4. pregledovanje vsebine besedil; 5. inteligentna obdelava tekstov; 6. strojno (podprto) prevajanje; 7. govorno-pisalni stroj. Prevajanje in računalnik Tudi če se omejimo na profesionalno pre¬ vajanje s pomočjo računalnika, moramo seči bolj v širino (slika 1) - tako proti različnim ob¬ delavam teksta kot proti različno zahtevnim načinom računalniškega in računalniško pod¬ prtega prevajanja, ker je večkrat težko poteg¬ niti ločnico med posameznimi področji upora¬ be računalnika pri prevajanju. OBDELAVA TEKSTA Obdelava besedil (angleška kratica je WP - World Processing) danes ni več smotrna brez uporabe računalnikov, predvsem oseb¬ nih. Poglavitne prednosti takega načina dela so: □ veliko lažje vnašanje besedila - in to samo enkrat; □ izredne možnosti popravljanja in preureja¬ nja besedila; □ možnost, da se spopademo z zelo dolgimi besedili - nekaj sto strani dolgo delo je mo¬ goče urediti v nekaj dneh; □ velika izbira sredstev za grafično oblikova¬ nje črk; □ vse na istem mestu - od ideje do rezultata na papirju nam ni treba zapustiti delovnega mesta; □ enostavno vključevanje slik v besedilo; 18 MOSTOVI 2/1989/XXIV □ možnost vnosa drugih besedil brez tipkanja (optično prepoznavanje črk); □ hiter prenos besedila na velike razdalje brez papirja. Pri vseh teh prednostih pa seveda brez šib¬ kih točk ne gre: □ cena je v naših razmerah izredno visoka, če si hočemo nabaviti sodobno delovno po¬ stajo z vsemi kvalitetnimi (a zato dragimi) pripomočki, kot sta npr. laserski tiskalnik in bralnik slike/znakov; □ znanje 1 : če hočemo v polni meri uporabiti vse možnosti, ki jih nudi sodobna računal¬ niška delovna postaja za obdelavo besedil, je treba znati bistveno več, kot pa če natip¬ kamo eno stran na pisalni stroj. Tekst lahko obdelamo po tehle postopkih: □ priprava vsebine besedila; □ pisanje delov besedila; □ popravljanje besedila; □ ureditev besedila v celoto; □ ponovno popravljanje vsebinskih in slovnič¬ nih napak; □ grafično oblikovanje besedila; □ prelom besedila na strani; □ končna ureditev (kazalo, indeks, opombe). Včasih sta bili fazi urejanja in oblikovanja besedila povsem ločeni med seboj, kar se je odražalo tudi v posebnih programih (npr. inte¬ raktivni urejevalniki : paketni oblikovalniki). Danes to ni več potrebno, saj integrirani inte¬ raktivni paketi za obdelavo besedil vrste WY- SIWYG (What You See Is What You Get) vse¬ bujejo tako urejevalne kot oblikovalne funkci¬ je. Urejanje Za urejanje besedila imamo na voljo tele osnovne postopke, ki so tako ali drugače rea¬ lizirani v urejevalnikih: □ pisanje besedila; □ premikanje po besedilu; □ vrivanje znakov, besed, vrstic, večjih kosov (blokov); □ brisanje znakov, besed, vrstic, blokov; □ iskanje po besedilu; □ zamenjavo nizov črk; □ prenos in kopiranje delov besedila; □ večkratno uporabo pogostih fraz (kratic) ali daljših odlomkov besedila (pokličemo jih po imenu); □ sočasno delo z več datotekami; □ konsultiranje različnih virov (slovarjev, ter¬ minoloških bank). Oblikovanje Za oblikovanje besedila pa imamo na voljo tele glavne postopke: □ izbiranje velikosti in smeri strani (pokonci, vodoravno); □ pomikanje na sredino; □ poravnavo desnega roba; □ določanje levega roba in levega umika; □ deljenje na koncu vrstice (zmanjša »beli¬ no« v vrstici); □ oblikovanje stolpcev; □ izbiranje razmika med znaki in vrsticami; □ določanje vrste in velikosti pisave ter nje¬ nega načina (kurzivno, polkrepko, podčrta¬ no, stisnjeno, razprto, indeksi, potence); □ prelom besedila na strani; □ določanje položaja in velikosti slik. Namizno založništvo Malokatero področje je pritegnilo pozor¬ nost uporabnikov računalništva tako kot na¬ mizno založništvo (DTP - Desk Top Publishin- g). Povedano na kratko, namizno založništvo omogoča popolno kontrolo nad tiskano be¬ sedo. Omogoča produkcijo dokumentov s profesionalno podobo brez zunanjih tiskarskih in grafičnih storitev. S to tehnologijo je mogo¬ če: □ pisati tekste, □ urejati tekste, □ risati ilustracije, □ vgraditi kopije fotografije, □ narediti načrt strani, □ dokončno natisniti dokument, in vse to z relativno ne predragim računalni¬ kom in laserskim tiskalnikom. ' Ki pa v nasprotju s ceno ni odvisno od tega, na kate¬ ri strani Alp živimo. MOSTOVI 2/1989/XXIV 19 Sistemi namiznega založništva praviloma zmanjšajo ceno produkcije dokumentov in po¬ večajo fleksibilnost v procesu izdelave pravo¬ časnih rezultatov. Toda izraz »namizno založništvo« je varlji¬ vo preprost opis za izredno kompleksne sku¬ pine materialnih in programskih orodij. To novo tehnologijo je omogočila edinstvena kombinacija obstoječih tehnologij: □ hitrejši osebni računalniki; □ sofinancirani programi za obdelavo besedil; □ laserski tiskalniki, zasnovani na tehnologiji fotokopirnih aparatov. Povprečen program namiznega založni¬ štva vsebuje praktično vse elemente funkcio¬ nalne uporabe mikroračunalnikov - od obde¬ lave teksta prek grafične obdelave pa do ko¬ munikacij. Naravno-jezikovne komponente Med klasično obdelavo besedil, v katero spadajo urejevaniki in oblikovalniki besedil, in naprednejšimi obdelavami naravnega jezika, kot sta npr. strojno prevajanje in komunikacija v naravnem jeziku z bazami podatkov, leži po¬ dročje - z ne povsem definiranimi mejami - si¬ stemov, ki z vključevanjem znanja o jeziku v t. i. naravno-jezikovne komponente omogoča bolj inteligentno obdelavo tekstov. Preverjanje in popravljanje pravopisnih na¬ pak Avtomatično odkrivanje in popravljanje tip¬ karskih napak, nastalih pri pisanju in ureja¬ nju tekstov je najbolj razvita tehnika vključe¬ vanja naravno-jezikovnih komponent v različ¬ ne sisteme za obdelavo besedil. Sistemi iden¬ tificirajo napačno zapisane besede na dva na¬ čina: □ glede na to, da take besede ni v slovarju; □ glede na to, da se takšno zaporedje črk ni¬ koli ne uporablja v posameznem jeziku. Oba načina imata svoje prednosti in slabo¬ sti; dober pregled te tehnologije je podan v (). Treba se je zavedati pomembne razlike med odkrivanjem takih napak: pri odkrivanju napak gre za identifikacijo napačno zapisanih besed, popravljanje napak pa vsebuje tudi in¬ dikacijo možnih korektur. Prva funkcija je obi¬ čajno dosti lažja od druge, saj je pri slednji treba uganiti - za vsako odkrito napako - kaj je pisec hotel napisati. Raziskave o vrstah običajnih tipkarskih napak lahko pomagajo, saj je npr. Damerau () odkril, da je 80 % pravopisnih napak rezultat štirih os¬ novnih tipov napak: a) transpozicije dveh črk, b) dodatka posebne črke, c) ene manjkajoče črke in č) ene napačne črke. Če naš sistem vsebuje taka pravila (a)—č)), ki delujejo v obratnem vrstnem redu, je mogo¬ če napraviti hipoteze o določenem številu »bližnjih« besed, ki so v slovarju, in jih ponudi¬ ti uporabniku kot možne korekture odkrite na¬ pake. Običajno trdijo, da pri 80-90 % napak ob¬ stoječi sistemi uspešno odkrivajo napake in predlagajo ustrezne korekture. Preverjanje stila To so dokaj preprosti programi, ki ne vse¬ bujejo ambicioznih obdelav naravnega jezika - nimajo npr. sintaktičnega analizatorja ali reali¬ ziranih konceptov iz umetne inteligence, kot so npr. predstavljanje znanja in ekspertni si¬ stemi. Vsi tovrstni programi uporabljajo isto os¬ novno tehniko. Sistem uporablja tabelo »ne¬ pravilnih« zaporedij znakov in predlaganih na¬ domestil ter preprost postopek za iskanje za¬ poredij. Ti programi so osnovani na načelih dobrega stila pisanja, kot jih je najti v različ¬ nih »vodičih za stil«: □ izogibaj se obrabljenih, praznih ali često napačno uporabljenih fraz; □ raje uporabljaj specifičen, konkreten jezik namesto nejasnega in abstraktnega; □ ne uporabljaj besed, ki se redko pojavljajo v običajnem jeziku; 20 MOSTOVI 2/1989/XXIV □ pravilno uporabljaj ločila in pazi na slovnič¬ no pravilnost. Obstaja ogromno knjig s tovrstnimi pravili, vendar jih je težko naposredno pretvoriti v uporabna orodja, saj naše teoretično razume¬ vanje jezika še ne omogoča ustreznih mode¬ lov za konstrukcijo delujočih popolnejših to¬ vrstnih programov. Preverjanje slovnice Sistemi za preverjanje slovnice vsebujejo slovar in sintaktični analizator - spadajo torej med zahtevnejše obdelave naravnega jezika. Tak sistem skuša najprej analizirati posa¬ mezne stavke, kot da bi bili slovnično popol¬ noma pravilni. Če ne uspe, poskusi znova z nekoliko bolj ohlapnimi pravili, npr. opusti pre¬ verjanje ujemanja posameznih kategorij (spo¬ la, sklona itd.) med posameznimi deli stavka. Če sedaj uspe, lahko iz narave dopuščene¬ ga pravila sklepa o naravi problema, ki je pre¬ prečil prvo (popolno) analizo. Pri konstruiranju takih sistemov je treba poleg ustreznih formalnih modelov morfolo¬ ških in sintaktičnih kategorij konkretnega jezi¬ ka imeti tudi dovolj npr. poslovne korespon¬ dence, iz katere je mogoče napraviti spisek običajnih napak, jih formalno modelirati in to znanje vgraditi v program. Pomoč uredniku založbe Dosedaj smo obravnavali aplikacije, name¬ njene predvsem avtorju, ki je sam svoj ured¬ nik. V založništvu pa obstaja močna distinkci- ja med avtorjem teksta in tistim, ki je odgovo¬ ren za to, da delo izide v založbi. Tak profesionalni urednik često temeljito posega v tekst - bodisi v samo vsebino ali pa ga reorganizira na višji ravni. Kljub temu pa porabi pretežni del svojega časa za operacije, kot sta urejanje in korigiranje, tj. za kontrolo podrobnosti na nižjih nivojih. Založniki vztraja¬ jo, da naj bodo končni izdelki v skladu s hišnim stilom, kar često opredeljujejo s podrobnimi specifikacijami, ki ne zadevajo samo uporabe ločil, ampak za nepoučenega prave malenko¬ sti, kot npr. format datumov, zapis števil, upo¬ rabo kratic, sklicevanje na literaturo, navedbe literature, citiranje besed v tujih jezikih itd. Pri teh zadevah često ni mogoče govoriti o (ne)pravilnostih, ampak je pomembna konsi¬ stentnost. Zato vsebujejo taki sistemi splošen jezik, v katerem uporabnik z lahkoto specifici¬ ra nova pravila ali modificira obstoječa - pre¬ cej podobnb, kot se to dela v sodobnih lupinah ekspertnih sistemov. STROJNO PODPRTO PREVAJANJE Pri računalniških pripomočkih za prevaja¬ nje moramo upoštevati dva vsebinska pola: poznavanje jezika in obvladovanje področja (teme) prevajanja. Za uporabnike takih raču¬ nalniških sistemov je značilen kontinuum raz¬ ličnih stopenj kompetentnosti na obeh po¬ dročjih, ki ga lahko omejimo z dvema ekstre¬ moma. En ekstrem je poosebljen s prevajal¬ cem, ki dobro obvlada jezik (tako izvirni, iz katerega prevaja, kot ciljni, v katerega preva¬ ja), le malo ali nič pa ne ve o specialni temi besedila. Drugi ekstrem je raziskovalec, inže¬ nir, programer, pravnik, ekonomist, ki ima veli¬ ko znanja o svojem strokovnem področju, a le pasivno znanje danega tujega jezika. V prvem primeru mora računalnik, ki naj funkcionira kot prevajalno orodje, zagotoviti ne samo potrebne jezikovne elemente - kot so semantične enote, izrazi, sintagme, fraze - posebnega predmetnega jezika, ampak tudi čimveč informacij o sami temi. V drugem pri¬ meru mora računalnik poskrbeti ne samo za pravopis, vključno z diakritičnimi znaki, ampak tudi za dele besedila, spol, uporabo predlogov ipd. Le če je zadoščeno vsem tem heteroge¬ nim zahtevam, je lahko tak sistem za računal¬ niško podrto prevajanje uspešen. Sistemi za strojno podprto prevajanje (Machine / Computer Aided / Supported Translation) se delijo v dve skupini: 1. človeško podprto strojno prevajanje (Human Assisted Machine Translation), 2. strojno podprto človeško prevajanje MOSTOVI 2/1989/XXIV 21 (Machine Assisted Human Translation), ki zaporedoma zasedata nižji mesti na lestvici ambicij računalniškega prevajanja. HAMT se nanaša na sistem, kjer je raču¬ nalnik odgovoren za izdelavo prevoda per se, toda pri tem lahko sodeluje s človekom - lah¬ ko ga npr. vpraša, kako razrešiti dvoumnost dela besedila, kako označiti mesto, kamor (sintaktično) sodi kaka fraza, katero besedo ali frazo naj izbere med številnimi možnimi, ki jih je odkril v slovarju sistema. MAHT se nanaša na sistem, kjer je človek odgovoren za izdelavo prevoda per se (On¬ line), toda pri tem lahko komunicira s siste¬ mom v nekaterih, vnapraj predpisanih, situaci¬ jah - npr. zahteva pomoč pri preiskovanju lo¬ kalnega slovarja ali tezavra, pri dostopu do oddaljene terminološke banke, pri iskanju zgledov za uporabo besede ali fraze ali pri ob¬ delavi tekstov (npr. oblikovanju). Terminološke banke podatkov (Termino- logy Data) so najmanj ambiciozni sistemi, kajti pogosto se ne uporabljajo med samim preva¬ janjem (ni nujno, da prevajalec dela on-line), ampak običajno pred človeškim prevodom. Banke podatkov so mogoče lahko dosegljive samo v obliki iztiskanih glosarjev za posame¬ zna predmetna področja. TD omogoča dostop do tehnične terminologije, toda običajno ne do navadnih besed (le-te uporabnik itak že po¬ zna). Glavna prednost TD ni to, da so avtoma¬ tizirane (celo ob on-line pristopu lahko najde¬ mo besede v slovarju prav tako hitro), ampak, da so ažur(ira)ne; tehnična terminologija se nenehno.spreminja in natisnjeni slovarji so običajno že zastareli, ko postanejo dostopni. Za TD je prav tako mogoče, da vsebujejo več podatkov, saj lahko računajo na večjo skupi¬ no aktivnih prispevkarjev - svojih uporabni¬ kov. STROJNO PREVAJANJE Sistemi za strojno prevajanje (SP; MT ozir. CT: Machine / Computer Translation) so pamenjeni za prevajanje brez človeške inter¬ vencije. To ne izloči poprejšnjega urejanja (pre-editing) niti poznejšega (post-editing), vendar so sistemi SP popolnoma odgovorni za celoten proces prevajanja od vhoda v izvirnem jeziku pa do izhoda v ciljnem jeziku brez člo¬ veške pomoči. Pri tem ti sistemi uporabljajo: - posebne programe, - izčrpne slovarje, - zbirke jezikoslovnih pravil. Sistemi za SP so na vrhu lestvice ambicij računalniškega prevajanja. Kratka zgodovina Za zgodnja 50. leta tega stoletja je bilo značilno navdušenje računalniških krogov, saj se je zdelo, da bodo novi zmogljivi elektronski računalniki kmalu omogočili kakovostno avto¬ matično prevajanje različnih naravnih jezikov. V raziskovanja na tem področju so vložili veli¬ ko sredstev, toda rezultati so bili pičli, ker so hoteli v enem naskoku rešiti vse zapletene probleme, ki jih (je) postavlja(l) naravni jezik. Šok iztreznitve, ki ga je povzročilo poročilo Ameriške akademije znanosti () o polomu avtomatičnega prevajanja, je pomenil začetek podpore temeljitejšemu pro¬ učevanju različnih vidikov naravnega jezika - računalniško jezikoslovje (računalniška ob¬ delava jezika, računalniško razumevanje jezi¬ ka, jezikoslovna informatika) je dobilo svoje osnovne obrise. Zaradi spoznanja, da je prenašanje sporo¬ čil v naravnem jeziku zelo zapleten proces, ki ga ni mogoče zajeti le v abstraktnih nizih sim¬ bolov (črkah in besedah), so pričeli upoštevati teoretične jezikoslovne izsledke o naravnem jeziku, obenem pa je to spoznanje koristno uvedlo formalne modele in računalniške pri¬ stope v jezikoslovna raziskovanja. Oris uporabnosti področja Strojno prevajanje že obeta postati bistven pripomoček v avtomatizirani pisarni (skorajš¬ nje) bodočnosti - vsaj kar se tiče velikih upo¬ rabnikov (podjetij). Vsaka firma, ki bo namera¬ vala biti glavni dobavitelj opreme za elektron¬ ske pisarne, bo morala na neki način zagoto- 22 MOSTOVI 2/1989/XXIV viti SP, bodisi z izdelavo lastnega produkta ali tehnologije. Obdelovalniki tekstov so očitno pa, bolj običajno, z integracijo produktov SP pomembni za tiste tekste, za katere predvide- drugih dobaviteljev v lasten sistem. varno, da bodo zahtevali preoblikovanje in Prevajanje kar vabi k uporabi informatične urejanje. Uporabo obdelovalnikov besedila je Slika 2 Alternativne poti za računalniško (strojno) prevajanje v avtomatizirani pisarni (elektronskem okolju) MOSTOVI 2/1989/XXIV 23 oviralo pomanjkanje sistemov z večjezikovni- mi nabori znakov, vendar se ta problem us¬ pešno rešuje. Prevod je bil vedno odvisen od hitre komunikacije, kar danes čedalje bolj za¬ gotavljajo podatkovne mreže in elektronska pošta. Poleg sprejemanja in oddajanja besedil in popravkov začenjajo prevajalci uporabljati on-line terminološke banke, kar jim omogoča spremljanje novosti v slovarjih in terminologiji. Z večanjem deleža prevajanja, ki se gene- rira in distribuira v elektronskem okolju - in često tudi neposredno elektronsko dosega - je smiselno in atraktivno dodati sisteme stroj¬ nega prevajanja kot naravni podaljšek siste¬ mov za obdelavo tekstov (slika 2). Strojno prevajanje je uporabno samo za nekatere vrste prevajalskega dela. Uspešno se uporablja tam, kjer je izvirno besedilo iz omejenega, vnaprej določenega področja in kjer ciljno besedilo pustimo bodisi v grobi ver¬ ziji, primerni za poznavalce tega področja, ali pa ga pozneje človeški prevajalec uredi v obli¬ ko, primerno za publiciranje. Očitni nadaljnji korak bo uporaba tehnolo¬ gije govorno-pisalnega stroja, ki bo omogo¬ čala neposreden vhod izgovorjenih sporočil, ki jih bo najprej verificiral govorec, nakar jih bo sistem po potrebi parafraziral v obliko, ki bo omogočila zanesljiv avtomatični prevod. Sin¬ tetizator govora bo nato izgovoril končen pre¬ vod. Načeloma naj bi taka metoda omogočila medjezikovno telefonsko komunikacijo, ki jo že razvijajo nekatere japonske firme pod na¬ zivom tehnologija prevajalnega telefona. Po¬ samezne komponente takega sistema so bile individualno že demonstrirane z dokajš¬ njo »prepričljivostjo«, čeprav bodo praktični sistemi zahtevali višjo stopnjo delovanja vsake komponente, uspešno integracijo in zmožnost obravnavanja govora v obeh sme¬ reh v realnem času, za kar bo potrebno- še kar nekaj let. Načini načrtovanja sistemov za strojno pre¬ vajanje Na splošno lahko ločimo tri načine načrto¬ vanja (in realizacije) sistemov za SP. Sistem direktnega prevoda Pri tem načinu so sistemi zasnovani do vseh podrobnosti za določen par jezikov (sli¬ ka 3). Legenda: IJ - izvirni jezik CJ-ciljni jezik Slika 3 Sistem direktnega prevoda Osnovna predpostavka je, da ni potrebno analizirati slovarja in sintakse besedil v IJ bolj, kot je striktno potrebno za razrešitev dvoumnosti, pravilno identifikacijo ustreznih izrazov v CJ in specifikacijo besednega vrstnega reda v CJ. To npr. pomeni, če je za¬ poredje besed IJ dovolj blizu sprejemljivemu zaporedju besed CJ, ni potrebno identificirati sintaktičnih struktur besedila IJ. Večina siste¬ mov za SP 50. in 60. let je bila zasnovana po tem načelu. Ti sistemi so se ločili po obsegu realizirane analize in/ali restrukturiranja izvir¬ nega besedila v ciljno, kjer je bilo mogoče lo¬ čiti po stopnjah rastoče zahtevnosti: □ neposredni prevod slovarja; □ minimalno lokalno restrukturiranje v siste¬ mih »beseda-za-besedo«; □ delno analizo strukture IJ; □ analizo celotnih stavkov IJ. Osnovna značilnost zgodnjih sistemov di¬ rektnega prevoda je bila zabrisana meja med analizo IJ in sintezo CJ. Novejši direktni siste¬ mi imajo bolj modularno strukturo. 24 MOSTOVI 2/1989/XXIV Slika 4 Sistem interlingve (vmesnega jezika) Sistem vmesnega jezika (interlingve) Pri tem načinu predpostavljamo, da je mo¬ goče besedila IJ pretvoriti v semantično- sintaktične predstavitve, ki so skupne več kot enemu jeziku. Iz takih interlingvalnih predstavitev naj bi se nato generirala bese¬ dila v drugih jezikih (slika 4). Osnovni argument za tako prevajanje je ekonomičnost v večjezičnih okoljih. Če gre za prevajanje med vsemi pari n jezikov, bi si¬ stem potreboval n(n-1) binarnih programov direktnega prevoda in 2n interlingvalnih pro¬ gramov. Takoj ko število jezikov preseže 3, postane zato drugi način bolj ekonomičen. Pri takih sistemih prevajanja iz IJ v CJ gre za dve ločeni in neodvisni stopnji: □ v prvi stopnji se opravi polna analiza bese¬ dil IJ v interlingvalno predstavitev; □ v drugi stopnji so interlingvalne predsta¬ vitve vir za izdelavo (sintezo) tekstov CJ. Postopki za analizo IJ so specifični za IJ in niso zasnovani za kak poseben CJ v sistemu; podobno je tudi sinteza CJ specifična za po¬ samezen CJ. Interlingvalni sistemi se ločijo po svojih zasnovah interlingvalnega jezika: »lo¬ gični« umetni jeziki ali »naravni« pomožni je¬ zik (kot je npr. esperanto), množica semantič¬ nih primitivov, ki so skupni vsem jezikom, ali »univerzalni« slovar itd. Interlingvalni projekti SP so se razlikovali tudi v poudarku na leksi- Sistem transfera kalnih (semantičnih) vidikih in sintaktičnih vi¬ dikih - torej interlingvalna leksika proti inter¬ lingvalni sintaksi. Namesto operacije v dveh stopnjah prek ene same interlingvalne predstavitve so pri transfernem sistemu tri stopnje z ustreznimi predstavitvami tako za besedila IJ kot za be¬ sedila CJ: □ prva stopnja pretvori besedila IJ v IJ trans¬ ferno predstavitev, ki rabi kot vhod za □ drugo stopnjo, ki jo pretvori v CJ transferno predstavitev, ta pa rabi kot vhod za □ tretjo stopnjo, ki izdela končno obliko bese¬ dil CJ. Interlingvalni način nujno zahteva popolno razrešitev vseh dvoumnosti in anomalij v be¬ sedilu IJ, kar omogoča prevod v katerikoli dru¬ gi jezik, transferni sistem pa se ukvarja edino z dvoumnostmi, ki so inherentne obravnava¬ nemu jeziku. Razlike med jezikoma vrste know-savoir/connaitre se tako obravnavajb med transferom. Pri analizi angleščine se know obravnava kot nedvoumen in ni potreb¬ no določiti, za katero vrsto »(po)zna(va)nja« gre. Interlingvalni način bi zahteval tako anali¬ zo, transferni pa je ne zahteva; problemi ne¬ ujemanja med leksikalnimi dosegi IJ in CJ se razrešijo v komponenti transfera. MOSTOVI 2/1989/XXIV 25 Slika 5 Sistem transfera Transferna strategija SP ustreza teoriji stratifikacije naravnih jezikov (v različne jezi¬ kovne ravni) in je zelo primerna za realizacijo različnih formalnih in računskih modelov (kon¬ čni avtomati, kontekstno neodvisne slovnice, drevesne strukture, sintaktični analizatorji, pretvorniki drevesnih struktur, logični računi itd.). Tako so vedno bolj ambiciozne generaci¬ je sistemov pomikale trojico komponent anali- za-transfer-sinteza modularno navzdol po različnih jezikovnih ravneh: □ morfologiji, □ površinski sintaksi, □ globinski sintaksi, □ semantiki (slika 6). Sistemi transfera se tako ločijo glede na »globino« analize in sinteze, kjer gre za zapo¬ redje stopenj na obeh straneh (analize in sin¬ teze), ter glede abstraktnosti transfernih predstavitev IJ in CJ; tako si lahko najbolj na »površini« predstavljamo sistem, ki opravlja transliteracijo iz enega v drug znakovni si¬ stem (npr. cirilica : latinica ali pa japonska pi¬ sava : latinica), najbolj v »globini« pa idealni sistem, ki doseže idealno raven razumevanja (in njegove predstavitve), kjer bi ista osrednja strukturna predstavitev predstavljala vse pa¬ rafraze kakega stavka v vseh jezikih (pri ta¬ kem sistemu pa transferne komponente zato nenadoma ni več! - slika 7). 26 MOSTOVI 2/1989/XXIV Slika 6 Stratifikacija jezikovnih ravni v sistemih transfera TRANSFER izvirni jezik IJ raven o- 1 ciljni jezik CJ transliteracija beseda-za-besedo \ pragmatika / \-1 V / \.7 \ / \ / x idealna raven razumevanja a z e f n i s Slika 7 Asimptotično približevanje idealni ravni razumevanja v sistemih transfernega prevoda MOSTOVI 2/1989/XXIV 27 Razlike med direktnim načinom in indirektni¬ ma načinoma Glavna razlika med novejšima indirektnima načinoma in (na splošno bolj zgodnjim) direk¬ tnim načinom je v konfiguraciji slovarjev in slovnic. V direktnem sistemu je glavna komponen¬ ta en sam dvojezični IJ-CJ slovar, ki ne vsebu¬ je le informacije o leksikalnih ekvivalentih, ampak tudi vse podatke, potrebne za morfolo¬ ško in sintaktično analizo (po potrebi tudi za semantično analizo), transfer in sintezo. Pri indirektnih sistemih pa je ta informacija razpršena po ločenih slovarjih IJ in CJ ter po ločenih slovnicah (za analizo in sintezo) IJ in CJ - bodisi po interlingvalnem slovarju in sin¬ taksi ali pa po transfernem slovarju IJ-CJ (lek¬ sikalnih ekvivalentov) in v slovnici transfernih pravil struktur IJ-CJ. Generacije sistemov in obdobja razvoja V računalništvu je običano sklicevati se na generacije računalnikov' glede na način realizacije materialne opreme računalnikov: 1. generacija: elektronke; 2. generacija: tranzistorji; 3. generacija: integrirana vezja; 4. generacija: integrirana vezja velike go¬ stote. Pri pričakovani »5. generaciji« računalni¬ kov bodo spremembe globlje oz. vzdolž več dimenzij, saj bodo serijske arhitekture nado¬ mestile paralelne, pojavljajo se nove organi¬ zacije računalniškega spomina, novi program¬ ski jeziki bodo vsebovali koncepte umetne in¬ teligence, pojavljajo se dosti zahtevnejše apli¬ kacije, med katerimi strojno prevajanje ni zadnja. Podobno poimenovanje po generacijah ve¬ lja tudi za metodologijo razvoja programske opreme in, ne presenetljivo, tudi za različne sisteme za SP, vendar tu ni takega soglasja, kaj je osnova za delitev. Nekateri takole raz¬ vrščajo generacije SP: 1. generacija: preprosti sistemi »beseda- za-besedo«; 2. generacija: sintaktična analiza; 3. generacija: vgraditev semantike določe¬ ne vrste. Nekateri pa takole: 1. sistemi direktnega prevoda; 2. indirektni sistemi; 3. sistemi, zasnovani na pristopih umetne inteligence. Zato je mogoče bolje gledati na razvoj SP skozi razvojna obdobja: 1. obdobje: od konca II. svetovne vojne do sredine 50. let; 2. obdobje: do poročila ALPAC v sredini 60. let; zanj so bili značilni ogromna podpora ameriške vlade in vojske, veliko navdušenje in precejšnja razočaranja; 3. obdobje: »tiho« obdobje, ko je bilo razi¬ skovanje osredotočeno na indirektne sisteme in ko so se uveljavili prvi operativni sistemi; 4. obdobje: se je začelo sredi 70. let z zani¬ manjem Komisije Evropske skupnosti za mož¬ nosti SP, s prvim javnim sistemom SP in z reorganizacijo te dejavnosti v Sovjetski zvezi; nadaljevalo se je s pojavom komercialnih si¬ stemov, s povečanim raziskovanjem uporabe metod umetne inteligence v SP in z oživitvijo japonskega interesa; 5. obdobje: ker so bila ostala obdobja pri¬ bližno desetletja, bi radi verjeli, da se začenja novo obdobje, za katero so značilni prava eksplozija raziskovalnih dejavnosti, povezanih z japonskim projektom »pete generacije«, in renesansa raziskovanja SP v ZDA. ZAKLJUČEK Naj vstopa v novo obdobje ali ne, bodoč¬ nost SP je varna,1 2 saj: □ zadovoljuje resnično nujne potrebe; □ je predmet raziskav in razvoja, razširje¬ nih (in medsebojno povezanih!) po ce¬ lem svetu; □ postaja komercialni produkt kot drugi tehnični pripomočki in pisarniška oprema; □ uporaba računalnika v prevajanju je real¬ nost, za mnoge je to že tako del življenja kot sam računalnik. 1 Po svoje zanimiva je uporaba izraza »generacija« za opisovanje (bistvenih) konceptualnih sprememb, ki so se na tem področju dogodile v eni sami človeški generaciji. 2 Vsaj v razvitih okoljih. 28 MOSTOVI 2/1989/XXIV Neobravnavana problematika Zaradi kompleksnosti in obsežnosti obrav¬ navanega področja je obseg tega članka precej narasel in ga tako ni mogoče nadalje¬ vati. Verjetno bi bilo zato smotrno v poseb¬ nem članku prikazati še: - bolj znane delujoče sisteme za stroj¬ no (podprto) prevajanje (, , , , ); - »obnašanje« sistemov za prevajanje v realnih okoljih (prihranki, omejitve, motivacije uporabe, prednosti, slabosti); - področje naprednih obdelav naravnega jezika (, ); - stanje računalniške obdelave jezikovnih podatkov pri nas () in možnosti uporabe dosedanjih rezultatov oz. znanja (); - nekaj specifičnosti slovenščine za raču¬ nalniško obdelavo (); - možne smeri domačega usmerjenega razvoja strojnega (podprtega) prevajanja (); - slovarček pogostejših angleških izrazov in kratic iz področja obravnavane problemati¬ ke. Literatura Tancig P. (ur.): Zbornik 4. Konference »RAČUNALNIŠKA OBDELAVA JEZIKOVNIH PODATKOV«, ROJP-4, Portorož, oktober 1988 Schubert K.: »Modu!arity in Linguistic System Design - Experiences from the DLT Machine Translation Project«; v Tancig P. »SOVA-General Purpose Software Environment for NLU Systems«; vTrappl R. (ed.): CYBERNETICS AND SYSTEM RESEARCH; North-Holland, Amsterdam, 1982 Tancig P.: »Računalniško razumevanje naravnega jezika - pregled, primerjava, ocena«; IJS Delovno poročilo, DP-4536,1986 Tancig P., Vitas D.: »Računalniško razumevanje jezika - aplikacije in produktivnost«; posebna izdaja »Infomatika i produktivnost« revije Tehnika, 1988 B. M. Sneli (ed.): TRANSLATING AND THE COMPUTER; North-Holland, Amsterdam, 1979 Vitas D., Tancig P.: »Okvir za definisanje YUTRA - jugoslovenskog sistema za automatsko prevodenje«; XXXII konf. ETAN-a, knjiga XII, Sarajevo, 1988 < VitTan-88b> Vitas D., Tancig P.: »Skice za izgradnju integrisanog ambijenta za obradu tekstuelnih informacija«; v