Strokovnf. razpravi; Večjezični sistem za govorna poizvedovanja France Mihelič, Nikola Pavcšič Laboratorij za umetno zaznavanje Fakulteta za elektrotehniko. Tržaška 25. 1000 Ljubljana Tel. + 386 61 1768 313, fax + 3H6 61 1261 631 mihelicf@fe.uni-lj.si POVZETEK V članku predstavljamo mednarodni projekt SQEL (Spoken Queries in European Languages) in posebej opisujemo dosežke raziskovalne skupine na Fakulteti za elektrotehniko v okviru tega projekta. To so: posebne podatkovne zbirke slovenskega govora in besedil, udejanjenje razpoznavalnika tekočega slovenskega govora, pomenska analiza govornih sporočil in sistem za samodejno tvorjenje slovenskega govora. ABSTRACT In the paper we present the SQEL (Spoken Queries in European Languages) project and outline the work done by the Speech Technologies Group at the Faculty of the Electrical Engineering, especially on Slovenian speech corpora, realisation of a Slovenian continuous speech recognise/; semantic analysis of spoken messages and Slovenian text-to-speech synthesis. 1 Uvod Govor jo najbolj običajen in naraven način sporazumevanja med ljudmi. Z njim lah ko človek izraža tudi najbolj zapletene misli in Čustva. Žc od začetka razvoja računalnikov v drugi polovici tega stoletja si raziskovalci prizadevajo, da bi se s strojem oziroma računalnikom sporazumevali kot z ljudmi —z govorom. Od prvih poskusov in j->rvih resnejših znanstvenih projektov s tega področja jo preteklo že veliko Časa. Preizkušenih je bilo mnogo zamisli in opravljenih veliko število sprva manj uspešnih poskusov, vendar so se raziskovalci v zadnjem desetletju s hitrim razvojem na področju zmogljivosti računalnikov in z novimi spoznanji s področij obdelave govornih signalov, razpoznavanja vzorcev, umetne inteligence in računalniškega jezikoslovja v marsičem že približali želenim ciljem. Na tržišču se že pojavljajo sistemi za narekovanje besedil za »velike« jezike, kot so angleščina, francoščina in nemščina, ki jih je mogoče uporabljati na osebnih računalnikih. Prav tako so na voljo sistemi za razpoznavanje ločeno izgovorjenih besed. Ti so od jezika neodvisni in uporabnik sam določi »zvoke« - besede, ki jih bo sistem razpoznaval. Sistemi, ki poleg razpoznavanja vključujejo tudi razumevanje bolj zapletenih govornih sporočil, izraženih z enim ali več stavki, pa so še vedno predme! znanstvenega proučevanja. Trenutno so omejeni na eno samo, dovolj ozko, področje uporabe in jih zaLo ni preprosto prilagoditi drugemu namenu. Uporabnost samodejnega razpoznavanja, razumevanja in tvorjenja govora je zelo raznovrstna, na primer; a Prostoročno upravljanje s stroji in računalniki, brez uporabe tipkovnice, miške, ipd. Primere najdemo v industriji, prometu, vojski, pri delu invalidnih oseb. ■ Uvedba samodejnih sistemov za govorno poizvedovanje prek telefona. Sem sodi poizvedovanje po prometnih, turističnih, vremenskih in drugih informacijah. Opise nekaterih takih sistemov najdemo v [2, 3, 4J, ■ Sama prevedba pisanih in drugih vidnih informacij v govor pa je pomembna pri branju besedil slepim in slabovidnim osebam, posredovanju podatkov v govorni obliki, ko smo prezaposleni s sprejemanjem drugih, predvsem vidnih podatkov (ob upravljanju vozila) ali ko vidni podatki niso dostopni (branje elektronske pošte in faksa z uporabo telefona). Uporaba omenjenih samodejnih postopkov je v marsičem odvisna od jezika, v katerem bo potekalo sporazumevanje. Tako je potrebno nekatere postopke posameznemu jeziku posebej prilagoditi, nekatere pa za izbrani jezik posebej zasnovati. Nobenega dvoma ni, da se bo uporaba jezikovnih tehnologij, med katere se ti postopki uvrščajo, s časom vse bolj uveljavila in bo marsikje poenostavila in pocenila dostop do informacij kakor 1998-Številka 4-letnik Vi p tponii* ud NFORM ATIKA Strokovnf. razpravi; tudi nekatere proizvodne industrijske postopke. Tako bomo tudi pri nas prej ali sloj pristopili k uvajanju jezikovnih tehnologij. Ce želimo, da se bomo s samodejnimi napravami lahko sporazumevali in jih uporabljali v slovenščini, je raziskovalno in razvojno delo na tem področju tudi pri nas nujno. Pričujoči prispevek govori o rezultatih dela n;i tem področju pri mednarodnem projektu, pri katerem je sodelovala tudi raziskovalna skupina iz Slovenije. 2 Predstavitev projekta SQEL Letos 24. aprila se je z znanstvenim delovnim srečanjem v okviru mednarodne konference Artificial Intelligence in Industry - AIU' 98 |5| v Stari Lesni na Slovaškem končal mednarodni (riletni projekt Spoken Queries in European Languages (SQFL - Govorjena poizvedovanja v evropskih jezikih) iz sklopa projektov Copernicus, ki jih denarno podpira Evropska skupnost. Pri projektu so kol partnerji sodelovali raziskovalci i/. Češke1, Nemčije, Slovaške2 in Slovenije. Slovenijo je pri tem projektu predstavljala raziskovalna skupina šestih raziskovalcev pod vodstvom prof. Nikole Pavešiča iz Laboratorija za umetno zaznavanje na Fakulteti za elektrotehniko Univerze v Ljubljani. Cilj projekta je bit razviti samodejni sistem za posredovanje prometnih informacij po telefonu, ki bo zmožen iz klicalčevega govora sprva ugotoviti, v katerem jeziku bo potekal pogovor in nato z njim voditi razgovor na vsebinsko omejenem področju poizvedovanj o letalskih oziroma železniških povezavah. Predvidevanja za uporabo samodejnih sistemov za dialog med človekom in strojem velikokrat zadevajo ravno področje potovanja. Večjezičnost takih sistemov je nujna, ker bo veliko uporabnikov takih sistemov tujcev. Prav samodejno razumevanje govora odpira nove možnosti posebej za potnike, ki govorijo le svoj lasten jezik in ki neprestano zabredejo v težave v pridobivanju kakršnihkoli informacij v tuji deželi. Večjezično razumevanje govora tako lahko omogoči pravo olajšanje Primeri za to so: prijavljanja v hotelu, organizacija sestankov ali urejanje potovanja. Samodejno večjezično razumevanje govora po telefonu lahko omogoči te usluge kadarkoli in kjerkoli [1, 10). Samodejni večjezični sistem mora biti sposoben: m ugotoviti, v katerem izmed štirih možnih jezikov (češki, nemški, slovaški, slovenski) je klicalec nagovoril sistem; m razpoznali govor v omenjenih štirih jezikih; 1 Tehnična univerza v Pilznu, prof. Vac lav Malouick 2 lehniČna univerza v Košicah, prof. Lhlian Kruküvec. m ugotoviti namen klicalčevega poizvedovanja; ■ poiskati želene informacije v podatkovni zbirki informacijskega sistema; ■ postaviti morebitna vprašanja pri nepopolnih, slabo izraženih ali nepravilno razpoznanih zahtevah klicalca; ■ tvoriti odgovore v obliki govornega sporočila v jeziku, ki ga govori klicalec. Projekt so vodili nemški sodelavci iz Univerze Friderika - Aleksandra Erlangen-Nürnberg iz Oddelka za razpoznavanje vzorcev (Lehrstuhl für Mustererkennung) pod vodstvom prof. Heinrichs Niemanna, Ta skupina je med sodelovanjem pri predhodnih projektih že razvila delujoč sistem FVAIi (Erkennen - Verstehen - Antworten - Rückfragen) za govorno telefonsko poizvedovanje o železniških povezavah v nemškem jeziku |2J. Na podlagi njihovih predhodnih izkušenj so si raziskovalne skupine prizadevale zgraditi nemško -slovanski štiri jezični sistem s prej naštetimi zmožnostmi (Slika 1). Raziskovalci iz slovanskih govornih področij so sisteme za svoje jezike zasnovali po obstoječem nemškem sistemu in razvili ustrezne manjkajoče komponente za svoj jezik [6, 7, 8, 9|. Za češemo, slovaščino in slovenščino je bilo potreb no udejaniti razpoznavainike govora, ki bodo sposobni dovolj zanesljivo razpoznavati spontani govor s področja letalskih oz. železniških povezav prek telefona. Za te tri jezike je bilo treba na novo razviti jezikovne razčlenjevalnike, ki bodo lahko samodejno razbirali pomen uporabnikovih poizvedovanj. Prav tako je bilo potrebno razvijati postopke za samodejno tvorjenje govora za podajanje informacij. Zasnovati smo morali osnovni podsistem za razpoznavanje jezika, ki lahko dovolj hitro - že na podlagi nekaj izgovorjenih besed - ugotovi, za kateri jezik gre [10]. Sistem za ugotavljanje govorcevega jezika ima enako strukturo kot sistemi za razpoznavanje besed s to razliko, da je sposoben razpoznavati besede iz vseh jezikov. Z uporabo s toh a stičnih slovnic za vse štiri jezike, ki dovoljujejo le povezave med besedami v enem samem jeziku, po nekaj sekundah modul oceni verjetnosti štirih nizov besed in izbere najverjetnejši jezik. Podsistem za dialog, ki je od jezika neodvisen, smo vsi prevzeli od nemških sodelavcev s tem, da so češki sodelavci tudi ta modul v svojem podsistemu nekoliko spremenili [6]. To je tisti del sistema, ki na podlagi pomena razpoznanega govora omogoča iskanje želenih informacij in ugotavlja morebitne manjkajoče ali protislovne podatke, ki jih je potrebno v pogovoru z uporabnikom razjasniti. Groba struktura sistema je razvidna iz Slike 1. 0 upombuM NFORMATHiA 1996 številka 4 letnik VI Strokovnf. razpravi; ; podatkovna J ; podatkovna | ; podatkovna! ; podatkovna : ; zbirka 1 I j zbirka 2 ! ; zbirka 3 j ;__zMrka4_ - slovenščina - nemščina slovaêÈina češčina lagoditvami na različne vrste telefonskih signalov odpraviti. Pričakujemo, da bomo večjezični sistem v kratkem vzpostavili tudi v Ljubljani, kjer bo na voljo za preizkušanje tudi klicalcem i/ Slovenije. 4. - v ■¡i. . I akustična analiza ■j. raz poznava ezika < •i obdelava signala Je/iknvm modal 3 Slika 1. Struktura večjezikovnega sistema za govorna poizvedovanja 3. Skupni dosežki Na zadnjem skupnem srečanju smo ugotovili, da smo zastavljene cilje projekta dosegli in marsikje tudi presegli ter skupaj pridobili veliko novega znanja in izkušenj. Večjezični eksperimentalni sistem, ki deluje in je trenutno vzpostavljen le v Nemčiji - po telefonu (št. 0049 9131 16287), bo po nekaterih prilagoditvah kmalu zopet dostopen - še preboieva nekatere otroške bolezni. Tako zaradi svoje velike kompleksnosti (na enem računalniku - delovni postaji HP 9(100 7.15/125 -v nekaterih delih procesa sodelujejo hkrati štirje razpoznavalniki govora) sistem deluje občutno počasneje od primerljivih enojezičnih sistemov. Prav tako se je med preizkušanjem na Slovaškem pokazalo, da razpoznavatni k jezika ne deluje dobro, ko klicalec uporablja mobilni telefon, za kar je krivo specifično razmerje signala in šuma in oblika motenj, ki pri laki povezavi nastanejo in na katere sistem ni bil naučen. Vendar so le težave bolj tehnične kot vsebinske narave in jih bo moč /. izboljšavo postopkov in s pri- Prispevek Slovenskih sodelavcev Povejmo še, kako smo se dela na tem projektu lotili v Sloveniji in kateri dosežki in spoznanja so pomembni predvsem za naše okolje. Prej omenjena skupina raziskovalcev v Laboratoriju za umetno zaznavanje se že dalj časa intenzivno ukvarja s problematiko samodejne obdelave, razpoznavanja in t vor jen ja slovenskega govora. Prav tako že več let formalno in neformalno sodelujemo z Oddelkom za razpoznavanje vzorcev na Univerzi Erlangen -Nürnberg prek skupnih projektov, izmenjav raziskovalcev, znanstvenih srečanj in skupnih objav. Tako je bila vloga za skupni projekt pri Evropski skupnosti in delo na tem projektu nekako logično nadaljevanje skupnih prizadevanj. V našem Laboratoriju se posvečamo prav od govorca neodvisnemu razpoznavanju spontanega govora. Tovrstno razpoznavanje potrebujemo tudi pri sistemu za govorno poizvedovanje po telefonu, kjer od uporabnika ne moremo zahtevati, da govori na vnaprej predpisan način - na primer tako, da bo med besedami delal daljše premore, še manj pa, da bomo sistem vnaprej prilagojen klicalčevcmu glasu. Za udejanjenje takega sistema potrebujemo obsežne zbirke govornih podatkov Čim več različnih govorcev, na podlagi katerih samodejni sistem učimo in tudi preizkušamo. Za tematsko omejeno področje dialoga pa potrebujemo tudi posebej izbran govor, ki se nanaša na izbrano področje uporabe. Nadalje lahko določimo potrebno Število besed, ki jih bomo morali razpoznavati, oblike vprašanj in odgovorov in možne poteke pogovorov. Pomenski obseg pogovorov, ki jih bo sistem obvladoval, natančno definiramo. V ta namen smo v sodelovanju s slovenskim letalskim prevoznikom Adtio Airways spremljali več ur pogovorov v njihovem centru za rezervacije letalskih poletov, zbrali značilne pogovore in se tematsko omejili le na poizvedovanja o urnikih poletov z Brniškega letališča. Gre za vprašanja o obstoju določene letalske povezave, letalskem prevozniku, času prihoda in odhoda ter trajanju poleta. Poizvedovanja smo nato smiselno uredili, sestavili seznam stavkov pogovora 1998 številka 4 - letnik VI i (Jwjh¿JI in! NFO-R M ATI KA Strokovnf. razpravi; ter z uporabo generativne Slovnice^ množico s t d v kov razširili, V laboratorijskem okolju smo s petdeset govorci prek telefona in neposredno v računalnik v digitalni obliki posneli govorno zbirko K850 stavkov, to je približno 28 ur govora. Zbirko smo dopolnili s seznamom izgovorjenih stavkov, leksikonom uporabljenih besed [12], ki je vseboval fonetični prepis besed in njihove skladenjske in pomenske opise, ter z nekaterimi podatki o govorcih in njihovem načinu govora [13]. 'a podatkovna zbirka predstavlja eno prvili obsežnejših dokumentiranih govornih zbirk za slovenski govor in ni primerna zgolj pri postavljanju in preizkušnji! sistemov za razpoznavanje tekočega slovenskega govora, marveč tudi za druge študije s področja slovenskega jezika. Ker gre tu za fonetično označeno zbirko podatkov, je na njej možno proučevati tudi ionetične lastnosti slovenskega govorjenega jezika in dialektov govorcev. Prav to zbirko podatkov smo s pridom uporabili za določanje nekaterih prozodičnih karakteristik slovenskega govora, kar smo potrebovali pri izgradnji podsistema za samodejno tvorjenje govora 114, 15j. Posebno pozornost smo posvetili izbiri množice osnovnih govornih enot za razpoznavanje slovenščine ter izbiri postopkov za določanje značilnosti slovenskega govora, na katerih temelji kasnejše razpoznavanje. Pri tem smo se lahko naslonili na spoznanja predhodnih in tekočih raziskav [16 - 21], Razpoznavanje besed je temeljilo na uporabi polzveznih [18,19] in v zadnjih preizkusili zveznih [20] prikritih Markovoviii modelov ter uporabi stohasličnili slovnic [IJ|, Pri tem smo uporabili tiidi že razvite 3 V stavkih smo spreminjali imena letalskih družb, krajev in časov priho da nt odhodu in jih Širili oziroma krčili z dodajanjem ali izpuščanjem neka terih hesed ¡17 j. programske pakete ISADORA [22] in HTK [231. Naslednja preglednica prikazuje, kako je naraščala uspešnost razpozniavalnika besed s spreminjanjem in dopolnjevanjem postopkov. Preizkusi so vedno potekali na podatkovni zbtrki GOPOLIS 113). Poseben in od jezika močno odvisen del v okviru celotnega sistema je bil pomenski razčlenjevalnik razpoznanega govora. Njegova naloga je, da razpoznani niz besed pomensko opredeli in ga zapiše v pomensko predstavitvenem jeziku SIL (Semantic Intcr-pretation 1 .anguage). Ker je razpoznani niz besed zaradi napak pri razpoznavanju in ohlapnega izražanja uporabnikov pogosto skladenjsko nepravilen, mora biti razčlenjeval ni k na take napake čim bolj neobčutljiv, iz razpoznanega niza pa mora izločiti le za sistem pomembne pomenske podatke. Sistema na primer prav nič ne zanima, ali želi uporabnik v kraju pristanka letala obiskati svojo staro mamo, in ali je uporabnik že polnoleten. Ker je bil problem razumevanja govora tematsko močno omejen, smo se te naloge lotili z ugotavljanjem manjšega števila pomenskih kategorij, kol so kraj prihoda, kraj odhoda, letalski prevoznik, časovni izrazi, potrditve in uvodne ter zaključne izjave. Vse te kategorije smo z uporabo leksikona možnih besed in ustreznimi programskimi postopki skušali odkriti med razpoznanimi besedami in jih ovrednotiti [24]. Delovanje modula za pomensko analizo smo preizkusili na vseh izgovorjenih stavkih govorne zbirke GOPOLIS [13] in na samodejno razpoznanih stavkih 10-ih govorcev. Rezultate pravilnosti te analize, ki so obsežne je predstavljeni v ¡25] podajamo v Tabeli 1. Gre za subjektivno primerjavo med rezultati samodejnega razčlenjevanja in rezultati, kot bi jih podal ocenjevalec. Iz tabele lahko razberemo, da uspešnost pravilne analize ni bila posebej odvisna od govorca ter, da je analiza v 17% odstokih primerov dala še vedno zadovoljive rezultate kljub temu, da so se pri Govorec Število Pravilno Delno Napačno Pravilno kljub napakam stavkov pravilno pri razpoznavanju besed 1 137 83% 9% 8% 36% 2 152 83% 4% 13% 31% 3 145 83% 6% 11% 17% 4 135 87% 8% 5% 20% 5 147 83% 4% 13% 8% 6 132 83% 8% 9% 16% 7 134 87% 6% 7% 17% 8 148 86% 5% 9% 14% 9 147 85% 3% 12% 10% 10 150 82% 7% 11% 7% Skupaj 1427 84% 6% 10% 17% Tabela 1: Rezultati preizkušanja pravilnosti samodejne pomenske analize lifjmrj/ninlNFORMATIKA 1996 ■ ilevilka 4 ■ letnik VI Strokovnf. razpravi; samodejnem razpoznavanju besed pojavljale napake. Posnetki govora govorcev I in 2 so bili bistveno slabše kvalitete, kar se odraža le v višjem deležu pravilnih razčlenitev v zadnjem stolpcu tabele. Pomemben i/.virni prispevek naše skupine pri tem projektu je tudi podsistem za samodejno tvorjenje slovenskega govora, ki smo ga zasnovali tako na široka, da predstavlja zaključeno celoto 126]. Sistem jc sposoben tvoriti slovenski govor na podlagi poljubnega slovenskega besedila in tako ni uporaben le v sistemih za posebej določena govorna poizvedovanja, l ak sistem je na primer zelo uporaben za branje vidno prizadetim osebam (281 in sploh vedno, ko uporabnik ne more prejemati informacij v pisni obliki. Štetem smo v skladu z mednarodnimi standardi s tega področja ovrednotili in predstavili domači in tuji strokovni javnosti [27], Na tem mestu podajamo le preglednico (Slika 2), ki se nanaša na preizkus razumljivosti samodejno tvorjenega govora v opisovan cm poizvedovalnem sistemu. !/ baze letalskih povezav smo sestavili šablono po naslednjem ključu: Letalo letalske družbe CARfUER, številka poleta FLIGHT NO, ki prihaja iz DEPPORT, bo pristalo na letolišču ARR PORT ob ARR TIME. Tako je vsako sporočilo sestavljeno iz dveh delov4. Nespremenljivi del določa ogrodje sporočila, spremenljivi del pa vsebuje informacijo, ki jo sporočilo podaja. Primer sporočila: 4 Pa mednarodnih priporočilih ITU (International TeltCommunicatiOfl Union) za preizkušanje sin tel iza t orjev govora. Letalo letalske družbe Adrla Airways, številka poleta JP743, ki prihaja 12 Splita, bo pristalo no letallSču Skopje ob 13:50. Poslušalci so vsako sporočilo slišali le enkrat. Prosili smo jih, da v naprej pripravljene tabele zapisujejo le podatke, po katerih jih povprašujemo, to je o: ■ letalski družbi, ■ številki poleta, ■ letališču odhoda, m letališču prihoda in ■ času prihoda. Pri tem smo jih opozorili, da pravilno črkovanje krajevnih imen ni potrebno. Mnogo imen letališč je bilo namreč tujega izvora, kot npr. < Charles de Gaulle > in . Pri nepravilno črkovanem imenu letališča smo šteli pol pravilnega odgovora. Analiza odgovorov poslušalcev je pokazala naslednje: Zanimiv rezultat ocenjevanja sinteze govora je ludi podatek, da je več kot dve tretjini poslušalcev menilo, da je sintetizator, v obliki kot je bil predstavljen, primeren za uporabo pri podajanju informacij po telefonu. Med tretjino poslušalcev, ki so ocenili uporabo sintetizator ja negativno, pa je bilo nekaj takih, ki uporabo odklanjajo zalo, ker se jim ne zdi pravilno, da bi stroji ljudem prevzemali delavna mesta. Bralci z dostopom do interneta pa si lahko podatke o sistemu in nekaj vzorcev samodejno tvorjenega govora ogledajo in poslušajo na naslovu http://luz.fe.uni-Ij.si/english/SQniVsynthesis-eng.html . 1'rav tako si nekatere podatke v zvezi s projektom SQEL ogledate na naslovu hltp://luz.fur.uni-lj.si/eng-lish/SQEL/home-eng.html. 100% 95% | 90% 2 O- 85% 80% 75% 70% 82% 91% 97% 1995(18) 1996(19] 1997(9] 1998(20] Loto raziskavo tn vir § o CD T) > te 130% 100% ao% (50% 10% 20% 0% 100.0% 99,0% §1 ■ II 03.0% ... :: BI eo.o% 3 rubrika 96.7% mm:« 1 - letalska družba 2 - številka poleta 3 - letališče vzleta 4 - letališče pristanka 5-čas prihoda Slika 2: Delež pravilno razpoznanih besed na podatkovni zbirki G0P0LIS v različnih preizkusih 1998 številka4-letnikVI Slika 3: Delež pravilno razpoznanih besed v sintetiziranih stavkih, podan po posameznih rubrikah (število poslušalcev, ki so occnjevali sintetizator govora n = 21), iiporobr¡¡A NFOR MATIKA Q Strokovnf. razpravi; O obsegu opravljenega dela naše skupine priča na t» vezana biliografija 39 del. Pri tematiki projekta pa so v Sloveniji v triletnem nbdubju sodelovali mladi raziskovalci z magisteriji in doktorati ter mnogi študenti dodiplomskega Študija. 5 Primer dialoga V tem razdelku navajamo dva primera uspešnega dialoga uporabnika z računalnikom. Pri branju prepisov pogovorov iahko ugotovimo, da računalnik ni vselej pravilno razpoznal klicateljevega govora, V teh primerih napake pri razpoznavanju niso vplivale na pomensko analizo. 1. DIALOG MEDIJ IZGOVORJENO ALI RAZPOZNANO BESEDILO sistem: Dober dan, tukaj avtomatski sistem za letalske informacije Adrie Airways. Kakšno informacijo potrebujete? izgovorjeno: Jutri popoldne bi rad letel v London razpoznano: jutri popoldne bi rad leti v L on [ion sistem: Želite leteti v sredo. 23. aprila, med 12. in 19. uro? Želite leteti v London? Od kod želite leteti? izgovorjeno: Da, iz Ljubljane razpoznano: od iz ljubljane sistem: Želite leteti iz Ljubljano? izgovorjeno: Da razpoznano: da sistem: V London letite v sredo 23. aprila iz Ljubljano ob 14. uri 10 minut, prihod v London ob 15. uri 25 minut. Ponavljam, čas odhoda ob 14, uri 10 minut, prihod ob 15, uri 25 minut. Ali naj ponovim? izgovorjeno: Ne razpoznano: ne sistem: Želite dodatne informacijo? izgovorjeno: Hvala ne razpoznano: hvala ne sistem: Adijo, 2. DIALOG MEDIJ IZGOVORJENO ALI RAZPOZNANO SPOROČILO sistem: Dobro jutro, tukaj avtomatski sistem za letalske informacije Adrie Airways. Kakšno informacijo potrebujete? izgovorjeno: Ali letite jutri zjutraj za Frankfurt? razpoznano: ali letite jutri zjutraj za Frankfurt sistem: Želite leteti v soboto 31. maja med 3. in 10. uro? Želite leteti v Frankfurt? Od kod želite leteti? izgovorjeno: Ja, za Frankfurt iz Ljubljane razpoznano: jaz frankfurt iz ljubljane sistem: Želite leteti iz tjubljane? izgovorjeno; Ja razpoznano: bi ja sistem: Za Frankfurt letite v soboto, 31.5., iz Ljubljane ob 9. uri 15 prihod v Frankfurt ob 10. uri 40. Ponavljam čas odhoda ob 9. uri 15 prihod ob 10. uri 40. Ali naj ponovim? izgovorjeno: Ne hvala. razpoznano: kdaj hvala sistem: Adijo, jfljdiMt« mi NFOR M ÄTIKA 1998 - Številka 4 - letnik Vi Strokovnf. razpravi; 6 Zaključek Triletno delo pri skupnem projektu je zaključeno, seveda pa se delo na tem področju pri nas in na tujem nadaljuje. Preizkusiti in udejnniti nameravamo Se mnogo novih idej in izboljšav s tega področja in vsekakor vsaj neformalno nadaljevati s skupnimi raziskavami in sodelovanjem z drugimi raziskovalnimi skupinami, Še zlasti s slovenskimi slavisti in jezikoslovci. Ovire pri našem nadaljnjem raziskovalnem in razvojnem delu pa gotovo postavljajo restriktivne razmere na raziskovalnem področju v naši državi. Čeprav je jasno, da so raziskave s področja jezikovnih tehnologij za Slovence s stališča naše nacionalne identitete še kako pomembne in da jih namesto nas ne bo opravil nihče drug, se pri podpori delu na tem področju pri nas izkazuje drugače, lio zopet prišlo do razmer, da bomo kupovali ustrezno, večkrat tudi manj kvalitetno, znanje in izdelke v tujini, ker smo po nemarnem zavrgli tisto, česar smo se naučili in kar smo naredili doma? 7 Viri 1. Y.K. Muthusamy, E. Barnard, R.A. Cole. Reviewing Automatic Language Identification^ !£EE Signal Processing Magazine, October 1994, str. 33 - 41. 2. W. Eckert, T. Kuhn, H. Niemann, S, Rieck, A. Scheuer, E.G. Schukat-Talamazzini. A spoken Dialogue System for German Intercity Train Timetable Inquiries. Eurospeech'93, Berlin 1993, str. 1871-1874. 3. V. Zue, S. Seneff, J. Glass, L. Hetherington, E. Hurley, H. Meng, C. Pao, J. Polifroni, R. Scheming, P Schmid. From Interface to Content: Translingual Accès and Delivery of on-line information. Proc. Lurospeech 1997, Rodos 1997, str. 2227-2230. 4. L. Haaren, M, Blasband, M. 6erritsen. M, Schijdel. Evaluating Quality of Spoken Dialogue Systems: Comparing a Technology-focused and User-focused Approach, First International Conference on Language Resources and Evaluation. izd. A. Rublo, N. Gallardo, R. C, y A. Tehada. Granada 1998, str. 655-660. 5. Proceedings of the Scientific Conference Artificial Intelligence in Industry, izdali Jan Sarnovsky, Peter Sinčak, Marian Mach, Marek Hatala, Visóle Tatre, Slovaška, april 1998, 479 str. 6. V. Matoušek, R Mautner. Spontaneous Speech Recognition, Proceedings of the 2""SQEL Workshop on Multi-Liguai Information Retrieval Dialogs, Plzen 1997, str. 84 - SÔ. 7. Jana Km ris ova, Vaclav Matoušek, Jana Ocelikova. Development of a Dialogue Strategy, Proceedings of the Scientific Conference Artificial Intelligence in Industry, izdali Jan Sarnovsky, Peter Sinčak, Mar/an Mach, Marek Hatala, Visóle Tatre, Slovaška, april 1998, str. 457 468. 8. D. Krokavec, J. Ivanecky. Slovak Spoken Dialog System. Proceedings of the Scientific Conference Artificial Intelligence in Industry, izdali Jan Sarnovsky, Peter Sinčak, Marian Mach, Marek Hatala, Visoke Tatre, Slovaška, april 1998, str. 447-456. 9. I. Ipšič, F. Mihelič, S. Dobrišek„ J. Gros, N. Pavešič. An Overview of the Spoken Queries in European Languages Project: The Slovenian Spoken Dialog System, Proceedings of the Scientific Conference Artificial Intelligence in Industry, izdali Jan Sarnovsky, Peter Sinčak, Marian Mach, Marek Hatala, Visoke Tatre, Slovaška, april 1998, str. 431-438. 10. S. Harbeck, E. Noeth, H. Niemann. Multilingual Speech Recognition. Proceedings of the 2n"SQEL Workshop on Mul ti-Ligua) Information Retrieval Dialogs, Plzen 1997, str. 9-15. 11. J. Gros, F. Mihelič, N. PaveŠIč. Sentence Hypothe-sisation using Ng-grams, Proceedings of the Eurospeech95, Madrid, september 1995, str. 1759-1762. 12. J. G ros, M. Žganec, F. Mihelič, N. Pavešič. A Lexicon for Automatic Speech Recognition and Understanding, Proceedings of the POSTCO LING94 International Workshop on directions of Lexical Research, izdala Nicoletta Calzonari in Chengming Guo, Pekingr LR Kitajska, avgust 1994, str. 186-191. 13. S. Dobrišek, J. Gros, F. Mihelič, N. Pavešič. Recording and Labelling of the GOPOLIS Slovenian Speech Database. First International Conference on Language Resources and Evaluation. izd. A. Rubio, N. Gallardo, R. C. y A. Tehada. Granada 1998, str. 1089-1096. 14. J. Gros, N. Pavešič, F. Mihelič. Speech Timing in Slovenian TTS, EUROSPEECH'97, Proceedings of the 5"1 European Conference On Speech Communication and Technology, Rocíos, Grčija, september 1997, Vol. 1, str. 323-326. 15. J. Gros , N. Pavešič, F. Mihelič. Syllable and Segment Duration at Different Speaking Rates in the Slovenian Language, EUROSPEECH'97, Proceedings of the 5m European Conference On Speech Communication and Technology, Rodos, Grčija, september 1997, Vol. 2, str. 951—954. 1998 SlevilKa4 - letnik VI Iifinnih i/il NFORM WIKA 11 Strokovnf. razpravi; 25. 26. 16. F. Mihelič, i. Ipšič, S. Dobrišek, N. Pavešič. Feature Representations and Classification Procedures for Slovene Phoneme Recognition, Pattern Recognition Letters 13, North-Holland, Nizozemska, december 1992. str. 879—891. 17. S. Dobrišek, F. Mihelič, N. Pavešič. Merging of 24. Time Delayed Feature Vectors into Extended Sector in Order to Improve Phoneme Recognition. Adaptive Methods and Emergent Techniques for Signal Processing and Communications, Proceedings of the Am COST 229 Workshop, izdal Jurij F. Tasič, Ljubljana, Slovenija, april 1994, str. 145 -150, 18. I. Ipšič, F. Mihelič, E.G. Schukat-Talamazzini, N. Pavešiae. Generating word hypotheses in the Slovene continuous speech recognition. Visual Modules, izdala F. Solina in WG. Kropa f se h, Maribor, maj 1995, str. 77-85. 19. I. Ipšič, F. Mihelič, N. Pavešič, E. N0th. Slovenian word recognition. 3"1 Slovenian German and 2nd SDRV Workshop on Speech and Image Recognition. Ljubljana. 1996, str. 87-96. 20. S. Dobrišek. Analiza in razpoznavanje glasov v govornem signalu. Doktorska disertacija v pripravi. Fakulteta za elektrotehniko, Ljubljana, 1998. 21. E.G. Schukat-Talamazzini. Automatische Sprache- 28. rkennung, Vieweg, Braunschweig, 1995. 22. S. Young. The HTK book (for HTK Version 2.1), Cambridge University, Entropie Cambridge Research Laboratoiy Ltd. 1997. 23. S, Dobrišek, F. Mihelič, N. Pavešič. A Multiresolu-tionally Oriented Approach for Determination of 27. Cepstral Features in Speech Recognition. EUROSPEECH'97, Proceedings of the 5th European Conference On Speech Communication and Technology, Rodos, Grčija, september 1997, Vol. 3, str. 1367—1370. K. Pepelnjak, F. Mihelič, N. Pavešič. Semantic Decomposition of Sentences in the System Supporting Flight Services, CIT - Journal of Computing and Information Technology, Vol. 4, No. 1, Zagreb 1996, Str. 17-24, K. Pepelnjak, F. Mihelič, N. Pavešič. Ocenitev delovanja jezikovnega analizatorja. Zbornik pete ElektrotehniDv ske in računalniške konference ERK'96, Vol. B, Portorož, september 1996,str. 239-242. J. Gros, N. Pavešič, F. Mihelič, Text-to-Speech Synthesis: A complete system for the Slovenian Language. CIT - Journal of Computing and Information Technology, Vol. 5, No. 1, Zagreb 1997, str. 11-19. J. Gros, F. Mihelič, N. Pavešič. Speech quality evaluation in Slovenian TTS. Edt. A. Rubio. First International Conference on Language Resources & Evaluation, Vol. 1, Granada, Špaija, 28.-30. maj, 1998, str. 651-654. S, Dobrišek, J. Gros, N. Pavešič. F. Mihelič. HOMER: a Voice-Driven System for Slovenian Text-to-Spcech Synthesis. International Workshop on Intelligent Communications and Multimedia Terminals, Proceedings of the COST #254 Workshop in Ljubljana, izdala J.F. Tasič in U. Burnik, Ljubljana, november, 1998, str: 71-74. France Mihelič je diplomiral na Fakulteti za naravoslovje in tehnologijo - smer tehniška matematika, magistriral na Ekonomski fakulteti - podiplomski Študij Operacijsko raziskave in doktoriral na Fakulteti za elektrotehniko Univerze v Ljubljani. Je izredni profesor na Fakulteti za elektrotehniko na Katedri za sisteme, avtomatiko in kibernetiko. V zadnjem desetletju intenzivno deluje na področju govornih tehnologij, kjer je avtor številnih znanstvenih prispevkov, sodelavec pri več raziskovalnih projektih in vodja raziskovalnega projekta. * Nikola Pavešič je diplomiral, magistrirai in doktoriral na Fakulteti za elektrotehniko Univerze v Ljubljani, Na tej fakulteti je tudi redni profesor na Katedri za sisteme, avtomatiko in kibernetiko. Je avtor številnih raziskovalnih publikacij, predstojnik dveh laboratorijev, in vodja vec raziskovalnih projektov s področij razpoznavanja vzorcev, govornih tehnologij in računalniškega vida. u¡xnxib> uA NFOR M ATI KA 1998 Številka 4 - letnik VI