Govorni in jezikovni viri slovenšËineza samodejno razpoznavanje tekoËega govora Gregor Donaj, Andrej Žgank, Mirjam Sepesy MauËec Univerzav Mariboru,Fakultetaza elektrotehniko, raËunalništvoininformatiko, Smetanovaul.17,2000 Maribor gregor.donaj@um.si, andrej.zgank@uni-mb.si, mirjam.sepesy@uni-mb.si IzvleËek Govorje za ljudi najbolj naravno komunikacijsko sredstvo. Govorno komunikacijos strojem omogoËajo sistemi za samodejno razpoznavanje govora. RazliËne aplikacije razpoznavanja govora so za stroj razliËno zahtevne. Med najzahtevnejše štejemo samodejno razpoznavanje tekoËega govora. Aplikacije razpoznavanja govora temeljijo na statistiËni obdelavi govornega signala ter gradnji akustiËnih in jezikovnih modelov. Za izdelavo teh modelovje pomembna uporaba kakovostnih govornihin jezikovnih virov.Vprispevku opisujemo govornein jezikovne vire za slovenšËino,ki se uporabljajo za samodejno razpoznavanje govora.Predstavimo tudi modularno zgradbo razpoznavalnika.Veksperimentalnem sistemu analiziramo vpliv uporabe modelovv razpoznavalniku tekoËega govorav domeni dnevnoinformativnih oddaj. KljuËne besede: govorni viri, jezikovni viri, akustiËni modeli, jezikovni modeli, samodejno razpoznavanje govora. Abstract Slovene Speech andLanguage Resources for automatic Speech Recognition Speech is the most natural way of communicating. Speech communication with machines is made possible with systems for automatic speech recognition. Different applicationsof speechrecognitionare differently challenging. Amongthe most challengingis continuous speechrecogniti­on. Speechrecognition systems are based on statistical speech signal processing and the building of acoustical and language models. Quality speechand languageresourcesare neededtobuildthese models.Thispapergivesan overviewofspeechand languageresourcesfor Slovene, which are usedin automatic speechrecognition.Amodular structureofa speechrecognizeris alsopresented.In an experimental system the impactof using different models on the accuracyinaBroadcast News speechrecognition systemis analyzed. Key words: speechresources, languageresources, acoustical models, language models, automatic speechrecognition. 1 UVOD lirajo akustiËne znaËilnosti govora. Ti modeli služijo prepo­Govor kot Ëlovekovo najbolj naravno komunikacijsko sred­znavanju fonemov in besed. Razpoznavanje tekoËega govora stvo pomeni za stroj zelo kompleksno nalogo. Razpoznavanje pa pomeni še veËjo zahtevnost za akustiËno modeliranje, saj tekoËega govora in razpoznavanje spontanega govora sta za je treba upoštevati tudi prehode med besedami, ker so v te­raziskovalce polna izzivov.Posebnosti posameznih jezikov koËem govoru zabrisanemejemed besedami. Dodatnosopri razpoznavanje govoraše dodatno zapletejo.Tudi slovenšËina razpoznavanju tekoËega govora velikega pomena statistiËni kot visoko pregibni jezik spada v skupino bolj zahtevnih jezi­jezikovni modeli. Z njimi modeliramo verjetnosti zaporedij kovza razpoznavanje. besedvjeziku.Pri izdelavi jezikovnih modelovse pogostopo­Poznamo razliËne pristope samodejnega razpoznavanja govo­služujemo pisnih virov jezika.PoslediËno so jezikovni modeli ra(angl.automaticSpeech Recognition,aSR).Med prepro­bolj primerniza razpoznavanje branega govora,manjpaza stejše štejemo razpoznavanje izoliranih besed z majhnim razpoznavanju spontanega govora (Žgank&Sepesy MauËec, slovarjem, med zahtevnejše pa razpoznavanje tekoËega go­2010). voraz velikim slovarjem (Sepesy MauËec, Rotovnik, KaËiË& Tako za izdelavo akustiËnih kot jezikovnih mode­Brest, 2009). Za obe aplikaciji je pomembno, da imamo izde­lov so pomembni kakovostni in dovolj obsežni go­lane dobre modele govora.Vprimeru razpoznavanja izolira­vorni oz. pisni viri jezika. V Ëlanku bomo predstavili nih besed so predvsem pomembni akustiËni modeli, ki mode­nekatere takšne vire, ki so na voljo za slovenski jezik. Njihovo uporabnost bomo predstavili na primeru razpoznavalnika tekoËega govora UMB Broadcast News, ki je bil razvit na Fakulteti za elektrotehniko, raËunalništvo in informatiko v Mariboru. V drugem razdelku bomo predstavili osnovno zgradbo in module sistema za ASR. V tretjem razdel­ku bomo opisali posebnosti slovenšËine, zaradi ka­terih je ta za razpoznavanje govora veËji izziv. Sledi opis osnovnih govornih in jezikovnih virov za slo­venšËino, ki so uporabni za gradnjo sistemov ASR. V Ëetrtem razdelku je opisan eksperimentalni sistem, v petem razdelku pa rezultati eksperimentov. V šestem razdelku sledi sklep. 2 SaMODEjNORaZPOZNaVaNjEGOVORa Delovanje sistemov za samodejno razpoznavanje go­vora delimo na dve fazi. Prva faza je uËenje jezikov­nih in akustiËnih modelov. Blokovna shema uËenja modelov je prikazana na sliki 1. KonËni rezultat te faze so akustiËni in jezikovni model ter slovar besed. Slika 1: Postopek uËenja akustiËnih in jezikovnih modelov Slika 2: Delovanje razpoznavanja govora Druga faza je razpoznavanje. Njena blokovna du pa posreduje razpoznano zaporedje besed. Sistem shema je prikazana na sliki 2. Sistem za razpoznava­ima modularno zgradbo, module pa lahko razdeli­nje govora na vhodu sprejme zvoËni signal, na izho­mo v dve skupini: na module za predprocesiranje govora in module za razpoznavanje govora. Vhod­ni zvoËni signal najprej obdela modul za akustiËno segmentacijo, ki zvoËni signal razdeli na akustiËno homogene dele. Modul za akustiËno analizo izlušËi informacijo v govoru in jo predstavi z vektorjem akustiËnih znaËilk. Postopek izloËanja znaËilk mora biti popolnoma enak kot pri uËenju akustiËnih mo­delov. Niz vektorjev znaËilk je vhodni podatek iskal­nega algoritma, ki poišËe najbolj verjetno zaporedje izgovorjenih besed. Pri tem uporablja informacijo iz akustiËnih in jezikovnih modelov. AkustiËni modeli opisujejo akustiËne lastnosti govora na ravni fone­mov, jezikovni modeli pa jezikovne lastnosti govora na ravni besed. Oboji, tako akustiËni kot jezikovni modeli, temeljijo na statistiËnem procesiranju govora oz. jezika. Razpoznavanje na razvojni množici pote­ka z namenom iskanja optimalnih parametrov raz­poznavanja ‡ uteži akustiËnih in jezikovnih modelov. KonËni rezultat uspešnosti razpoznavanja dobimo na testni množici, pri Ëemer uporabimo optimizirane vrednosti parametrov. 2.1 akustiËni modeli AkustiËni modeli so kljuËni gradnik samodejne­ga razpoznavalnika govora s stališËa procesiranja govornega signala. Njihova naloga je modelirati akustiËno­fonetiËne lastnosti govora, pri tem pa v primeru razpoznavanja govora neodvisnega go­vorca uspešno zmanjšati razlike med posamezni­mi govorci. Osnovna enota akustiËnih modelov je obiËajno fonem, ki ga zaradi modeliranja uËinka ko­artikulacije modeliramo v širšem kontekstu predho­dnega in naslednjega fonema. Takšen akustiËni mo­del poimenujemo trifon. Na trifon lahko gledamo kot na posplošitev pojma alofon. Alofoni so razliËne možne izgovorjave nekega fonema glede na njegov kontekst. Za vsak fonem imamo obiËajno le majhno množico alofonov. Definicija trifona pa zajema vse možne kombinacije treh zaporednih fonemov (za N fonemov pomeni to N3 trifonov). Medtem ko de­finicija alofona izhaja iz fonologije, pa trifone uva­jamo v obdelavi govora zaradi zveznih sprememb vokalnega trakta, ki nastopijo pri prehodu iz izgo­varjave enega fonema na naslednjega in se odraža­jo v akustiËnem signalu govora ob tem prehodu. Primer fonetiËne in grafemske oblike vnosa besede .avtomatskega« v slovarju razpoznavalnika govora je prikazan v tabeli 1. Tabela 1:Primer fonetiËnein grafemske oblike vnosav slovar razpoznavalnika govora Beseda Kategorija transkripcije Transkripcija avtomatskega MRPAfonemi a UtOm “a: ts kEga avtomatskega Grafemi a v to m a ts ke ga Za akustiËno modeliranje pri ASR se uporabljajo razliËni pristopi (Aubert, 2002), najpogostejši so pri­kriti modeli Markova (angl. Hidden Markov Model, HMM), uteženi konËni pretvorniki (angl. Weighted Finite State Transducer, WFST) in nevronske mreže (angl. Artificial Neural Network, ANN). V predstav­ljenem eksperimentu smo uporabljali tristanjske le­vo­desne prikrite modele Markova z zveznimi Gaus­sovimi porazdelitvenimi funkcijami verjetnosti. Za slovenski jezik je pretvorba med grafemi in fonemi netrivialen proces, ki lahko k rezultatom razpozna­vanja govora vnese dodatno napako. 2.2 jezikovni modeliin slovarji Pri razpoznavanju govora so meje med besedami zabrisane, saj v tekoËem govoru med besedami ni premorov. Za doloËanje zaporedja besed so najprej uporabljali deterministiËne besedne mreže, ki so jih nasledili jezikovni modeli, temeljeËi na pravilih slovnice jezika. Sestavljanje slovniËnih pravil, ki bi pokrila jezik kot celoto, je zelo zahtevna naloga, ki zahteva poglobljeno znanje o jeziku. Po drugi stra­ni pa imamo v spontano govorjenem jeziku veliko slovniËno nepravilnih zaporedij. Ideja jezikovnega modela je doloËiti verjetnost poljubnemu zaporedju besed. Jezikovni model lahko obravnavamo tudi kot model, ki v procesu razpoznavanja napoveduje naj­bolj verjetno naslednjo besedo. Za jezikovni model velja tudi to, da verjetnost zaporedja besed ni nikoli enaka niË, kar je še posebno dobrodošlo pri razpo­znavanju spontanega govora. V praksi so se najbolj uveljavili statistiËni n­gramski jezikovni modeli, ki verjetnost poljubnega zaporedja besed izraËunajo s sestavljanjem verjetnosti n­gramov. V jezikovnih modelih oznaËuje n­gram zaporedje n besed, n pa doloËa red n­grama. Najpogostejši so bigrami (2­gra­mi) in trigrami (3­grami), zasledimo pa tudi uporabo jezikovnih modelov do reda 5 (tj. 5­gramov). Smi­selnost uporabe jezikovnih modelov višjih redov je povezana z velikostjo uËnega korpusa, tj. besedila, v katerem štejemo modelirane n­grame. Da je verjet­nost poljubnega zaporedja besed vedno veËja od 0, zagotavljajo metode glajenja verjetnosti (Chen & Go­odman, 1999), ko doloËeno, resda majhno, verjetnost pripišejo tudi n­gramom, ki se nikoli ne pojavijo v uËnem korpusu. Preliminarne raziskave so pokazale, da je za modeliranje slovenskega jezika najuËinkovi­tejše glajenje, ki temelji na Good­Turingovem glaje­nju (Good, 1953) in sestopanju po Katzu (1987). Jezikovni modeli opisujejo verjetnostne lastnosti n­gramov besed. Katere besede vsebujejo n­grami, doloËa slovar. Vse besede zunaj slovarja se preslikajo v simbol OOV (angl. Out­Of­Vocabulary). To pome­ni, da bo beseda, ki ni v slovarju, napaËno razpozna­na. NapaËno razpoznana beseda pa vpliva tudi na razpoznavanje besed, ki ji sledijo, saj predstavlja nji­hov kontekst. Pomembna je tudi velikost slovarja, saj je z velikostjo neposredno povezana kompleksnost razpoznavalnika in s kompleksnostjo tudi hitrost razpoznavanja. V sistemih razpoznavanja visoko pregibnih jezikov so neizogibni veliki slovarji, razen Ëe je razpoznavanje omejeno na zelo specifiËno do­meno (npr. razpoznavanje vremenske napovedi). Beseda je praviloma osnovna enota v slovarju. Za modeliranje pregibnih jezikov so bile izvedene številne raziskave uporabe manjših osnovnih enot (morfemov, osnov in konËnic besed ipd.), ki pa se niso izkazale kot bistveno boljše, saj je napovedna moË jezikovnih modelov s prehodom na manjše osnovne enote oslabljena (Sepesy MauËec idr., 2009). 2.3 Iskalni algoritmi Naloga razpoznavalnika govora je poiskati najbolj verjetni niz besed za zajeti vhodni govor. Iskanje izvedemo s pomoËjo iskalnih algoritmov (Aubert, 2002). Pri iskanju najbolj verjetnega zaporedja besed ni moË pregledati celotnega iskalnega prostora, ga pa omejujemo z razliËnimi hevristiËnimi metoda­mi. Razlikujemo statiËno omejevanje (npr. drevesna predstavitev slovarja) in dinamiËno omejevanje is­kalnega prostora (npr. snopovno omejevanje, pogled naprej v jezikovni model ipd). Same iskalne algorit­me delimo na Ëasovno sinhrone in asinhrone glede na to, ali hipoteze v iskalnem prostoru ocenjujemo vzporedno od zaËetka do konca govornega segmen­ta ali pa vse ocenjujemo ob koncu segmentov. Poznamo tudi dvoprehodne algoritme (Lee, Ka­wahara & Doshita, 1998), ki predstavljajo eno od me­tod za izboljšanje hitrosti delovanja algoritmov. Pri teh algoritmih najprej uporabimo samo doloËene je­zikovne vire za samodejno razpoznavanje segmenta govora. To imenujemo prvi prehod. Kot njegov re­zultat dobimo ali seznam najboljših hipotez (obiËaj­no od 100 do 1000) ali pa besedno mrežo. V drugem prehodu nato uporabimo vse razpoložljive vire in modele za ocenjevanje hipotez v seznamu oz. mreži. 2.4 Vrednotenje uspešnosti razpoznavalnika Predlagane metode in algoritme na podroËju ASR najpogosteje vrednotimo posredno z uporabo rezul­tatov razpoznavanja govora. Vrednotenje praviloma izvajamo z loËenim testnim naborom posnetkov, ki je sicer po svojih lastnostih podoben uËnemu setu, ven­dar ni bil uporabljen nikjer v postopku uËenja aku­stiËnih modelov. Tako je eden izmed kljuËnih vidi­kov uËenja akustiËnih modelov skrb, da ne pride do efekta .prenauËenja«, s Ëimer bi se zmanjšala njihova splošnost, nujno potrebna za uspešno vrednotenje. Pri vrednotenju rezultatov ASR je treba upošteva­ti tako delež pravilno razpoznanih besed, kot tudi ti­ste besede, ki so bile vrinjene. Tako lahko definiramo pravilnost razpoznanih besed (ACC) kot: H ‡I ACC = 100 % N pri Ëemer je H število vseh pravilno razpoznanih be­sed, I število vrinjenih besed in N število vseh besed v testni množici. 3 RaZPOZNaVaNjE SLOVENSKEGajEZIKa Za jezikovno modeliranje je skoraj idealna anglešËi­na. Ima malo besednih oblik in vnaprej doloËen vrst­ni red besed v povedih. SlovenšËina je za razpozna­vanje eden od zahtevnejših jezikov. Težave povzroËa predvsem bogato pregibanje besed in relativno spro­šËen vrstni red, izrazit predvsem v spontanem govo­ru. Bogato pregibanje besed se odraža na velikosti slovarja. Za zadovoljivo pokritost besedišËa mora slovar vsebovati veË kot 200.000 besed, saj pomeni vsaka besedna oblika nov vnos v slovar. Po drugi strani je za uËenje jezikovnega modela s tako velikim slovarjem potreben veËji uËni korpus, saj imamo pri majhnih korpusih težave zaradi prevelike razpršeno­sti podatkov. Velikost uËnega korpusa danes ni veË tako pereËa, saj obstajajo zelo obsežne besedilne zbir­ke (Arhar & Gorjanc, 2007). Opozoriti pa velja, da so to zbirke pisanega jezika, ki ne odražajo znaËilnosti govorjenega jezika. Razpršenost podatkov lahko zmanjšamo z lema­tizacijo. Lematizacija je doloËanje osnovne slovarske oblike posameznim besedam v korpusu. Slovarski obliki pravimo lema. Slovar lem je v primerjavi s slovarjem besednih oblik nekajkrat manjši. Seveda pa jezikovnega modela besednih oblik ne moremo preprosto zamenjati z jezikovnim modelom lem, saj je za razpoznavalnik pomembna besedna oblika in ne zgolj lema. Uveljavilo se je modeliranje, ki razen lem modelira tudi t. i. oblikovno skladenjske oznake (angl. Morpho­Syntactic Description tags ‡ MSD), ki Ëe so pripete lemi, enoliËno doloËajo besedno obliko. Ker se izbrana lema lahko pojavi v mnogo razliËnih besednih oblikah, je število razliËnih MSD oznak za slovenski jezik nekajkrat veËje kot za angleški jezik. 3.1 Govorni viri Govorni in jezikovni viri so kljuËni pogoj za razvoj samodejnega razpoznavalnika govora. Pri tem je bistvenega pomena jezikovna odvisnost virov, saj v normalnih scenarijih razvoja samodejnega razpozna­valnika govora ne moremo uporabljati virov druge­ga jezika. Izdelava novega vira je Ëasovno, stroškov­no in organizacijsko zelo zahteven proces, saj je treba roËno izdelati transkripcije (prepise) z dobesednim zapisom izgovorjenega, oznaËiti govorce, meje med segmenti, akustiËno ozadje itn. V povpreËju je treba za izdelavo ure transkribirane govorne baze opraviti približno trideset ur dela. Navedene omejitve pri iz­gradnji govornih virov so še posebno izrazite pri jezi­kih z manjšim številom govorcev, pri Ëemer je manjši tudi komercialni interes. Zaradi specifiËnih lastnosti jezikov virov ne moremo neposredno primerjati med seboj, temveË je treba pri primerjavi upoštevati jezi­kovno specifiËno komponento. Slovenski jezik spada v skupino jezikov z izde­lanimi osnovnimi viri za gradnjo samodejnih raz­poznavalnikov govora (KaËiË, 2002; Žganec Gros, MiheliË & Dobrišek, 2003). ZaËetki razvoja govornih virov za slovenski jezik segajo v devetdeseta leta prejšnjega stoletja. Prvi slovenski govorni viri so spa­dali v kategorijo razpoznavanja izoliranih in vezanih besed v telefonskem ali studijskem okolju. Na Fakul­teti za elektrotehniko, raËunalništvo in informatiko Univerze v Mariboru so bile tako razvite govorne baze SNABI, Slovenian 1000 FDB SpeechDat(II) (KaËiË & Kaiser, 1998) in Polidat (Žgank, KaËiË & Horvat, 2002). S stališËa razvoja samodejnih razpo­znavalnikov govora sta še posebno pomembni bazi SpeechDat(II) in Polidat, saj spadata v družino med­narodnih standardiziranih govornih baz, ki omo­goËajo razvoj govorno vodenih telekomunikacijskih storitev. Na Fakulteti za elektrotehnoiko Univerze v Ljubljani je bila za razvoj samodejnih razpoznaval­nikov govora razvita baza Gopolis (MiheliË, Žganec Gros, Dobrišek, Žibert & PavešiE, 2003), ki je bila v kombinaciji z dodatnima bazama uporabljena za razvoj razpoznavalnika govora za omejeno domeno (Dobrišek, Vesnicer, Žganec Gros & MiheliË, 2006). S stališËa ASR je bistveno kompleksnejši problem razpoznavanje tekoËega govora neodvisnega govor­ca z velikim slovarjem besed. Prva slovenska govor­na baza, ki je podpirala to kategorijo govora, je bila baza Slovenian BNSI Broadcast News (Žgank, Ver­donik, Zögling Markuš & KaËiË, 2005), razvita leta 2005 v sodelovanju med Fakulteto za elektrotehniko, raËunalništvo in informatiko Univerze v Mariboru in RTV Slovenija. Govorna baza je dostopna prek mednarodne organizacije ELRA/ELDA. Namenjena je samodejnemu razpoznavanju tekoËega slovenske­ga govora v razliËnih televizijskih oddajah. To bazo smo uporabili tudi v okviru eksperimentov, predsta­vljenih v tem Ëlanku. Na Fakulteti za elektrotehniko Univerze v Ljubljani je bila razvita baza SiBN Bro­adcast News (Žibert & MiheliË, 2004), ki je prav tako namenjena razpoznavanju tekoËega govora v tele­vizijskih oddajah. V okviru sodelovanja med Fakul­teto za elektrotehniko, raËunalništvo in informatiko Univerze v Mariboru in državnim zborom Republike Slovenije je bila razvita govora baza SloParl (Žgank, Rotovnik, GrašiË, Kos, Vlaj & KaËiË, 2006), ki vsebuje posnetke sej državnega zbora. Baza obsega sto ur go­vora in je tako trenutno najobsežnejši govorni vir za slovenski jezik. Od preostalih slovenskih govornih baz se loËi po transkripcijah govora, saj so bile tran­skripcije narejene na podlagi magnetogramov in ne vsebujejo dobesednega zapisa izgovorjenega. Takšno govorno bazo uporabljamo v posebnih postopkih uËenja akustiËnih modelov, pri Ëemer upoštevamo prisotnost napak v uËnih transkripcijah. Govorni bazi Slovenian BNSI Broadcast News in SloParl vsebujeta tudi besedilni korpus za uËenje jezikovnih modelov samodejnega razpoznavalnika govora. Oba besedilna korpusa sta po svojih znaËil­nostih identiËna govoru v govorni bazi. Tako lahko besedilna korpusa uporabljamo za izdelavo interpo­liranih jezikovnih modelov, ki uspešno modelirajo tudi znaËilnosti govorjenega jezika. Jezikovni modeli so zaradi potrebe po dovolj velikem uËnem vzorcu (reda 100 M besed) obiËajno izdelani na besedilnih korpusih pisanega jezika (Ëasopisi, knjige, splet), ki po svojih znaËilnostih bistveno odstopa od govorje­nega jezika. Slovenski govorni viri sicer pokrivajo osnovna podroËja razvoja samodejnih razpoznavalnikov go­vora, vendar je obseg razpoložljivih slovenskih go­vornih virov manjši v primerjavi z jeziki z veËjim številom govorcev (anglešËina, nemšËina, španšËi­na, kitajšËina). Hkrati pa je slovenski jezik zaradi svojih znaËilnosti za ASR bistveno kompleksnejši problem. Glavni znaËilnosti slovenšËine, ki otežita razpoznavanje govora, sta visoka pregibnost in re­lativno prosti vrstni red besed v stavku. Glede na izvedene analize bi tako za slovenski jezik potrebo­vali vsaj desetkrat veËje govorne vire kot za angleški jezik (Rotovnik, Sepesy MauËec & KaËiË, 2007). »e je stanje na podroËju osnovnih slovenskih govornih virov zadovoljivo, pa za slovenski jezik ne obstajajo bolj specifiËni govorni viri, ki jih poznamo za jezike z veËjim številom govorcev. V to kategorijo spadajo npr. govorni viri, posneti v avtomobilu ali na motor­ju, govorni viri, posneti v razliËnih šumnih okoljih, govorni viri, posneti na sestankih, govorni viri, po­sneti v inteligentnem okolju itn. V predstavljenih eksperimentih smo uporabili govorno bazo Slovenian BNSI Broadcast News. Baza vsebuje transkribirane posnetke 42 dnevnoinforma­tivnih oddaj RTV Slovenija (TV Dnevnik, Odmevi) iz obdobja 1999‡2003. Kot uËni korpus uporabljamo trideset ur posnetkov, tri ure so namenjene razvojne­mu testiranju ter tri ure vrednotenju. Posnetki vsebu­jejo 1565 razliËnih govorcev, od tega 1069 moških in 477 žensk. Za 19 govorcev ni bilo mogoËe zanesljivo doloËiti spola zaradi znaËilnosti akustiËnega kanala (kratki odseki, prekrivajoËi se govori). Za vsakega govorca je bilo ustrezno doloËeno njegovo nareËje. V transkripcijah so ustrezno oznaËene akustiËne la­stnosti (studio/telefon, akustiËno ozadje) posnetkov ter lastnosti govora in govorcev (brani/spontani govor, prekrivanje govorcev, tuji govorci). Na pod­lagi teh lastnosti so segmenti razdeljeni v ustrezne .f­kategorije«. Glede na vsebino prispevka so bili posnetki razdeljeni v petnajst razliËnih topikov, s po­moËjo katerih je mogoËe omejiti domeno samodejne­ga razpoznavalnika govora in tako izboljšati rezul­tate. V transkripcijah baze BNSI je 268.000 besed, od tega 37.000 razliËnih. 3.2 jezikovni viri Za izdelavo jezikovnih modelov potrebujemo dovolj velike korpuse jezika, ki nam služijo kot uËna mno­žica. Prvi obsežen korpus slovenskega jezika je bil korpus FIDA, ki se je kasneje nadgradil v korpus Fi­daPLUS (Arhar & Gorjanc, 2007), ki ga tudi uporab­ljamo za gradnjo jezikovnih modelov v razpozna­valniku UMB Broadcast News. FidaPLUS je najveËji korpus, ki nam je trenutno na voljo. Vsebuje pribli­žno 621 milijonov besed. NajveËji delež besedil gle­de na zvrst predstavljajo neumetnostna nestrokovna besedila. Glede na tip prevladujeta Ëasopisno in revi­jalno gradivo. Podrobnejše podatke o sestavljenosti korpusa lahko najdemo v Arhar & Gorjanc (2007). Besede v korpusu so tudi samodejno oznaËene s pri­padajoËimi lemami in oznakami MSD. Korpus FidaPLUS je bil kasneje nadgrajen še v korpus Gigafida (Arhar Holdt, Kosem & Logar Ber­ginc, 2012), ki nam trenutno še ni na voljo. Ta korpus vsebuje približno 1,1 milijarde besed, ki so prav tako oznaËene z lemami in oznakami MSD. Za razpoznavanje govora so se poleg osnovnih besednih oblik izkazale kot uporabne tudi dodatne jezikovne informacije. Za slovenski jezik so tukaj lah­ko uporabne besedne leme in oznake MSD. Da jih lahko uporabimo v razpoznavanju govora, potrebu­jemo jezikovne vire s Ëim bolj natanËnimi oznakami in pomoË oznaËevalnika med samim postopkom raz­poznavanja. Ker vsako samodejno oznaËevanje korpusov z oznakami MSD vnaša napake, je smiselno uporabiti korpuse, ki so bili oznaËeni ali vsaj pregledani roËno. Tak korpus je npr. jos100k (Erjavec & Krek, 2008), ki je nastal v okviru projekta Jezikovno oznaËevanje slovenšËine (JOS). Korpus je bil kasneje v projektu Sporazumevanje v slovenskem jeziku (SSJ) razširjen v korpus ssj500k (Arhar, 2009). Ta vsebuje približno 500.000 besed, oznaËenih z oznakami MSD, ki so pre­gledane roËno. Ta korpus je sicer veliko manjši od korpusa Fida­PLUS, vendar je kljub temu uporaben za izdelovanje statistiËnih modelov oznak MSD. Medtem ko slovar­ji besed lahko vsebujejo do veË sto tisoË enot, lahko vsebujejo slovarji oznak MSD le nekaj sto do nekaj ti­soË enot, odvisno od kompleksnosti oznak. V okvirju projekta JOS so bila definirana tudi pravila za obliko oznak MSD. Po sistemu JOS poznamo skupaj 1.903 razliËnih oznak MSD. Število teh oznak lahko zmanj­šamo s poenostavljanjem. Tako lahko iz oznak izpu­šËamo podatke, ki so manj pomembni za razpozna­vanje. Zaradi veliko manjšega števila razliËnih enot v slovarju je treba za gradnjo statistiËnega modela oceniti bistveno manj parametrov. Zato za gradnjo modelov oznak MSD ni potrebna tako velika uËna množica kot pri modelih besed. Prav tako je v okviru projekta SSJ nastal obli­koskladenjski oznaËevalnik in lematizator Obeliks (GrËar, Krek & Dobrovoljc, 2012). OznaËevalnik prav tako potrebuje statistiËne modele, ki so nauËeni na neki uËni množici. OznaËevalnik pripisuje besedam leme in oznake MSD po sistemu JOS. 4 EKSPERIMENTaLNI SISTEM Vsi predstavljeni eksperimenti so bili izvedeni na razpoznavalniku tekoËega govora UMB Broadcast News (Žgank & Sepesy MauËec, 2010). Trenutno v njem uporabljamo dvoprehodni algoritem razpozna­vanja. Za uËenje akustiËnih modelov in razpoznava­nje v prvem prehodu smo uporabljali orodja iz zbir­ke HTK (Young, Jansen, Odell, Ollason & Woodland, 1996), za gradnjo slovarjev, jezikovnih modelov in razpoznavanje v drugem prehodu pa orodja iz zbir­ke SRILM (Stolcke, Zheng, Wang & Abrash, 2011). Prvi korak v postopku akustiËnega modeliranja je izloËanje znaËilk iz govornega signala. Vhodni si­gnal s funkcijo okna dolžine 25 ms, ki ga premikamo s koraki10 ms, razdelimo na kratkoËasovne vzorce. Po izvedbi predpoudarjanja izraËunamo 12 mel­kepstral­nih koeficientov in energijo ter njihove prve in druge odvode. KonËni vektor znaËilk ima tako 39 elementov. Postopek uËenja akustiËnih modelov poteka v treh korakih, pri Ëemer se postopoma izboljšuje ka­kovost akustiËnih modelov. Kot osnovno akustiËno enoto smo uporabili grafeme, saj so predhodne ana­lize pokazale, da je tako mogoËe uËiti kakovostne akustiËne modele (Žgank & Sepesy MauËec, 2010). V nadaljevanju bomo za akustiËne modele uporabljali poimenovanje fonem in trifon, kljub temu da je bila osnovna akustiËna enota grafem. V uËnem setu smo uporabili 24 oddaj. V prvem koraku izvedemo ini­cializacijo parametrov akustiËnih modelov z global­nimi vrednostmi. Temu sledi veË ponovitev uËnega Baum­Welchevega algoritma. S tako nauËenimi aku­stiËnimi modeli izvedemo prisilno poravnavo tran­skripcij, s katero se izboljša njihova kakovost. Sledi drugi korak s ponovim uËenjem akustiËnih modelov od zaËetka, vendar tokrat z izboljšanimi transkrip­cijami. Inicializacija vrednosti parametrov prikritih modelov Markova se tokrat izvrši loËeno za vsak fo­nem posebej. AkustiËni modeli, nauËeni v drugem koraku, slu­žijo za izhodišËe tretjega koraka, v katerem se najprej tvorijo kontekstno odvisni akustiËni modeli ‡ trifoni, pri katerih upoštevamo predhodni in naslednji fo­nem. PoslediËno zelo naraste število prostih parame­trov akustiËnih modelov, ki jih je treba oceniti med postopkom uËenja. Zato uporabimo postopek zdru­ževanja z odloËitvenim drevesom, pri Ëemer na pod­lagi podatkovne metrike združimo stanja oz. celotne modele, ki so med seboj dovolj podobni. OdloËitveno drevo zgradimo na podlagi fonetiËnih razredov, ki so bili v predstavljenem eksperimentu tvorjeni s podat­kovno vodeno metodo na podlagi matrike zamenjav fonemov. AkustiËni modeli, združeni z odloËitvenim drevesom, so bili izhodišËe za zadnji korak uËenja, v katerem se je število Gaussovih porazdelitvenih funkcij verjetnosti korakoma poveËalo do 16 na sta­nje. Takšni akustiËni modeli so bili uporabljeni za vrednotenje samodejnega razpoznavalnika govora. Pred razpoznavanjem govora smo zgradili vrsto je­zikovnih modelov, ki smo jih primerjali glede na uspe­šnost v razpoznavalniku. Tako smo najprej definirali razliËne velikosti slovarjev od 60.000 (60 k) do 300.000 (300 k) besed. Preizkušali smo dva naËina gradnje slo­varjev. V prvem naËinu (FP) smo slovar gradili tako, da smo mu dodajali besede v vrstnem redu, ki ga je doloËala njihova pogostost v korpusu FidaPLUS. Ko smo dosegli želeno velikost slovarja, smo v slovar do­dali še vse besede, ki so se pojavile z enako frekvenco kot nazadnje dodana beseda. V drugem naËinu grad­nje slovarja (BNSI+FP) smo najprej v slovar vkljuËili vse besede iz govorne uËne množice BNSI, nato smo dodajali besede iz besedilnega korpusa BNSI (iNews) in nazadnje besede iz korpusa FidaPLUS. Pred gradnjo jezikovnih modelov smo pogledali deleže besed zunaj slovarja, ki se pojavijo na testni množici BNSI glede na oba naËina gradnje slovarja. Po pregledu rezultatov smo se odloËili, da bomo jezi­kovne modele gradili le na slovarjih, sestavljenih po prvem naËinu (FP). Nato smo zgradili standardne bigramske, tri­gramske in štirigramske modele. Pri tem smo upo­rabljali tako glajenje Good­Turing kot Knesser­Ney. Raziskali smo tudi vpliv velikosti uËne množice, zato smo kot uËno množico enkrat uporabili celotni kor­pus FidaPLUS, drugiË pa le njegov del ‡ približno devet odstotkov. Slika 3: Blokovna shema poteka razpoznavanja Splošna shema našega eksperimentalnega sistema je podana na sliki 3. Iskalni algoritem v prvem pre­hodu je sinhroni Viterbijev algoritem s snopovnim omejevanjem, ki je implementiran v orodju HDeco­de. Za vsak vhodni akustiËni segment nam algoritem vrne najboljšo hipotezo in besedno mrežo, ki po­meni iskalni prostor algoritma ob koncu segmenta. Najboljšo hipotezo doloËimo po uteženem razmerju med verjetnostima, dobljenima z akustiËnim in jezi­kovnim modelom. Za doloËitev optimalnih vredno­sti uteži smo uporabili rezultate razpoznavanja na razvojni množici BNSI. Kadar neposredno vrednotimo uspešnost raz­poznavanja na najboljši hipotezi, dobimo rezultate prvega prehoda. Na podlagi teh rezultatov smo se odloËili, katere sisteme prvega prehoda (glede na razliËne jezikovne modele) bomo uporabili v dvo­prehodnem algoritmu. Pred drugim prehodom razpoznavanja besedne mreže pretvorimo v sezname sto najboljših hipotez, ki jih lahko razberemo iz njih. V nekaterih segmentih je to število tudi manjše, ker ni mogoËe tvoriti takšne­ga števila hipotez. Hipoteze nato oblikoskladenjsko oznaËimo z oznaËevalnikom Obeliks. V naslednjem koraku oznake poenostavimo tako, da vsebujejo le podatek o besedni vrsti, spolu, sklonu, številu in ose­bi razpoznane besede. V drugem prehodu hipoteze ponovno ovrednoti­mo z novimi jezikovnimi modeli. Teh modelov je se­daj lahko tudi veË. Podobno kot pri prvem prehodu utežimo verjetnosti, dobljene s posameznimi modeli. Pri tem je treba ponovno uporabiti razvojno množi­co za iskanje optimalnih vrednosti uteži. Kot konËni rezultat algoritem vrne hipotezo, ki ima po drugem prehodu najveËjo verjetnost. Za vrednotenje oznaËenih hipotez v drugem pre­hodu smo zgradili modele oznak MSD. Kot uËno množico smo uporabili korpus ssj500k, v katerem smo oznake poenostavili na enak naËin kot v oznaËe­nih hipotezah razpoznavalnika. 5 REZULTaTI V Donaj & KaËiË (2012) smo že predstavili vpliv veli­kosti slovarja na delež besed OOV na testni množici BNSI. Tam uporabljeni slovarji so bili grajeni le glede na korpus FidaPLUS. Tabela 2 podaja k temu še re­zultate OOV, kadar gradimo slovarje enakih velikosti po drugem naËinu (BNSI + FP). Tabela 2:Delež besed OOV glede na naËin gradnje slovarja in njegovo velikost Velikost slovarja Prvi naËin (FP) Drugi naËin (BNSI +FP) 60 k 6,94 5,09 100 k 3,44 3,23 200 k 1,64 2,08 300 k 1,02 1,44 Iz rezultatov vidimo, je pri manjših velikostih slo­varja bolj ugodno upoštevati najprej tekstovni kor­pus BNSI, pri veËjih slovarjih pa je položaj ravno na­sproten. Manjši delež besed zunaj slovarja dobimo, ko uporabljamo samo korpus FidaPLUS. Vzrok za to vidimo v dejstvu, da se pri drugem naËinu gradnje v slovar vkljuËijo besede, ki se v uËni množici in v besedilnem delu BNSI pojavijo zelo redko, medtem ko se ne vkljuËijo besede iz korpusa FidaPLUS, ki se v testni množici pojavijo pogosteje. V tabeli 3 so predstavljeni rezultati razpozna­vanja prvega prehoda pri razliËnih velikostih uËne množice, razliËnih velikostih slovarja in pri upora­bi bigramskih (2 g) in trigramskih (3 g) jezikovnih modelov. V tabeli 4 so podani tudi faktorji realne­ga Ëasa, s katerimi je potekalo razpoznavanje v teh primerih. Tabela 3:Uspešnost razpoznavanja glede na velikost uËne množice in jezikovni model Slovar Red modela 9%Fidaplus 100%Fidaplus 60k 2g 64,05 66,09 60k 3g 65,80 69,23 300k 2g 68,11 70,77 300k 3g 69,90 74,33 Tabela 4:Faktorji realnega Ëasa pri razpoznavanju glede velikost uËne množice in jezikovni model Slovar Red modela 9%Fidaplus 100%Fidaplus 60k 2g 6,04 6,30 60k 3g 8,58 18,46 300k 2g 13,35 12,66 300k 3g 19,16 37,09 Iz podatkov v tabeli 3 lahko vidimo, da se pri poveËanju uËne množice, poveËanju slovarja in po­veËanju reda modela opazno izboljša uspešnost raz­poznavanja. Izboljšanje uspešnosti ob poveËanju ve­likosti slovarja je v vseh primerih približno 4 do 5 od­stotkov, kar je v velikostnem redu zmanjšanja besed OOV pri spremembi velikosti slovarja. Spremembe v uspešnosti ob poveËanju reda modela iz bigram­skega na trigramskega so odvisne od velikosti uËne množice. Medtem ko sta pri uporabi manjše uËne množice spremembi 1,75 in 1,79 odstotka, sta pri uporabi veËje uËne množice spremembi 3,14 in 3,56 odstotka. Iz podatkov v tabeli 4 je razvidno, da tako poveËanje slovarja kot tudi zvišanje reda modela po­veËa Ëasovno zahtevnost razpoznavanja govora. Pri poveËanju slovarja se faktor realnega Ëasa poveËa za približno 2. Pri zvišanju reda modela pa je ta faktor razliËen glede na velikost uËnega korpusa. V prime­ru uporabe celotnega korpusa se velikost faktorja po­veËa približno za 3. Pri uporabi manjšega korpusa je poveËanje veliko manjše. Na podlagi teh podatkov lahko sklepamo, da bi dodatno poveËanje uËne množice (npr. z uporabo korpusa Gidafida) še dodatno poveËalo uspešnost razpoznavanja, ki bo bolj izrazito pri uporabi tri­gramskega modela. V tabeli 5 so prikazani rezultati uspešnost raz­poznavanja pri uporabi modelov z modificiranim glajenjem Knesser­Ney, ki sta ga predstavila Chen & Goodman (1999) in razlika v uspešnosti glede na ustrezni model z glajenjem Good­Turing. Tabela 5:Uspešnost razpoznavanjaz modificiranim glajenjem Knesser­Ney Slovar Red modela acc (KN) acc (KN) ‡ acc (GT) 60 k 2g 66,15 +0,06 60 k 3g 69,04 +0,19 300 k 2g 70,71 ‡0,06 300 k 3g 74,12 ‡0,21 Iz rezultatov vidimo, da so modeli z modificira­nim glajenjem Knesser­Ney uspešnejši le pri manjših slovarjih, medtem ko so pri veËjih slovarjih uspešnej­ši modeli z glajenjem Good­Turing. V obeh primerih so razlike le majhne. V vseh poskusih smo dobili besedne mreže, s katerimi bi lahko nadaljevali razpoznavanje v dru­gem prehodu, vendar smo se omejili le na rezultate, ki smo jih dobili pri slovarju 300 k in glajenjem GT. Prva razliËica tega algoritma je bila predstavljena v Donaj & KaËiË (2012). Pokazano je bilo, da lahko z uporabo dvoprehodnega dosežemo primerljive uspešnosti ob bistveno krajšem Ëasu razpoznavanja. Prav tako je bilo pokazano, da uporabi trigramskih in štirigramskih modelov v drugem prehodu dajeta enake rezultate. Za vrednotenje hipotez v drugem prehodu smo uporabili dva jezikovna modela. Prvi je standardni besedni trigramski model, drugi pa je trigramski mo­del oznak MSD. V tabeli 6 so predstavljeni rezultati dvoprehodnega algoritma za istoËasno vrednotenje z trigramskim modelom besed in trigramskim mo­delom oznak MSD. Tabela 6:Rezultati v dvoprehodnem algoritmu Prviprehod 74,33% Drugiprehod 74,85% Sprememba 0,52% Iz podatkov vidimo, da smo lahko s pomoËjo preprostega modela oznak MSD izboljšali uspešnost razpoznavanja za 0,52 odstotka. 6SKLEP V prispevku smo predstavili osnovne pojme s po­droËja samodejnega razpoznavanja govora in go­vorne ter jezikovne vire za slovenšËino, ki jih upo­rabljamo na tem podroËju. Razpoznavanji tekoËega in spontanega govora sta nalogi z veliko prostora za vpeljevanje izboljšav tako v akustiËnem kot v jezi­kovnem modeliranju. Predstavljeni rezultati kažejo na pomembnost ustreznih jezikovnih virov. Tukaj sta pomembna tako obseg virov kot tudi njihova dodat­no obogatena vsebina, kot sta lematizacija in obliko­skladenjsko oznaËevanje besedila. Prestavljeni rezultati uporabe oblikoskladenjskih oznak v jezikovnem modeliranju pomenijo le zaËe­tek dela na tem podroËju. Zaradi svoje kompleksno­sti v kombinaciji z uveljavljenimi jezikovnimi modeli ponujajo ti modeli veliko možnosti za teoretiËne in praktiËne raziskave. Naše nadaljnje raziskave na podroËju ASR bodo usmerjene tudi v uporabo novih virov za izdelavo modelov, kot sta npr. korpusa Gigafida in GOS, kot tudi na izboljšano uporabo razpoložljivih informacij v korpusih. Medtem ko je samodejno razpoznavanje govo­ra že uporabno v omejenih domenah z majhnimi slovarji besed, pa trenutni rezultati razpoznavanja tekoËega govora z velikim slovarjem besed še niso zadovoljivi za praktiËne aplikacije. Zato bodo še po­trebne raziskave, ki bodo usmerjene tako v izboljša­nje uspešnosti kot tudi hitrosti razpoznavanja go­vora. Zaradi težavnosti razpoznavanja slovenskega govora bo potrebno tudi nadaljnje delo na podroËju izdelave jezikovnih virov slovenšËine. Le s takšnim celovitim pristopom bomo lahko zagotovili stik na­šega jezika s sodobnimi trendi v informacijsko­ko­munikacijskih tehnologijah. LITERaTURa [1] Arhar,Š.&Gorjanc,V. (2007). Korpus FidaPLUS: nova gene­racija slovenskega referenËnega korpusa. Jezik in slovstvo, 52(2), 95‡110. [2] Arhar, Š. (2009). UËni korpus SSJ in leksikon besednih oblik za slovenšËino. Jezik in slovstvo, 54(3‡4), 43‡56. [3] Arhar Holdt,Š., Kosem,I.&LogarBerginc,N. (2012). Izdelava korpusa Gigafida in njegovega spletnega vmesnika. Zbornik Osme konference Jezikovne tehnologije, Ljubljana, Slovenija, 16‡21. [4] Aubert, X. L. (2002). An overview of decoding techniques for large vocabulary continuous speech recognition. Computer speech & language, 16(1), 89‡114. [5] Chen,S.F.&Goodman,J. (1999).An empirical studyof smo­othing techniques for language modeling. Computer speech & language, 13(4), 359‡393. [6] Dobrišek,S.,Vesnice,B., ŽganecGros,J.&MiheliË,F. (2006). Uporaba kanoniËega govornega akustiËnega modela za pri­lagajanje prostora govornih akustiËnih znaËilk. Jezikovne teh­nologije: zbornik 9. mednarodne multikonference Informacij­ska družba, Ljubljana, Slovenija, 89‡92. [7] Donaj, G.&KaËiË, Z. (2012). Širjenje slovarja in dvoprehodni algoritem v razpoznavalniku tekoËega govora UMB Broad­cast News. Zbornik Osme konference Jezikovne tehnologije, Ljubljana, Slovenija, 48‡51. [8] Erjavec,T.& Krek, S. (2008). Oblikoskladenjske specifikacije in oznaËeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije, Ljubljana, Slovenija, 49‡53. [9] Good, I. J. (1953). The population frequencies of species and the estimation of population parameters. Biometrika, 40(3‡4), 237‡264. [10] GrËar,M.,Krek,S.&Dobrovoljc,K. (2012). Obeliks: statistiËni oblikoskladenjski oznaËevalnik in lematizator za slovenski je­zik. Zbornik Osme konference Jezikovne tehnologije, Ljublja­na, Slovenija, 89‡94. [11] KaËiË,Z.&Kaiser,J. (1998). Developmentof Slovenian Spee­chDat database. First International Conference on Language Resources and Evaluation, Workshop on speech database development for Central and Eastern European languages, Granada, Spain. [12] KaËiË, Z. (2002). Pomen združevanja raziskovalnih poten­cialov pri preseganju jezikovnih pregrad v okviru jezikovnih tehnologij naslednjih generacij. Jezikovne tehnologije: zbornik konference, Ljubljana, Slovenija, 111‡115. [13] Katz, S. M. (1987). Estimation of probabilities from sparse data for the language model component of a speech reco­gnizer. IEEE Transactions on acoustics, speech and signal processing, 35(3), 400‡ 401. [14] Lee, A., Kawahara,T.& Doshita, S. (1998). An efficient two­-pass search algorithm using word trellis index. Proceeding of the 5th International Conference on Spoken Language Pro­cessing, Sydney, Australia. [15] MiheliË,F., ŽganecGros,J., Dobrišek,S., Žibert,J.&PavešiE, N. (2003). Spoken language resources at LUKS of the Univer­sity of Ljubljana. International journal of speech technology, 6(3), 221‡232. [16] Rotovnik, T., Sepesy MauËec, M. & KaËiË, Z. (2007). Large vocabulary continuous speech recognition of an Inflected language using stems and endings. Speech communication, 49(6), 437‡452. [17] Sepesy MauËec,M., Rotovnik,T., KaËiË,Z.&Brest,J. (2009). Using data-driven subwordunits in language model of highly inflective Slovenian language. International journal of pattern recognition artificial intelligence, 23(2), 287‡312. [18] Stolcke, A., Zheng, J.,Wang,W.& Abrash,V. (2011). SRILM at sixteen: Update and outlook. Proceedings IEEE Automatic Speech Recognition and Understanding Workshop. [19] Young, S., Jansen, J., Odell, J., Ollason, D. & Woodland, P. (1996). The HTK book. Cambridge University. [20] Žganec Gros, J., MiheliË, F. & Dobrišek, S. (2003). Govorne tehnologije: pridobivanje in pregled govornih zbirk za sloven-ski jezik. Jezik in slovstvo, 48(3‡4), 47‡59. [21] Žgank, A., KaËiË, Z. &Horvat, B. (2002). Preliminary evaluati­ [24] Žgank, A., Sepesy MauËec, M. (2010). Razpoznavalnik te­ on of Slovenian mobile database PoliDat. Third international koËega govora UMB Broadcast News 2010: nadgradnja conference on language resources and evaluation, Las Pal­ akustiËnih in jezikovnih modelov. Zbornik Sedme konference mas de Grand Canaria, Spain, 564‡568. Jezikovne tehnologije, Ljubljana, Slovenija, 28‡31. [22] Žgank, A., Rotovnik, T., GrašiË, M., Kos, M., Vlaj, D. &KaËiË, [25] Žgank, A., Verdonik, D., Zögling Markuš, A. &KaËiË, Z. (2005). Z. (2006). SloParl ‡ Slovenian parlamentary speech and text BNSI Slovenian broadcast news database ‡speech and text corpus for large vocabulary continuous speech recognition. corpus. 9th European conference on speech communication Ninth international conference on spoken language proces­ and technology, Lisbon, Portugal, 1537‡1540. sing, Pittsburgh, PA, USA, 197‡200. [26] Žibert, J. &MiheliË, F. (2004). Development of Slovenian bro­ [23] Žgank, A., Rotovnik, T. & Sepesy MauËec, M. (2008). Slove­ adcast news speech database. Fourth International Confe­ nian spontaneous speech recognition and acoustic modeling rence on Language Resources and Evaluation, Lisbon, Portu­ of filled pauses and onomatopoeas. WSEAS transactions on gal, 2095‡2098. signal processing, 4(7), 388‡39. • Gregor Donajje diplomiraliz elektrotehnikenaFakultetiza elektrotehniko, raËunalništvoin informatiko Univerzev Mariboruiniz matematikenaFakultetiza naravoslovjein matematiko Univerzev Mariboru.Trenutnoje doktorski študentin zaposlenkot mladi raziskovalecnaFakultetiza elektrotehniko, raËunalništvo in informatiko. Raziskovalno se ukvarjaz jezikovnim modeliranjem za avtomatsko razpoznavanje govora. • AndrejŽgankjeleta2003 doktoriralnaFakultetiza elektrotehniko, raËunalništvoin informatiko Univerzev Mariboru.Natejfakultetijetudi zaposlenkot izredni profesor za podroËje telekomunikacije. Njegovo raziskovalno podroËje obsega veËjeziËnost, križnojeziËno razpoznavanje govora, akustiËno modeliranje pri razpoznavalniku govoraz velikim slovarjemin gradnja jezikovnih virov. • Mirjam Sepesy MauËecjeizrednaprofesoricazapodroËje telekomunikacijenaFakultetiza elektrotehniko, raËunalništvoin informatiko UniverzevMariboru.Ob pedagoškem delu je raziskovalno aktivna v številnih nacionalnih in mednarodnih projektih s podroËja jezikovnih tehnologij. Njeno raziskovalno podroËje obsega statistiËno jezikovno modeliranjein strojnoprevajanje.