Jerneja @ganec Gros1, France Miheli~2, Simon Dobri{ek2 UDK811.163.6-25:004.5 1Alpineon razvoj in raziskave d.o.o., Ljubljana 2Univerza v Ljubljani, Fakulteta za elektrotehniko in ra~unalni{tvo jerneja@alpineon.com, mihelicf@fe.uni-lj.si, simond@luks.fe.uni-lj.si, GOVORNE TEHNOLOGIJE: PRIDOBIVANJE IN PREGLED GOVORNIH ZBIRK ZA SLOVENSKI JEZIK Govorne zbirke so nepogre{ljive pri raziskovalnem delu na podro~ju tehnologij govorjenega jezika. Vsebujejo predvsem ra~unalni{ko berljive posnetke govora. Posnetkom so vedno prilo`eni {e podatki, ki na razli~ne na~ine opisujejo posneti govor. Prilo`eni podatki so opisi govornih dejavnikov, dejavnikov govorcev ter zapisi in ozna~itve posnetega govora. Pogosto govorni zbirki prilo`imo {e navodila za uporabo ter rezultate izbranih analiz govornih posnetkov. ^lanek opisuje osnovne gradnike govornih zbirk ter postopek zasnove, snemanja, segmentacije, ozna~evanja in analize govornih zbirk. V sklepnem delu se nahaja pregled govornih zbirk za slovenski jezik. 1 Uvod Govorne tehnologije, predvsem to velja za sintezo in prepoznavanje govora, nezadr`no prodirajo v na{e `ivljenje. Na tr`i{~u se je v zadnjih letih pojavilo kar nekaj solidnih sintetizatorjev in prepoznavalnikov govora, nekateri med njimi podpirajo tudi slovenski jezik. Uporabljamo jih v samodejnih informacijskih centrih, v govornih portalih, za glasovno prebiranje elektronske po{te ipd. Razvoj in raziskave s podro~ja govornih tehnologij za slovenski jezik se izvajajo na Fakulteti za elektrotehniko Univerze v Ljubljani (Luks), na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko na Univerzi v Mariboru (FERI), na Fakulteti za ra~unalni{tvo in informatiko Univerze v Ljubljani (FRI), na In{titutu Jo`ef Stefan (IJS), na Naravnoslovno tehni{ki fakulteti Univerze v Ljubljani ter v podjetjih Masterpoint d. o. o. (Masterpoint), Hermes Softlab d. d. (HSL) in Alpineon razvoj in raziskave d. o. o. (Alpineon). Razvoj govornih tehnologij, predvsem sinteze in prepoznavanja govora, ni pogojen le s tehnologijo izgovora, temve~ tudi z izvajanjem osnovnih raziskav govora in jezika. Vse ve~ govornih zbirk in rezultatov jezikovnih {tudij je dostopnih tudi v na{em prostoru. Govorne zbirke so nepogre{ljive pri raziskovalnem delu na podro~ju govornih tehnologij. Predstavljajo pomemben ~len osnovne infrastrukture za razvoj govornih tehnologij za posamezno jezikovno podro~je (Ka~i~ 1998). Jezik in slovstvo, let. 48 (2003), {t. 3–4 48 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek Govorne zbirke vsebujejo predvsem ra~unalni{ko berljive posnetke govora (Gibbon 1997; Dobri{ek 2001). Posnetkom so vedno prilo`eni {e podatki, ki na razli~ne na~ine opisujejo posneti govor. Prilo`eni podatki so opisi govornih dejavnikov, dejavnikov govorcev ter zapisi in ozna~itve posnetega govora. V ~lanku opisujemo osnovne gradnike govornih zbirk. Zasnovo govorne zbirke lahko logi~no razstavimo v tri zaporedne korake, ki jih podrobneje predstavljamo v nadaljevanju ~lanka. Prvi korak predstavlja izbira besedila, potrebnega za snemanje govorne zbirke, oz. izbira govorne situacije v primeru, ko gre za snemanje spontanega govora. Drugi korak predstavlja snemanje govornega gradiva. Sledi zadnji korak, ki ga sestavljajo segmentacija, ozna~evanje in analiza govornega gradiva. ^lanek sklenemo s pregledom govornih zbirk za slovenski jezik, zbranih v laboratorijih, ki na na{em prostoru delujejo na podro~ju govornih tehnologij. 2 Govorne zbirke Govorne zbirke, pravimo jim tudi zbirke govorjenega jezika, so nepogre{ljive pri raziskovalnem delu na podro~ju tehnologij govorjenega jezika. Vsebujejo predvsem ra~unalni{ko berljive posnetke govora (Gibbon 1997; Dobri{ek 2001). Posnetkom so vedno prilo`eni {e podatki, ki na razli~ne na~ine opisujejo posneti govor. Prilo`eni podatki so opisi govornih dejavnikov (npr. spol, starost, poklic, narodnostno-nare~no obmo~je), dejavnikov govorcev (npr. govor~evo trenutno razpolo`enje, zvo~ne lastnosti okolja ob snemanju) ter zapisi in ozna~itve posnetega govora. Pogosto so prilo`ena {e navodila za uporabo zbirke ter rezultati izbranih analiz govornih posnetkov (Fourcin 1989). Govorne zbirke navadno vsebujejo samo nekatere od na{tetih podatkov. Govorni posnetki pa so vedno opremljeni vsaj z nekaterimi dodatnimi podatki. Kateri od na{tetih podatkov so dejansko vklju~eni v zbirko, je odvisno od namena uporabe zbirke (Dobri{ek 2001). Govorne zbirke moramo razlikovati od drugih podobnih zbirk, povezanih z jezikom in govorom. Tako govorne posnetke, ki niso ra~unalni{ko berljivi ali niso opremljeni s primernimi dodatnimi podatki, ne {tejemo za prave govorne zbirke. Pri tem mislimo na radijske in televizijske govorne posnetke, shranjene na `e zastarele zvo~ne medije. S prenosom takih posnetkov na ra~unalni{ko berljiv medij in s pripravo potrebnih dodatnih podatkov bi iz teh posnetkov lahko nastale pomembne govorne zbirke. Po drugi strani se govorne zbirke razlikujejo tudi od besedilnih zbirk, ki jih pridobivamo za potrebe jezikovnega modeliranja, jezikoslovnih analiz naravnega jezika in za gradnjo samodejnih sistemov za prevajanje. V te zbirke so vklju~ena ve~inoma le pisana besedila, pridobljena iz razli~nih virov (romani, ~asopisi, gledali{ka dela ipd.). Te zbirke praviloma ne vklju~ujejo govornih posnetkov, kve~jemu ortografsko prepisana govorjena besedila. Najve~ji tovrstni zbirki za slovenski jezik sta FIDA in Nova beseda. Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 49 3 Govorni posnetki Govorni posnetki so najpomembnej{i del govornih zbirk. Sem uvr{~amo vse posnetke, ki jih lahko pridobimo v povezavi z delovanjem ~love{kih govoril med govorjenjem. Najpogostej{i so mikrofonski posnetki zvo~nih signalov, ki se pojavljajo med govorjenjem, in laringografski posnetki vibriranja glasilk v grlu. Uporabljajo pa se tudi vizualni in rentgenski posnetki govoril. Prvi se nana{ajo zgolj na slikovne posnetke obraza, predvsem ustnic, drugi pa na globinske slike prereza celotnega sistema govoril. V zadnjem ~asu se pogosto analizirajo tudi posnetki biomedicinskih signalov, ki se pojavljajo v govorilih in tudi v ~love{kih mo`ganih. Ti signali se pridobivajo med govorjenjem s posebno medicinsko opremo (elektromiografi, elektroencefalografi). Ve~ina raziskav na podro~ju govornih tehnologij se {e vedno nana{a predvsem na obdelavo posnetkov govornih zvo~nih signalov, pridobljenih s pomo~jo mikrofona (Dobri{ek 2001). Tem signalom pravimo govorni signali. Vsekakor imajo tudi preostali omenjeni govorni posnetki poseben pomen, saj njihova analiza omogo~a bistveno {ir{i vpogled v delovanje ~love{kih govoril in s tem tudi globlje razumevanje ~love{kega govora. Govorne posnetke shranjujemo na raznovrstne magnetne, opti~ne in druge sodobne pomnilni{ke medije. Pri tem je pomembno, da je izbrani medij ra~unalni{ko berljiv. Praviloma se govorni posnetki shranjujejo kar v obliki ra~unalni{kih datotek na lasersko berljive plo{~e CD-ROM in DVD-ROM. 4 Opisi govornih posnetkov Govorna zbirka vsebuje tudi opise razli~nih dejavnikov, ki se nana{ajo na govorne posnetke. Pri tem mislimo predvsem na govorne dejavnike in dejavnike govorcev, katerih govor smo snemali. Oboje je neposredno povezano z govorci, ki so sodelovali pri snemanju govora (Dobri{ek 2001). Govorci Najbolj preproste govorne zbirke so zbirke z nekaj deset govorci (Gibbon 1997). [tevilo govorcev znotraj tega razpona `e omogo~a statisti~no ustreznost zbirke. To zagotovimo z upo{tevanjem standardnih statisti~nih postopkov pri izbiri vzorca populacije vseh govorcev (Marascuilo 1988). Statisti~no ustreznost zbirke nenazadnje dolo~a tudi njen kon~ni namen. Pogosto se namre~ `e vnaprej omejimo le na o`je podro~je govorjenega jezika in le na o`jo populacijo govorcev. Na primer: gradnjo kakovostnih in od govorcev neodvisnih sistemov za prepoznavanje govora omogo~ajo govorne zbirke z nekaj sto govorci. Pri razvoju sistemov za samodejno tvorjenje govora pa se uporabljajo zbirke z le nekaj govorci. Pogosto je v tak{ne zbirke vklju~en en sam izku{en govorec, ki predstavlja u~ni primer in primerjavo bodo~emu sintetizatorju govora (Gros 2000). Pri 50 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek tem je pomembno, da je govorec vedno na voljo zaradi morebitnih popravkov ter dosnemavanja govorne zbirke. Dejavniki govorcev Pri izbiri govorcev moramo upo{tevati nekatere zna~ilnosti, ki so povezane z njihovim govorom. Te zna~ilnosti delimo na prehodne in trajne (Dobri{ek 2001). Prehodne zna~ilnosti so morebitne psiholo{ke in fiziolo{ke motnje (npr. po~utje, bolezen, psihi~no stanje). Med trajne zna~ilnosti pa {tejemo fiziolo{ke in anatomske zna~ilnosti (npr. spol, starost, te`o, okvare na govorilih, kadilske in pivske navade) in geografske in social- no-jezikovne vplive na govor (izobrazbo in poklic govorcev, narodnostno-nare~no podro~je trenutnega in morebitnega predhodnega bivali{~a govorcev, narodnostnonare~no podro~je govor~evih star{ev). Govorni dejavniki Med govorne dejavnike uvr{~amo prozodijske zna~ilnosti govora, ki se nana{ajo na trenutno razpolo`enje govorca ter njegov pristop k tvorjenju govornih posnetkov (Dobri{ek 2001). Posneti govor lahko tako ozna~imo za hiter, po~asen, napet, spro{~en, odrezav, natan~en, povr{en ipd. 4.1 Simbolni zapisi govora Govorni signal je psevdonaklju~en, krajevno stacionaren signal, ki nosi informacijo. Govorni signal vsebuje ve~ informacij, kot jih je v besedilu (npr. ~ustva, odnos govorca do teme in podobno). S preu~evanjem govornega signala s stali{~a izgovarjave ali slu{nosti se ukvarja fonetika (Topori{i~ 1992; Srebot–Rejec 1988). Preu~uje zvo~no podobo jezika od glasu, naglasa v besedi do celotnega besedila. Govorimo lahko o fonetiki glasov, prozodike, zlogov, morfemov, besednih zvez, stavkov, povedi in besedila. Za opisovanje fenomenov govorjenega besedila se uporabljajo predvsem 3 nivoji anotacij ali prepisov govorjenega besedila: grafemski prepis, foneti~ni prepis in prozodijske oznake. Oznakovni del govorne zbirke, predvsem njen grafemski prepis, je pogosto zapisan po priporo~ilih TEI P3 (Text Encoding Initiative). Priporo~ila TEI P3 dolo~ajo konkretne oznake ISO standarda SGML (Standard Generalized Markup Language) in strukturo oznak SGML za raznovrstna besedila (Erjavec 1998). Za ozna~evanje govora na o`ji foneti~ni ravni se je v svetu uveljavila mednarodna foneti~na abeceda IPA (International Phonetic Alphabet) oz. njena ra~unalni{ko berljiva poenostavljena preslikava MRPA (Machine Readable Phonetic Alphabet). Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 51 Foneti~no abecedo MRPA za slovenske glasoslovne oznake je v medsebojnem sodelovanju izdelalo ve~ slovenskih raziskovalnih institucij (Zemljak 2002). Za ozna~evanje prozodijskih fenomenov v govorjenem jeziku se uporabljajo posebne prozodijske anotacije (Miheli~ 2000; Stergar 2000). Foneti~ni prepis govora Grafemski oziroma ~rkovni zapis govorjenega gradiva predstavlja osnovni simbolni zapis posnetega govora. Foneti~ni zapis govora uporablja osnovne enote, ki so povzete iz glasoslovja. To so fonemi ali alofoni. Tak simbolni zapis govora vsebuje ve~ informacije od grafemskega. Razli~na izbira anotacijskih enot predstavlja tudi razli~ne mo`nosti zapisa ali prepisa govorjenega jezika. Poleg obi~ajnega grafemskega zapisa tako govorimo o fonemskem, o`jem in {ir{em foneti~nem ter akusti~nofoneti~nem zapisu. Primeri razli~nih zapisov za eno poved so zbrani v preglednici 1. Preglednica 1: Razli~ni na~ini zapisov ali prepisov besedila. Foneti~ni prepisi besed so zapisani s simboli slovenske MRPA abecede. [-] in [=] sta oznaki za nezvene~o in zvene~o zaporo pri akusti~nofoneti~nem zapisu fonemov zapornikov

,,,, in . 4.2 Ozna~itve govornih posnetkov Simbolni zapisi in prepisi posnetega govora ve~inoma zado{~ajo pri raziskovalnem delu na podro~ju tehnologij govorjenega jezika. To velja predvsem za tehni{ko modeliranje govora (Dobri{ek 2001). Podrobnej{a analiza govora pa zahteva natan~ nej{e ozna~evanje posnetkov govora. Ozna~evanje govornih posnetkov je postopek ro~nega ali samodejnega dolo~anja odsekov posnetih govornih signalov, ki jih obravnavamo kot akusti~ne enote govorjenega jezika. Vsakemu odseku pripi{emo simbolno oznako, ki v govornem signalu predstavlja oziroma ozna~uje akusti~no enoto. Glasovi so osnovne akusti~ne enote govorjenega jezika. Govorne posnetke zato pogosto ozna~ujemo tako, da jih raz~lenimo na zaporedje odsekov, ki predstavljajo fone fonemov ali alofonov. Tudi tak{no ozna~evanje je lahko bolj ali manj natan~ no. Natan~nost je odvisna od {tevila upo{tevanih glasovnih razli~ic oziroma alofo 52 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek nov ter morebitnega ozna~evanja akusti~nih dogodkov, manj{ih od samih fonov. Pri slednjih obravnavamo predvsem dogodke, povezane z govorilnimi organi, kot so tlesk, zapora, odpora, pripora, pridih. Pri ozna~evanju prav tako govorimo o fonemski, {ir{i in o`ji foneti~ni, akusti~nofoneti~ni ter prozodijski ozna~itvi govornih posnetkov, podobno kot pri simbolnih zapisih in prepisih govora. 4.3 Opisi analiz in navodila Govornim zbirkam pogosto prilo`imo raznovrstne rezultate analiz zbirke. To so navadno rezultati statisti~nih analiz, kot so frekvence ({tevilo) posameznih akusti~ nih enot ter sklopov akusti~nih enot. Govorno zbirko opremimo {e z navodili za uporabo. To so podatki o strukturi zbirke, datote~nem sistemu in formatih ra~unalni{kih zapisov. Za tehni{ko modeliranje govora je pomembno navesti {e podatek o tem, kateri del zbirke je namenjen u~nemu postopku, s katerim dolo~amo parametre modelov akusti~nih govornih enot, in kateri del zbirke je namenjen preizku{anju in vrednotenju teh modelov. 5 Postopek pridobivanja govorne zbirke Postopek pridobivanja govorne zbirke lahko logi~no razstavimo v tri zaporedne korake, ki jih podrobneje predstavljamo v tem poglavju. Prvi korak predstavlja izbira besedila, potrebnega za snemanje govorne zbirke, oz. izbira govorne situacije v primeru, ko gre za snemanje spontanega govora. Drugi korak predstavlja snemanje govornega gradiva. Sledi zadnji korak – segmentacija, ozna~evanje in analiza govornega gradiva. 5.1 Na~rtovanje vsebine zbirke Pri na~rtovanju govornih zbirk velja, da naj bodo ~im bolj obse`ne. @al si neomejeno velikih koli~in podatkov v zbirki ne moremo privo{~iti. Zato moramo pazljivo na~rtovati vsebino zbirke, da ta ~im bolje predstavlja celotno izbrano podro~je govorjenega jezika (Gibbon 1997). Ob na~rtovanju govorne zbirke `elimo dose~i statisti~no ustrezno vzor~enje izbranega podro~ja govorjenega jezika. Tovrstne ustreznosti govorne zbirke ne moremo zagotoviti z zgolj in`enirskim pristopom, ker pri tem potrebujemo tudi jezikoslovno in glasoslovno poznavanje govorjenega jezika (Dobri{ek 2001). Za govorjeni slovenski jezik nekaj tovrstnega znanja `e obstaja, vendar menimo, da bo to znanje dovolj dobro {ele, ko bodo izvedene obse`nej{e statisti~ne analize slovenskega govorjenega jezika. Pod statisti~no analizo razumemo na~rtno zbiranje, urejanje, predstavljanje in tolma~enje zbranih podatkov. In`enirsko delo na tem Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 53 podro~ju se mora nana{ati predvsem na pridobivanje, urejanje in predstavljanje podatkov ter manj na njihovo tolma~enje. Slednje se praviloma prepu{~a drugim raziskovalnim vejam, predvsem jezikoslovju, najbolj glasoslovju. 5.2 Pridobivanje govornih posnetkov Danes sta v veljavi dva na~ina pridobivanja govornih posnetkov. V prvem primeru govorci izgovorijo v snemalno napravo vnaprej pripravljeno besedilo. V drugem primeru pa snemamo spontano govorjeno besedilo, ki je lahko bodisi monolog ali pogovor. Izbira besedila je klju~nega pomena in je odvisna od namena zbirke. Tudi za pridobivanje govornih posnetkov moramo izvesti na~rtovanje in pripravo snemalnega okolja. Kak{ne snemalne naprave in snemalno okolje izberemo, je odvisno od namena govorne zbirke. Navadno so to kar laboratorijska okolja, pri katerih pazimo na nepotrebno zvo~no »onesna`evanje« (Dobri{ek 2001). Primernost snemalnega okolja dolo~a namen zbirke, vendar pogosto vseh zahtev zaradi pomanjkanja sredstev ne moremo povsem izpolniti. V splo{nem pa ni potrebe, da bi govorne posnetke morali pridobivati v posebnem studijskem okolju, zato to po~enjamo le v primerih, ko zbirka predstavlja dolgoro~no dedi{~ino. Med snemanjem govora je priporo~ljivo preverjati, ali govorec ustrezno izgovarja predlo`eno besedilo. To lahko storimo s prisotnostjo druge osebe med snemanjem ali pa posku{amo v snemalni postopek vgraditi dolo~eno samodejno preverjanje. Govor snemamo preko mikrofona v analogni ali digitalni obliki na razli~ne snemalne naprave. Danes to pogosto izvedemo kar na ra~unalnikih, ki imajo vgrajeno raz{iritev za zajemanje zvo~nih posnetkov. Posnetke govora shranjujemo v digitalni obliki na trajne ra~unalni{ke pomnilni{ke medije. Za pridobivanje govornih posnetkov uporabljamo posebne programske uporabni{ke vmesnike, ki besedilo, ki ga mora izgovoriti govorec, izpi{ejo na zaslon ra~unalnika ter preverjajo skladnost posnetega govora s predlo`enim besedilom (Dobri{ek 2001). Na~in snemanja govorne zbirke je odvisen od njenega namena. ^e `elimo prou~evati lastnosti spontanega pogovora oz. razliko med govorjenimi in pisanimi besedili, snemanje opravimo v druga~nih razmerah kot denimo snemanje govorne zbirke za difonski sintetizator govora. V slednjem primeru je namre~ priporo~ljivo, da govorec besedilo, ki vsebuje vsa `elena zaporedja alofonov, prebere v celoti naenkrat (Miheli~ 2002). Govorec vse besedilo izgovori na podoben na~in, s konstantno intonacijo. Snemanje besedila po kosih v dalj{em ~asovnem obdobju ni priporo~ ljivo, saj se govorcu lahko glas zaradi razli~nih zunanjih (vreme, druga~ne nastavitve pri snemanju, spremenjen spekter in intenziteta motenj iz okolice) ali notranjih (razpolo`enje, bolezen) vzrokov spremeni. Po drugi strani pa `elimo pri snemanju pogovorov oz. prostega govora zajeti ~imve~ prvin, po katerih se tak govor razlikuje od branega besedila, kot so zna~ilni prekrivajo~i se govor, ponavljanje, premori, zapolnjevalci vrzeli, samokorekture in napa~ni starti (Kranjc 1998; Stabej 2000). 54 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek 5.3 Segmentacija in ozna~evanje govorne zbirke Posneti govorni signal predstavlja le en del govorne zbirke. Ta je brez ustreznih oznak govornih odsekov ve~inoma neuporabna za nadaljnje raziskave. Sledi dolgotrajni postopek segmentacije in ozna~evanja govornega signala. Govorni signal je v postopku segmentacije potrebno razmejiti oz. segmentirati na posamezne segmente ali govorne odseke in jim v postopku ozna~evanja ali anotacije pripisati oznake na razli~nih anotacijskih nivojih: grafemskem, foneti~nem, prozodijskem. Vrste segmentacije oz. oznak, ki jih govorna zbirka vsebuje, so odvisne od namena uporabe zbirke. Za raziskave na podro~ju govornih tehnologij moramo zbirko navadno opremiti vsaj z oznakami na grafemskem in foneti~nem nivoju. Ker je ro~na segmentacija govora na foneti~nem nivoju naporna in dolgotrajna, se pri tem poslu`ujemo vsaj delno avtomatiziranih postopkov, ki so bolj u~inkoviti, ~e vnaprej poznamo grafemski prepis govorjenega gradiva. Samodejno grobo ozna~evanje govorne zbirke S postopkom siljenega prileganja posnetkov govora z grafi modelov glasov, ki so dolo~eni iz foneti~nih prepisov izgovorjenih razli~ic besed, si lahko mo~no olaj{amo dolgotrajno in zamudno ro~no segmentacijo in ozna~evanje glasov (Dobri{ek 2001). Postopek temelji na prikritih Markovovih modelih. Rezultat samodejnega siljenega prileganja so, med drugim, tudi podatki o ~asovnih odsekih, ki pripadajo posameznim glasovom. Postopek siljenega prileganja posnetkov govora z grafi modelov glasov potrebuje za svoje delovanje natan~no zaporedje fonemov v govornem signalu, ki ga obdeluje. Zato je potrebno grafemski prepis besedila sprva pretvoriti v foneti~ni prepis, ro~no ali pa z uporabo samodejnega postopka za grafemsko foneti~no pretvorbo, ki se uporablja tudi pri samodejni sintezi govora (Gros 2000). Pogosto sprva s postopkom siljenega prileganja z oznakami opremimo le manj{i del govorne zbirke. Rezultat postopka nato ro~no preverimo in popravimo vse napa~no postavljene oznake mej med posameznimi fonemi (Miheli~ 2002). Zelo dobra lastnost omenjenega postopka za avtomatsko ozna~evanje posnetkov je ta, da se je sposoben u~iti. Vse predhodne ro~ne korekcije se upo{tevajo pri naslednjem avtomatskem ozna~evanju. Tako se postopek za samodejno segmentacijo in ozna~evanje postopoma priu~i na~inu govorjenja govorca ter generira vse manj napak. Fino ro~no ozna~evanje govorne zbirke Za ro~no pregledovanje in ozna~evanje govorne zbirke ter popravljanje oznak govornih segmentov se uporabljajo raznovrstna programska orodja, namenjena delu z govornimi signali. Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 55 Kot primer takega programskega orodja predstavljamo orodje Sigmark, ki omogo~a prikaz in obdelavo posnetih govornih signalov in izbranih akusti~nih zna~ilk ter poslu{anje poljubnih odsekov signala. Slika 1: Orodje Sigmark omogo~a opremljanje govornega signala z oznakami o mejah med govornimi segmenti in s simboli za ozna~itve govornih segmentov. Prva skupina oznak predstavlja potek osnovne frekvence signala, druga skupina oznak so ro~no popravljeni polo`aji mej med glasovi, tretja skupina pa prikazuje samodejno dolo~ene polo`aje mej med glasovi. Iz posnetkov govornih signalov je mo`no z metodami obdelave signalov pridobiti standardne akusti~ne zna~ilke govora, kot so potek osnovne frekvence, kratko~asovna glasnost govora ali prvih nekaj formantnih frekvenc govornega signala. Orodje Sigmark omogo~a so~asni prikaz ~asovne in kratko~asovne frekven~ne karakteristike signala, kar mo~no olaj{a preverjanje in popravljanje oznak ter mej med posameznimi govornimi segmenti. Najve~ja prednost orodja Sigmark je v tem, da omogo~a samodejno in konsistentno postavljanje prozodijskih oznak za osnovno periodo. 56 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek Slika 2: So~asen prikaz ~asovnega poteka signala in kratko~asovne frekven~ne karakteristike. 6 Pregled govornih zbirk za slovenski jezik V tem razdelku podajamo pregled ra~unalni{ko berljivih in ozna~enih govornih zbirk za slovenski jezik. Vse omenjene govorne zbirke, razen posebnih namenskih govornih zbirk, ve~inoma upo{tevajo osnovne zahteve po foneti~ni uravnote`enosti besedil in nare~ni pokritosti slovenskih nare~nih skupin z izbranimi govorci. Bolj obse`en opis posamezne govorne zbirke se nahaja v referencah, na katere se sklicujemo ob navedbi posamezne govorne zbirke. Sprva navajamo obse`nej{e govorne zbirke, zbrane pod okriljem posamezne razvojno raziskovalne ustanove, sledi pregled namenskih govornih zbirk. Na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko Univerze v Mariboru so posneli in ozna~ili vrsto govornih zbirk, ki so namenjene predvsem razvoju prepoznavanja in sinteze govora: govorna zbirka SNABI (Ka~i~ 2002), govorna zbirka SpeechDat II (Ka~i~ 2002), govorna zbirka PoliDat (Ka~i~ 2002) in zbirka posnetkov emocionalnega govora (Hozjan 2002). Na Fakulteti za elektrotehniko Univerze v Ljubljani so ustvarili naslednje govorne zbirke: govorna zbirka Mobiluz (Dobri{ek 1998, Gros 2000, Miheli~ 2003), govorna zbirka K211D (Dobri{ek 2001), govorni zbirki radijskih in televizijskih vremenskih napovedi VNTV in VNRAD (@ibert 2000) ter {tiri specializirane govorne zbirke: difonska govorna zbirka (Gros 2000), govorna zbirka VINDAT ([krlj 2001), del zbirke Gopolis, posnet z razli~nimi hitrostmi govorjenja (Gros 2000), ter govorna zbirka za istovetenje govorcev (Kranjc 2001). Na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko Univerze v Mariboru so zbrali govorno zbirke [tevke (Rozman 2000). Za potrebe sinteze in prepoznavanja govora so bile ob `e omenjenih posnete {e naslednje govorne zbirke: difonska govorna zbirka In{tituta Jo`ef Stefan ([ef 1998), Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 57 difonska in polifonska govorna zbirka podjetja Masterpoint (Miheli~ 2002) in u~na baza izgovarjav Hermes Softlab ([ket 2002). Manj{e, specializirane zbirke govorjenih besedil, namenjene predvsem jezikoslovnim raziskavam, so opisane v delih (Ozbi~ 1998; Modic 2002; Tivadar 2003 in Zemljak 2002). Izmed vseh na{tetih govornih zbirk sta prosto dostopni v raziskovalne namene edinole zbirki MobiLuz in K211D. Govorna zbirka SpeechDat II je dosegljiva preko distribucijske agencije ELDA . 7 Sklepne misli Pri raziskovalnem delu na podro~ju tehnologij govorjenega jezika se neizbe`no sre~amo z zahtevo po dostopu do obse`nej{ih govornih zbirk. Pomanjkanje na~rtno zbranih in dostopnih govornih zbirk predstavlja klju~no oviro za hitrej{i razvoj tehnologij govorjenega slovenskega jezika. V primerjavi z ve~jimi svetovnimi jeziki je za slovenski govorjeni jezik govornih zbirk razmeroma malo, pa {e te so pogosto nedostopne preostalim razvojnim in raziskovalnim skupinam. Pridobivanje govornih zbirk zahteva precej ljudi in sredstev. Zato avtorji ~lanka pozivamo razvojno raziskovalne skupine, ki v slovenskem prostoru delujejo na podro~ju govornih tehnologij, da se pri zbiranju govornih zbirk medsebojno povezujejo in da omogo~ijo dostop do lastnih govornih zbirk tudi svojim kolegom iz drugih skupin, bodisi pod razumnimi finan~nimi pogoji ali pa celo brezpla~no v primerih, ko se pridobljeno znanje uporablja izklju~no za nekomercialne raziskovalne namene. Literatura Dobri{ek, S., Gros, J., Ip{i~, I., Pepelnjak, K. Miheli~, F. Pave{i}, N., 1998: Gopolis: slovenska podatkovna zbirka govorjenih poizvedovanj. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jo`ef Stefan. 105–108. Dobri{ek, S., 2001: Analiza in razpoznavanje glasov v govornem signalu. Doktorska disertacija. Univerza v Ljubljani: Fakulteta za elektrotehniko. Erjavec, T., 1998: Standardizacija zapisa jezikovnih podatkov. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 119–123. Fourcin, A., Harland, G., Barry, W., Hazan, 1989: SPEECH INPUT AND OUTPUT ASSESSMENT Multilingual Methods and Standards. J. Wiley & Sons. Gibbon, D., Moore, R., Winski R. (ur.), 1997: Handbook of Standards and Resources for Spoken Language Systems. Berlin: Mouton de Gruyter. Gros, J., 2000: Samodejno tvorjenje govora iz besedil: postopek za izdelavo sintetizatorja slovenskega govora. Zbirka Linguistica et philologica. Ljubljana: Zalo`ba ZRC. Hozjan, V., Ka~i~, Z., Ambru{ ^eh, D., 2000: Analiza prozodijskih zna~ilk emocionalnega govora. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 31–34. 58 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek Hozjan, V., Ka~i~, Z., 2002: Objective analysis of emotional speech for English and Slovenian Interface emotional speech databases. Zbornik LREC–2002. Las Palmas. 2019–2022. Ka~i~, Z. in Horvat, B., 1998: Izgradnja infrastrukture potrebne za razvoj govorne tehnologije za slovenski jezik. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 100–104. Ka~i~, Z., Horvat, B., Zoegling Marku{, A., 2000: Issues in design and collection of large telephone speech corpus for Slovenian language. Zbornik LREC–2002. Atene. 943–946. Ka~i~, Z., 2002: Pomen zdru`evanja raziskovalnih potencialov pri preseganju jezikovnih pre- grad v okviru jezikovnih tehnologij naslednjih generacij. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 111–115. Kranjc, R., 2001: Domofonski sistem s samodejnim istovetenjem oseb na podlagi izgovorjenega gesla. Diplomsko delo. Univerza v Ljubljani: Fakulteta za elektotehniko. Kranjc, S., 1998: Govorjena besedila in korpus slovenskega jezika. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 109–112. Marascuilo, M. in Serlin, R., 2002: Statistical methods for the social, and behavioral sciences. Freeman and Company. New York. Miheli~, F., Gros, J., Noeth, E., Dobri{ek, S., @ibert, J., 2000: Recognition of Selected Prosodic Events in Slovenian Speech. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 45–49. Miheli~, A, Gros, J., Pave{i}, N., @ganec, M., 2002: Pridobivanje govorne zbirke za korpusni sintetizator govora Phonectic. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 14–19. Miheli~, F., Gros, J., Dobri{ek, S., @ibert, J., Pave{i}, N., 2003: Spoken Language Resources at LUKS of the University of Ljubljana. International Journal of Speech Technology 6/3. 221–232. Modic, R. in Petek, B., 2002: A Contrastive Acoustic Phonetic Analysis of Slovenian and English Diphthongs. Zbornik LREC–2002. Las Palmas. 293–296. Ozbi~, M., 1998: Akusti~na spektralna FFT analiza samoglasni{kega sistema slovenskega jezika. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 55–59. Rojc, M. in Ka~i~, Z., 2000: Design of optimal Slovenian speech corpus for use in the concatenative speech synthesis system. Zbornik LREC–2002. Atene. 321–325. Rozman, R., Kodek, D., 2000: Govorna baza »[tevke« in raziskave robustnosti sistemov za razpoznavanje govora. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 75–78. Srebot-Rejec, T., 1998: Word Accent and Vowel Duration in Standard Slovene: An Acoustic and Linguistic Investigation. Slavistische Beiträge 226. München: Verlag Otto Sagner. Stabej, M., Vitez, P., 2000: KGB (korpus govorjenih besedil) v sloven{~ini. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 79–81. [ef, T., Dobnikar, A., Gams, M., Grobelnik, M., 1998: Slovenski govor na internetu. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 60–64. Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 59 [ket, G. in Imperl, B., 2002: M-vstopnica – uporaba avtomatskega razpoznavanja govora v praksi. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 116–119. [krlj, M., Miheli~, F., Gros, J., Dobri{ek, S., 2001: Speech corpora VINDAT – The Influence of the Psychophysical Condition of the Speaker on Speech Characteristics. Zbornik ERK–2001 Portoro`. 261–264. Tivadar, H., 2003: Govorjena podoba slovenskega knji`nega jezika – pravore~ni vidik. Magistrsko delo. Univerza v Ljubljani: Filozofska Fakulteta. Topori{i~, J., 1992: Enciklopedija slovenskega jezika. Ljubljana: Cankarjeva zalo`ba. Zemljak, M., Ka~i~, Z., Dobri{ek, S., Gros, J., Weiss, P., 2002: Ra~unalni{ki simbolni foneti~ni zapis slovenskega govora. Slavisti~na revija 50/2. 159–169. Zemljak, M., 2002: Trajanje glasov {tajerskega zabukov{kega govora: instrumentalnoslu{na analiza. Dokorska disertacija. Univerza v Ljubljani: Filozofska Fakulteta. Zögling Marku{, A. Ka~i~, Z. Horvat, B., 2000: Razvoj slovenske baze izgovarjav »POLIDAT«. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 95–98. @ibert, J., Miheli~, F., 2000: Govorna zbirka vremenskih napovedi. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 108–111. Pomembnej{e spletne strani LUKS FERI FRI IJS Masterpoint HSL Alpineon FIDA ) Nova beseda