Jerneja @ganec Gros1, France Miheli~2, Simon Dobri{ek2 UDK811.163.6-25:004.5
1Alpineon razvoj in raziskave d.o.o., Ljubljana
2Univerza v Ljubljani, Fakulteta za elektrotehniko in ra~unalni{tvo
jerneja@alpineon.com, mihelicf@fe.uni-lj.si, simond@luks.fe.uni-lj.si,
GOVORNE TEHNOLOGIJE:
PRIDOBIVANJE IN PREGLED
GOVORNIH ZBIRK ZA SLOVENSKI
JEZIK
Govorne zbirke so nepogre{ljive pri raziskovalnem delu na podro~ju tehnologij govorjenega jezika.
Vsebujejo predvsem ra~unalni{ko berljive posnetke govora. Posnetkom so vedno prilo`eni {e podatki, ki
na razli~ne na~ine opisujejo posneti govor. Prilo`eni podatki so opisi govornih dejavnikov, dejavnikov
govorcev ter zapisi in ozna~itve posnetega govora. Pogosto govorni zbirki prilo`imo {e navodila za uporabo ter rezultate izbranih analiz govornih posnetkov. ^lanek opisuje osnovne gradnike govornih zbirk
ter postopek zasnove, snemanja, segmentacije, ozna~evanja in analize govornih zbirk. V sklepnem delu
se nahaja pregled govornih zbirk za slovenski jezik.
1 Uvod
Govorne tehnologije, predvsem to velja za sintezo in prepoznavanje govora, nezadr`no prodirajo v na{e `ivljenje. Na tr`i{~u se je v zadnjih letih pojavilo kar nekaj
solidnih sintetizatorjev in prepoznavalnikov govora, nekateri med njimi podpirajo
tudi slovenski jezik. Uporabljamo jih v samodejnih informacijskih centrih, v govornih portalih, za glasovno prebiranje elektronske po{te ipd.
Razvoj in raziskave s podro~ja govornih tehnologij za slovenski jezik se izvajajo na
Fakulteti za elektrotehniko Univerze v Ljubljani (Luks), na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko na Univerzi v Mariboru (FERI), na Fakulteti za
ra~unalni{tvo in informatiko Univerze v Ljubljani (FRI), na In{titutu Jo`ef Stefan
(IJS), na Naravnoslovno tehni{ki fakulteti Univerze v Ljubljani ter v podjetjih
Masterpoint d. o. o. (Masterpoint), Hermes Softlab d. d. (HSL) in Alpineon razvoj
in raziskave d. o. o. (Alpineon).
Razvoj govornih tehnologij, predvsem sinteze in prepoznavanja govora, ni pogojen
le s tehnologijo izgovora, temve~ tudi z izvajanjem osnovnih raziskav govora in
jezika. Vse ve~ govornih zbirk in rezultatov jezikovnih {tudij je dostopnih tudi v
na{em prostoru. Govorne zbirke so nepogre{ljive pri raziskovalnem delu na
podro~ju govornih tehnologij. Predstavljajo pomemben ~len osnovne infrastrukture
za razvoj govornih tehnologij za posamezno jezikovno podro~je (Ka~i~ 1998).
Jezik in slovstvo, let. 48 (2003), {t. 3–4
48 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek
Govorne zbirke vsebujejo predvsem ra~unalni{ko berljive posnetke govora (Gibbon
1997; Dobri{ek 2001). Posnetkom so vedno prilo`eni {e podatki, ki na razli~ne
na~ine opisujejo posneti govor. Prilo`eni podatki so opisi govornih dejavnikov,
dejavnikov govorcev ter zapisi in ozna~itve posnetega govora.
V ~lanku opisujemo osnovne gradnike govornih zbirk. Zasnovo govorne zbirke
lahko logi~no razstavimo v tri zaporedne korake, ki jih podrobneje predstavljamo v
nadaljevanju ~lanka. Prvi korak predstavlja izbira besedila, potrebnega za snemanje govorne zbirke, oz. izbira govorne situacije v primeru, ko gre za snemanje spontanega govora. Drugi korak predstavlja snemanje govornega gradiva. Sledi zadnji
korak, ki ga sestavljajo segmentacija, ozna~evanje in analiza govornega gradiva.
^lanek sklenemo s pregledom govornih zbirk za slovenski jezik, zbranih v laboratorijih, ki na na{em prostoru delujejo na podro~ju govornih tehnologij.
2 Govorne zbirke
Govorne zbirke, pravimo jim tudi zbirke govorjenega jezika, so nepogre{ljive pri
raziskovalnem delu na podro~ju tehnologij govorjenega jezika. Vsebujejo predvsem
ra~unalni{ko berljive posnetke govora (Gibbon 1997; Dobri{ek 2001). Posnetkom
so vedno prilo`eni {e podatki, ki na razli~ne na~ine opisujejo posneti govor.
Prilo`eni podatki so opisi govornih dejavnikov (npr. spol, starost, poklic, narodnostno-nare~no obmo~je), dejavnikov govorcev (npr. govor~evo trenutno razpolo`enje,
zvo~ne lastnosti okolja ob snemanju) ter zapisi in ozna~itve posnetega govora.
Pogosto so prilo`ena {e navodila za uporabo zbirke ter rezultati izbranih analiz
govornih posnetkov (Fourcin 1989).
Govorne zbirke navadno vsebujejo samo nekatere od na{tetih podatkov. Govorni
posnetki pa so vedno opremljeni vsaj z nekaterimi dodatnimi podatki. Kateri od
na{tetih podatkov so dejansko vklju~eni v zbirko, je odvisno od namena uporabe
zbirke (Dobri{ek 2001).
Govorne zbirke moramo razlikovati od drugih podobnih zbirk, povezanih z jezikom
in govorom. Tako govorne posnetke, ki niso ra~unalni{ko berljivi ali niso opremljeni s primernimi dodatnimi podatki, ne {tejemo za prave govorne zbirke. Pri tem
mislimo na radijske in televizijske govorne posnetke, shranjene na `e zastarele
zvo~ne medije. S prenosom takih posnetkov na ra~unalni{ko berljiv medij in s pripravo potrebnih dodatnih podatkov bi iz teh posnetkov lahko nastale pomembne
govorne zbirke.
Po drugi strani se govorne zbirke razlikujejo tudi od besedilnih zbirk, ki jih pridobivamo za potrebe jezikovnega modeliranja, jezikoslovnih analiz naravnega jezika
in za gradnjo samodejnih sistemov za prevajanje. V te zbirke so vklju~ena ve~inoma
le pisana besedila, pridobljena iz razli~nih virov (romani, ~asopisi, gledali{ka dela
ipd.). Te zbirke praviloma ne vklju~ujejo govornih posnetkov, kve~jemu ortografsko prepisana govorjena besedila. Najve~ji tovrstni zbirki za slovenski jezik sta
FIDA in Nova beseda.
Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 49
3 Govorni posnetki
Govorni posnetki so najpomembnej{i del govornih zbirk. Sem uvr{~amo vse
posnetke, ki jih lahko pridobimo v povezavi z delovanjem ~love{kih govoril med
govorjenjem. Najpogostej{i so mikrofonski posnetki zvo~nih signalov, ki se pojavljajo med govorjenjem, in laringografski posnetki vibriranja glasilk v grlu. Uporabljajo pa se tudi vizualni in rentgenski posnetki govoril. Prvi se nana{ajo zgolj na
slikovne posnetke obraza, predvsem ustnic, drugi pa na globinske slike prereza
celotnega sistema govoril. V zadnjem ~asu se pogosto analizirajo tudi posnetki biomedicinskih signalov, ki se pojavljajo v govorilih in tudi v ~love{kih mo`ganih. Ti
signali se pridobivajo med govorjenjem s posebno medicinsko opremo (elektromiografi, elektroencefalografi).
Ve~ina raziskav na podro~ju govornih tehnologij se {e vedno nana{a predvsem na
obdelavo posnetkov govornih zvo~nih signalov, pridobljenih s pomo~jo mikrofona
(Dobri{ek 2001). Tem signalom pravimo govorni signali. Vsekakor imajo tudi preostali omenjeni govorni posnetki poseben pomen, saj njihova analiza omogo~a bistveno {ir{i vpogled v delovanje ~love{kih govoril in s tem tudi globlje razumevanje
~love{kega govora.
Govorne posnetke shranjujemo na raznovrstne magnetne, opti~ne in druge sodobne
pomnilni{ke medije. Pri tem je pomembno, da je izbrani medij ra~unalni{ko berljiv.
Praviloma se govorni posnetki shranjujejo kar v obliki ra~unalni{kih datotek na
lasersko berljive plo{~e CD-ROM in DVD-ROM.
4 Opisi govornih posnetkov
Govorna zbirka vsebuje tudi opise razli~nih dejavnikov, ki se nana{ajo na govorne
posnetke. Pri tem mislimo predvsem na govorne dejavnike in dejavnike govorcev,
katerih govor smo snemali. Oboje je neposredno povezano z govorci, ki so sodelovali pri snemanju govora (Dobri{ek 2001).
Govorci
Najbolj preproste govorne zbirke so zbirke z nekaj deset govorci (Gibbon 1997).
[tevilo govorcev znotraj tega razpona `e omogo~a statisti~no ustreznost zbirke. To
zagotovimo z upo{tevanjem standardnih statisti~nih postopkov pri izbiri vzorca
populacije vseh govorcev (Marascuilo 1988).
Statisti~no ustreznost zbirke nenazadnje dolo~a tudi njen kon~ni namen. Pogosto se
namre~ `e vnaprej omejimo le na o`je podro~je govorjenega jezika in le na o`jo
populacijo govorcev. Na primer: gradnjo kakovostnih in od govorcev neodvisnih
sistemov za prepoznavanje govora omogo~ajo govorne zbirke z nekaj sto govorci.
Pri razvoju sistemov za samodejno tvorjenje govora pa se uporabljajo zbirke z le
nekaj govorci. Pogosto je v tak{ne zbirke vklju~en en sam izku{en govorec, ki predstavlja u~ni primer in primerjavo bodo~emu sintetizatorju govora (Gros 2000). Pri
50 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek
tem je pomembno, da je govorec vedno na voljo zaradi morebitnih popravkov ter
dosnemavanja govorne zbirke.
Dejavniki govorcev
Pri izbiri govorcev moramo upo{tevati nekatere zna~ilnosti, ki so povezane z njihovim govorom. Te zna~ilnosti delimo na prehodne in trajne (Dobri{ek 2001).
Prehodne zna~ilnosti so morebitne psiholo{ke in fiziolo{ke motnje (npr. po~utje,
bolezen, psihi~no stanje).
Med trajne zna~ilnosti pa {tejemo fiziolo{ke in anatomske zna~ilnosti (npr. spol,
starost, te`o, okvare na govorilih, kadilske in pivske navade) in geografske in social-
no-jezikovne vplive na govor (izobrazbo in poklic govorcev, narodnostno-nare~no
podro~je trenutnega in morebitnega predhodnega bivali{~a govorcev, narodnostnonare~no podro~je govor~evih star{ev).
Govorni dejavniki
Med govorne dejavnike uvr{~amo prozodijske zna~ilnosti govora, ki se nana{ajo na
trenutno razpolo`enje govorca ter njegov pristop k tvorjenju govornih posnetkov
(Dobri{ek 2001). Posneti govor lahko tako ozna~imo za hiter, po~asen, napet, spro{~en, odrezav, natan~en, povr{en ipd.
4.1 Simbolni zapisi govora
Govorni signal je psevdonaklju~en, krajevno stacionaren signal, ki nosi informacijo. Govorni signal vsebuje ve~ informacij, kot jih je v besedilu (npr. ~ustva, odnos
govorca do teme in podobno).
S preu~evanjem govornega signala s stali{~a izgovarjave ali slu{nosti se ukvarja
fonetika (Topori{i~ 1992; Srebot–Rejec 1988). Preu~uje zvo~no podobo jezika od
glasu, naglasa v besedi do celotnega besedila. Govorimo lahko o fonetiki glasov,
prozodike, zlogov, morfemov, besednih zvez, stavkov, povedi in besedila.
Za opisovanje fenomenov govorjenega besedila se uporabljajo predvsem 3 nivoji
anotacij ali prepisov govorjenega besedila: grafemski prepis, foneti~ni prepis in
prozodijske oznake.
Oznakovni del govorne zbirke, predvsem njen grafemski prepis, je pogosto zapisan
po priporo~ilih TEI P3 (Text Encoding Initiative). Priporo~ila TEI P3 dolo~ajo konkretne oznake ISO standarda SGML (Standard Generalized Markup Language) in
strukturo oznak SGML za raznovrstna besedila (Erjavec 1998).
Za ozna~evanje govora na o`ji foneti~ni ravni se je v svetu uveljavila mednarodna
foneti~na abeceda IPA (International Phonetic Alphabet) oz. njena ra~unalni{ko
berljiva poenostavljena preslikava MRPA (Machine Readable Phonetic Alphabet).
Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 51
Foneti~no abecedo MRPA za slovenske glasoslovne oznake je v medsebojnem
sodelovanju izdelalo ve~ slovenskih raziskovalnih institucij (Zemljak 2002).
Za ozna~evanje prozodijskih fenomenov v govorjenem jeziku se uporabljajo posebne prozodijske anotacije (Miheli~ 2000; Stergar 2000).
Foneti~ni prepis govora
Grafemski oziroma ~rkovni zapis govorjenega gradiva predstavlja osnovni simbolni zapis posnetega govora. Foneti~ni zapis govora uporablja osnovne enote, ki so
povzete iz glasoslovja. To so fonemi ali alofoni. Tak simbolni zapis govora vsebuje ve~ informacije od grafemskega.
Razli~na izbira anotacijskih enot predstavlja tudi razli~ne mo`nosti zapisa ali prepisa govorjenega jezika. Poleg obi~ajnega grafemskega zapisa tako govorimo o
fonemskem, o`jem in {ir{em foneti~nem ter akusti~nofoneti~nem zapisu. Primeri
razli~nih zapisov za eno poved so zbrani v preglednici 1.
Preglednica 1: Razli~ni na~ini zapisov ali prepisov besedila. Foneti~ni prepisi besed so
zapisani s simboli slovenske MRPA abecede. [-] in [=] sta oznaki za nezvene~o in zvene~o
zaporo pri akusti~nofoneti~nem zapisu fonemov zapornikov
,,,, in
.
4.2 Ozna~itve govornih posnetkov
Simbolni zapisi in prepisi posnetega govora ve~inoma zado{~ajo pri raziskovalnem
delu na podro~ju tehnologij govorjenega jezika. To velja predvsem za tehni{ko
modeliranje govora (Dobri{ek 2001). Podrobnej{a analiza govora pa zahteva natan~
nej{e ozna~evanje posnetkov govora.
Ozna~evanje govornih posnetkov je postopek ro~nega ali samodejnega dolo~anja
odsekov posnetih govornih signalov, ki jih obravnavamo kot akusti~ne enote govorjenega jezika. Vsakemu odseku pripi{emo simbolno oznako, ki v govornem signalu predstavlja oziroma ozna~uje akusti~no enoto.
Glasovi so osnovne akusti~ne enote govorjenega jezika. Govorne posnetke zato
pogosto ozna~ujemo tako, da jih raz~lenimo na zaporedje odsekov, ki predstavljajo
fone fonemov ali alofonov. Tudi tak{no ozna~evanje je lahko bolj ali manj natan~
no. Natan~nost je odvisna od {tevila upo{tevanih glasovnih razli~ic oziroma alofo
52 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek
nov ter morebitnega ozna~evanja akusti~nih dogodkov, manj{ih od samih fonov. Pri
slednjih obravnavamo predvsem dogodke, povezane z govorilnimi organi, kot so
tlesk, zapora, odpora, pripora, pridih.
Pri ozna~evanju prav tako govorimo o fonemski, {ir{i in o`ji foneti~ni, akusti~nofoneti~ni ter prozodijski ozna~itvi govornih posnetkov, podobno kot pri simbolnih
zapisih in prepisih govora.
4.3 Opisi analiz in navodila
Govornim zbirkam pogosto prilo`imo raznovrstne rezultate analiz zbirke. To so
navadno rezultati statisti~nih analiz, kot so frekvence ({tevilo) posameznih akusti~
nih enot ter sklopov akusti~nih enot.
Govorno zbirko opremimo {e z navodili za uporabo. To so podatki o strukturi zbirke, datote~nem sistemu in formatih ra~unalni{kih zapisov. Za tehni{ko modeliranje
govora je pomembno navesti {e podatek o tem, kateri del zbirke je namenjen u~nemu postopku, s katerim dolo~amo parametre modelov akusti~nih govornih enot, in
kateri del zbirke je namenjen preizku{anju in vrednotenju teh modelov.
5 Postopek pridobivanja govorne zbirke
Postopek pridobivanja govorne zbirke lahko logi~no razstavimo v tri zaporedne
korake, ki jih podrobneje predstavljamo v tem poglavju. Prvi korak predstavlja izbira besedila, potrebnega za snemanje govorne zbirke, oz. izbira govorne situacije v
primeru, ko gre za snemanje spontanega govora. Drugi korak predstavlja snemanje
govornega gradiva. Sledi zadnji korak – segmentacija, ozna~evanje in analiza
govornega gradiva.
5.1 Na~rtovanje vsebine zbirke
Pri na~rtovanju govornih zbirk velja, da naj bodo ~im bolj obse`ne. @al si neomejeno velikih koli~in podatkov v zbirki ne moremo privo{~iti. Zato moramo pazljivo
na~rtovati vsebino zbirke, da ta ~im bolje predstavlja celotno izbrano podro~je
govorjenega jezika (Gibbon 1997).
Ob na~rtovanju govorne zbirke `elimo dose~i statisti~no ustrezno vzor~enje izbranega podro~ja govorjenega jezika. Tovrstne ustreznosti govorne zbirke ne moremo
zagotoviti z zgolj in`enirskim pristopom, ker pri tem potrebujemo tudi jezikoslovno in glasoslovno poznavanje govorjenega jezika (Dobri{ek 2001).
Za govorjeni slovenski jezik nekaj tovrstnega znanja `e obstaja, vendar menimo, da
bo to znanje dovolj dobro {ele, ko bodo izvedene obse`nej{e statisti~ne analize slovenskega govorjenega jezika. Pod statisti~no analizo razumemo na~rtno zbiranje,
urejanje, predstavljanje in tolma~enje zbranih podatkov. In`enirsko delo na tem
Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 53
podro~ju se mora nana{ati predvsem na pridobivanje, urejanje in predstavljanje
podatkov ter manj na njihovo tolma~enje. Slednje se praviloma prepu{~a drugim
raziskovalnim vejam, predvsem jezikoslovju, najbolj glasoslovju.
5.2 Pridobivanje govornih posnetkov
Danes sta v veljavi dva na~ina pridobivanja govornih posnetkov. V prvem primeru
govorci izgovorijo v snemalno napravo vnaprej pripravljeno besedilo. V drugem
primeru pa snemamo spontano govorjeno besedilo, ki je lahko bodisi monolog ali
pogovor. Izbira besedila je klju~nega pomena in je odvisna od namena zbirke.
Tudi za pridobivanje govornih posnetkov moramo izvesti na~rtovanje in pripravo
snemalnega okolja. Kak{ne snemalne naprave in snemalno okolje izberemo, je
odvisno od namena govorne zbirke. Navadno so to kar laboratorijska okolja, pri
katerih pazimo na nepotrebno zvo~no »onesna`evanje« (Dobri{ek 2001). Primernost snemalnega okolja dolo~a namen zbirke, vendar pogosto vseh zahtev zaradi
pomanjkanja sredstev ne moremo povsem izpolniti. V splo{nem pa ni potrebe, da
bi govorne posnetke morali pridobivati v posebnem studijskem okolju, zato to
po~enjamo le v primerih, ko zbirka predstavlja dolgoro~no dedi{~ino.
Med snemanjem govora je priporo~ljivo preverjati, ali govorec ustrezno izgovarja
predlo`eno besedilo. To lahko storimo s prisotnostjo druge osebe med snemanjem
ali pa posku{amo v snemalni postopek vgraditi dolo~eno samodejno preverjanje.
Govor snemamo preko mikrofona v analogni ali digitalni obliki na razli~ne snemalne naprave. Danes to pogosto izvedemo kar na ra~unalnikih, ki imajo vgrajeno
raz{iritev za zajemanje zvo~nih posnetkov. Posnetke govora shranjujemo v digitalni obliki na trajne ra~unalni{ke pomnilni{ke medije. Za pridobivanje govornih posnetkov uporabljamo posebne programske uporabni{ke vmesnike, ki besedilo, ki ga
mora izgovoriti govorec, izpi{ejo na zaslon ra~unalnika ter preverjajo skladnost
posnetega govora s predlo`enim besedilom (Dobri{ek 2001).
Na~in snemanja govorne zbirke je odvisen od njenega namena. ^e `elimo prou~evati lastnosti spontanega pogovora oz. razliko med govorjenimi in pisanimi besedili, snemanje opravimo v druga~nih razmerah kot denimo snemanje govorne zbirke za difonski sintetizator govora. V slednjem primeru je namre~ priporo~ljivo, da
govorec besedilo, ki vsebuje vsa `elena zaporedja alofonov, prebere v celoti naenkrat (Miheli~ 2002). Govorec vse besedilo izgovori na podoben na~in, s konstantno
intonacijo. Snemanje besedila po kosih v dalj{em ~asovnem obdobju ni priporo~
ljivo, saj se govorcu lahko glas zaradi razli~nih zunanjih (vreme, druga~ne nastavitve pri snemanju, spremenjen spekter in intenziteta motenj iz okolice) ali notranjih
(razpolo`enje, bolezen) vzrokov spremeni.
Po drugi strani pa `elimo pri snemanju pogovorov oz. prostega govora zajeti ~imve~
prvin, po katerih se tak govor razlikuje od branega besedila, kot so zna~ilni prekrivajo~i se govor, ponavljanje, premori, zapolnjevalci vrzeli, samokorekture in
napa~ni starti (Kranjc 1998; Stabej 2000).
54 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek
5.3 Segmentacija in ozna~evanje govorne zbirke
Posneti govorni signal predstavlja le en del govorne zbirke. Ta je brez ustreznih oznak
govornih odsekov ve~inoma neuporabna za nadaljnje raziskave. Sledi dolgotrajni
postopek segmentacije in ozna~evanja govornega signala. Govorni signal je v postopku segmentacije potrebno razmejiti oz. segmentirati na posamezne segmente ali
govorne odseke in jim v postopku ozna~evanja ali anotacije pripisati oznake na
razli~nih anotacijskih nivojih: grafemskem, foneti~nem, prozodijskem. Vrste segmentacije oz. oznak, ki jih govorna zbirka vsebuje, so odvisne od namena uporabe zbirke.
Za raziskave na podro~ju govornih tehnologij moramo zbirko navadno opremiti
vsaj z oznakami na grafemskem in foneti~nem nivoju. Ker je ro~na segmentacija
govora na foneti~nem nivoju naporna in dolgotrajna, se pri tem poslu`ujemo vsaj
delno avtomatiziranih postopkov, ki so bolj u~inkoviti, ~e vnaprej poznamo grafemski prepis govorjenega gradiva.
Samodejno grobo ozna~evanje govorne zbirke
S postopkom siljenega prileganja posnetkov govora z grafi modelov glasov, ki so
dolo~eni iz foneti~nih prepisov izgovorjenih razli~ic besed, si lahko mo~no olaj{amo dolgotrajno in zamudno ro~no segmentacijo in ozna~evanje glasov (Dobri{ek
2001). Postopek temelji na prikritih Markovovih modelih. Rezultat samodejnega
siljenega prileganja so, med drugim, tudi podatki o ~asovnih odsekih, ki pripadajo
posameznim glasovom.
Postopek siljenega prileganja posnetkov govora z grafi modelov glasov potrebuje za
svoje delovanje natan~no zaporedje fonemov v govornem signalu, ki ga obdeluje.
Zato je potrebno grafemski prepis besedila sprva pretvoriti v foneti~ni prepis, ro~no
ali pa z uporabo samodejnega postopka za grafemsko foneti~no pretvorbo, ki se
uporablja tudi pri samodejni sintezi govora (Gros 2000).
Pogosto sprva s postopkom siljenega prileganja z oznakami opremimo le manj{i del
govorne zbirke. Rezultat postopka nato ro~no preverimo in popravimo vse napa~no
postavljene oznake mej med posameznimi fonemi (Miheli~ 2002).
Zelo dobra lastnost omenjenega postopka za avtomatsko ozna~evanje posnetkov je
ta, da se je sposoben u~iti. Vse predhodne ro~ne korekcije se upo{tevajo pri naslednjem avtomatskem ozna~evanju. Tako se postopek za samodejno segmentacijo
in ozna~evanje postopoma priu~i na~inu govorjenja govorca ter generira vse manj
napak.
Fino ro~no ozna~evanje govorne zbirke
Za ro~no pregledovanje in ozna~evanje govorne zbirke ter popravljanje oznak
govornih segmentov se uporabljajo raznovrstna programska orodja, namenjena delu
z govornimi signali.
Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 55
Kot primer takega programskega orodja predstavljamo orodje Sigmark, ki omogo~a
prikaz in obdelavo posnetih govornih signalov in izbranih akusti~nih zna~ilk ter
poslu{anje poljubnih odsekov signala.
Slika 1: Orodje Sigmark omogo~a opremljanje govornega signala z oznakami o mejah med
govornimi segmenti in s simboli za ozna~itve govornih segmentov. Prva skupina oznak predstavlja potek osnovne frekvence signala, druga skupina oznak so ro~no popravljeni polo`aji
mej med glasovi, tretja skupina pa prikazuje samodejno dolo~ene polo`aje mej med glasovi.
Iz posnetkov govornih signalov je mo`no z metodami obdelave signalov pridobiti
standardne akusti~ne zna~ilke govora, kot so potek osnovne frekvence, kratko~asovna glasnost govora ali prvih nekaj formantnih frekvenc govornega signala.
Orodje Sigmark omogo~a so~asni prikaz ~asovne in kratko~asovne frekven~ne
karakteristike signala, kar mo~no olaj{a preverjanje in popravljanje oznak ter mej
med posameznimi govornimi segmenti. Najve~ja prednost orodja Sigmark je v tem,
da omogo~a samodejno in konsistentno postavljanje prozodijskih oznak za osnovno periodo.
56 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek
Slika 2: So~asen prikaz ~asovnega poteka signala in kratko~asovne frekven~ne
karakteristike.
6 Pregled govornih zbirk za slovenski jezik
V tem razdelku podajamo pregled ra~unalni{ko berljivih in ozna~enih govornih
zbirk za slovenski jezik. Vse omenjene govorne zbirke, razen posebnih namenskih
govornih zbirk, ve~inoma upo{tevajo osnovne zahteve po foneti~ni uravnote`enosti
besedil in nare~ni pokritosti slovenskih nare~nih skupin z izbranimi govorci. Bolj
obse`en opis posamezne govorne zbirke se nahaja v referencah, na katere se sklicujemo ob navedbi posamezne govorne zbirke.
Sprva navajamo obse`nej{e govorne zbirke, zbrane pod okriljem posamezne razvojno raziskovalne ustanove, sledi pregled namenskih govornih zbirk.
Na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko Univerze v Mariboru
so posneli in ozna~ili vrsto govornih zbirk, ki so namenjene predvsem razvoju prepoznavanja in sinteze govora: govorna zbirka SNABI (Ka~i~ 2002), govorna zbirka
SpeechDat II (Ka~i~ 2002), govorna zbirka PoliDat (Ka~i~ 2002) in zbirka posnetkov emocionalnega govora (Hozjan 2002).
Na Fakulteti za elektrotehniko Univerze v Ljubljani so ustvarili naslednje govorne
zbirke: govorna zbirka Mobiluz (Dobri{ek 1998, Gros 2000, Miheli~ 2003), govorna zbirka K211D (Dobri{ek 2001), govorni zbirki radijskih in televizijskih vremenskih napovedi VNTV in VNRAD (@ibert 2000) ter {tiri specializirane govorne zbirke: difonska govorna zbirka (Gros 2000), govorna zbirka VINDAT ([krlj 2001), del
zbirke Gopolis, posnet z razli~nimi hitrostmi govorjenja (Gros 2000), ter govorna
zbirka za istovetenje govorcev (Kranjc 2001).
Na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko Univerze v Mariboru
so zbrali govorno zbirke [tevke (Rozman 2000).
Za potrebe sinteze in prepoznavanja govora so bile ob `e omenjenih posnete {e naslednje govorne zbirke: difonska govorna zbirka In{tituta Jo`ef Stefan ([ef 1998),
Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 57
difonska in polifonska govorna zbirka podjetja Masterpoint (Miheli~ 2002) in u~na
baza izgovarjav Hermes Softlab ([ket 2002).
Manj{e, specializirane zbirke govorjenih besedil, namenjene predvsem jezikoslovnim raziskavam, so opisane v delih (Ozbi~ 1998; Modic 2002; Tivadar 2003 in
Zemljak 2002).
Izmed vseh na{tetih govornih zbirk sta prosto dostopni v raziskovalne namene edinole zbirki MobiLuz in K211D. Govorna zbirka SpeechDat II je dosegljiva preko
distribucijske agencije ELDA .
7 Sklepne misli
Pri raziskovalnem delu na podro~ju tehnologij govorjenega jezika se neizbe`no
sre~amo z zahtevo po dostopu do obse`nej{ih govornih zbirk. Pomanjkanje na~rtno
zbranih in dostopnih govornih zbirk predstavlja klju~no oviro za hitrej{i razvoj tehnologij govorjenega slovenskega jezika. V primerjavi z ve~jimi svetovnimi jeziki je
za slovenski govorjeni jezik govornih zbirk razmeroma malo, pa {e te so pogosto
nedostopne preostalim razvojnim in raziskovalnim skupinam.
Pridobivanje govornih zbirk zahteva precej ljudi in sredstev. Zato avtorji ~lanka pozivamo razvojno raziskovalne skupine, ki v slovenskem prostoru delujejo na podro~ju
govornih tehnologij, da se pri zbiranju govornih zbirk medsebojno povezujejo in da
omogo~ijo dostop do lastnih govornih zbirk tudi svojim kolegom iz drugih skupin,
bodisi pod razumnimi finan~nimi pogoji ali pa celo brezpla~no v primerih, ko se pridobljeno znanje uporablja izklju~no za nekomercialne raziskovalne namene.
Literatura
Dobri{ek, S., Gros, J., Ip{i~, I., Pepelnjak, K. Miheli~, F. Pave{i}, N., 1998: Gopolis: slovenska podatkovna zbirka govorjenih poizvedovanj. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jo`ef Stefan. 105–108.
Dobri{ek, S., 2001: Analiza in razpoznavanje glasov v govornem signalu. Doktorska disertacija. Univerza v Ljubljani: Fakulteta za elektrotehniko.
Erjavec, T., 1998: Standardizacija zapisa jezikovnih podatkov. Erjavec, T. in Gros, J. (ur.):
Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 119–123.
Fourcin, A., Harland, G., Barry, W., Hazan, 1989: SPEECH INPUT AND OUTPUT ASSESSMENT Multilingual Methods and Standards. J. Wiley & Sons.
Gibbon, D., Moore, R., Winski R. (ur.), 1997: Handbook of Standards and Resources for
Spoken Language Systems. Berlin: Mouton de Gruyter.
Gros, J., 2000: Samodejno tvorjenje govora iz besedil: postopek za izdelavo sintetizatorja
slovenskega govora. Zbirka Linguistica et philologica. Ljubljana: Zalo`ba ZRC.
Hozjan, V., Ka~i~, Z., Ambru{ ^eh, D., 2000: Analiza prozodijskih zna~ilk emocionalnega
govora. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef
Stefan. 31–34.
58 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek
Hozjan, V., Ka~i~, Z., 2002: Objective analysis of emotional speech for English and
Slovenian Interface emotional speech databases. Zbornik LREC–2002. Las Palmas.
2019–2022.
Ka~i~, Z. in Horvat, B., 1998: Izgradnja infrastrukture potrebne za razvoj govorne tehnologije za slovenski jezik. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 100–104.
Ka~i~, Z., Horvat, B., Zoegling Marku{, A., 2000: Issues in design and collection of large
telephone speech corpus for Slovenian language. Zbornik LREC–2002. Atene. 943–946.
Ka~i~, Z., 2002: Pomen zdru`evanja raziskovalnih potencialov pri preseganju jezikovnih pre-
grad v okviru jezikovnih tehnologij naslednjih generacij. Erjavec, T. in Gros, J. (ur.): Zbornik
konference Jezikovne tehnologije. Institut Jo`ef Stefan. 111–115.
Kranjc, R., 2001: Domofonski sistem s samodejnim istovetenjem oseb na podlagi izgovorjenega gesla. Diplomsko delo. Univerza v Ljubljani: Fakulteta za elektotehniko.
Kranjc, S., 1998: Govorjena besedila in korpus slovenskega jezika. Erjavec, T. in Gros, J.
(ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan.
109–112.
Marascuilo, M. in Serlin, R., 2002: Statistical methods for the social, and behavioral sciences. Freeman and Company. New York.
Miheli~, F., Gros, J., Noeth, E., Dobri{ek, S., @ibert, J., 2000: Recognition of Selected
Prosodic Events in Slovenian Speech. Erjavec, T. in Gros, J. (ur.): Zbornik konference
Jezikovne tehnologije. Institut Jo`ef Stefan. 45–49.
Miheli~, A, Gros, J., Pave{i}, N., @ganec, M., 2002: Pridobivanje govorne zbirke za korpusni sintetizator govora Phonectic. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne
tehnologije. Institut Jo`ef Stefan. 14–19.
Miheli~, F., Gros, J., Dobri{ek, S., @ibert, J., Pave{i}, N., 2003: Spoken Language Resources
at LUKS of the University of Ljubljana. International Journal of Speech Technology 6/3.
221–232.
Modic, R. in Petek, B., 2002: A Contrastive Acoustic Phonetic Analysis of Slovenian and
English Diphthongs. Zbornik LREC–2002. Las Palmas. 293–296.
Ozbi~, M., 1998: Akusti~na spektralna FFT analiza samoglasni{kega sistema slovenskega
jezika. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski
jezik. Institut Jo`ef Stefan. 55–59.
Rojc, M. in Ka~i~, Z., 2000: Design of optimal Slovenian speech corpus for use in the concatenative speech synthesis system. Zbornik LREC–2002. Atene. 321–325.
Rozman, R., Kodek, D., 2000: Govorna baza »[tevke« in raziskave robustnosti sistemov za
razpoznavanje govora. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 75–78.
Srebot-Rejec, T., 1998: Word Accent and Vowel Duration in Standard Slovene: An Acoustic
and Linguistic Investigation. Slavistische Beiträge 226. München: Verlag Otto Sagner.
Stabej, M., Vitez, P., 2000: KGB (korpus govorjenih besedil) v sloven{~ini. Erjavec, T. in
Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 79–81.
[ef, T., Dobnikar, A., Gams, M., Grobelnik, M., 1998: Slovenski govor na internetu. Erjavec,
T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef
Stefan. 60–64.
Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 59
[ket, G. in Imperl, B., 2002: M-vstopnica – uporaba avtomatskega razpoznavanja govora v
praksi. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef
Stefan. 116–119.
[krlj, M., Miheli~, F., Gros, J., Dobri{ek, S., 2001: Speech corpora VINDAT – The Influence
of the Psychophysical Condition of the Speaker on Speech Characteristics. Zbornik
ERK–2001 Portoro`. 261–264.
Tivadar, H., 2003: Govorjena podoba slovenskega knji`nega jezika – pravore~ni vidik.
Magistrsko delo. Univerza v Ljubljani: Filozofska Fakulteta.
Topori{i~, J., 1992: Enciklopedija slovenskega jezika. Ljubljana: Cankarjeva zalo`ba.
Zemljak, M., Ka~i~, Z., Dobri{ek, S., Gros, J., Weiss, P., 2002: Ra~unalni{ki simbolni foneti~ni zapis slovenskega govora. Slavisti~na revija 50/2. 159–169.
Zemljak, M., 2002: Trajanje glasov {tajerskega zabukov{kega govora: instrumentalnoslu{na analiza. Dokorska disertacija. Univerza v Ljubljani: Filozofska Fakulteta.
Zögling Marku{, A. Ka~i~, Z. Horvat, B., 2000: Razvoj slovenske baze izgovarjav »POLIDAT«. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef
Stefan. 95–98.
@ibert, J., Miheli~, F., 2000: Govorna zbirka vremenskih napovedi. Erjavec, T. in Gros, J.
(ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 108–111.
Pomembnej{e spletne strani
LUKS
FERI
FRI
IJS
Masterpoint
HSL
Alpineon
FIDA
)
Nova beseda