Jerneja @ganec Gros1, France Miheli~2, Simon Dobri{ek2 UDK811.163.6-25:004.5 

1Alpineon razvoj in raziskave d.o.o., Ljubljana 
2Univerza v Ljubljani, Fakulteta za elektrotehniko in ra~unalni{tvo 
jerneja@alpineon.com, mihelicf@fe.uni-lj.si, simond@luks.fe.uni-lj.si, 

GOVORNE TEHNOLOGIJE: 
PRIDOBIVANJE IN PREGLED 
GOVORNIH ZBIRK ZA SLOVENSKI 
JEZIK 

Govorne zbirke so nepogre{ljive pri raziskovalnem delu na podro~ju tehnologij govorjenega jezika. 
Vsebujejo predvsem ra~unalni{ko berljive posnetke govora. Posnetkom so vedno prilo`eni {e podatki, ki 
na razli~ne na~ine opisujejo posneti govor. Prilo`eni podatki so opisi govornih dejavnikov, dejavnikov 
govorcev ter zapisi in ozna~itve posnetega govora. Pogosto govorni zbirki prilo`imo {e navodila za uporabo ter rezultate izbranih analiz govornih posnetkov. ^lanek opisuje osnovne gradnike govornih zbirk 
ter postopek zasnove, snemanja, segmentacije, ozna~evanja in analize govornih zbirk. V sklepnem delu 
se nahaja pregled govornih zbirk za slovenski jezik. 

1 Uvod 

Govorne tehnologije, predvsem to velja za sintezo in prepoznavanje govora, nezadr`no prodirajo v na{e `ivljenje. Na tr`i{~u se je v zadnjih letih pojavilo kar nekaj 
solidnih sintetizatorjev in prepoznavalnikov govora, nekateri med njimi podpirajo 
tudi slovenski jezik. Uporabljamo jih v samodejnih informacijskih centrih, v govornih portalih, za glasovno prebiranje elektronske po{te ipd. 

Razvoj in raziskave s podro~ja govornih tehnologij za slovenski jezik se izvajajo na 
Fakulteti za elektrotehniko Univerze v Ljubljani (Luks), na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko na Univerzi v Mariboru (FERI), na Fakulteti za 
ra~unalni{tvo in informatiko Univerze v Ljubljani (FRI), na In{titutu Jo`ef Stefan 
(IJS), na Naravnoslovno tehni{ki fakulteti Univerze v Ljubljani ter v podjetjih 
Masterpoint d. o. o. (Masterpoint), Hermes Softlab d. d. (HSL) in Alpineon razvoj 
in raziskave d. o. o. (Alpineon). 

Razvoj govornih tehnologij, predvsem sinteze in prepoznavanja govora, ni pogojen 
le s tehnologijo izgovora, temve~ tudi z izvajanjem osnovnih raziskav govora in 
jezika. Vse ve~ govornih zbirk in rezultatov jezikovnih {tudij je dostopnih tudi v 
na{em prostoru. Govorne zbirke so nepogre{ljive pri raziskovalnem delu na 
podro~ju govornih tehnologij. Predstavljajo pomemben ~len osnovne infrastrukture 
za razvoj govornih tehnologij za posamezno jezikovno podro~je (Ka~i~ 1998). 

Jezik in slovstvo, let. 48 (2003), {t. 3–4 


48 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek 

Govorne zbirke vsebujejo predvsem ra~unalni{ko berljive posnetke govora (Gibbon 
1997; Dobri{ek 2001). Posnetkom so vedno prilo`eni {e podatki, ki na razli~ne 
na~ine opisujejo posneti govor. Prilo`eni podatki so opisi govornih dejavnikov, 
dejavnikov govorcev ter zapisi in ozna~itve posnetega govora. 

V ~lanku opisujemo osnovne gradnike govornih zbirk. Zasnovo govorne zbirke 
lahko logi~no razstavimo v tri zaporedne korake, ki jih podrobneje predstavljamo v 
nadaljevanju ~lanka. Prvi korak predstavlja izbira besedila, potrebnega za snemanje govorne zbirke, oz. izbira govorne situacije v primeru, ko gre za snemanje spontanega govora. Drugi korak predstavlja snemanje govornega gradiva. Sledi zadnji 
korak, ki ga sestavljajo segmentacija, ozna~evanje in analiza govornega gradiva. 

^lanek sklenemo s pregledom govornih zbirk za slovenski jezik, zbranih v laboratorijih, ki na na{em prostoru delujejo na podro~ju govornih tehnologij. 

2 Govorne zbirke 

Govorne zbirke, pravimo jim tudi zbirke govorjenega jezika, so nepogre{ljive pri 
raziskovalnem delu na podro~ju tehnologij govorjenega jezika. Vsebujejo predvsem 
ra~unalni{ko berljive posnetke govora (Gibbon 1997; Dobri{ek 2001). Posnetkom 
so vedno prilo`eni {e podatki, ki na razli~ne na~ine opisujejo posneti govor. 
Prilo`eni podatki so opisi govornih dejavnikov (npr. spol, starost, poklic, narodnostno-nare~no obmo~je), dejavnikov govorcev (npr. govor~evo trenutno razpolo`enje, 
zvo~ne lastnosti okolja ob snemanju) ter zapisi in ozna~itve posnetega govora. 
Pogosto so prilo`ena {e navodila za uporabo zbirke ter rezultati izbranih analiz 
govornih posnetkov (Fourcin 1989). 

Govorne zbirke navadno vsebujejo samo nekatere od na{tetih podatkov. Govorni 
posnetki pa so vedno opremljeni vsaj z nekaterimi dodatnimi podatki. Kateri od 
na{tetih podatkov so dejansko vklju~eni v zbirko, je odvisno od namena uporabe 
zbirke (Dobri{ek 2001). 

Govorne zbirke moramo razlikovati od drugih podobnih zbirk, povezanih z jezikom 
in govorom. Tako govorne posnetke, ki niso ra~unalni{ko berljivi ali niso opremljeni s primernimi dodatnimi podatki, ne {tejemo za prave govorne zbirke. Pri tem 
mislimo na radijske in televizijske govorne posnetke, shranjene na `e zastarele 
zvo~ne medije. S prenosom takih posnetkov na ra~unalni{ko berljiv medij in s pripravo potrebnih dodatnih podatkov bi iz teh posnetkov lahko nastale pomembne 
govorne zbirke. 

Po drugi strani se govorne zbirke razlikujejo tudi od besedilnih zbirk, ki jih pridobivamo za potrebe jezikovnega modeliranja, jezikoslovnih analiz naravnega jezika 
in za gradnjo samodejnih sistemov za prevajanje. V te zbirke so vklju~ena ve~inoma 
le pisana besedila, pridobljena iz razli~nih virov (romani, ~asopisi, gledali{ka dela 
ipd.). Te zbirke praviloma ne vklju~ujejo govornih posnetkov, kve~jemu ortografsko prepisana govorjena besedila. Najve~ji tovrstni zbirki za slovenski jezik sta 
FIDA in Nova beseda. 


Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 49 

3 Govorni posnetki 

Govorni posnetki so najpomembnej{i del govornih zbirk. Sem uvr{~amo vse 
posnetke, ki jih lahko pridobimo v povezavi z delovanjem ~love{kih govoril med 
govorjenjem. Najpogostej{i so mikrofonski posnetki zvo~nih signalov, ki se pojavljajo med govorjenjem, in laringografski posnetki vibriranja glasilk v grlu. Uporabljajo pa se tudi vizualni in rentgenski posnetki govoril. Prvi se nana{ajo zgolj na 
slikovne posnetke obraza, predvsem ustnic, drugi pa na globinske slike prereza 
celotnega sistema govoril. V zadnjem ~asu se pogosto analizirajo tudi posnetki biomedicinskih signalov, ki se pojavljajo v govorilih in tudi v ~love{kih mo`ganih. Ti 
signali se pridobivajo med govorjenjem s posebno medicinsko opremo (elektromiografi, elektroencefalografi). 

Ve~ina raziskav na podro~ju govornih tehnologij se {e vedno nana{a predvsem na 
obdelavo posnetkov govornih zvo~nih signalov, pridobljenih s pomo~jo mikrofona 
(Dobri{ek 2001). Tem signalom pravimo govorni signali. Vsekakor imajo tudi preostali omenjeni govorni posnetki poseben pomen, saj njihova analiza omogo~a bistveno {ir{i vpogled v delovanje ~love{kih govoril in s tem tudi globlje razumevanje 
~love{kega govora. 

Govorne posnetke shranjujemo na raznovrstne magnetne, opti~ne in druge sodobne 
pomnilni{ke medije. Pri tem je pomembno, da je izbrani medij ra~unalni{ko berljiv. 
Praviloma se govorni posnetki shranjujejo kar v obliki ra~unalni{kih datotek na 
lasersko berljive plo{~e CD-ROM in DVD-ROM. 

4 Opisi govornih posnetkov 

Govorna zbirka vsebuje tudi opise razli~nih dejavnikov, ki se nana{ajo na govorne 
posnetke. Pri tem mislimo predvsem na govorne dejavnike in dejavnike govorcev, 
katerih govor smo snemali. Oboje je neposredno povezano z govorci, ki so sodelovali pri snemanju govora (Dobri{ek 2001). 

Govorci 

Najbolj preproste govorne zbirke so zbirke z nekaj deset govorci (Gibbon 1997). 
[tevilo govorcev znotraj tega razpona `e omogo~a statisti~no ustreznost zbirke. To 
zagotovimo z upo{tevanjem standardnih statisti~nih postopkov pri izbiri vzorca 
populacije vseh govorcev (Marascuilo 1988). 

Statisti~no ustreznost zbirke nenazadnje dolo~a tudi njen kon~ni namen. Pogosto se 
namre~ `e vnaprej omejimo le na o`je podro~je govorjenega jezika in le na o`jo 
populacijo govorcev. Na primer: gradnjo kakovostnih in od govorcev neodvisnih 
sistemov za prepoznavanje govora omogo~ajo govorne zbirke z nekaj sto govorci. 
Pri razvoju sistemov za samodejno tvorjenje govora pa se uporabljajo zbirke z le 
nekaj govorci. Pogosto je v tak{ne zbirke vklju~en en sam izku{en govorec, ki predstavlja u~ni primer in primerjavo bodo~emu sintetizatorju govora (Gros 2000). Pri 


50 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek 

tem je pomembno, da je govorec vedno na voljo zaradi morebitnih popravkov ter 
dosnemavanja govorne zbirke. 

Dejavniki govorcev 

Pri izbiri govorcev moramo upo{tevati nekatere zna~ilnosti, ki so povezane z njihovim govorom. Te zna~ilnosti delimo na prehodne in trajne (Dobri{ek 2001). 
Prehodne zna~ilnosti so morebitne psiholo{ke in fiziolo{ke motnje (npr. po~utje, 
bolezen, psihi~no stanje). 

Med trajne zna~ilnosti pa {tejemo fiziolo{ke in anatomske zna~ilnosti (npr. spol, 
starost, te`o, okvare na govorilih, kadilske in pivske navade) in geografske in social-
no-jezikovne vplive na govor (izobrazbo in poklic govorcev, narodnostno-nare~no 
podro~je trenutnega in morebitnega predhodnega bivali{~a govorcev, narodnostnonare~no podro~je govor~evih star{ev). 

Govorni dejavniki 

Med govorne dejavnike uvr{~amo prozodijske zna~ilnosti govora, ki se nana{ajo na 
trenutno razpolo`enje govorca ter njegov pristop k tvorjenju govornih posnetkov 
(Dobri{ek 2001). Posneti govor lahko tako ozna~imo za hiter, po~asen, napet, spro{~en, odrezav, natan~en, povr{en ipd. 

4.1 Simbolni zapisi govora 
Govorni signal je psevdonaklju~en, krajevno stacionaren signal, ki nosi informacijo. Govorni signal vsebuje ve~ informacij, kot jih je v besedilu (npr. ~ustva, odnos 
govorca do teme in podobno). 

S preu~evanjem govornega signala s stali{~a izgovarjave ali slu{nosti se ukvarja 
fonetika (Topori{i~ 1992; Srebot–Rejec 1988). Preu~uje zvo~no podobo jezika od 
glasu, naglasa v besedi do celotnega besedila. Govorimo lahko o fonetiki glasov, 
prozodike, zlogov, morfemov, besednih zvez, stavkov, povedi in besedila. 

Za opisovanje fenomenov govorjenega besedila se uporabljajo predvsem 3 nivoji 
anotacij ali prepisov govorjenega besedila: grafemski prepis, foneti~ni prepis in 
prozodijske oznake. 

Oznakovni del govorne zbirke, predvsem njen grafemski prepis, je pogosto zapisan 
po priporo~ilih TEI P3 (Text Encoding Initiative). Priporo~ila TEI P3 dolo~ajo konkretne oznake ISO standarda SGML (Standard Generalized Markup Language) in 
strukturo oznak SGML za raznovrstna besedila (Erjavec 1998). 

Za ozna~evanje govora na o`ji foneti~ni ravni se je v svetu uveljavila mednarodna 
foneti~na abeceda IPA (International Phonetic Alphabet) oz. njena ra~unalni{ko 
berljiva poenostavljena preslikava MRPA (Machine Readable Phonetic Alphabet). 


Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 51 

Foneti~no abecedo MRPA za slovenske glasoslovne oznake je v medsebojnem 

sodelovanju izdelalo ve~ slovenskih raziskovalnih institucij (Zemljak 2002). 
Za ozna~evanje prozodijskih fenomenov v govorjenem jeziku se uporabljajo posebne prozodijske anotacije (Miheli~ 2000; Stergar 2000). 

Foneti~ni prepis govora 

Grafemski oziroma ~rkovni zapis govorjenega gradiva predstavlja osnovni simbolni zapis posnetega govora. Foneti~ni zapis govora uporablja osnovne enote, ki so 
povzete iz glasoslovja. To so fonemi ali alofoni. Tak simbolni zapis govora vsebuje ve~ informacije od grafemskega. 

Razli~na izbira anotacijskih enot predstavlja tudi razli~ne mo`nosti zapisa ali prepisa govorjenega jezika. Poleg obi~ajnega grafemskega zapisa tako govorimo o 
fonemskem, o`jem in {ir{em foneti~nem ter akusti~nofoneti~nem zapisu. Primeri 
razli~nih zapisov za eno poved so zbrani v preglednici 1. 


Preglednica 1: Razli~ni na~ini zapisov ali prepisov besedila. Foneti~ni prepisi besed so 
zapisani s simboli slovenske MRPA abecede. [-] in [=] sta oznaki za nezvene~o in zvene~o 
zaporo pri akusti~nofoneti~nem zapisu fonemov zapornikov <p>,<k>,<t>,<d>,<g> in 
<b>. 

4.2 Ozna~itve govornih posnetkov 
Simbolni zapisi in prepisi posnetega govora ve~inoma zado{~ajo pri raziskovalnem 
delu na podro~ju tehnologij govorjenega jezika. To velja predvsem za tehni{ko 
modeliranje govora (Dobri{ek 2001). Podrobnej{a analiza govora pa zahteva natan~
nej{e ozna~evanje posnetkov govora. 

Ozna~evanje govornih posnetkov je postopek ro~nega ali samodejnega dolo~anja 
odsekov posnetih govornih signalov, ki jih obravnavamo kot akusti~ne enote govorjenega jezika. Vsakemu odseku pripi{emo simbolno oznako, ki v govornem signalu predstavlja oziroma ozna~uje akusti~no enoto. 

Glasovi so osnovne akusti~ne enote govorjenega jezika. Govorne posnetke zato 
pogosto ozna~ujemo tako, da jih raz~lenimo na zaporedje odsekov, ki predstavljajo 
fone fonemov ali alofonov. Tudi tak{no ozna~evanje je lahko bolj ali manj natan~
no. Natan~nost je odvisna od {tevila upo{tevanih glasovnih razli~ic oziroma alofo


52 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek 

nov ter morebitnega ozna~evanja akusti~nih dogodkov, manj{ih od samih fonov. Pri 
slednjih obravnavamo predvsem dogodke, povezane z govorilnimi organi, kot so 
tlesk, zapora, odpora, pripora, pridih. 

Pri ozna~evanju prav tako govorimo o fonemski, {ir{i in o`ji foneti~ni, akusti~nofoneti~ni ter prozodijski ozna~itvi govornih posnetkov, podobno kot pri simbolnih 
zapisih in prepisih govora. 

4.3 Opisi analiz in navodila 
Govornim zbirkam pogosto prilo`imo raznovrstne rezultate analiz zbirke. To so 
navadno rezultati statisti~nih analiz, kot so frekvence ({tevilo) posameznih akusti~
nih enot ter sklopov akusti~nih enot. 

Govorno zbirko opremimo {e z navodili za uporabo. To so podatki o strukturi zbirke, datote~nem sistemu in formatih ra~unalni{kih zapisov. Za tehni{ko modeliranje 
govora je pomembno navesti {e podatek o tem, kateri del zbirke je namenjen u~nemu postopku, s katerim dolo~amo parametre modelov akusti~nih govornih enot, in 
kateri del zbirke je namenjen preizku{anju in vrednotenju teh modelov. 

5 Postopek pridobivanja govorne zbirke 

Postopek pridobivanja govorne zbirke lahko logi~no razstavimo v tri zaporedne 
korake, ki jih podrobneje predstavljamo v tem poglavju. Prvi korak predstavlja izbira besedila, potrebnega za snemanje govorne zbirke, oz. izbira govorne situacije v 
primeru, ko gre za snemanje spontanega govora. Drugi korak predstavlja snemanje 
govornega gradiva. Sledi zadnji korak – segmentacija, ozna~evanje in analiza 
govornega gradiva. 

5.1 Na~rtovanje vsebine zbirke 
Pri na~rtovanju govornih zbirk velja, da naj bodo ~im bolj obse`ne. @al si neomejeno velikih koli~in podatkov v zbirki ne moremo privo{~iti. Zato moramo pazljivo 
na~rtovati vsebino zbirke, da ta ~im bolje predstavlja celotno izbrano podro~je 
govorjenega jezika (Gibbon 1997). 

Ob na~rtovanju govorne zbirke `elimo dose~i statisti~no ustrezno vzor~enje izbranega podro~ja govorjenega jezika. Tovrstne ustreznosti govorne zbirke ne moremo 
zagotoviti z zgolj in`enirskim pristopom, ker pri tem potrebujemo tudi jezikoslovno in glasoslovno poznavanje govorjenega jezika (Dobri{ek 2001). 

Za govorjeni slovenski jezik nekaj tovrstnega znanja `e obstaja, vendar menimo, da 
bo to znanje dovolj dobro {ele, ko bodo izvedene obse`nej{e statisti~ne analize slovenskega govorjenega jezika. Pod statisti~no analizo razumemo na~rtno zbiranje, 
urejanje, predstavljanje in tolma~enje zbranih podatkov. In`enirsko delo na tem 


Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 53 

podro~ju se mora nana{ati predvsem na pridobivanje, urejanje in predstavljanje 
podatkov ter manj na njihovo tolma~enje. Slednje se praviloma prepu{~a drugim 
raziskovalnim vejam, predvsem jezikoslovju, najbolj glasoslovju. 

5.2 Pridobivanje govornih posnetkov 
Danes sta v veljavi dva na~ina pridobivanja govornih posnetkov. V prvem primeru 
govorci izgovorijo v snemalno napravo vnaprej pripravljeno besedilo. V drugem 
primeru pa snemamo spontano govorjeno besedilo, ki je lahko bodisi monolog ali 
pogovor. Izbira besedila je klju~nega pomena in je odvisna od namena zbirke. 

Tudi za pridobivanje govornih posnetkov moramo izvesti na~rtovanje in pripravo 
snemalnega okolja. Kak{ne snemalne naprave in snemalno okolje izberemo, je 
odvisno od namena govorne zbirke. Navadno so to kar laboratorijska okolja, pri 
katerih pazimo na nepotrebno zvo~no »onesna`evanje« (Dobri{ek 2001). Primernost snemalnega okolja dolo~a namen zbirke, vendar pogosto vseh zahtev zaradi 
pomanjkanja sredstev ne moremo povsem izpolniti. V splo{nem pa ni potrebe, da 
bi govorne posnetke morali pridobivati v posebnem studijskem okolju, zato to 
po~enjamo le v primerih, ko zbirka predstavlja dolgoro~no dedi{~ino. 

Med snemanjem govora je priporo~ljivo preverjati, ali govorec ustrezno izgovarja 
predlo`eno besedilo. To lahko storimo s prisotnostjo druge osebe med snemanjem 
ali pa posku{amo v snemalni postopek vgraditi dolo~eno samodejno preverjanje. 

Govor snemamo preko mikrofona v analogni ali digitalni obliki na razli~ne snemalne naprave. Danes to pogosto izvedemo kar na ra~unalnikih, ki imajo vgrajeno 
raz{iritev za zajemanje zvo~nih posnetkov. Posnetke govora shranjujemo v digitalni obliki na trajne ra~unalni{ke pomnilni{ke medije. Za pridobivanje govornih posnetkov uporabljamo posebne programske uporabni{ke vmesnike, ki besedilo, ki ga 
mora izgovoriti govorec, izpi{ejo na zaslon ra~unalnika ter preverjajo skladnost 
posnetega govora s predlo`enim besedilom (Dobri{ek 2001). 

Na~in snemanja govorne zbirke je odvisen od njenega namena. ^e `elimo prou~evati lastnosti spontanega pogovora oz. razliko med govorjenimi in pisanimi besedili, snemanje opravimo v druga~nih razmerah kot denimo snemanje govorne zbirke za difonski sintetizator govora. V slednjem primeru je namre~ priporo~ljivo, da 
govorec besedilo, ki vsebuje vsa `elena zaporedja alofonov, prebere v celoti naenkrat (Miheli~ 2002). Govorec vse besedilo izgovori na podoben na~in, s konstantno 
intonacijo. Snemanje besedila po kosih v dalj{em ~asovnem obdobju ni priporo~
ljivo, saj se govorcu lahko glas zaradi razli~nih zunanjih (vreme, druga~ne nastavitve pri snemanju, spremenjen spekter in intenziteta motenj iz okolice) ali notranjih 
(razpolo`enje, bolezen) vzrokov spremeni. 

Po drugi strani pa `elimo pri snemanju pogovorov oz. prostega govora zajeti ~imve~ 
prvin, po katerih se tak govor razlikuje od branega besedila, kot so zna~ilni prekrivajo~i se govor, ponavljanje, premori, zapolnjevalci vrzeli, samokorekture in 
napa~ni starti (Kranjc 1998; Stabej 2000). 


54 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek 

5.3 Segmentacija in ozna~evanje govorne zbirke 
Posneti govorni signal predstavlja le en del govorne zbirke. Ta je brez ustreznih oznak 
govornih odsekov ve~inoma neuporabna za nadaljnje raziskave. Sledi dolgotrajni 
postopek segmentacije in ozna~evanja govornega signala. Govorni signal je v postopku segmentacije potrebno razmejiti oz. segmentirati na posamezne segmente ali 
govorne odseke in jim v postopku ozna~evanja ali anotacije pripisati oznake na 
razli~nih anotacijskih nivojih: grafemskem, foneti~nem, prozodijskem. Vrste segmentacije oz. oznak, ki jih govorna zbirka vsebuje, so odvisne od namena uporabe zbirke. 

Za raziskave na podro~ju govornih tehnologij moramo zbirko navadno opremiti 
vsaj z oznakami na grafemskem in foneti~nem nivoju. Ker je ro~na segmentacija 
govora na foneti~nem nivoju naporna in dolgotrajna, se pri tem poslu`ujemo vsaj 
delno avtomatiziranih postopkov, ki so bolj u~inkoviti, ~e vnaprej poznamo grafemski prepis govorjenega gradiva. 

Samodejno grobo ozna~evanje govorne zbirke 

S postopkom siljenega prileganja posnetkov govora z grafi modelov glasov, ki so 
dolo~eni iz foneti~nih prepisov izgovorjenih razli~ic besed, si lahko mo~no olaj{amo dolgotrajno in zamudno ro~no segmentacijo in ozna~evanje glasov (Dobri{ek 
2001). Postopek temelji na prikritih Markovovih modelih. Rezultat samodejnega 
siljenega prileganja so, med drugim, tudi podatki o ~asovnih odsekih, ki pripadajo 
posameznim glasovom. 

Postopek siljenega prileganja posnetkov govora z grafi modelov glasov potrebuje za 
svoje delovanje natan~no zaporedje fonemov v govornem signalu, ki ga obdeluje. 
Zato je potrebno grafemski prepis besedila sprva pretvoriti v foneti~ni prepis, ro~no 
ali pa z uporabo samodejnega postopka za grafemsko foneti~no pretvorbo, ki se 
uporablja tudi pri samodejni sintezi govora (Gros 2000). 

Pogosto sprva s postopkom siljenega prileganja z oznakami opremimo le manj{i del 
govorne zbirke. Rezultat postopka nato ro~no preverimo in popravimo vse napa~no 
postavljene oznake mej med posameznimi fonemi (Miheli~ 2002). 

Zelo dobra lastnost omenjenega postopka za avtomatsko ozna~evanje posnetkov je 
ta, da se je sposoben u~iti. Vse predhodne ro~ne korekcije se upo{tevajo pri naslednjem avtomatskem ozna~evanju. Tako se postopek za samodejno segmentacijo 
in ozna~evanje postopoma priu~i na~inu govorjenja govorca ter generira vse manj 
napak. 

Fino ro~no ozna~evanje govorne zbirke 

Za ro~no pregledovanje in ozna~evanje govorne zbirke ter popravljanje oznak 
govornih segmentov se uporabljajo raznovrstna programska orodja, namenjena delu 
z govornimi signali. 


Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 55 

Kot primer takega programskega orodja predstavljamo orodje Sigmark, ki omogo~a 
prikaz in obdelavo posnetih govornih signalov in izbranih akusti~nih zna~ilk ter 
poslu{anje poljubnih odsekov signala. 


Slika 1: Orodje Sigmark omogo~a opremljanje govornega signala z oznakami o mejah med 
govornimi segmenti in s simboli za ozna~itve govornih segmentov. Prva skupina oznak predstavlja potek osnovne frekvence signala, druga skupina oznak so ro~no popravljeni polo`aji 
mej med glasovi, tretja skupina pa prikazuje samodejno dolo~ene polo`aje mej med glasovi. 

Iz posnetkov govornih signalov je mo`no z metodami obdelave signalov pridobiti 
standardne akusti~ne zna~ilke govora, kot so potek osnovne frekvence, kratko~asovna glasnost govora ali prvih nekaj formantnih frekvenc govornega signala. 
Orodje Sigmark omogo~a so~asni prikaz ~asovne in kratko~asovne frekven~ne 
karakteristike signala, kar mo~no olaj{a preverjanje in popravljanje oznak ter mej 
med posameznimi govornimi segmenti. Najve~ja prednost orodja Sigmark je v tem, 
da omogo~a samodejno in konsistentno postavljanje prozodijskih oznak za osnovno periodo. 


56 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek 


Slika 2: So~asen prikaz ~asovnega poteka signala in kratko~asovne frekven~ne 
karakteristike. 

6 Pregled govornih zbirk za slovenski jezik 

V tem razdelku podajamo pregled ra~unalni{ko berljivih in ozna~enih govornih 
zbirk za slovenski jezik. Vse omenjene govorne zbirke, razen posebnih namenskih 
govornih zbirk, ve~inoma upo{tevajo osnovne zahteve po foneti~ni uravnote`enosti 
besedil in nare~ni pokritosti slovenskih nare~nih skupin z izbranimi govorci. Bolj 
obse`en opis posamezne govorne zbirke se nahaja v referencah, na katere se sklicujemo ob navedbi posamezne govorne zbirke. 

Sprva navajamo obse`nej{e govorne zbirke, zbrane pod okriljem posamezne razvojno raziskovalne ustanove, sledi pregled namenskih govornih zbirk. 

Na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko Univerze v Mariboru 
so posneli in ozna~ili vrsto govornih zbirk, ki so namenjene predvsem razvoju prepoznavanja in sinteze govora: govorna zbirka SNABI (Ka~i~ 2002), govorna zbirka 
SpeechDat II (Ka~i~ 2002), govorna zbirka PoliDat (Ka~i~ 2002) in zbirka posnetkov emocionalnega govora (Hozjan 2002). 

Na Fakulteti za elektrotehniko Univerze v Ljubljani so ustvarili naslednje govorne 
zbirke: govorna zbirka Mobiluz (Dobri{ek 1998, Gros 2000, Miheli~ 2003), govorna zbirka K211D (Dobri{ek 2001), govorni zbirki radijskih in televizijskih vremenskih napovedi VNTV in VNRAD (@ibert 2000) ter {tiri specializirane govorne zbirke: difonska govorna zbirka (Gros 2000), govorna zbirka VINDAT ([krlj 2001), del 
zbirke Gopolis, posnet z razli~nimi hitrostmi govorjenja (Gros 2000), ter govorna 
zbirka za istovetenje govorcev (Kranjc 2001). 

Na Fakulteti za elektrotehniko, ra~unalni{tvo in informatiko Univerze v Mariboru 
so zbrali govorno zbirke [tevke (Rozman 2000). 

Za potrebe sinteze in prepoznavanja govora so bile ob `e omenjenih posnete {e naslednje govorne zbirke: difonska govorna zbirka In{tituta Jo`ef Stefan ([ef 1998), 


Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 57 

difonska in polifonska govorna zbirka podjetja Masterpoint (Miheli~ 2002) in u~na 
baza izgovarjav Hermes Softlab ([ket 2002). 

Manj{e, specializirane zbirke govorjenih besedil, namenjene predvsem jezikoslovnim raziskavam, so opisane v delih (Ozbi~ 1998; Modic 2002; Tivadar 2003 in 
Zemljak 2002). 

Izmed vseh na{tetih govornih zbirk sta prosto dostopni v raziskovalne namene edinole zbirki MobiLuz in K211D. Govorna zbirka SpeechDat II je dosegljiva preko 
distribucijske agencije ELDA <www.elda.fr>. 

7 Sklepne misli 

Pri raziskovalnem delu na podro~ju tehnologij govorjenega jezika se neizbe`no 
sre~amo z zahtevo po dostopu do obse`nej{ih govornih zbirk. Pomanjkanje na~rtno 
zbranih in dostopnih govornih zbirk predstavlja klju~no oviro za hitrej{i razvoj tehnologij govorjenega slovenskega jezika. V primerjavi z ve~jimi svetovnimi jeziki je 
za slovenski govorjeni jezik govornih zbirk razmeroma malo, pa {e te so pogosto 
nedostopne preostalim razvojnim in raziskovalnim skupinam. 

Pridobivanje govornih zbirk zahteva precej ljudi in sredstev. Zato avtorji ~lanka pozivamo razvojno raziskovalne skupine, ki v slovenskem prostoru delujejo na podro~ju 
govornih tehnologij, da se pri zbiranju govornih zbirk medsebojno povezujejo in da 
omogo~ijo dostop do lastnih govornih zbirk tudi svojim kolegom iz drugih skupin, 
bodisi pod razumnimi finan~nimi pogoji ali pa celo brezpla~no v primerih, ko se pridobljeno znanje uporablja izklju~no za nekomercialne raziskovalne namene. 

Literatura 

Dobri{ek, S., Gros, J., Ip{i~, I., Pepelnjak, K. Miheli~, F. Pave{i}, N., 1998: Gopolis: slovenska podatkovna zbirka govorjenih poizvedovanj. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Ljubljana: Institut Jo`ef Stefan. 105–108. 

Dobri{ek, S., 2001: Analiza in razpoznavanje glasov v govornem signalu. Doktorska disertacija. Univerza v Ljubljani: Fakulteta za elektrotehniko. 

Erjavec, T., 1998: Standardizacija zapisa jezikovnih podatkov. Erjavec, T. in Gros, J. (ur.): 
Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 119–123. 

Fourcin, A., Harland, G., Barry, W., Hazan, 1989: SPEECH INPUT AND OUTPUT ASSESSMENT Multilingual Methods and Standards. J. Wiley & Sons. 

Gibbon, D., Moore, R., Winski R. (ur.), 1997: Handbook of Standards and Resources for 
Spoken Language Systems. Berlin: Mouton de Gruyter. 

Gros, J., 2000: Samodejno tvorjenje govora iz besedil: postopek za izdelavo sintetizatorja 
slovenskega govora. Zbirka Linguistica et philologica. Ljubljana: Zalo`ba ZRC. 

Hozjan, V., Ka~i~, Z., Ambru{ ^eh, D., 2000: Analiza prozodijskih zna~ilk emocionalnega 
govora. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef 
Stefan. 31–34. 


58 Jerneja @ganec Gros, France Miheli~, Simon Dobri{ek 

Hozjan, V., Ka~i~, Z., 2002: Objective analysis of emotional speech for English and 
Slovenian Interface emotional speech databases. Zbornik LREC–2002. Las Palmas. 
2019–2022. 

Ka~i~, Z. in Horvat, B., 1998: Izgradnja infrastrukture potrebne za razvoj govorne tehnologije za slovenski jezik. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 100–104. 

Ka~i~, Z., Horvat, B., Zoegling Marku{, A., 2000: Issues in design and collection of large 
telephone speech corpus for Slovenian language. Zbornik LREC–2002. Atene. 943–946. 

Ka~i~, Z., 2002: Pomen zdru`evanja raziskovalnih potencialov pri preseganju jezikovnih pre-
grad v okviru jezikovnih tehnologij naslednjih generacij. Erjavec, T. in Gros, J. (ur.): Zbornik 
konference Jezikovne tehnologije. Institut Jo`ef Stefan. 111–115. 

Kranjc, R., 2001: Domofonski sistem s samodejnim istovetenjem oseb na podlagi izgovorjenega gesla. Diplomsko delo. Univerza v Ljubljani: Fakulteta za elektotehniko. 

Kranjc, S., 1998: Govorjena besedila in korpus slovenskega jezika. Erjavec, T. in Gros, J. 
(ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef Stefan. 
109–112. 

Marascuilo, M. in Serlin, R., 2002: Statistical methods for the social, and behavioral sciences. Freeman and Company. New York. 

Miheli~, F., Gros, J., Noeth, E., Dobri{ek, S., @ibert, J., 2000: Recognition of Selected 
Prosodic Events in Slovenian Speech. Erjavec, T. in Gros, J. (ur.): Zbornik konference 
Jezikovne tehnologije. Institut Jo`ef Stefan. 45–49. 

Miheli~, A, Gros, J., Pave{i}, N., @ganec, M., 2002: Pridobivanje govorne zbirke za korpusni sintetizator govora Phonectic. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne 
tehnologije. Institut Jo`ef Stefan. 14–19. 

Miheli~, F., Gros, J., Dobri{ek, S., @ibert, J., Pave{i}, N., 2003: Spoken Language Resources 
at LUKS of the University of Ljubljana. International Journal of Speech Technology 6/3. 
221–232. 

Modic, R. in Petek, B., 2002: A Contrastive Acoustic Phonetic Analysis of Slovenian and 
English Diphthongs. Zbornik LREC–2002. Las Palmas. 293–296. 

Ozbi~, M., 1998: Akusti~na spektralna FFT analiza samoglasni{kega sistema slovenskega 
jezika. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski 
jezik. Institut Jo`ef Stefan. 55–59. 

Rojc, M. in Ka~i~, Z., 2000: Design of optimal Slovenian speech corpus for use in the concatenative speech synthesis system. Zbornik LREC–2002. Atene. 321–325. 

Rozman, R., Kodek, D., 2000: Govorna baza »[tevke« in raziskave robustnosti sistemov za 
razpoznavanje govora. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 75–78. 

Srebot-Rejec, T., 1998: Word Accent and Vowel Duration in Standard Slovene: An Acoustic 
and Linguistic Investigation. Slavistische Beiträge 226. München: Verlag Otto Sagner. 

Stabej, M., Vitez, P., 2000: KGB (korpus govorjenih besedil) v sloven{~ini. Erjavec, T. in 
Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 79–81. 

[ef, T., Dobnikar, A., Gams, M., Grobelnik, M., 1998: Slovenski govor na internetu. Erjavec, 

T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije za slovenski jezik. Institut Jo`ef 
Stefan. 60–64. 

Govorne tehnologije: pridobivanje in pregled govornih zbirk za slovenski jezik 59 

[ket, G. in Imperl, B., 2002: M-vstopnica – uporaba avtomatskega razpoznavanja govora v 
praksi. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef 
Stefan. 116–119. 

[krlj, M., Miheli~, F., Gros, J., Dobri{ek, S., 2001: Speech corpora VINDAT – The Influence 
of the Psychophysical Condition of the Speaker on Speech Characteristics. Zbornik 
ERK–2001 Portoro`. 261–264. 

Tivadar, H., 2003: Govorjena podoba slovenskega knji`nega jezika – pravore~ni vidik. 
Magistrsko delo. Univerza v Ljubljani: Filozofska Fakulteta. 

Topori{i~, J., 1992: Enciklopedija slovenskega jezika. Ljubljana: Cankarjeva zalo`ba. 

Zemljak, M., Ka~i~, Z., Dobri{ek, S., Gros, J., Weiss, P., 2002: Ra~unalni{ki simbolni foneti~ni zapis slovenskega govora. Slavisti~na revija 50/2. 159–169. 

Zemljak, M., 2002: Trajanje glasov {tajerskega zabukov{kega govora: instrumentalnoslu{na analiza. Dokorska disertacija. Univerza v Ljubljani: Filozofska Fakulteta. 

Zögling Marku{, A. Ka~i~, Z. Horvat, B., 2000: Razvoj slovenske baze izgovarjav »POLIDAT«. Erjavec, T. in Gros, J. (ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef 
Stefan. 95–98. 

@ibert, J., Miheli~, F., 2000: Govorna zbirka vremenskih napovedi. Erjavec, T. in Gros, J. 
(ur.): Zbornik konference Jezikovne tehnologije. Institut Jo`ef Stefan. 108–111. 

Pomembnej{e spletne strani 

LUKS <http://www.luks.fe.uni-lj.si>
FERI <http://www.dsplab.uni-mb.si/
>
FRI <http://mrl-pc.fri.uni-lj.si/
>
IJS <http://nl.ijs.si>
Masterpoint <http://<www.masterpoint.si>
HSL <http://www.hermes-softlab.com/
>
Alpineon <http://www.alpineon.com>
FIDA <http://www.fida.net>
)
Nova beseda <http://bos.zrc-sazu.si/s_beseda.html>