69  |  
 
Nenadzorovano učenje akustičnih modelov 
govora 
Unsupervised training for acoustic models  
of speech 
Gregor Donaj, Andrej Žgank, Mirjam Sepesy Maučec* 
Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko 
E-Mails: gregor.donaj@um.si; andrej.zgank@um.si ; mirjam.sepesy@um.si 
*Avtor za korespondenco: tel. +386 2 220 72 25 
 
Povzetek: V članku je predstavljeno nenadzorovano učenje akustičnih modelov za razpoznavanje 
tekočega govora. Ključna prednost takega učenja je njegova hitrost in nizki stroški v primerjavi z 
izdelavo transkripcij govora, ki so potrebne za nadzorovano učenje. Predstavljeni sta dve metodi 
nenadzorovanega učenja, ki sta preizkušeni na razpoznavalniku tekočega govora z velikim 
slovarjem v domeni dnevno-informativnih oddaj. 
Ključne besede: akustični modeli, razpoznavanje govora, nenadzorovano učenje. 
Abstract: This paper presents unsupervised acoustical model training for automatic speech 
recognition. The main advantage of this training method is its speed and cost effectiveness 
compared to the manual transcription of speech, which is needed for supervised training. We 
present two methods of unsupervised training and test them on a large vocabulary continuous 
speech recognition system in the Broadcast News domain. 
Key words: acoustical models, speech recognition, unsupervised training. 
 
1. Uvod 
Ena najpomembnejših komponent v razpoznavalniku 
govora so akustični modeli. To so statistični modeli, ki 
opisujejo akustične značilnosti fonemov. Akustični 
modeli so zelo kompleksni, saj vsebujejo veliko število 
parametrov. Zato za ocenjevanje teh parametrov – učenje 
modelov – potrebujemo velike količine učnih podatkov. 
To so pari zvočnih posnetkov govora in pripadajočih 
transkripcij. 
S tehničnega stališča ni težavno dobiti dovolj veliko 
množico golega akustičnega materiala. Bolj zahtevna je 
izdelava pripadajočih transkripcij. Te je potrebno 
izdelovati skrbno in ročno. Ocenjujemo, da izdelava 
transkripcij za eno uro zvočnega posnetka lahko zahteva 
20 do 40 ur ročnega dela [1,2]. S tem postane izdelava 
primerne učne množice dolgotrajna in draga.  
Tudi kadar že imamo pripravljeno učno množico za 
učenje akustičnih modelov, jo morda želimo kasneje 
razširiti. Morda pa imamo pripravljen nek razpoznavalnik 
in ga hočemo prilagoditi na drugo domeno. V teh 
primerih lahko ponovno na enak način izdelujemo oz. 
povečujemo učno množici, kot je to običajno. 
Alternativna možnost je uporaba nenadzorovanega 
učenja, kjer uporabljamo razpoznavalnik za izdelavo 
transkripcij. Kadar smo v domeni razpoznavanja z 
velikim slovarjem (60.000 besed in več) je trajanje 
avtomatske izdelave transkripcij primerljivo z ročno 
izdelavo. Prednost razpoznavalnika pa je, da ga lahko 
uporabljamo 24 ur na dan v več procesih vzporedno. S 
tem lahko skrajšamo čas izdelave transkripcij. 
Razpoznavalnik tudi predstavlja manjši strošek 
delovanja, kot pa ročna izdelava transkripcij. 
Osnovna ideja nenadzorovanega učenja [3,4] je 
uporaba razpoznavalnika govora na netranskribiranih 
zvočnih posnetkih in uporaba dobljenih rezultatov 
razpoznavanja kot transkripcij pri učenju akustičnih 
modelov. Dobra stran takšnega pristopa je zmanjšanje 
stroškov izdelave učnih podatkov, saj odpade večji del 
ročnega dela. Slaba stran pa je vnos napak v učno 
množico, ki so posledica napak pri razpoznavanju. 
Izvirni znanstveni članek 
TEHNIKA 
ANALI PAZU 
3/ 2013/ 2: 69-74 
www.anali-pazu.si 
 
 
  
NENADZOROVANO UČENJE AKUSTIČNIH MODELOV GOVORA 
|  70 
 
V članku bomo opisali postopek nadzorovanega in 
nenadzorovanega učenja akustičnih modelov. Predlagali 
bomo dva načina izvedbe nenadzorovanega učenja. 
Delovanje obeh načinov bomo primerjali z nadzorovanih 
učenjem. Pri tem bomo uporabljali bazo BNSI [2]. Za 
vrednotenje uspešnosti učenja bomo izdelane akustične 
modele uporabili v razpoznavalniku tekočega govora 
UMB Broadcast News [5]. 
V nadaljevanju bomo opisali splošne značilnosti 
akustičnih modelov ter splošne postopke nadzorovanega 
in nenadzorovanega učenja. Nato bomo opisali 
eksperimentalni sistem in naša predlagana načina 
nenadzorovanega učenja. Sledilo bo primerjanje 
uspešnosti naših načinov učenja z nadzorovanim načinom 
učenja. 
2. Akustični modeli 
Prevladujoči pristop za akustično modeliranje govora 
je uporaba prikritih modelov Markova (angl.: Hidden 
Markov Model – HMM) [6]. Definirani so z množico 
stanj, prehodnimi verjetnostmi med stanji in verjetnostmi 
izhodnih simbolov.  Če imamo v splošnem HMM-u N 
stanj, lahko prehodne verjetnosti opišemo z N
2
-N 
parametri. Število parametrov, ki jih potrebujemo za 
izhodne verjetnosti, je odvisno od vrste porazdelitve 
izhodne spremenljivke. Če ima ta na primer 
enodimenzionalno Gaussovo porazdelitev, potrebujemo 2 
parametra (srednja vrednost in varianca). Primer 
enostavnega modela HMM je na sliki 1. Da ga natančno 
definiramo, moramo podati 6 prehodnih verjetnosti in vse 
parametre, ki so potrebni za definicijo treh izhodnih 
porazdelitev. 
Vrednosti izhodnih spremenljivk HMM-a so vektorji 
značilk. Značilke se izračunajo iz zvočnega posnetka po 
določenem postopku. Najpogostejša postopka sta 
izračuna mel-frekvenčno kepstralnih koeficientov [7] 
(angl.: Mel-Frequency Cepstral Coefficients – MFCC) in 
koeficientov percepcijskega linearnega napovedovanja 
[8] (angl.: Perceptual Linear Prediction – PLP). Tipično 
računamo vrednosti tudi do 12 koeficientov ter energijo 
signala. Zraven samih vrednosti uporabljamo še njihove 
prve in druge odvode. Skupaj imamo do 39 parametrov v 
vektorju značilk. Za porazdelitve izhodnih spremenljivk 
uporabljajo mešane Gaussove porazdelitve značilk. Za 
opis take porazdelitve moramo podati za vsako 
komponento porazdelitve utež, srednji vektor in 
kovariančno matriko. 
V razpoznavanju tekočega govora z velikim 
slovarjem se uporabljajo trifonski akustični modeli. Ti so 
sestavljeni iz treh različnih stanj. Za vsak fonem jezika v 
katerem koli kontekstu (predhodni in naslednji fonem) 
definiramo en akustični model. Za jezik z N fonemi 
pomeni to N
3
 trifonskih modelov. K temu še se kasneje 
prištejejo modeli za tišino in kratke premore. Zaradi 
podobnosti med modeli glede na različni kontekst se 
nekateri modeli kasneje združijo. Kljub temu običajno 
ostane število različnih trifonskih modelov veliko.  
Vse te modele lahko opišemo, če v vsakem modelu za 
vsako stanje podamo prehodne verjetnosti do ostalih stanj 
in parametre za opis večdimenzionalne verjetnostne 
porazdelitve vektorja značilk. Zaradi velikega števila 
posameznih trifonskih modelov in velike 
dimenzionalnosti značilk to pomeni zelo veliko število 
parametrov, ki so potrebni za opis celotnega akustičnega 
modela. Zato za dobro ocenjevanje teh parametrov 
potrebujemo čim večjo učno množico. 
3. Učenje modelov 
Učenje modelov pomeni, da na podlagi učnih 
podatkov statistično ocenjujemo parametre modelov. V 
primeru akustičnih modelov to pomeni, da vzamemo 
zvočni posnetek in iz njega izločimo značilke. Istočasno 
na podlagi pripadajoče transkripcije sestavimo nenaučen 
akustični model za posnetek. S pomočjo algoritmov 
učenja spreminjamo parametre modela tako, da 
maksimiramo verjetnost, da je akustični model kot 
izhodne spremenljivke tvoril zaporedje značilk, ki smo jih 
dobili iz posnetka. Opisan kriterij učenja imenujemo 
kriterij največje verjetnosti [9]. Poznamo tudi druge 
kriterije za učenje akustičnih modelov, kot sta največja 
skupna informacija [10] in najmanjša napaka 
klasifikacije [9], ki pa jih v tem članku ne bomo 
obravnavali. 
Označimo z  množico vseh parametrov, ki 
opisujejo akustični model. Učni posnetki naj bodo 
X={X 1,…,X T}, pripadajoče transkripcije pa 
S={S 1,…,S T}. Pri kriteriju največje verjetnosti velja, da 
določimo parametre modela s predpisom 
To pomeni, da optimalne parametre izberemo tako, da 
maksimirajo kriterijsko funkcijo 
         
1
1
( ) log( ( | , )).
T
tt
t
F p X S
T




 (2)  
Za učenje HMM uporabljamo Baum-Welchev 
algoritem [9]. Ta v osnovi temelji na bolj splošnem EM 
(Expectation-Maximization) algoritmu. Pri njem se 
izmenično ponavljata dva koraka. V prvem izračunamo 
pričakovano vrednost verjetnosti, da je model tvoril 
1
arg max ( | , )
arg max ( | , ).
T
tt
t
p X S
p X S








 
 (1)  
Slika 1. Primer modela HMM s tremi stanji in zveznimi 
porazdelitvami izhodne spremenljivke. 
 
ANALI PAZU, 3/ 2013/ 2, str. 69-74  Gregor DONAJ, Andrej ŽGANK, Mirjam SEPESY MAUČEC 
71  |  
 
opazovane podatke. V drugem koraku pa spremenimo 
vrednosti parametrov tako, da poskušamo maksimirati 
verjetnosti, ki jih dobimo v prvem koraku. V algoritmu 
potrebujemo tudi začetne približke. Ker se na vsakem 
koraku le postopoma v (majhnih) korakih spreminjajo 
vrednosti parametrov, algoritem vodi le do nekega 
lokalnega ekstrema kriterijske funkcije, ki je odvisen od 
začetnih vrednosti. Oba koraka v algoritmu ponavljamo 
tako dolgo, dokler ne postane razlika med verjetnostma v 
dveh zaporednih iteracijah dovolj majhna. 
Splošni postopek nadzorovanega učenja v praktični 
uporabi lahko opišemo v naslednjih korakih: 
1. Zberemo zvočni material, ga segmentiramo in 
izdelamo transkripcije. 
2. Naredimo seznam besed in vsaki pripišemo 
fonemsko transkripcijo. 
3. Tvorimo začetne modele na zmanjšani učni 
množici. 
4. Časovno poravnamo fonemske transkripcije 
segmentov z zvočnimi posnetki. 
5. Izločimo segmente, ki jih ne moremo uspešno 
poravnati. 
6. Izvedemo algoritem za učenje modelov. 
3.1. Nenadzorovano učenje 
Kadar na splošno govorimo o razliki med 
nadzorovanim in nenadzorovanim učenjem statističnih 
modelov, mislimo na razpoložljive podatke. V 
nadzorovanem učenju podamo algoritmu učne vhodne 
podatke in referenčne izhodne podatke. Primer je 
klasifikacija, kjer za vsak učni podatek podamo 
informacijo, kateremu razredu pripada. Pri tem morajo 
referenčni biti preverjeni. Pri nenadzorovanem učenju, 
kot je na primer grozdenje, pa podamo le gole učne 
podatke. Algoritem nato podatke sam razdeli na več 
razredov, brez da bi imel informacijo o pomenu 
posameznih razredov.  
Kadar govorimo o nenadzorovanem učenju na 
primeru akustičnih modelov, imamo rahlo drugačno 
predstavo. Sam algoritem učenja modelov je še vedno 
enak kot pri nadzorovanem učenju. To pomeni, da 
uporabljamo zvočne posnetke in transkripcije. Razlika je 
v izdelavi transkripcij. V primeru nadzorovanega učenja 
so dobljene ročno, v primeru nenadzorovanega pa 
avtomatsko s pomočjo razpoznavalnika. Pojem 
nenadzorovano se torej nanaša na dejstvo, da transkripcije 
niso preverjene. Še vedno pa pred začetkom samega 
postopka nenadzorovanega učenja potrebujemo že 
izdelane akustične modele. S postopkom 
nenadzorovanega učenja modele le izboljšujemo. 
Za ocenjevanje uspešnosti razpoznavanja govora 
uporabljamo delež napačno razpoznanih besed (angl.: 
Word Error Rate – WER). To je razmerje med številom 
napak v razpoznavanju in številom vseh besed. Primer 
»metrike«, ki jo lahko uporabljamo za ocenjevanje 
postopka nenadzorovanega je WER Recovery [11]. Ta je 
definirana kot razmerje med izboljšanjem deleža napačno 
razpoznanih besed pri nenadzorovanem in nadzorovanem 
učenju. Izračunamo ga z enačbo 
 ,
IU
IS
WER WER
WER Recovery
WER WER



 
(3)  
kjer predstavljajo posamezni indeksi: I – začetni model, 
U – model z nenadzorovanim učenjem in S – model z 
nadzorovanim učenjem. 
Lamel in drugi [3] so pokazali, da je možno učenje 
akustičnih modelov z začetnim nadzorovanim učenjem 
na le 10 minutah transkribiranega materiala. Prav tako je 
predstavila postopek t.i. rahlo nadzorovanega učenja, kjer 
so uporabljali le približne transkripcije zvočnega 
materiala. V [8] je bilo opisano nenadzorovano učenje z 
jezikovnim modelom izdelanim na majhni količini teksta 
– 100.000 besed. Dosežen je bil 50 % WER Recovery. 
Novotney [11] uporablja postopek nenadzorovanega 
učenja tudi na jezikovnih modelih. Wessel in Ney [4] sta 
testirala nenadzorovano učenje s transkribiranim 
materialom v obsegu od 1 do 6 ur in 72 urami 
netranskribiranega materiala. Z iterativnim postopkom 
učenja, uporabo mere zaupanja in testiranjem na različnih 
testnih setih sta zmanjšala delež napačno razpoznanih 
besed za približno 50 % relativno in dosegla WER 
Recovery med 87 % in 89 %. V [12] je bil pred kratkim 
predstavljen tudi postopek nenadzorovanega učenja, ki 
namesto najboljše hipoteze uporablja besedne mreže, ki 
jih tvori razpoznavalnik. 
Splošni postopek nenadzorovanega učenja v praktični 
uporabi lahko opišemo v naslednjih korakih: 
1. Zberemo zvočni material, ga segmentiramo in 
izdelamo transkripcije. 
2. Zberemo dodatni zvočni material brez 
transkripcij. 
3. Naredimo seznam besed iz transkripcij in slovarja 
razpoznavalnika in vsaki besedi pripišemo 
fonemsko transkripcijo. 
4. Tvorimo začetne modele na osnovni učni množici 
po postopku nadzorovanega učenja. 
5. Razpoznavamo zvočni material iz dodatne učne 
množice. 
6. Časovno poravnamo transkripcije segmentov 
dobljene z razpoznavalnikom z zvočnimi 
posnetki. 
7. Izvedemo algoritem za učenje modelov na 
razširjeni množici. 
Vsakega od obeh postopkov lahko priredimo na 
nekoliko drugačne različice delovanja. Natančni postopki 
za učenje, ki smo jih uporabljali v eksperimentih, so 
opisani v naslednjem poglavju. 
4. Eksperimentalni sistem 
4.1. Uporabljene baze in razpoznavalnik 
Vse eksperimente smo izvajali na bazi BNSI [2] z 
razpoznavalnikom UMB Broadcast News [5]. Trenutna 
različica učne množice vsebuje 24 oddaj s skupno dolžino 
NENADZOROVANO UČENJE AKUSTIČNIH MODELOV GOVORA 
|  72 
 
21,6 ur. V zvočnem delu baze sta še razvojna in testna 
množica, ki obe vsebujeta po 4 oddaje s skupno dolžino 
približno 3 ure. Učno množico smo razdelili na dva dela. 
Prvi del predstavlja približno četrtino množice. Ta del 
bomo uporabljali za nadzorovanje učenje osnovnih 
modelov. Drugi del vsebuje preostanek učne množice. Na 
tem delu učne množice bomo izvajali nenadzorovano 
učenje. Testna množica je namenjena testiranju 
uspešnosti razpoznavanja z različnimi akustičnimi 
modeli, ki smo jih izdelali. Celotna učna množica je ročno 
segmentirana. Zraven zvočnega dela vsebuje baza tudi 
tekstovni del, ki obsega 11 milijonov besed. Ta del je bil 
uporabljen pri izdelavi jezikovnega modela. 
Za delo s posnetki in transkripcijami ter za 
razpoznavanje smo uporabljali nabor orodij HTK [13]. 
Uporabljene značilke so koeficienti MFCC, 
izračunani na Hammingovih oknih dolžine 25 ms in v 
razmiku 10 ms. Izračunali smo 12 značilk. Uporabili smo 
26 kanalov in 22 kepstralnih filtrov. Značilkam MFCC 
smo dodali še energijo. Pri značilkah smo uporabljali tudi 
prve in druge odvode. Tako smo imeli skupno 39 značilk. 
Za izračun smo uporabljali orodje HCopy. 
Za razpoznavanje so uporabljali orodje HDecode, ki 
izvaja časovno sinhroni Viterbijev iskalni algoritem [14]. 
Uporabljeni jezikovni modeli so klasični trigramski 
modeli interpolirani na treh množicah: transkripcije učne 
množice BNSI, tekstovni del baze BNSI in slovenski 
jezikovni korpus FidaPLUS [15]. Tudi pri jezikovnem 
modeliranju je pomembna velikost učnega gradiva. 
Korpus FidaPLUS predstavlja največjo zbirko slovenskih 
besedil, ki nam je trenutno na voljo. Modele smo 
interpolirali z drugima dvema deloma, ker ta predstavljata 
besedila iz domene (dnevna poročila), v kateri 
uporabljamo razpoznavalnik. Interpolacijski koeficienti 
so optimizirani na razvojnem delu baze BNSI. Uporabljen 
je slovar velikosti 64.000 besed. Ker nimamo na voljo 
pravil za grafemsko-fonemsko pretvorbo slovenskih 
besed, smo v slovarju izgovorjav uporabljali grafemske 
transkripcije. 
4.2. Postopek nadzorovanega učenja 
Nadzorovano učenje smo uporabljali dvakrat. Prvič 
na četrtini učne množice. Dobljeni modeli so nam služili 
kot referenčni, t.i. baseline, modeli. Drugič smo 
nadzorovano učenje uporabili na celotni učni množici. S 
pomočjo teh rezultatov lahko kasneje ocenimo doprinos 
nenadzorovanega učenja na povečani učni množici v 
primerjavi z nadzorovanim učenjem na isti množici. Vse 
transkripcije so bile že v naprej pripravljene v poenoteni 
obliki. Natančen postopek, ki smo ga uporabljali pri 
učenju, je sledeči: 
1. Uredimo slovar grafemskih transkripcij v oblike, 
ki jih potrebujemo za orodje HTK. Pri tem 
izdelamo tudi seznam vseh grafemov, ki se 
pojavijo v slovarju. Besedne transkripcije 
segmentov razširimo v grafemske transkripcije. 
2. Izberemo podmnožico učne množice za učenje 
prvih modelov. 
3. Izračunamo globalne srednje vrednosti in variance 
značilk na izbrani učni podmnožici. Tako 
izdelamo prototipni model. Naredimo njegove 
kopije za vsak grafem. 
4. Na učni podmnožici naučimo začetne 
monofonske modele. 
5. Dodamo model za tišino med besedami in 
ponovimo dve iteraciji učenja. 
6. Na celotni učni množici izvedemo časovno 
poravnavo med monofonskimi transkripcijami in 
zvočnimi posnetki. Izločimo segmente, pri katerih 
poravnava ni uspešna. Ponovimo dve iteraciji 
učenja; tokrat na celotni učni množici. 
7. Naučimo modele, ki uporabljalo mešane 
Gaussove porazdelitve z 2, 4, 8, 16 in 32 
porazdelitvami. Tukaj modele z več 
porazdelitvami dobimo postopoma iz modela z 
manj porazdelitvami. Za vsak novi model 
ponovimo dve iteraciji učenja. 
8. S pomočjo zadnjih dobljenih modelov ponovno 
izvedeno časovno poravnavo in izločimo 
segmente, kjer poravnava ni uspela. Iz seznama 
preostalih segmentov ponovno izberemo začetno 
učno podmnožico. Na novi podmnožici tvorimo 
nove prototipne modele, ki jim dodamo še model 
za tišino. 
9. Ponovimo 4 iteracije učenja na celotni učni 
množici, brez izločenih segmentov. 
10. Grafemske transkripcije pretvorimo v 
trigrafemske. 
11. Monofonske modele kopiramo v trifonske in 
ponovimo dve iteraciji učenja.  
12. Tvorimo modele z vezanimi stanji in ponovimo 
dve iteraciji učenja. 
13. Naučimo modele, ki uporabljajo mešane 
Gaussove porazdelitve z 2, 4, 8, 16 in 32 
porazdelitvami. Tukaj modele z več 
porazdelitvami dobimo postopoma iz modela z 
manj porazdelitvami. Za vsak novi model 
ponovimo dve iteraciji učenja. 
Na koncu postopka dobimo medbesedne trifonske 
modele z vezanimi stanji in več Gaussovimi 
porazdelitvami, ki smo jih kasneje uporabljali pri 
vrednotenju na testni množici. 
4.3. Postopek nenadzorovanega učenja 
Postopek nenadzorovanega učenja smo preizkušali na 
dva nekoliko različna načina. Razlikujeta se v načinu 
učenja modelov med posameznimi iteracijami 
razpoznavanja. Najprej smo iz učne množice izbrali 6 
oddaj. Te predstavljajo prvo četrtino. Uporabljali smo 
tudi ročno izdelane transkripcije teh oddaj. Od preostalih 
treh četrtin pa smo uporabljali le zvočne posnetke. V 
nadaljevanju sta opisana oba postopka, ki smo ju 
preizkušali. 
Prvi postopek je učenje od začetka. Tukaj smo po 
vsaki iteraciji razpoznavanja na preostalih treh četrtinah 
ANALI PAZU, 3/ 2013/ 2, str. 69-74  Gregor DONAJ, Andrej ŽGANK, Mirjam SEPESY MAUČEC 
73  |  
 
učne množici učili nove modele od začetka. To pomeni, 
da nismo uporabili nobenih že prej izdelanih modelov. 
Natančen postopek je bil: 
1. Izvedemo nadzorovano učenje na prvi četrtini 
učnih podatkov. Uporabimo ročno izdelane 
transkripcije. 
2. S pomočjo pravkar izdelanih modelov izvedemo 
razpoznavanje na preostalih treh četrtinah učne 
množice. 
3. Rezultate razpoznavanja združimo s 
transkripcijami prve četrtine. Tako dobimo novo 
transkripcijo, ki bo v naslednjem koraku služila 
učenju. 
4. S enakim postopkom, kot smo ga uporabljali za 
nadzorovano učenje, naučimo nove modele. 
Uporabimo pravkar dobljene transkripcije. 
5. Korake 2 do 4 ponovimo še dvakrat. 
Tako smo izvedli eno iteracijo postopka 
nadzorovanega učenja in tri iteracije nenadzorovanega ter 
s tem postopkom dobili 4 nabore modelov. Prvi je dobljen 
na eni četrtini učne množice, ostali pa na celotni učni 
množici. V vsakem razpoznavanju smo uporabljali 
modele s 16 Gaussovimi porazdelitvami. 
Drugi postopek je dodatno učenje. Tukaj smo po vsaki 
iteraciji razpoznavanja učili modele tako, da smo vzeli 
modele iz prejšnje iteracije in jih dodatno učili na treh 
četrtinah učne množice. Natančen postopek je bil: 
1. Izvedemo nadzorovano učenje na prvi četrtini 
učnih podatkov. Uporabimo ročno izdelane 
transkripcije (enako kot v prvem postopku). 
2. S pomočjo izdelanih modelov izvedemo razpo-
znavanje na preostalih treh četrtinah učne 
množice. 
3. Rezultate razpoznavanja uporabimo kot 
transkripcijo za novo iteracijo učenja. 
4. Izvedemo dodatno učenje modelov. 
5. Uredimo slovar transkripcij. Izdelamo seznam 
grafemov. Besedne transkripcije pretvorimo v 
fonemske. 
a. Izvedemo časovno poravnavo med 
transkripcijami in zvočnimi posnetki. 
Uporabimo modele monofonske modele iz 
prvega koraka. 
b. Grafemske transkripcije razširimo v 
trigrafemske. 
c. Ponovimo dve iteraciji učenja na modeli z 
mešanimi porazdelitvami in vezanimi stanji. 
Pri tem v prvi iteraciji izhajamo iz modela, 
uporabljena v razpoznavanju.  
6. Korake 2 do 4 ponovimo še dvakrat. 
Tudi tukaj smo dobili 3 nove nabore modelov (prvi 
modeli so enaki kot v prvem postopku) in prav tako smo 
pri vseh razpoznavanjih uporabljali modele s 16 
Gaussovimi porazdelitvami. 
Ker je količina učnih podatkov premajhna, da bi lahko 
naučili modele za vse možne trifone, dobimo manjše 
število modelov, med katerimi pa nekateri predstavljajo 
več trifonov, ki imajo podobne akustične značilnosti. 
Najpomembnejša razlika med predstavlje-nima 
postopkoma je število končnih modelov. V prvem 
postopku (učenju od začetka) se v vsaki iteraciji na 
podlagi učnih podatkov na novo določi nabor izdelanih 
modelov. V drugem postopku (doučenje) pa število 
modelov ostaja enako kot pri nadzorovanem učenju na 
četrtini učne množice. 
4.4. Ocenjevanje modelov 
Modele smo ocenjevali na ročno segmentirani testni 
množici BNSI. Uporabili smo modele s 16 Gaussovimi 
porazdelitvami. Skupno smo ocenili 8 modelov: 
 nadzorovano naučen model na eni četrtini učne 
množice, 
 trije nenadzorovano naučeni modeli po prvem 
postopku, 
 trije nenadzorovano naučeni modeli po drugem 
postopku, 
 nadzorovano naučen model na celotno učni 
množici. 
V vseh primerih smo uporabljali isti jezikovni model 
in razpoznavanje smo izvajali na isti strojni in programski 
opremi. 
5. Rezultati 
Rezultati uspešnosti razpoznavanja so prikazani v 
tabeli 1. V prvi vrstici je podatek za uspešnost 
razpoznavanja z baseline modelom naučenim 
nadzorovano na eni četrtini učne množice. V naslednjih 
treh vrsticah so podatki za modele, ki smo jih dobili v treh 
iteracijah nenadzorovanega učenja po obeh postopkih. V 
zadnji vrstici je podatek za uspešnost z modeli, ki so bili 
naučeni nadzorovano na celotni učni množici. Za vsakim 
nenadzorovanim modelom smo dosegli rezultate boljše 
od baseline modela. V obeh postopki opazimo izboljšanja 
uspešnosti, ki pa ne naraščajo vedno s številom iteracij 
učenja. Vidimo tudi, da prvi postopek daje rahlo boljše 
rezultate od drugega. Vzrok za to vidimo v večjem številu 
naučenih modelov za trifone. Največje izboljšanje, 1,35 
% absolutno, smo dosegli s prvim postopkom v prvi 
iteraciji učenja. 
Tabela 1. Rezultati WER razpoznavanja na 
testni množici. 
Iteracija Prvi postopek Drugi postopek 
Baseline 32,28 % 
1 30,93 % 31,06 % 
2 31,01 % 31,27 % 
3 31,36 % 30,99 % 
Nadzorovano 28,34 % 
NENADZOROVANO UČENJE AKUSTIČNIH MODELOV GOVORA 
|  74 
 
Tabela 2 prikazuje vrednosti faktorjev realnega časa, 
razmerjem med trajanjem razpoznavanja in dolžino 
posnetkov, za vse testirane modele. Drugače kot pa pri 
uspešnosti razpoznavanja se ti rezultati vedno 
izboljšujejo z večanjem števila iteracij. Prav tako vidimo, 
da dobimo rahlo boljše rezultate pri prvem postopku. 
V tabeli 3 smo podali še rezultate za WER Recovery. 
Iz njih vidimo, da smo z nenadzorovanim učenjem 
zvečali uspešnost za približno tretjino zvišanja, ki ga 
dosežemo z nadzorovanim učenjem. Dobljena izboljšanja 
so sicer slabša, če jih primerjamo z rezultati dobljenimi v 
[8] in [12], vendar pa so vseeno koristna za izboljšanje 
delovanja razpoznavalnika. 
Tabela 2. Faktorji realnega časa 
razpoznavanja. 
Iteracija Prvi postopek Drugi postopek 
Baseline 20,91 
1 20,56 21,94 
2 20,26 21,18 
3 15,67 18,96 
Nadzorovano 18,74 
Tabela 3. Rezultati WER Recovery 
Iteracija Prvi postopek Drugi postopek 
1 34,3 % 31,0 % 
2 32,2 % 25,6 % 
3 23,4 % 32,7 % 
6. Zaključek 
V članku smo predstavili osnovno idejo 
nenadzorovanega učenja akustičnih modelov ter 
predstavili dva postopka, ki smo ju tudi preizkusili na 
razpoznavalniku tekočega govora za slovenski jezik. Z 
obema postopkoma smo uspeli izboljšati uspešnost 
razpoznavanja na testni množici, s tem da je bil postopek 
s ponovnim učenjem modelov od začetka rahlo boljši od 
postopka z dodatnim učenjem. 
Predstavljen način učenja bi lahko uporabljali v 
trenutnem sistemu razpoznavalnika tekočega govora 
UMB BN. Z dodatnim akustičnim materialom bi lahko 
izboljšali uspešnost razpoznavanja. Pri tem bi izhajali iz 
modelov, naučenih na celotni učni množici, in bi to 
postopoma širili na večjo množico. 
Zahvala 
Delo je bilo delno sofinancirano s strani ARRS po 
pogodbah P2-0069 in 1000-10-310131. 
Literatura 
1. Lamel, L.; Gauvain, J.-L.; Adda, G. Unsupervised 
Acoustic Model Training. V: International 
Conference on Acoustics, Speech, and Signal 
Processing, Orlando, Florida, 2002, I-887–I-880. 
2. Žgank A.; Verdonik D.; Kačič Z. Slovenska baza 
BNSI Broadcast News za razpoznavanje tekočega 
govora. Elektrotehniški vestnik 2008, 3, 85–90. 
3. Lamel, L.; Gauvain, J.-L.; Adda, G.; Lightly 
Supervised and Unsupervised Acoustic Model 
Training. Computer Speech and Language 2002, 1, 
115–129. 
4. Wessel, F; Ney, H. Unsupervised Training of 
Acoustic Models for Large Vocabulary Continuous 
Speech Recognition. IEEE Transactions on Speech 
and Audio Processing 2005, 1, 23–31. 
5. Žgank, A.; Sepesy Maučec, M. Razpoznavalnik 
tekočega govora UMB Broadcast News 2010: 
nadgradnja akustičnih in jezikovnih modelov. V: 
Jezikovne tehnologije, Ljubljana, Slovenija, 2010, 
28–31. 
6. Rabiner, L.R.; A tutorial on hidden Markov models 
and selected applications in speech recognition. 
Proceedings of the IEEE 1989, 2, 257–286. 
7. Biem, A.; McDermott, E.; Katagiri, S. A 
Discriminative Filter Bank Model for Speech 
Recognition, V: Fourth European Conference on 
Speech Communication and Technology, 
EUROSPEECH, 1995, Madrid, Španija, 545–548. 
8. Hermansky, H. Perceptual linear predictive (PLP) 
analysis of speech. Journal of the Acoustical Society 
of America 1990, 4, 1738–1752. 
9. Gales, M.; Young, S. The Application of Hidden 
Markov Models in Speech Recognition. Foundations 
and Trends in Signal Processing 2007, 3, 195–304. 
10. Valtchev, V. Discriminative Methods in HMM-
based Speech Recognition, Ph.D. Dissertation. 
Cambridge Unversity, Cambridge, UK, 1995. 
11. Novotney, S.; Schwartz, R.; Ma, J. Unsupervised 
Acoustic and Language Model Training with Small 
Amounts of Labelled Data. V: International 
Conference on Acoustics, Speech, and Signal 
Processing, 2009, Tajpej, Tajvan, 4297–4300. 
12. Fraga-Silva, T.; Gauvain, J.-L.; Lamel, L. Lattice-
based Unsupervised Acoustic Model Training. V: 
International Conference on Acoustics, Speech, and 
Signal Processing, 2011, Praga, Češka, 4656–4659. 
13. Young, S.; Evermann, G.; Gales, M.; Hain, T.; 
Kershaw, D.; Moore, G.; Odell, J.; Ollason, D.; 
Povey, D.; Valtchev, V.; Woodland, P. The HTK 
Book, version 3.4; Cambridge University 
Engineering Department, Cambridge, UK, 2006 
14. Aubert X.L. An Overview of Decoding Techniques 
for Large Vocabulary Continuous Speech 
Recognition. Computer Speech and Language 2002, 
1, 89–114. 
15. Arhar, Š.; Gorjanc, V. Korpus FidaPLUS: nova 
generacija slovenskega referenčnega korpusa. Jezik 
in slovstvo 2007, 2, 95–110.