UNIVERZA V LJUBLJANI Fakulteta za elektrotehniko Janez Zibert OBDELAVA IN ANALIZA ZVOČNIH POSNETKOV INFORMATIVNIH ODDAJ Z UPORABO GOVORNIH TEHNOLOGIJ Doktorska disertacija Mentor: prof. dr. France Mihelič Ljubljana, 2006 Moji družini. Zahvala Doktorska disertacija je plod mojega raziskovalnega dela v Laboratoriju za umetno zaznavanje, sisteme in kibernetiko na Fakulteti za elektrotehniko Univerze v Ljubljani. Zato bi se ob tej priložnosti zahvalil vsem sodelavcem laboratorija, ki so mi omogočili vse potrebne pogoje za ustvarjalno znanstveno-raziskovalno okolje, v katerem je nastajala moja disertacija. V prvi vrsti bi se rad zahvalil svojemu mentorju prof. dr. Francetu Miheliču, ki me je skozi celotni podiplomski študij usmerjal in mi svetoval pri delu. Njegova neizmerna potrpežljivost ter pripravljenost pomagati pri razvijanju in udejanjanju novih idej sta ključno prispevali k nastanku disertacije. Še posebej bi se mu rad zahvalil tudi za to, da mi je v zadnjem letu nastajanja disertacije odstopil del svojega kabineta na fakulteti, kjer sem lahko našel ustvarjalni mir za pisanje disertacije. Zahvala gre tudi prof. dr. Nikoli Pavešiču, vodji laboratorija, ter vsem sodelavcem laboratorija za vso podporo pri mojem raziskovalnem delu. Še posebej bi se rad zahvalil Simonu, ki me je že v začetku moje raziskovalne poti navdušil s svojim poglobljenim znanjem s področja govornih tehnologij in je bil vedno pripravljen deliti svoje ideje z mano. Izpostavil bi tudi Boštjana, ki mi je s svojimi konstruktivnimi komentarji in včasih tudi z drugačnimi pogledi na probleme, s katerimi sem se ukvarjal, zelo pomagal pri raziskovalnem delu. Seveda pa se moram zahvaliti tudi ostalim sodelavcem laboratorija, Ankici, Meliti, Jerneji, Tonetu, Ivu, Mariu, Vakilu in Jaki, ki so bili v različnih obdobjih in na različne načine prisotni na moji raziskovalni poti, predvsem pa so ustvarjali prijetno delovno vzdušje. Osnovne ideje in motivacije za nastanek doktorske disertacije sem pridobil na gostovanju v Lizboni, kjer smo v okviru projekta COST278 na inštitutu INESC-ID Lisboa začeli s pridobivanjem in označevanjem posnetkov informativnih oddaj ter definirali probleme, s katerimi sem se ukvarjal v disertaciji. Zato bi se rad zahvalil vsem kolegom iz projekta, s katerimi sem sodeloval pri pripravi in vrednotenju postopkov na zbirki COST278. Pri označevanju in dokumentiranju zbirke SiBN pa bi se rad zahvalil tudi vsem študentom, ki so sodelovali pri označevanju zvočnih posnetkov informativnih oddaj, in Gregi za pripravo jezikovnega korpusa te zbirke. Posebna zahvala gre staršem in ženi Mateji, ki so me vedno, ne le v času študija, vzpodbujali in mi bili na voljo, ko sem jih potreboval. Brez njih te disertacije nikoli ne bi bilo. i Ključne besede: segmentacija in razvrščanje segmentov zvočnih posnetkov po govorcih, detekcija govora, segmentacija zvočnih posnetkov na govorne in ne-govorne dele, razvrščanje segmentov na govor in ne-govor, segmentacija zvočnih posnetkov glede na zamenjave govorcev, segmentacija zvočnih posnetkov glede na akustične spremembe, razvrščanje segmentov z rojenjem, rojenje z združevanjem, prozodične značilke, podatkovne zbirke zvočnih posnetkov informativnih oddaj, samodejno podnaslavljanje informativnih oddaj, samodejno razpoznavanje govora, samodejna indeksacija zvočnih posnetkov, razpoznavanje govorcev, sledenje govorcev v zvočnih posnetkih ii Povzetek V zadnjem času se obseg in vsebina informacij, podanih v multimedijski obliki, neprestano povečujeta. Zaradi tega običajni postopki za pridobivanje informacij iz podatkov, ki so podani le v tekstovni obliki, ne zadoščajo več in jih je potrebno posplošiti tako, da so primerni tudi za vsebine, podane v drugačnih oblikah. Velik del informativnih vsebin radijskih in televizijskih oddaj predstavljajo zvočni podatki, ki se v veliki meri manifestirajo kot govor. Za pridobivanje informacij, ki jih vsebujejo tovrstni podatki, lahko poleg običajnih postopkov obdelave signalov uporabljamo tudi postopke govornih tehnologij. V doktorski disertaciji smo se tako osredotočili predvsem na postopke priprave in organiziranja zvočnih posnetkov informativnih oddaj, da bi bili primerni za nadaljnjo obdelavo v različnih sistemih pridobivanja informacij z uporabo govornih tehnologij. Ukvarjali smo se s tremi nalogami obdelave zvočnih posnetkov: z detekcijo govora v zvočnih posnetkih ter s segmentacijo zvočnih posnetkov glede na zamenjave govorcev in spremembe akustičnega ozadja ter z razvrščanjem segmentov po govorcih. Osnovni cilj je bilo izboljšanje obstoječih in razvoj novih postopkov, ki bi jih lahko vključevali v različne sisteme govornih tehnologij. Pri tem smo se ukvarjali predvsem z različnimi predstavitvami zvočnih posnetkov, s katerimi bi bolje opisali lastnosti v signalih, ki smo jih želeli modelirati, in z zanesljivostjo delovanja posameznih postopkov v različnih akustičnih razmerah. Osnovno vodilo pri razvoju postopkov je bila izgradnja sistema za samodejno indeksacijo zvočnih posnetkov po govorcih. Zvočne posnetke informativnih oddaj, ki smo jih uporabljali za razvoj in vrednotenje postopkov iz disertacije, smo pridobili iz dveh podatkovnih zbirk. V okviru raziskovalnega dela disertacije je bila na novo pridobljena slovenska zbirka posnetkov informativnih oddaj SiBN, uporabljali pa smo tudi zbirko COST278, ki je bila sestavljena iz posnetkov informativnih oddaj v različnih evropskih jezikih. Zbirka SiBN je bila zasnovana za namene izgradnje različnih sistemov za samodejno razpoznavanje govora, ki bodo namenjeni razpoznavanju večjih besedišč govora. Poleg posnetkov informativnih oddaj smo pridobili in ustrezno pripravili tudi jezikovni korpus informativnih oddaj, ki je pridružen osnovni zbirki SiBN. Večjezična jezikovna zbirka informativnih oddaj COST278 je bila pridobljena v okviru mednarodnega sodelovanja v projektu COST2781. Sestavljena je iz usklajeno označenih zvočnih posnetkov informativnih oddaj v devetih evropskih jezikih in je primerna za razvoj in vrednotenje postopkov govornih aplikacij, ki so neodvisne od jezika. V drugem poglavju smo se zato ukvarjali s postopki pridobivanja, označevanja in usklajevanja zvočnih posnetkov informativnih oddaj. Označevanje takšnih posnetkov je zaradi narave informativnih oddaj dokaj zahtevno in zamudno opravilo, saj so za ra- 1European COoperation in the field of Scientific and Technical research, COST action 278: Spoken Language Interaction in Telecommunication; trajanje projekta: 2002-2005 iii zliko od vnaprej načrtovanih govornih zbirk posnetki informativnih oddaj pridobljeni v povsem nenadzorovanem okolju. Glavne značilnosti takšnih posnetkov so, da so pridobljeni v različnih akustičnih razmerah, vsebujejo veliko število govorcev, različne načine govora in različne ne-govorne pojave. V obeh zbirkah je bilo zato potrebno označevati številne govorne in ne-govorne elemente, jezikovne in ne-jezikovne informacije, kvaliteto govora in zvočnih posnetkov, lastnosti govorcev, pridobiti in razvrstiti vsebine novic informativnih oddaj, pravilno postavljati meje med stavki, odseki govorcev in meje med različnimi vsebinami ipd. Pri tem smo se zgledovali po pravilih, ki jih je predstavilo združenje LDC2 in so jih uporabljali pri označevanju podobnih zbirk v drugih jezikih. Tako smo označili 34 ur posnetkov zbirke SiBN, v zbirki COST278 pa je bilo potrebno uskladiti transkripcije približno 30 ur zvočnih posnetkov. Osnovna naloga detekcije govornih delov v zvočnih posnetkih je razdeliti zvočne posnetke na dele, ki pripadajo govoru, in na dele, kjer govora ni. V tretjem poglavju smo se zato ukvarjali s postopki segmentacije na govorne in ne-govorne odseke. Tu smo si zastavili dve nalogi: poiskati primerne predstavitve zvočnih signalov za ločevanje govora od ne-govora in vključevanje teh predstavitev v različne postopke segmentacije. Tako smo razvili postopek pridobivanja fonetičnih značilk na podlagi zaporedij razpoznanih osnovnih govornih enot, ki smo jih pridobili s preprostimi sistemi razpoznavanja glasov iz zvočnih posnetkov. Izpeljali smo štiri značilke, ki so temeljile na trajanju in spremembah dveh skupin govornih enot: parov samoglasnik-soglasnik (CVS značilke) ter zvenečih in nezvenečih glasov (VUS značilke). Z uvedbo širših skupin glasovnih enot smo se znebili vplivov delovanja različnih razpoznaval-nikov glasov in odvisnosti od jezika razpoznavanja. Osnovni namen vpeljave fonetičnih značilk je bil predvsem v tem, da smo hoteli osnovnim akustičnim predstavitvam zvočnih signalov dodati informacijo višjega reda, ki bi bila manj občutljiva na različne akustične spremembe v zvočnih posnetkih in bolj primerna za ločevanje govora od ne-govora. Fonetične značilke smo primerjali z akustičnimi značilkami koeficientov melodičnega kepstra (MFCC) in z značilkami, ki so bile izpeljane na podlagi mer entropije in dinamizma iz osnovnih sistemov za razpoznavanje glasov. Pri tem smo razvili dva postopka segmentacije: postopek, kjer sta se izvajali segmentacija in razvrščanje hkrati in postopek, kjer se je najprej izvajala segmentacija, nato pa razvrščanje segmentov na govor in ne-govor. V obeh primerih smo za razvrščanje uporabili modele kombinacije Gaussovih porazdelitev (GMM modele), ki smo jih ocenili vnaprej. Pri prvem postopku smo GMM modele vključili v mrežo prikritih Markovovih modelov (HMM modelov), segmentacija pa je potekala po postopku Viterbijevega dekodiranja. V drugem primeru se je najprej izvajala segmentacija glede na akustične spremembe v zvočnih posnetkih, nato pa razvrščanje z GMM modeli. Ukvarjali smo se tudi z združevanjem različnih predstavitev, ki smo jih izvajali v postopkih segmentacije s fuz-ijo. V obsežnih preizkusih smo potrdili neobčutljivost in zanesljivost fonetičnih značilk v primerjavi samo z akustičnimi značilkami ter predstavitvami na podlagi entropije in dinamizma. Najboljše rezultate detekcije govora pa smo dosegli s postopkom segmentacije, kjer smo združili osnovne akustične značilke MFCC in predlagane fonetične značilke CVS. Pri samodejni segmentaciji zvočnih posnetkov po govorcih smo se posvečali postopkom 2Linguistic Data Consortium, http://www.ldc.upenn.edu/ iv razdelitve zvočnih posnetkov na segmente, ki pripadajo enemu govorcu v nespremenjenih akustičnih razmerah. V tem primeru govorimo o segmentaciji glede na zamenjave govorcev in glede na spremembe akustičnega ozadja (segmentacija SAG). Osnovne naloge, ki smo jih tu reševali, so zajemale iskanje primernih predstavitev zvočnih posnetkov za segmentacijo, izvedbo postopkov segmentacije in določanje pragov in kriterijev za odločitve za postavitev mej med posameznimi segmenti. Standardni postopek segmentacije oziroma iskanja mej med segmenti različnih govorcev in akustičnih ozadij se izvaja na podlagi Bayesovega informacijskega kriterija (kriterij BIC), kjer se na podlagi modelov, ocenjenih iz posameznih segmentov, odločamo za postavitev meje ali ne. Odločitev za mejo predstavlja prag odločitve, ki je implicitno vključen v kriterij BIC in ga je potrebno določiti vnaprej. Izbira ustreznega praga odločitve je bistvenega pomena za uspešno segmentacijo in predstavlja tudi največji problem segmentacije s kriterijem BIC. Izkaže se namreč, da je potrebno prag odločitve vedno znova prilagajati na različne akustične razmere v zvočnih posnetkih, saj so v nasprotnem primeru rezultati segmentacije slabi. Zato smo se v četrtem poglavju osredotočili predvsem na izvedbo postopkov segmentacije, ki bi bili čim manj odvisni od izbire odprtih parametrov postopkov in s tem manj občutljivi na spremembe akustičnih razmer v zvočnih posnetkih. V ta namen smo razvili postopek segmentacije z relativno določenim pragom odločitve, kjer smo združili dva obstoječa postopka segmentacije: standardni postopek s kriterijem BIC in postopek DISTBIC. S postopkom DISTBIC smo v prvi fazi ocenili možne vrednosti kriterija BIC in s tem prag odločitve za meje, s standardnim postopkom v drugi fazi pa smo določili meje med segmenti. Vhodni parameter v postopek tako ni bil več absolutni prag odločitve, ampak relativno določeni prag glede na ocenjene vrednosti kriterija BIC, ki so se spreminjale glede na akustične razmere v zvočnih posnetkih. Možnost ocenjevanja vrednosti kriterija BIC smo izrabili tudi v drugem predlaganem postopku segmentacije, ki je temeljil na združevanju različnih akustičnih predstavitev zvočnih signalov. Na podlagi ocen kriterijev BIC različnih predstavitev smo lahko izvajali normalizacijo ocen posameznih kriterijev in s tem združevanje ocen s postopki fuzije. Na ta način smo tako z združevanjem ločenih predstavitev lahko bolje ocenjevali krajše odseke v zvočnih posnetkih, ki jih v primeru skupnih predstavitev pri standardnem postopku segmentacije slabo modeliramo. Preizkušanje in primerjava predlaganih postopkov z dvema referenčnima postopkoma je bilo izvedeno na razvojnih in testnih posnetkih zbirk SiBN in COST278. Razvojne posnetke smo uporabljali za določitev vseh odprtih parametrov postopkov glede na optimalne rezultate segmentacije in za primerjavo postopkov na celotnem intervalu operativnih točk posameznih postopkov. V slednjih preizkusih smo lahko potrdili večjo zanesljivost in neobčutljivost predlaganih postopkov v primeru različnih (neoptimalnih) izbir pragov odločitve in ostalih odprtih parametrov. Prav tako smo s predlaganimi postopki dosegli tudi boljše rezultate na obsežnih testnih zbirkah posnetkov v primerjavi z referenčnimi postopki ob optimalni izbiri parametrov. Združevanje segmentov po govorcih predstavlja zadnjo fazo v procesu segmentacije in razvrščanja segmentov po govorcih (ang. speaker diarisation), kjer je cilj pridobiti in povezati med seboj tiste dele - segmente - zvočnih posnetkov, ki pripadajo istim govorcem. S postopki detekcije govora in segmentacije po govorcih rešujemo prvi del naloge, torej pridobivanje segmentov. S postopki razvrščanja segmentov pa te seg- V mente povezujemo v skupine, ki pripadajo istim govorcem. V našem primeru smo izvajali povezovanje z združevanjem segmentov, pri čemer smo uporabljali postopke hierarhičnega rojenja. Raziskovali smo različne predstavitve govornih segmentov, ki bi bili primerni za združevanje po govorcih, in iskali mere podobnosti (različnosti) za kriterije združevanja ter kriterije zaustavitve postopkov rojenja. Raziskovalno delo v petem poglavju je usmerjeno k izboljšavam osnovnega postopka rojenja z združevanjem, ki se uporablja za razvrščanje segmentov po govorcih. V prvem delu smo raziskovali osnovne predstavitve segmentov združevanja. Tako smo izvedli alternativen pristop združevanja segmentov z uporabo metod razpoznavanja govorcev. Tu smo osnovne segmente govora predstavili z GMM modeli, ki smo jih izpeljali iz splošnih modelov govora (UBM) ob uporabi MAP adaptacije. Pri tem postopku smo se ukvarjali predvsem z različnimi kriteriji združevanja tako predstavljenih segmentov in predlagali novo mero, ki je temeljila na kriteriju ETC. Povsem drugačen pristop smo izvedli v postopku rojenja z združevanjem akustične in prozodične informacije. Tu smo osnovnim akustičnim predstavitvam segmentov želeli dodati še prozodično informacijo, ki bi bila primerna za združevanje segmentov po govorcih. V ta namen smo izpeljali 10 prozodičnih značilk, ki smo jih pridobivali iz energije signala, ocene osnovnega tona v signalu in na podlagi razpoznanih osnovnih glasovnih enot v signalu. Na ta način smo vpeljali informacijo višjega reda v postopke rojenja, s čimer smo želeli izboljšati združevanje segmentov v primeru, ko se samo na podlagi akustične informacije ali pa zaradi slabih akustičnih razmer ne bi znali pravilno odločati za združevanje med posameznimi roji segmentov. Z vpeljavo dodatne prozodične informacije osnovnim akustičnim značilkam smo morali prilagoditi tudi osnovni postopek rojenja, da bi lahko potekalo združevanje segmentov na podlagi kombinacije obeh predstavitev. V drugem delu poglavja 5 smo preučevali različne kriterije zaustavitve postopkov rojenja. Osnovni kriterij zaustavitve v standardnih postopkih je običajno določen s pragom zaustavitve, ki ga ocenimo iz razvojnih zbirk zvočnih posnetkov. Takšni kriteriji so seveda odvisni od ujemanja razmer med razvojnimi in testnimi posnetki, kar smo želeli odpraviti s predlaganimi kriteriji. Izpeljali smo dva kriterija. Prvi je temeljil na skupnem kriteriju BIC in je primeren v postopkih rojenja, kjer se za mero združevanja uporablja prav tako kriterij BIC. Drugi kriterij zaustavitve je temeljil na relativni oceni mere DER. Pri tem kriteriju smo potrebovali dva različna postopka združevanja in na podlagi primerjave napak enega postopka z drugim smo ocenili možne točke zaustavitve postopkov rojenja. Vrednotenje postopkov združevanja smo izvajali z mero DER. Osnovno mero DER smo prilagodili tako, da smo z njo ocenjevali učinkovitost postopkov rojenja na celotnem intervalu združevanja segmentov. Na ta način smo ocenjevali kvaliteto postopkov rojenja neodvisno od kriterijev zaustavitve. Skupne rezultate, ki so predstavljali hkrati tudi končne rezultate procesa segmentacije in združevanja segmentov po govorcih, smo pridobili ob uporabi kriterijev zaustavitve. Preizkusi so bili izvedeni podobno kot pri segmentaciji na zbirkah SiBN in COST278. Izvajali smo dve skupini preizkusov, v prvi smo testirali samo kvaliteto združevanja segmentov ob ročno označenih segmentih zvočnih posnetkov, v drugi pa smo testirali razvrščanje segmentov ob samodejni segmentaciji in detekciji govora. Delovanje postopkov rojenja se je v obeh primerih nekoliko razlikovalo. Skupna ugotovitev je bila, da z dodajanjem informacije, s katero se vi osredotočamo bolj na govorčeve lastnosti (prozodične značilke, GMM modeli govorcev) kot pa na splošne akustične lastnosti segmentov, dosežemo boljše rezultate razvrščanja segmentov. V sklepnem delu doktorske disertacije smo obravnavali možne izvedbe predlaganih postopkov in vključevanje v različne sisteme govornih tehnologij. Tu smo se osredotočili predvsem na zasnovo sistema za samodejno indeksacijo zvočnih posnetkov po govorcih, kjer smo natančnejše opredelili vlogo in pomen postopkov, s katerimi smo se ukvarjali v disertaciji. vii Keywords: speaker diarization, speech detection, speech/non-speech discrimination, speech/non-speech segmentation, speaker-change detection, acoustic-change detection, speaker segmentation, audio segmentation, speaker clustering, agglomerative clustering, prosody features, broadcast news speech databases, automatic broadcast news transcription, speech recognition, audio indexing, speaker recognition, speaker tracking viii Abstract These days there is an increasing need to deal with the large amounts of multimedia information resulting from the growing demand to shift content-based information retrieval from text to various multimedia sources. The data provided from television and radio broadcast news (BN) programs are one such source of this information. In our research we focus on the processing and analysis of audio BN data, where the main information source is represented by speech data. The main issues in our work concern the preparation and organization of BN audio data for further processing in information audio-retrieval systems based on speech technologies. The thesis addresses the problem of structuring the audio data in terms of speakers, i.e., finding the regions in the audio streams that belong to one speaker and joining each region of the same speaker together. The task of organizing the audio data in this way is known as speaker diarization and was first introduced in the NIST project of Rich Transcription in "Who spoke when" evaluations. The speaker-diarization problem is composed of several tasks. This thesis addresses three of them: speech detection, speaker- and background-change detection, and speaker clustering. The main objectives in our research were to develop new representations of audio data that were more suitable for each task and to improve the accuracy and increase the robustness of standard approaches under various acoustic and environmental conditions. The motivation for the improvement of the existing methods and the development of new procedures for speaker-diarization tasks is the design of a system for the speaker-based audio indexing of BN shows. For the development and assessment of our approaches we used audio data from two BN speech databases; these are presented in Chapter 2 of the thesis. The first database is a BN speech database in the Slovenian language, named the SiBN database. This database is developed within the research work of the thesis and will serve mainly as a speech database for the development of large vocabulary continuous speech recognition systems (LVCSRs) in the Slovenian language. The other database is called the COST278 BN database and is constructed from BN shows in several European languages. The database was constructed by ten institutions that are collaborating in the European COST278 action on Spoken Language Interaction in Telecommunications. The database comprises BN shows in nine languages and is intended to be used mainly for the development and evaluation of language-independent speech applications. Unlike other speech databases, which are designed for special purposes and collected in controlled environments, the audio data of BN shows represent mainly real-world speech. They possess several different acoustic, speech and language properties, and the annotation process is therefore very difficult. Hence, Chapter 2 describes the process of producing the transcriptions of the audio data of BN programs, presents the tools that were used to transform and adjust the transcriptions with audio and video ix data, and provides the basic analysis of the acoustic, speech and language properties of both BN databases. Currently, the SiBN database consists of 34 hours of annotated BN shows from one TV station, and the COST278 BN database consists of 30 hours of BN shows from several different languages and TV stations, meaning that the data in the SiBN database are more homogeneous in terms of acoustic and language properties than the data in the COST278 database. Because of the different properties of the audio data we decided to use the data from both BN databases in all our experiments to obtain a more objective assessment of the proposed methods in the thesis. Chapter 3 addresses the speech-detection task. The objective in speech detection is to find the segments in the audio streams in which speech can be detected and the segments where there is no speech. Therefore, speech detection can be seen as a speech/non-speech segmentation problem where two tasks have to be accomplished: appropriate segmentation of the data according to speech and non-speech events, and classification of the segments into speech and non-speech. In our research we focus on developing new representations of audio signals that are more suitable for speech/non-speech classification, and developing new segmentation procedures to include these representations. We propose a new, high-level representation of audio signals based on phoneme recognition features. Unlike previous model-based approaches, where speech and non-speech classes were usually modeled by several models, we have developed a representation where just one model per class is used in the segmentation process. For this purpose four measures based on consonant-vowel (CVS features) and voiced-unvoiced (VUS features) pairs obtained from different phoneme speech recognizers are introduced. They are constructed in such a way as to be independent of the recognizer and the language, and are applied in two different segmentation-classification frameworks. In the first case the segmentation and classification are made simultaneously using a network of Gaussian mixture models (GMMs) and in the second case the acoustic segmentation is made prior to the speech/non-speech classification, also using GMMs. While the first segmentation system serves as a baseline system, the second segmentation is more suitable for CVS (VUS) features. Both systems were evaluated on the SiBN and COST278 BN databases. The evaluation results indicate that the proposed phoneme recognition features are better than the standard mel-frequency cepstral coefficients (MFCCs) and posterior probability-based features (entropy and dynamism). The proposed features proved to be more robust and less sensitive to different training and unforeseen conditions. Additional experiments with fusion models based on cepstral and the proposed phoneme recognition features produced the highest scores overall, which indicates that the most suitable method for speech/non-speech segmentation is a combination of low-level acoustic features and high-level recognition features. Chapter 4 is dedicated to the task of speaker- and (acoustic) background-change detection in audio data. The objective here is to find the points in the audio stream where the change between two different speakers or acoustic environments occurs. These changing points divide the audio stream into homogeneous regions corresponding to one speaker in an unchanged acoustic environment. These regions are called segments and the procedure for obtaining such segments is called speaker-based audio segmentation. Our research was focused on obtaining the proper representations of audio signals for speaker segmentation and improving the existing segmentation methods so X that they would be more robust in different acoustic conditions. The majority of existing methods for finding change-detection points in audio data are based on Bayesian information criterion (BIC). The main point here is to estimate the probability models (probability distribution) of two neighboring segments and compare them with the BIC. If the estimated BIC score is under the given threshold, a change point is detected. The threshold, which is implicitly included in the penalty term of the BIC, has to be given in advance and estimated from the training data. The accuracy of a segmentation thus heavily depends on properly estimated thresholds, and this represents the main drawback of such segmentation systems. In our research we tried to overcome this problem. Therefore, in Chapter 4 an improved version of the baseline segmentation system is proposed by introducing relative thresholds. These thresholds are estimated continuously from the current acoustic conditions in the audio streams. In the proposed method two approaches are joined: the standard approach with the BIC and the DISTBIC procedure. In the first phase the DISTBIC segmentation is applied to collect all the possible BIC scores. From the BIC scores the threshold for the change-detection points is estimated according to the given relative shift from the estimated maximum BIC values. In the second phase the change-detection points are found by applying the standard BIC-segmentation procedure with a newly estimated threshold. The possibility of estimating the BIC scores in a segmentation is also exploited in the second proposed approach, where we fuse different acoustic representations of audio signals in the segmentation process. The estimation of the BIC scores of the different acoustic representations of audio data allows us to perform the normalization of the BIC scores for each representation, which is used for combining different segmentation procedures in a single fusion system. We performed several experiments in which we evaluated four different segmentation procedures. The experiments were made on evaluation and test audio files extracted from both BN databases. The evaluation database served for optimal tuning of all the segmentation systems and for a side-by-side comparison of approaches in the domain of different operating points. The last experiments were performed to check the stability and robustness of the proposed and baseline methods in non-optimal working conditions, while the experiments on the test audio files were performed just in the optimal case. In both groups of experiments the proposed methods produced better results than baseline systems, which proves that the proposed methods perform more reliably and stably across different acoustic environments, especially in cases of unmatched training and working conditions. Speaker clustering represents the last step in the speaker-diarization process. While the aim of speech detection and speaker- and acoustic-segmentation procedures is to provide the proper segmentation of audio data streams, the purpose of speaker clustering is to join or connect together segments that belong to the same speakers. Chapter 5 solves this task by applying agglomerative clustering methods. We concentrate on developing proper representations of speaker segments for clustering, research different similarity measures for joining speaker segments and explore different stopping criteria for clustering that would result in a minimization of the overall diarization error of such systems. xi We realize two baseline systems. The first is a standard approach using a bottom-up agglomerative clustering principle with the BIC as a merging criterion. In the second system the alternative approach is applied, also using bottom-up clustering, but the representations of the speaker segments and the merging criteria are different. In this approach the speaker segments are modeled by GMMs. In the clustering procedure during the merging process universal background models (UBMs) are transformed into speaker-segment GMMs using the MAP adaptation technique. This is the common approach for modeling speakers in the speaker-identification and verification tasks. The merging criterion in such clustering is a cross log-likelihood ratio (CLR). We explored other similarity measures and found that the modified BIC measure performed the best of all the tested measures. In the next approach a fusion speaker clustering system is developed, where the speaker segments are modeled by acoustic and prosody representations. The idea here is to additionally model the speaker prosody characteristics and add it to basic acoustic information estimated from the speaker segments. We construct 10 basic prosody features derived from the energy of the audio signals, the estimated pitch contours, and the recognized basic speech units. In this way we impose higher-level information in the representations of the speaker segments, which leads to improved clustering of the segments in the case of similar speaker acoustic characteristics or poor acoustic conditions. By adding prosody information to the basic acoustic features the baseline clustering procedure has to be changed to work in the fusion of both representations. In the second part of Chapter 5 we explore different stopping criteria for speaker clustering to find the final number of clusters that tend to minimize the overall diarization error. We propose two alternative criteria to the baseline criterion, which is usually defined by introducing the stopping threshold estimated from the evaluation data. Such thresholds should be set in advance and should match the acoustic conditions of the training and working environments. With our approaches we tried to overcome this. The first proposed criterion is based on an overall BIC measure and it works well together with the BIC as a merging criterion. The second approach is more suitable for the task of speaker clustering, since it tries to find the optimal number of clusters by inspecting the relative difference of the diarization error produced by two different clustering procedures. We performed two groups of evaluation experiments where the diarization error rate (DER) was used as an assessment measure in all our experiments. In the first group an ideal segmentation of audio data was assumed and just speaker clustering was performed on manually annotated speaker segments, while in the second group of experiments speaker clustering was applied on automatically derived segments. In the first case the performances of the clustering procedures alone were studied, while in the latter case an assessment of all the speaker diarization tasks was carried out. Although the evaluation results varied among the different experiments, it could be concluded that speaker clustering and diarization systems, where the segments are modeled by speaker-oriented representations (speaker GMMs, prosody features), performed more stably and reliably than the baseline systems, where segments are represented just by acoustic information. The best overall results were achieved with the fusion system where clustering was performed by joining the acoustic and prosody features. xii In conclusion, we summarize and discuss the presented methods and their results. We also provide an overview of the possible uses of the proposed methods in various speech applications and demonstrate the integration of the speaker-diarization procedures into an audio-indexing system. At the end, some directions for future research and improvements to the proposed methods are given. xiii Kazalo Zahvala i Povzetek iii Abstract ix 1 Uvod 1 1.1 Tema disertacije............................... 2 1.2 Cilji raziskovalnega dela.......................... 3 1.3 Pregled področja teme disertacije..................... 4 1.3.1 Splošen pregled obdelave in analize informativnih oddaj z uporabo govornih tehnologij...................... 4 1.3.2 Pregled ožjega področja teme disertacije............. 11 1.4 Pregled vsebine disertacije......................... 19 2 Podatkovne zbirke zvočnih posnetkov informativnih oddaj 21 2.1 Podatkovne zbirke informativnih oddaj.................. 22 2.1.1 Pridobivanje podatkovnih zbirk informativnih oddaj....... 23 2.1.2 Označevanje zvočnih posnetkov informativnih oddaj....... 24 2.1.3 Orodja za nadaljnjo obdelavo transkripcij zvočnih posnetkov.............................. 31 2.2 Slovenska zbirka informativnih oddaj SiBN................ 35 2.2.1 Jezikovni korpus zbirke SiBN ................... 39 2.3 Večjezična zbirka informativnih oddaj COST278............. 40 2.4 Zaključek .................................. 43 XV Detekcija govornih delov v zvočnih posnetkih 45 3.1 Uvod..................................... 46 3.2 Pridobivanje značilk za detekcijo govora v zvočnih posnetkih...... 48 3.2.1 Osnovni koncepti pridobivanja značilk .............. 48 3.2.2 Fonetične značilke za detekcijo govora............... 49 3.3 Segmentacija zvočnih posnetkov na govorne in ne-govorne dele..... 55 3.3.1 Postopki GNG segmentacije.................... 55 3.4 Preizkusi postopkov segmentacije..................... 57 3.4.1 Preizkušane predstavitve zvočnih posnetkov GNG segmentacije......................... 57 3.4.2 Določanje parametrov postopkov GNG segmentacije....... 59 3.4.3 Združevanje predstavitev zvočnih posnetkov pri GNG segmentaciji........................ 61 3.4.4 Podatkovne zbirke zvočnih posnetkov za vrednotenje postopkov GNG segmentacije................... 62 3.4.5 Mere vrednotenja postopkov GNG segmentacije......... 63 3.4.6 Primerjava postopkov GNG segmentacije na razvojni zbirki ... 63 3.4.7 Primerjava postopkov GNG segmentacije na testnih zbirkah.......................... 67 3.5 Zaključek .................................. 70 Samodejna segmentacija zvočnih posnetkov 73 4.1 Uvod..................................... 74 4.2 Formulacija problema segmentacije.................... 75 4.2.1 Kriterij BIC............................. 76 4.3 Referenčne metode segmentacije...................... 78 4.3.1 Osnovni postopek segmentacije s kriterijem BIC......... 78 4.3.2 Postopek segmentacije DISTBIC ................. 79 4.4 Predlagane metode segmentacije...................... 81 4.4.1 Postopek segmentacije s kriterijem BIC in relativno določenim pragom.................... 82 4.4.2 Postopek segmentacije z združevanjem različnih predstavitev zvočnih posnetkov.................. 85 4.5 Preizkusi postopkov segmentacije..................... 87 4.5.1 Vrednotenje postopkov segmentacije................ 87 4.5.2 Izvedba preizkusov segmentacije.................. 88 4.5.3 Primerjava postopkov segmentacije na razvojni zbirki...... 91 4.5.4 Primerjava postopkov segmentacije na testnih zbirkah...... 93 4.6 Zaključek .................................. 95 5 Razvrščanje segmentov po govorcih s postopki rojenja 97 5.1 Uvod..................................... 98 5.2 Formulacija problema............................ 99 5.3 Referenčni postopki rojenja segmentov.................. 101 5.3.1 Osnovni postopek rojenja z združevanjem segmentov...... 101 5.3.2 Uporaba metod razpoznavanja govorcev pri rojenju z združevanjem segmentov..................... 103 5.4 Postopek rojenja segmentov z združevanjem akustične in prozodične informacije.................... 108 5.4.1 Pridobivanje akustičnih lastnosti govornih odsekov........ 109 5.4.2 Pridobivanje prozodičnih lastnosti govornih odsekov....... 109 5.4.3 Predlagani postopek rojenja segmentov.............. 112 5.5 Preizkusi postopkov rojenja........................ 114 5.5.1 Vrednotenje postopkov rojenja................... 115 5.5.2 Izvedba preizkusov postopkov rojenja............... 117 5.5.3 Primerjava postopkov rojenja v primeru idealne segmentacije ........................ 120 5.5.4 Primerjava postopkov rojenja v primeru samodejne segmentacije ...................... 122 5.6 Kriteriji zaustavitve rojenja........................ 124 5.6.1 Obstoječi kriteriji zaustavitve rojenja............... 125 5.6.2 Predlagani kriteriji zaustavitve rojenja.............. 126 5.7 Preizkusi kriterijev zaustavitve rojenja.................. 131 xvii 5.7.1 Primerjava kriterijev zaustavitve v primeru idealne segmentacije na zbirki SiBN................ 132 5.7.2 Primerjava kriterijev zaustavitve na zbirki SiBN......... 133 5.7.3 Primerjava kriterijev zaustavitve na zbirki COST278...... 134 5.8 Zaključek .................................. 135 6 Sklep 139 6.1 Pregled uporabljenih pristopov....................... 140 6.2 Pomen doseženih ciljev........................... 141 6.2.1 Vključevanje postopkov v različne sisteme govornih tehnologij......................... 142 6.3 Smernice za nadaljnje delo......................... 147 A Preizkusne podatkovne zbirke zvočnih posnetkov 149 A.l Detekcija govornih delov v zvočnih posnetkih............... 149 A.2 Samodejna segmentacija zvočnih posnetkov................ 152 A.3 Razvrščanje segmentov po govorcih s postopki rojenja.......... 155 Viri in literatura 157 Slovar izrazov 173 Izvirni prispevki k znanosti 177 xviii Slike 2.1 Transcriber: orodje za označevanje zvočnih posnetkov informativnih oddaj, ki smo ga uporabljali pri označevanju posnetkov zbirk SiBN in COST278................................... 27 2.2 Algoritem pretvorbe osnovnih oznak govora v F-stanja.......... 32 2.3 Preverjanje transkripcij z video posnetki. Prikazano je delovanje video predvajalnika, ki lahko prikazuje multimedijske vsebine v formatu SMIL. 34 2.4 Deleži F-stanj v zbirki SiBN glede na skupno trajanje vsakega F-stanja. 36 2.5 Porazdelitev govorcev glede na skupno trajanje njihovega govora v zbirki SiBN..................................... 38 2.6 Porazdelitev ne-jezikovnih elementov v posnetkih iz zbirke SiBN. Na sliki (a) je prikazana porazdelitev vseh ne-jezikovnih elementov, na sliki (b) pa porazdelitev brez elementov [i], ki označujejo dihanje govorcev. . 39 2.7 Deleži F-stanj v zbirki COST278 glede na skupno trajanje vsakega F-stanja..................................... 41 2.8 Porazdelitev govorcev glede na skupno trajanje njihovega govora v zbirki COST278................................... 43 3.1 Shema pridobivanja CVS (VUS) značilk za detekcijo govora v zvočnih posnetkih................................... 50 3.2 Potek CVS značilk. Zgornje/prvo okno prikazuje značilko normiranega razmerja trajanja C V enot, drugo okno prikazuje normirano C V hitrost govora, tretje normirane spremembe CVS enot, v četrtem oknu pa je prikazan potek značilke normirane razlike povprečnega trajanja C V enot. V vsakem oknu sta prikazana dva poteka: temnejša črta predstavlja delovanje značilk, ki smo jih pridobili iz slovenskega razpoznavalnika glasov, svetlejša črta pa prikazuje potek značilk ob uporabi angleškega razpoznavalnika glasov. V spodnjem oknu je prikazan zvočni signal skupaj z oznakami govornih in ne-govornih delov.................. 53 xix 3.3 Shemi dveh postopkov GNG segmentacije. Pri shemi (a) se segmentacija in razvrščanje segmentov izvajata sprotno z uporabo HMM modelov in s postopkom Viterbijevega dekodiranja. Shema (b) prikazuje zaporeden postopek segmentacije in razvrščanja: v prvem koraku se izvede segmentacija na podlagi akustičnih predstavitev zvočnih posnetkov, v drugi pa razvrščanje segmentov s pomočjo GMM modelov............. 55 3.4 Topologija HMM modelov, ki smo jih uporabljali pri GNG segmentaciji. 56 3.5 Določanje uteži modelov detekcije (ne-govor, govor) različnih postopkov glede na optimalne rezultate razpoznavanja na razvojni zbirki...... 65 3.6 Določanje uteži modelov detekcije (ne-govor, govor) različnih postopkov fuzije glede na optimalne rezultate razpoznavanja na razvojni zbirki. . . 66 4.1 Odseka X in F zvočnega signala, kjer se odločamo ali postavimo mejo t ali ne.................................... 75 4.2 Prva faza segmentacije DISTBIC. Izračun razdalj d na enako dolgih levih in desnih odsekih za vsak t po celotnem posnetku............. 80 4.3 Postopek DISTBIC segmentacije na delu posnetka informativne oddaje. V zgornjem oknu je prikazan potek kriterijske funkcije na podlagi dsic iz prve faze postopka. V srednjem oknu so prikazane izračunane vrednosti dBic iz druge faze na kandidatih za mejo, ki smo jih določili v prvi fazi postopka. V spodnjem oknu je prikazan zvočni signal skupaj z dejanskimi mejami segmentov različnih govorcev, ki so predstavljene z navpičnimi črtami po celotni sliki...................... 81 4.4 Primerjava vrednosti ocen kriterija BIC pri segmentaciji s postopkoma refBIC in DISTBIC v primeru ene ure posnetka TV dnevnika. Slika (a) prikazuje histograma vrednosti ocen kriterija BIC obeh segmentacij, na sliki (b) pa je graf kvantil-kvantil primerjav................ 83 4.5 Primerjava postopkov segmentacije na razvojni zbirki. Pri postopkih refBIC in relpragBIC je prikazan graf spreminjanja mere F glede spreminjanje A, pri postopku DISTBIC so prikazane spremembe glede na izbiro praga odločitve 6db za mejo v drugi fazi postopka, v primeru fuzBIC pa je podan prikaz odvisnosti mere F od uteži fuzije fw\. ... 92 5.1 Končni rezultat razvrščanja segmentov po govorcih. Vsak segment je opremljen z informacijo o začetku in koncu segmenta ter z oznako, kateremu govorcu pripada...........................100 5.2 Splošen postopek hierarhičnega rojenja od spodaj navzgor, ki smo ga uporabljali pri rojenju SG..........................101 5.3 Merjenje napak razvrščanja segmentov glede na referenčne oznake z mero DER......................................115 XX 5.4 Analiza števila lastnih vektorjev PCA analize prozodičnih značilk (a) in faktorja uteži fw (b) pri rojenju s fuzijo na eni uri zvočnega posnetka dnevnik-050603 ob idealni segmentaciji...................119 5.5 Primerjava postopkov rojenja na ročno označenih segmentih zbirke SiBN.120 5.6 Primerjava postopkov rojenja na samodejno pridobljenih segmentih zbirke SiBN.....................................123 5.7 Primerjava postopkov rojenja na samodejno pridobljenih segmentih zbirke COST278...................................124 5.8 Primer delovanja kriterija skupnega BIC na posnetku ene informativne oddaje. Točka maksimalne ocenjene vrednosti kriterija je kandidat za zaustavitev rojenja. Navpična črtkana premica predstavlja dejansko število govorcev v tem posnetku........................128 5.9 Primer delovanja predlaganega kriterija relativnega DER z dvema rojenjema na posnetku ene informativne oddaje. Točka maksimuma med dvema lokalnima minimumoma (na zglajeni verziji kriterijske funkcije) je kandidat za zaustavitev rojenja. Navpična črtkana premica predstavlja dejansko število govorcev v tem posnetku.................130 6.1 Zasnova sistema za samodejno indeksacijo zvočnih posnetkov po govorcih......................................145 xxi 2.1 Osnovni elementi označevanja odsekov govorcev.............. 28 2.2 Označevanje kvalitete in kanala posnetka v odsekih govorcev....... 28 2.3 Količina zvočnih posnetkov različnih tipov vsebin informativnih oddaj zbirke SiBN.................................. 36 2.4 Razporeditev govorcev po spolu v zbirki SiBN............... 37 2.5 Razporeditev govorcev glede na jezik v zbirki SiBN............ 37 2.6 Razporeditev govorcev po spolu v zbirki COST278............ 42 2.7 Razporeditev govorcev glede na jezik v zbirki COST278......... 42 3.1 Primerjava rezultatov GNG razpoznavanja z različnimi CVS značilkami iz (3.1) - (3.4). Primerjava je izvedena na razvojni zbirki in podana skupaj z rezultati ob uporabi vseh CVS značilk skupaj in uporabi MFCC značilk.................................... 67 3.2 Rezultati GNG segmentacije na zbirki SiBN. Vrednosti v okroglih oklepajih () predstavljajo rezultate ob izbiri neoptimalnih vrednosti uteži modelov (enake uteži). Poudarjeni so najboljši rezultati v primeru fu- zije in brez fuzije............................... 68 3.3 Rezultati GNG segmentacije na zbirki COST278. Vrednosti v okroglih oklepajih () predstavljajo rezultate ob izbiri neoptimalnih vrednosti uteži modelov (enake uteži). Poudarjeni so najboljši rezultati v primeru fuzije in brez fuzije.............................. 69 4.1 Rezultati postopkov SAG segmentacije na razvojni zbirki ob izbiri optimalnih parametrov segmentacij....................... 93 4.2 Rezultati postopkov SAG segmentacije na zbirki SiBN ob izbiri optimalnih parametrov glede na razvojno zbirko.................. 94 4.3 Rezultati postopkov SAG segmentacije na zbirki COST278 ob izbiri optimalnih parametrov glede na razvojno zbirko............... 95 5.1 Končni rezultati rojenja vseh postopkov na ročno označenih segmentih zbirke SiBN glede na optimalne izbire vrednosti kriterijev zaustavitve rojenja. Skupni rezultati so povprečni rezultati DER na vseh posnetkih testne zbirke SiBN..............................132 5.2 Končni rezultati rojenja vseh postopkov na samodejno pridobljenih segmentih zbirke SiBN glede na optimalne izbire vrednosti kriterijev zaustavitve rojenja. Skupni rezultati so povprečni rezultati DER na vseh posnetkih testne zbirke SiBN........................133 5.3 Končni rezultati rojenja vseh postopkov na samodejno pridobljenih segmentih zbirke COST278 glede na optimalne izbire vrednosti kriterijev zaustavitve rojenja. Skupni rezultati so povprečni rezultati DER na vseh posnetkih zbirke COST278.......................134 xxiii Seznam pogosto uporabljenih kratic BIC ................ Bayesov informacijski kriterij, kriterij BIC CLR ................ navzkrižni kriterij razmerij logaritmov verjetno- stnih ocen (LLR) CMVN ................ normalizacija z izničevanjem skupnega povprečja in variance kepstralnih značilk CVS ................ glasovne enote: soglasnik (C), samoglasnik (V), premor (S) DER ................ mera napake med ujemanjem referenčnih ter samo- dejno pridobljenih in označenih segmentov, mera DER fo ................ višina osnovnega tona v govornem signalu FW ................ postopek prileganja značilk k normalnim porazde- litvam GMM ................ model kombinacije Gaussovih porazdelitev, GMM model GNG ................ govor/ne-govor HMM ................ prikrit Markovov model, HMM model KL ................ Kullback-Leiblerjeva (divergenčna) mera verjetnostne podobnosti KL2 ................ simetrična Kullback-Leiblerjeva (divergenčna) mera verjetnostne podobnosti LLH ................ logaritem verjetnostne ocene LLR ................ razmerje logaritmov verjetnostnih ocen LVCSRs ................ sistem za razpoznavanje tekočega govora velikega števila različnih besed MAP ................ postopek prilagajanja (GMM) modelov z večanjem aposteriornih verjetnosti MFCC ................ koeficienti melodičnega kepstra, MFCC koeficienti PRC ................ natančnost pri ocenjevanju segmentacije RCL ................ priklic pri ocenjevanju segmentacije xxiv SAG ................ sprememba po govorcih in v akustičnem ozadju SG ................ pri segmentaciji sprememba po govorcih, pri rojenju segmenti po govorcih SVM ................ metoda podpornih vektorjev VUS ................ glasovne enote: zveneči glas (V), nezveneči glas (U), premor (S) WER ................ napaka razpoznavanja govora UBM ................ splošen (GMM) model govora ZCR ................ število prehodov signala skozi nič XXV 1 Uvod 1.1 Tema disertacije 1.2 Cilji raziskovalnega dela 1.3 Pregled področja teme disertacije 1.4 Pregled vsebine disertacije V uvodnem poglavju bomo predstavili temo doktorske disertacije in opredelili glavne cilje raziskovalnega dela, ki smo se jim posvetili v doktorski disertaciji. Podali bomo tudi splošen pregled področja obdelave in analize informativnih oddaj z uporabo govornih tehnologij, kjer se bomo osredotočili predvsem na pregled temeljnih del iz ožjega področja teme disertacije. Zaključili bomo s pregledom vsebine disertacije. 1 2 1. Uvod 1.1 Tema disertacije V okviru doktorske disertacije smo se osredotočili predvsem na obdelavo in analizo zvočnih posnetkov informativnih oddaj z uporabo postopkov govornih tehnologij. Glavni namen obdelave zvočnih posnetkov je bil, da bi z uporabo postopkov govornih tehnologij samodejno organizirali in označili zvočne posnetke informativnih oddaj tako, da bi bili primerni za pridobivanje, iskanje in združevanje različnih tipov informacij, ki so posredovane preko zvočnih zapisov informativnih oddaj. Na ta način bi osnovne zvočne posnetke opremili z dodatno informacijo, ki bi bila primerna za nadaljnjo obdelavo informativnih oddaj. Kljub temu, da je možno predvsem pri televizijskih informativnih oddajah pridobivati tudi druge tipe podatkov, npr. video posnetke, smo vse ostale podatke uporabljali le kot dopolnilno informacijo osnovnim zvočnim podatkom. Osnovna naloga obdelave zvočnih posnetkov informativnih oddaj z uporabo govornih tehnologij je pretvorba govornih podatkov iz zvočne v tekstovno obliko. To dosežemo s postopki razpoznavanja govora. Vsi ostali postopki služijo bodisi za predpripravo zvočnih podatkov za razpoznavanj bodisi za pridobivanje dodatne informacije osnovnim tekstovnim prepisom pridobljenih iz razpoznavanja govora bodisi za nadaljnjo obdelavo tekstovne in dodane informacije za namene samodejnega strukturiranja in pridobivanja informacij iz informativnih oddaj. Zadnjo skupino postopkov lahko že uvrstimo med postopke jezikovnih tehnologij in se v disertaciji z njimi nismo ukvarjali. Posvetili smo se prvima dvema skupinama postopkov: predobdelavi zvočnih posnetkov za namene razpoznavanja govora in strukturiranju posnetkov za pridobivanje dodatne informacije. Na ta način smo želeli pripraviti zvočne posnetke informativnih oddaj za razpoznavanje govora, hkrati pa smo jih želeli opremiti z dodatno informacijo, da bi bili primerni za vključevanje v multimedijske arhive informativnih oddaj. Zato smo se v disertaciji ukvarjali predvsem s postopki organizacije zvočnih podatkov za indeksacijo zvočnih posnetkov (ang. audio indexing), ki bi bili primerni za iskanje in pridobivanje vsebinskih informacij iz zvočnih zapisov informativnih oddaj (ang. content-based audio retrieval). Naloge, ki smo jih reševali v disertaciji, so bile definirane v okviru mednarodnega projekta Rich Transcription [Fiscus-05] z nadaljevanjem v projektu CEIL [Waibel-04] in v projektu ESTER [Istrate-05]. V projektu Rich Transcription, ki se je začel leta 2002, so želeli osnovne transkripcije govora informativnih oddaj opremiti z dodatnimi informacijami o govorcih in kvaliteti zvočnih posnetkov. V projektu CEIL so posnetkom informativnih oddaj dodali še zvočne in video posnetke poslovnih srečanj, zato so si zastavili organiziranje vsebin širše s pomočjo večmodalnih predstavitev podatkov. V projektu ESTER pa je bil cilj strukturiranje zvočnih podatkov za namene iskanja in sledenja govorcev v podatkovnih zbirkah zvočnih posnetkov. V okviru doktorske disertacije smo se ukvarjali predvsem s samodejnim označevanjem in organiziranjem zvočnih podatkov na podlagi informacije o govorcih, s čimer smo želeli pripraviti vse potrebno za indeksacijo zvočnih posnetkov za namene iskanja in sledenja govorcev v multimedijskih podatkovnih zbirkah informativnih oddaj. 1.2. Cilji raziskovalnega dela____________________________________________________________3 1.2 Cilji raziskovalnega dela Osnovna naloga postopkov iz disertacije je bila priprava zvočnih posnetkov informativnih oddaj za razvoj sistema za razpoznavanje govora in za razvoj sistema za iskanje in pridobivanje vsebinskih informacij iz zvočnih posnetkov informativnih oddaj. Pri tem smo se usmerili predvsem k postopkom predobdelave zvočnih posnetkov, s katerimi bi zagotavljali bolj zanesljivo in učinkovito delovanje obeh sistemov. Za razvoj takšnih sistemov je potrebno najprej pridobiti ustrezno označene podatkovne zbirke posnetkov informativnih oddaj. Zato smo si v prvi fazi zastavili cilj, da bi pridobili in ustrezno označili podatkovno zbirko zvočnih posnetkov informativnih oddaj v slovenskem jeziku, ki bi jo lahko uporabljali za razvoj postopkov iz različnih področij govornih tehnologij. Naš namen je bil predvsem izgradnja sistema za razpoznavanje tekočega govora velikega števila različnih besed (ang. large vocabulary continuous speech recognition system, LVCSRs). Zato je bilo potrebno pridobiti velike količine govornega materiala. Po drugi strani pa smo želeli pridobiti tudi ustrezne podatkovne zbirke, s katerimi bi bil mogoč razvoj postopkov za pridobivanje vsebinskih informacij, ki bi bile neodvisne od jezika. V ta namen smo želeli pridobiti večjezikovno podatkovno zbirko zvočnih posnetkov informativnih oddaj, ki bi bila pestra tako po vsebini kot tudi po akustičnih lastnostih zvočnih podatkov. Osnovni cilj raziskovalnega dela v okviru doktorske disertacije je bil predvsem razvoj postopkov za strukturiranje zvočnih posnetkov, ki bi bili primerni za nadaljnjo obdelavo v postopkih pridobivanja različnih vsebinskih informacij iz informativnih oddaj. Tu smo se predvsem omejili na organiziranje zvočnih posnetkov glede na informacije o govorcih. Osnovne naloge, s katerimi smo se ukvarjali v disertaciji, lahko razdelimo na naslednja področja: • segmentacija zvočnih posnetkov na govorne in ne-govorne dele, • segmentacija zvočnih posnetkov glede na akustične spremembe ali zamenjave govorcev, • razvrščanje segmentov po govorcih s postopki rojenja. Osnovni cilj postopkov je bil, da bi organizirali zvočne posnetke tako, da bi združevali skupaj tiste govorne odseke zvočnih posnetkov informativnih oddaj, ki pripadajo istim govorcem. Na ta način bi osnovne zvočne zapise informativnih oddaj dopolnili z informacijo, primerno za iskanje in sledenje govorcev v posnetkih. Problem pridobivanja in združevanja segmentov po govorcih je bil prvič definiran v okviru projekta Rich Transcription [Fiscus-05] v evaluacijah "Who spoke when". Vključuje vse tri osnovne naloge, ki smo jih reševali v okviru doktorske disertacije. V zvočnih posnetkih je potrebno najprej poiskati in določiti govorne dele, nato izvesti segmen-tacijo govornih odsekov na homogene enote - segmente, ki jih potem združujemo v posamezne skupine, ki pripadajo samo enemu govorcu. Prvi del naloge rešujemo s postopki segmentacije zvočnih posnetkov na govorne in ne-govorne dele, nato pa pri segmentaciji govornih delov poskušamo razdeliti govorne odseke v takšne segmente, ki 4 1. Uvod bi bili primerni za združevanje po govorcih. V disertaciji smo se posvetili postopkom segmentacije po govorcih, torej razdelitvi govornih odsekov na segmente, ki pripadajo posameznim govorcem. Zadnji del naloge, ki zajema razvrščanje segmentov, pa običajno izvajamo s postopki rojenja z združevanjem prej pridobljenih segmentov. Tudi tu je osnova za združevanje informacija o govorcih. Osnovne zahteve pri razvoju vseh treh skupin postopkov so bile, da bi bili postopki neodvisni od jezika, da bi jih lahko vključevali v različne sisteme nadaljnje obdelave posnetkov informativnih oddaj in da bi izboljšali delovanje postopkov v primeru različnih akustičnih pogojev. Vzporedno z razvojem postopkov smo želeli izboljšati tudi postopke vrednotenja posameznih nalog, s čimer smo želeli ustrezno oceniti in primerjati postopke v različnih pogojih delovanja. 1.3 Pregled področja teme disertacije V nadaljevanju bomo podali širši pregled področij obdelave in analize informativnih oddaj z uporabo govornih tehnologij, kjer bomo ustrezno umestili raziskovalno delo doktorske disertacije. V zadnjem delu pa bomo podali bolj natančen pregled področja, s katerim smo se ukvarjali v disertaciji. 1.3.1 Splošen pregled obdelave in analize informativnih oddaj z uporabo govornih tehnologij Raziskave obdelave in analize informativnih oddaj z uporabo govornih tehnologij so postale aktualne koncem devetdesetih let prejšnjega stoletja, ko se je predvsem za angleško govoreče področje začelo večje število projektov na temo zbiranja in obdelave informativnih oddaj. Pod okriljem združenj LDC1 ter sponzorstvom ameriške agencije za standarde in tehnologijo, NIST2, in agencije DARPA3 [Pallett-02] so v letih 1996-98 pripravili prvo večjo zbirko označenih informativnih oddaj (ang. English Broadcast News Speech, HUB-4), ki obsega približno 200 ur označenih posnetkov različnih informativnih oddaj v angleškem jeziku [Graff-02]. Vzporedno s tem so pridobili še 30 ur zvočnih posnetkov v kitajskem in španskem jeziku (Hub-4-NE). Osnovno zbirko v angleškem jeziku so v okviru različnih nadaljevalnih projektov (Rich Transcription, [Fiscus-05] CHIL, [Waibel-04]) razširili na nekaj tisoč ur posnetkov, kjer so poleg posnetkov informativnih oddaj dodali še posnetke poslovnih sestankov, predavanj ipd. Sočasno z razvojem tehnologij obdelave takšnih podatkov za angleški jezik so nastajale podatkovne zbirke informativnih oddaj tudi v drugih jezikih: nemškem [Macherey-02, BN-DWK-99], francoskem [Galliano-05], japonskem [Furui-98], italijanskem [Federico-00], portugalskem [Meinedo-01] in drugih. ^ingustic Data Consortium, http://www.ldc.upenn.edu/ 2National Institute of Standards and Technology, http://www.nist.gov/ 3Defense Advanced Research Projects Agency, http://www.darpa.mil/ 1.3. Pregled področja teme disertacije___________________________________________________5 Prvotni namen takšnih podatkovnih zbirk je bil preučevanje in prenos obstoječih postopkov obdelave in razpoznavanje govora v kontroliranem okolju na večje sisteme razpoznavanja kompleksnih govornih podatkov z namenom samodejnega označevanja informativnih oddaj (ang. automatic broadcast news transcription) [Woodland-02, Beyerlein-02, Chen-02, Gauvain-02]. Takšni sistemi so predstavljali osnovo za razvoj tehnologij za samodejno pridobivanje informacij neposredno iz zvočnih podatkov [Makhoul-00, Federico-00, Meinedo-03a] ali v kombinaciji z drugimi viri, npr. vi-deom [Kemp-98, Viswanathan-00]. V zadnjem času se je raziskovanje na tem področju usmerilo predvsem v razvoj sistemov za samodejno indeksacijo zvočnih posnetkov (ang. automatic audio indexing) [Makhoul-00, Olive-00, Neti-00] in detekcijo vsebin informativnih oddaj (ang. topic detection) [Walls-99, Wayne-00, Leek-00]. V primerjavi s klasičnimi nalogami, ki jih rešujemo z uporabo govornih tehnologij, predstavlja samodejno označevanje in obdelava zvočnih posnetkov informativnih oddaj veliko zahtevnejši problem. Zvočni posnetki pridobljeni v nekontroliranih pogojih vključujejo večplastne akustične in jezikovne informacije. Zvočni posnetki so v povprečju bistveno daljši, saj trajanja posameznih oddaj lahko dosežejo tudi čas ene ure ali celo več, akustične vsebine pa so tipično zelo pestre tako po vsebinski plati, številu govorcev, načinu govora, akustičnem ozadju in delih akustičnih vsebin, ki niso govor. Po drugi strani pa je tudi informativna vsebina takega tipa podatkov veliko obsežnejša in poleg informacije, ki bi jo podal tekstovni prepis govora, obsega še podatke o govorcu, uporabljenem jeziku in načinu govora, tipu vsebine, aktualnem času itd. Pri televizijskih oddajah je možno dodatne podatke pridobiti še iz slikovnega gradiva in jih uskladiti z zvočnim delom. V tem primeru govorimo o večmodalni obdelavi. Zato s klasičnimi postopki obdelave in razpoznavanja govornih signalov pridobljenih v kontroliranih pogojih ne moremo zagotoviti natančne analize posnetkov informativnih oddaj [Woodland-02]. Za razvoj in preizkušanje različnih pristopov pri večmodalnih obdelavah govorjenega jezika, ki so namenjeni za pridobivanje informacij iz multimedijskih virov, je potrebno pridobiti ustrezne zbirke večmodalnih podatkov. Pridobivanje predvsem pa označevanje takšnih podatkov je zahteven in dolgotrajen proces. Označevanje zvočnih posnetkov informativnih oddaj [LDC-00] mora vključevati tako transkripcijo govornih delov, kot tudi oznake govorca, ozadja, kvalitete posnetka in tipa govora, posebne oznake za ne-govorne dele, tuj jezik, oznake za tip in vsebino novic ipd. V ta namen so bila razvita posebna orodja za označevanje takšnega tipa podatkov; med njimi je najbolj razširjeno in uporabljeno orodje Transcriber [Barras-01]. Raziskave in uporaba sistemov za samodejno obdelavo takega tipa podatkov so zelo različne in jih lahko razdelimo na naslednja področja: • samodejna transkripcija informativnih oddaj, • indeksacija zvočnih posnetkov, • sinhronizacija večmodalnih podatkov, predvsem teksta z avdio/video posnetki, • podnaslavljanje (delov) informativnih oddaj, • detekcija in sledenje posameznim vsebinam ali novicam informativnih oddaj, 6 1. Uvod • pridobivanje in iskanje informacij iz multimedijskih virov ter • identifikacija in obdelava večjezikovnih vsebin informativnih oddaj. V nadaljevanju bomo opisali osnovne probleme, s katerimi se ukvarjamo pri naštetih področjih obdelave in analize informativnih oddaj, podali bomo pregled temeljnih del ter ustrezno v ta področja umestili postopke, s katerimi smo se ukvarjali v doktorski disertaciji. 1.3.1.1 Samodejno pridobivanje transkripcij informativnih oddaj Tu gre v bistvu za sisteme razpoznavanja govora, uporabljene na segmentiranih in drugače ustrezno obdelanih govornih posnetkih. Sistemi za razpoznavanje govora so ključnega pomena za razvoj nadaljnjih sistemov za samodejno pridobivanje informacij iz informativnih oddaj. Zaradi narave posnetkov informativnih oddaj, ki lahko vključujejo različne oblike in tipe akustičnih dogodkov, različno kvalitetne posnetke, veliko število govorcev, različne načine govora, širok spekter različnih vsebin in s tem bogato jezikovno informacijo, so takšni sistemi kompleksni in združujejo najnovejša dognanja in tehnologije govorjenega jezika. Za izvedbo sistemov samodejne transkripcije poleg natančno označenih govornih posnetkov potrebujemo tudi velike korpuse besedil za izgradnjo ustreznih jezikovnih modelov, ki praviloma vključujejo nekaj milijonov besed. Takšni sistemi so odvisni od jezika razpoznavanja. To pomeni, da je potrebno pridobiti ustrezne zbirke govorjenih informativnih oddaj ter velike korpuse besedil v jezikih, za katere gradimo takšne sisteme. Zato smo tudi v okviru raziskovalnega dela doktorske disertacije začeli s pridobivanjem in označevanjem slovenske zbirke zvočnih posnetkov informativnih oddaj in z zbiranjem tekstovnih prepisov informativnih oddaj. Sistemi razpoznavanja govora so v glavnem zasnovani na osnovi prikritih Markovovih modelov (HMM modeli) z izboljšanimi metodami prilagajanja modelov in tehnikami iskanja, prilagojenimi velikim besediščem razpoznavanja in velikim jezikovnim modelom [Chen-02, Gauvain-02, Woodland-02, Beyerlein-02]. Ravno kompleksnost zvočnih podatkov informativnih oddaj zahteva predobdelavo takšnih posnetkov s postopki, s katerimi smo se ukvarjali v okviru doktorske disertacije. Tako se je izkazalo, da s postopki združevanja segmentov po govorcih, ki sledijo samodejni segmentaciji zvočnih posnetkov, dosežemo bistvene izboljšave razpoznavanja govora. V tem primeru se namreč v fazi prilagajanja modelov splošne modele govora nadomesti z modeli prilagojenimi na posameznega govorca (ang. speaker-adapted training, SAT). Na ta način se bistveno izboljšajo rezultati razpoznavanja [Kubala-97, Siegler-97, Zhang-02]. Druga pomembna lastnost sistemov za razpoznavanje je, da se ločijo na sisteme, ki delujejo v realnem času in takšne, kjer je čas razpoznavanja večkratnik časa trajanja posnetkov. Napaka razpoznavanja (ang. word error rate, WER) za slednje sisteme je v povprečju med 10 in 25%, [Pallett-99]. Ti sistemi so v glavnem razviti za angleški jezik [Chen-02, Beyerlein-02, Gauvain-02, Woodland-02], v zadnjem času pa se intenzivno razvijajo tudi za druge, predvsem evropske jezike: nemščino, francoščino in nizozemščino v okviru projekta Olive [Olive-00] in njegovem nadaljevanju v projektu 1.3. Pregled področja teme disertacije MUMIS [Saggion-04], v italijanskem [Federico-00] in portugalskem [Meinedo-03a] jeziku. Poseben izziv predstavljajo sistemi, ki delujejo v realnem času in praviloma dosegajo slabše rezultate. Namenjeni so v glavnem sprotnemu podnaslavljanju informativnih oddaj. Pri takšnih sistemih je potrebno prilagoditi vse postopke obdelave signalov, segmentacije, razvrščanja in razpoznavanja sprotnemu delovanju. Zato je potrebno dodatno optimizirati predvsem postopke razpoznavanja, tj. akustične modele ter izračune in postopke iskanja optimalnih poti skozi grafe akustičnih in jezikovnih modelov. Tak je npr. sistem [Saraclar-02], kjer so dosegli na bazi HUB-4 samo 22% WER. 1.3.1.2 Samodejna indeksacija zvočnih posnetkov Pri indeksaciji zvočnih posnetkov gre za avtomatično označevanje zvočnih posnetkov glede na določeno tematsko področje, osebo ali govorca, časovni okvir, jezik ipd. z namenom izgradnje podatkovne zbirke, namenjene pridobivanju in iskanju informacij iz zvočnih virov. Glede na tip informacije, ki jo iščemo, se takšni sistemi delijo na več skupin: • Indeksacija glede na vrsto jezika, kjer gre v bistvu za problem identifikacije jezika. Tu se uporabljajo postopki identifikacije izvedeni z uporabo jezikovno odvisnih razpoznavalnikov, ki temeljijo na monofonskih akustičnih in n-gramskih jezikovnih modelih [Zissman-96], kar pomeni, da za učenje takšnih modelov potrebujemo zbirke ustrezno označenih akustičnih posnetkov jezikov, ki jih razpoznavamo. • Indeksacija po govorcih, kjer organiziramo zbirko zvočnih in/ali video posnetkov glede na govorce, ki so prisotni v podatkih. V prvem koraku izvedemo segmen-tacijo vsakega posnetka po govorcih. V drugem koraku se izvaja združevanje segmentov posameznih govorcev znotraj avdio/video dokumenta v enotno listo govorcev (ang. speaker segments tying) [Meignier-02]. V zadnjem koraku pa se izdela indeks govorcev (ang. speaker-based index) za učinkovito iskanje govorcev v zbirki. • Sledenje posameznemu govorcu; tu iščemo segmente - dele posnetkov v avdio/video zbirki, kjer govori iskani govorec. Postopki sledenja so tu v glavnem izvedeni s statističnimi modeli, običajno se uporablja en model za iskanega govorca (ang. target speaker model) in en ali več modelov za ozadja (ang. background model), s katerim zajamemo akustične lastnosti vseh ostalih govorcev [Magrin-99, Bonastre-00]. • Indeksacija po ključnih besedah; tu gre po zgledu medmrežnih iskalnikov za de-tekcijo ključnih besed (ang. keyword spotting) iz zvočnih posnetkov. V glavnem se uporabljata dva pristopa za iskanje ključnih besed iz zvočnih posnetkov, in sicer klasični z uporabo LVCSRs sistemov za razpoznavanje, s katerimi iz akustičnega signala pridobimo najbolj verjetno zaporedje besed in med njimi iščemo ključne besede [Weintraub-93]. Alternativni pristop pa je opisan v [Manos-97]. Tu se uporablja samo akustične modele ključnih besed in skupne modele ostalih besed ob določeni ključni besedi (ang. filler models). V prvem primeru potrebujemo ogromno označenega materiala za učenje parametrov razpoznavalnika, 8 1. Uvod medtem ko v drugem precej manj. Rezultati detekcije ključnih besed so v prvem primeru boljši [Manos-97]. • Indeksacija po vsebinah novic informativnih oddaj, kjer se uporabljajo tehnike detekcije in sledenja posameznim vsebinam, ki jih bomo predstavili v nadaljevanju. Tudi pri indeksaciji in sledenju posameznim govorcem v zvočnih posnetkih uporabljamo postopke, s katerimi smo se ukvarjali v disertaciji. V obeh primerih je potrebno zvočne posnetke ustrezno pripraviti za nadaljnjo obdelavo. Zato se tu uporabljajo tako postopki segmentacije zvočnih posnetkov na govorne in ne-govorne dele, kot tudi se-gmentacija govornih delov po govorcih in razvrščanje segmentov s postopki rojenja. Učinkovito in zanesljivo delovanje teh postopkov je bistvenega pomena za uspešno delovanje sistemov indeksacije zvočnih posnetkov. Samodejna indeksacija predstavlja osnovo za izgradnjo sistemov za iskanje informacij po multimedijskih arhivih [Wactlar-99] in za pridobivanje informacij iz multimedijskill vsebin [Makhoul-00, Kemp-98, Gauvain-03]. 1.3.1.3 Sinhronizacija večmodalnih podatkov V primeru sinhronizacije informacij pridobljenih iz različnih virov se v okviru informativnih oddaj osredotočamo predvsem na sinhronizacijo besedila z avdio in/ali video posnetki. V tem primeru izvajamo časovno poravnavo avdio/video signala s tekstovno predlogo (ang. text and audio /video data alignment), ki je podana vnaprej, vendar ne predstavlja nujno natančnega zapisa govora v zvočnem posnetku. Tako npr. za arhive zvočnih posnetkov, pa tudi za nekatere oddaje, ki sicer potekajo v živo, vendar po vnaprej pripravljeni besedilni predlogi (bran govor), pogosto že obstajajo besedilne predloge, ki podajajo bolj ali manj pravilen besedni prepis govora v tekstovni obliki. Ena izmed možnosti pridobivanja takih prepisov je uporaba teleteksta. V takih primerih lahko s postopki vsiljenega prileganja (ang. forced alignment) [Moreno-98], ki uporabljajo akustične modele osnovnih govornih enot izbranega jezika, določene s HMM modeli, leksikon s fonetičnimi prepisi besed, zvočni posnetek in njegov tekstovni prepis, dosežemo časovno poravnavo delov besedila z govornimi segmenti. Ovire pri takih postopkih predstavljajo nenatančni tekstovni prepisi in elementi spontanega govora, kot so npr. glasni vdihi in izdihi, smeh, premori, napačna izgovorjava, zatikanja pri izgovorjavi in ponavljanja. Za zagotovitev zanesljivega delovanja postopkov sinhronizacije je potrebno take dogodke predvideti in jih ustrezno akustično modelirati. Bistvenega pomena je tu detekcija govornih in ne-govornih delov v zvočnih posnetkih, saj nam uspešna lokalizacija ne-govornih delov zagotavlja uspešno poravnavo govornih delov. Zato je potrebno v takšnih sistemih predhodno segmentirati zvočne posnetke na govor in ne-govor. Postopki sinhronizacije podatkov so izpeljani neposredno iz sistemov za razpoznavanje govora, vendar so v kombinaciji s segmentacijo in bimodalnimi tehnikami prilagojeni poravnavi večurnih avdio in/ali video posnetkov. Uporabljajo se zlasti v sistemih za samodejno podajanje vsebin, pridobljenih iz različnih multimedijskih vi- 1.3. Pregled področja teme disertacije___________________________________________________9 rov [Makhoul-00, Maybury-99, Wactlar-99, Gauvain-00]. Primer postopkov poravnave teksta in zvočnih podatkov v povezavi z indeksacijo pa je podan v [Biatov-03]. 1.3.1.4 Podnaslavljanje informativnih oddaj Sistemi samodejnega podnaslavljanja informativnih oddaj vključujejo postopke se-gmentacije zvočnih posnetkov, razpoznavanja govora in sinhronizacije večmodalnih tokov podatkov. Bistvena zahteva takšnih sistemov je, da tečejo v realnem času, kar znatno poveča težavnost problema. Prvi tak sistem so razvili v Bellovih laboratorijih za japonski jezik [Siohan-01], kjer gre za podnaslavljanje različnih tipov oddaj znotraj ene vrste informativne oddaje. Z razvojnim sistemom so dosegli odlične rezultate razpoznavanja govora pri voditeljih informativnih oddaj (preko 90%) in rezultate med 78% in 90% za ostale tipe govora [Siohan-01]. Podoben sistem so zgradili tudi v AT&T-jevih raziskovalnih laboratorijih, kjer so dosegli rezultate razpoznavanja okoli 80% [Saraclar-02]. Manjši sistemi so razviti v glavnem za samodejno podnaslavljanje določenih tipov oddaj zaključenih vsebin npr. športnih oddaj, vremenskih napovedi [Zibert-00], finančnih novic, ipd. Namen uporabe takšnih sistemov je predvsem pomoč gluhim in naglušnim osebam za nemoteno spremljanje dnevno-informativnih oddaj in oddaj v živo ter avtomatizacija obstoječih sistemov za podnaslavljanje preko teleteksta, kjer so se pojavili že prvi specializirani komercialni produkti [WinCAPS-06, Aurix-03]. 1.3.1.5 Detekcija in iskanje zaključenih vsebin novic Detekcija zaključenih vsebin novic (ang. topic detection) pomeni, da v segmentira-nem podatkovnem viru odkrijemo in med sabo povežemo dele (segmente) z istega ali sorodnih vsebinskih področij. Intenzivno raziskovanje na tem področju se je začelo v letih 1998/99, ko se je pod okriljem DARPA4 začelo zbiranje, označevanje, razvoj in vrednotenje postopkov detekcije in sledenja vsebinam novic (ang. topic detection and tracking), pridobljenih iz različnih virov in v različnih jezikih [Wayne-00]. V splošnem lahko probleme detekcije in sledenja novic, pridobljenih iz informativnih oddaj, razdelimo na štiri raziskovalna področja: • Segmentacija na področja zaključenih vsebin novic (ang. story segmentation). Pri tej nalogi moramo s postopki v zveznem vhodnem besedilnem toku odkriti meje med posameznimi novicami. Predpogoj segmentacije po novicah zvočnih posnetkov informativnih oddaj je predhodna segmentacija zvočnih posnetkov [Shriberg-00]. • Sledenje zgodbe novice (ang. topic tracking). Tu na podlagi že prepoznanih dogodkov, ki govorijo o določeni temi, sledimo zgodbi v besedilu, ki ga trenutno obdelujemo. Postopki sledenja vsebin so v glavnem izvedeni s statističnimi modeli [Yamron-00] in s postopki razvrščanja [Leek-00]. 4Glej opombo 3 na strani 4. 10 1. Uvod • Detekcija vsebin novic (ang. topic detection). To področje vključuje sprotno ali retrospektivno razpoznavanje vsebin v toku besedila, postopke samodejne izdelave povzetkov (ang. automatic summarization) in postopke organiziranja vsebin za nadaljnjo uporabo v sistemih za podajanje informacij. Pregled raziskovalnih dosežkov na področju obdelave in pridobivanja informacij dnevno-informativnih oddaj je v [Walls-99], samodejna izdelava povzetkov vsebin iz zvočnih podatkov je opisana v [Hori-02], organizacija zvočnih posnetkov za nadaljnjo uporabo v informacijskih sistemih pa v [Gauvain-03]. • Povezovanje področij sorodnih vsebin novic (ang. link detection). V tem primeru s pomočjo postopkov segmentacije in detekcije vsebin razvrščamo in združujemo novice v večje razrede v glavnem s postopki rojenja tekstovne informacije [Brown-99]. Naloge detekcije in iskanja zaključenih vsebin novic vključujejo v glavnem postopke obdelave jezikovne informacije, ki spadajo v širše področje jezikovnih tehnologij, vendar so osnova vsem postopkom tekstovni podatki, kijih pridobimo z razpoznavanjem govora iz zvočnih posnetkov informativnih oddaj. Za uspešno delovanje takšnih sistemov je zato potrebno zagotoviti ustrezno segmentacijo razpoznanega govora na smiselne enote (običajno so to stavki), ki jih lahko združujemo in povezujemo v zaključene vsebine novic. 1.3.1.6 Obdelava večjezikovnih vsebin informativnih oddaj Združevanje večjezikovnih multimedijskih zbirk predstavlja nov izziv v obdelavi govorjenih informativnih oddaj. Takšne zbirke so v glavnem uporabne za preizkušanje robustnosti od jezika neodvisnih postopkov obdelave in analize zvočnih posnetkov. Takšna je npr. zbirka informativnih oddaj v devetih evropskih jezikih, ki je nastajala v okviru projektne skupine COST2785, [Vandecatseye-04], in bo opisana v naslednjem poglavju. Primerna je za preizkušanje postopkov segmentacije in indeksacije zvočnih posnetkov, detekcije vsebin in identifikacije jezika. Na inštitutu LIMSI v Franciji so zgradili večjezikovni sistem za pridobivanje informacij iz informativnih oddaj [Lamel-02], ki pokriva pet glavnih evropskih jezikov ter kitajski in arabski jezik. Sistem je namenjen raziskovanju na področju večjezikovne indeksacije zvočnih posnetkov (ang. multi-lingual audio indexing) in preučevanju prenosljivosti postopkov razpoznavanja govora med posameznimi jeziki. V okviru projekta MUSA [MUSA-02] pa so razvili sistem, ki je namenjen samodejnemu podnaslavljanju in prevajanju multimedijskih vsebin v treh jezikih: angleškem, francoskem in grškem. 1.3.1.7 Pridobivanje informacij iz multimedijskih vsebin Rezultat združevanja in povezovanja postopkov obdelave in analize informacijskih oddaj z uporabo govornih tehnologij, večmodalnih tehnik in splošnih postopkov pridobivanja informacij iz podatkovnih zbirk predstavljajo sistemi pridobivanja informacij 5EU projekt COST Action 278: Spoken Language Interaction in Telecommunication 1.3. Pregled področja teme disertacije 11 iz multimedijskih vsebin. Takšni sistemi so kompleksni in v večini primerov predstavljajo vrh tehnološkega napredka posameznih raziskovalnih skupin s področja obdelave in razpoznavanja govora, jezikovnega modeliranja in razumevanja ter pridobivanja znanja iz informacijskih vsebin. Takšni so npr. sistemi večjih raziskovalnih skupin [Johnson-01, Wactlar-99, Maybury-99], kjer gre za specializirane sisteme pridobivanja in obdelave informacij neposredno iz informativnih oddaj, ali pa širše zastavljeni sistemi pridobivanja informacij poljubnih multimedij skih vsebin v enem jeziku [Gauvain-00, Viswanathan-00] ali večjezikovnih vsebin [Saggion-04]. V zadnjem času se pojavljajo tudi že prvi komercialni sistemi, ki ponujajo samodejno indeksacijo in iskanje po različnih vsebinah multimedij skih posnetkov [Makhoul-00]. Osnova vsem tem sistemom je segmentacija in povezovanje segmentov multimedijskih posnetkov po različnih kriterijih združevanja, ki temeljijo tudi na postopkih, s katerimi smo se ukvarjali v doktorski disertaciji in bodo predstavljeni v nadaljevanju. 1.3.2 Pregled ožjega področja teme disertacije Kot smo že nakazali pri splošnem pregledu obdelave in analize zvočnih posnetkov informativnih oddaj, lahko postopke, ki smo jih razvijali v doktorski disertaciji, uporabljamo v različnih sistemih govornih tehnologij. Praviloma jih izvajamo v začetnih fazah obdelave zvočnih posnetkov in služijo strukturiranju posnetkov na manjše, glede na področja uporabe, smiselne dele, ki so bolj primerni za nadaljnjo obdelavo. Tako se pri detekciji govora ukvarjamo z razdelitvijo zvočnih posnetkov na govorne in ne-govorne dele, kar je predvsem uporabno v sistemih za razpoznavanje govora in govorcev. Tu je seveda potrebno izvajati razpoznavanje samo na govornih delih in ustrezna detekcija govora je bistvenega pomena za učinkovito in zanesljivo delovanje takšnih sistemov. Podobno je tudi pri segmentaciji zvočnih posnetkov po govorcih in/ali glede na akustične spremembe. Na ta način razdelimo daljše zvočne posnetke na odseke, ki pripadajo samo enemu govorcu z enakim akustičnim ozadjem. Združevanje segmentov tako razdeljenih posnetkov predstavlja osnovo za sisteme indeksacije in iskanja zaključenih vsebin v multimedijskih zbirkah podatkov. Učinkovito in zanesljivo delovanje postopkov segmentacije in združevanja segmentov tako zagotavlja pravilno indeksacijo zvočnih podatkov, kar omogoča boljšo organizacijo podatkov v zbirke, s čimer izboljšamo iskanje in sledenje določenim vsebinam v multimedijskih zbirkah. Druga pomembna lastnost takšnega strukturiranja podatkov pa je, da z uporabo teh postopkov pridobimo dodatno informacijo o vsebini in lastnostih multimedijskih (zvočnih) posnetkov. V nadaljevanju bomo podali pregled dosedanjega dela na področjih, s katerimi smo se ukvarjali v disertaciji. 1.3.2.1 Samodejna detekcija govora v zvočnih posnetkih Pri detekciji govora v zvočnih posnetkih rešujemo dva problema. Prvi zajema razvrščanje zvočnih odsekov (ali delov zvočnih posnetkov) na govor ali ne-govor, drugi 12 1. Uvod pa segmentacijo zvočnih posnetkov na podlagi teh lastnosti. Običajno se pri razvrščanju ukvarjamo z dvema nalogama: z iskanjem primernih predstavitev vzorcev za razvrščanje in s samimi postopki razvrščanja. V nadaljevanju si bomo pogledali, kakšne predstavitve zvočnih signalov se uporabljajo za detekcijo govora, katere postopke uporabljamo za razvrščanje in kako vse skupaj vgradimo v sisteme segmentacije. Problem detekcije govora v zvočnih posnetkih lahko predstavimo kot segmentacijo zvočnih posnetkov na govorne in ne-govorne odseke, pri tem pa nas zanimajo samo govorni deli. Zato je bilo veliko študij narejenih predvsem za iskanje ustreznih predstavitev zvočnih signalov, ki bi bile primerne za detekcijo govora, razvrščanje pa je bilo omejeno na detekcijo govora glede na samo en tip ne-govornih posnetkov, predvsem glasbe. Zato se bomo tu omejili na pregled predstavitev, ki se uporabljajo za razvrščanje posnetkov na govor in glasbo, vendar lahko enake predstavitve uporabljamo tudi za razvrščanje govora glede na ostale ne-govorne pojave. Pri tem moramo poudariti, da so bile predstavitve zvočnih signalov načrtovane v glavnem za namene razvrščanja in ne za namene segmentacije zvočnih posnetkov. Tako lahko ločimo dve skupini predstavitev ali značilk zvočnih signalov, s katerimi modeliramo govorne in ne-govorne pojave. Prva skupina predstavitev temelji na akustičnih lastnostih signalov, druga pa na specifičnih lastnostih govornih signalov v primerjavi z ne-govornimi (lahko so tudi akustične). Medtem ko so predstavitve iz prve skupine bolj splošne, so predstavitve iz druge skupine namenjene predvsem detekciji govora. Razvoj značilk za ločevanje med govorom in ne-govorom se je razvijal vzporedno z razvojem postopkov pridobivanja značilk za razpoznavanje govora. Tako je Greenberg [Greenberg-95] prvi predstavil značilke za ločevanje govora in glasbe, ki so temeljile na štetju prehodov signala skozi 0 (ang. zero-crossing rate, ZCR). Te značilke je uporabil Saunders [Saunders-96] za predstavitve zvočnih signalov radijskih oddaj v sistemu za samodejno iskanje radijskih postaj na podlagi glasbe in govora. Podobne značilke, ki so temeljile na analizi signalov v času, je predstavil tudi Samouelian s sod. [Samouelian-98], ki pa jim je že dodal dve značilki iz frekvenčne predstavitve signalov. Prva, ki sta začela sistematično pridobivati značilke, primerne za modeliranje govora v sistemih za razvrščanje govora in glasbe, sta bila Scheirer in Slaney [Scheirer-97]. Obravnavala sta takšne značilke, ki se različno obnašajo v primeru govora in ostalih ne-govornih pojavov. Tako sta predlagala osnovne značilke, ki so temeljile na iskanju spektralnih središč (ang. spectral centroid), merjenju spektralnega toka (ang. spectral flux), štetju prehodov skozi 0 (ZCR), merjenju energije pri modulacijski frekvenci 4 Hz (ang. 4 Hz modulation energy), ki ustreza frekvenci spreminjanja zlogov pri govoru, in merjenju deležev energije v nizkofrekvenčnih pasovih (ang. percentage of low-energy frames) časovno-frekvenčnih predstavitev signalov. V zadnjem času se v sistemih za ločevanje govora, glasbe in drugih ne-govornih pojavov najbolj pogosto uporabljajo predstavitve zvočnih signalov, ki jih uporabljamo tudi za razpoznavanje govora in govorcev. To so kepstralne značilke, ki jih pridobivamo na podlagi kratkočasovne frekvenčne analize signalov. Med njimi so najbolj razširjene značilke koeficientov melodičnega kepstra (ang. mel-frequency cepstral coefficients, MFCC) [Picone-93] in značilke koeficientov linearne predikcije (ang. (perceptual) linear prediction coefficients, (P)LPC) [Hermansky-90]. Uporaba teh predstavitev za ločevanje govora in ne-govora (predvsem glasbe) se je izkazala za učinkovito v kombinaciji z uporabo modelov kombinacije Gaussovih porazdelitev (ang. Gaussian mixture models, GMM), [Logan-00] oziroma v sistemih, ki so 1.3. Pregled področja teme disertacije_________________________________________________13 temeljili na HMM modelih, [Hain-98, Gauvain-02, Beyerlein-02, Ajmera-04]. Osnovni razlog za uporabo kepstralnih predstavitev signalov za detekcijo govora je tudi v tem, da so postopki detekcije govora običajno vključeni v večje sisteme za razpoznavanje govora, kjer poteka razpoznavanje skoraj izključno na podlagi kepstralnih značilk govora. Druga skupina predstavitev zvočnih posnetkov za ločevanje govora in ne-govora temelji na drugačnih predpostavkah. Tu se problem ločevanja prevede na problem razvrščanja posnetkov v dva razreda, na razred govora in razred ne-govora. V tem primeru nas zato zanimajo takšne predstavitve, s katerimi lahko predstavimo zvočne signale tako, da jih modeliramo samo z dvema razredoma. Prvi poskus v tej smeri je izvedel Gre-enberg [Greenberg-95]. Najbolj uspešna pa sta bila Williams in Ellis [Williams-99], ki sta izpeljala značilke na podlagi opazovanja delovanja osnovnih sistemov za razpoznavanje govora. Tudi mi smo v svojem raziskovalnem delu sledili temu načinu izpeljave predstavitev zvočnih posnetkov, zato bomo natančnejši pregled in osnovne ideje tega tipa modeliranja zvočnih signalov predstavili v nadaljevanju, v tretjem poglavju. V okviru raziskovalnega dela disertacije se nismo ukvarjali samo s predstavitvami zvočnih signalov, primernih za ločevanje govora in ne-govora, ampak tudi s postopki se-gmentacije zvočnih posnetkov na podlagi teh predstavitev. Večina omenjenih predstavitev je bila namreč preizkušana samo za razvrščanje že segmentiranih zvočnih posnetkov na govor in ne-govor. V primeru obdelave informativnih oddaj pa je potrebno dolge zvočne posnetke najprej razdeliti na dele, ki pripadajo govoru in ne-govoru, zato smo želeli razviti takšne predstavitve zvočnih signalov, ki bi bile primerne tudi za samo segmentacijo zvočnih posnetkov. Dosedanje raziskovalno delo na področju segmentacije zvočnih posnetkov na govorne in ne-govorne dele je bilo usmerjeno predvsem k obravnavi in izvedbi postopkov segmentacije v okviru celotnih sistemov za razpoznavanje govora [Siegler-97, Woodland-02, Gauvain-02, Beyerlein-02] ali pa sistemov za sledenje in iskanje govorcev v zvočnih posnetkih [Zhu-05, Sinha-05, Zibert-05, Istrate-05, Moraru-05]. V večini primerov so se pri segmentaciji na govor in ne-govor uporabljale MFCC značilke za predstavitve zvočnih signalov in GMM ali HMM modeli za razvrščanje in segmentacijo zvočnih posnetkov. Alternativen pristop k segmentaciji je bil predlagan v [Lu-02], kjer so razvrščanje zvočnih posnetkov na govor in glasbo izvajali s pomočjo metode podpornih vektorjev (ang. support vector machine, SVM). Pri izgradnji samostojnega sistema segmentacije in razvrščanja zvočnih posnetkov, ki smo ga v okviru doktorske disertacije uporabljali kot referenčni sistem za detekcijo govornih delov, smo se zgledovali po [Ajmera-04]. Tu sta potekala segmentacija in razvrščanje segmentov istočasno. To smo dosegli z vključevanjem GMM modelov v mrežo HMM modelov, s katerimi smo v procesu segmentacije s postopkom Viterbijevega de-kodiranja [Rabiner-89] dosegli razdelitev in označitev zvočnih posnetkov na govorne in ne-govorne dele. Razvili smo tudi alternativen pristop, kjer sta potekali segmentacija in razvrščanje segmentov ločeno. Tu smo najprej izvajali segmentacijo posnetkov glede na akustične spremembe v signalih, s katero se bomo podrobneje ukvarjali v poglavju 4, nato pa smo razvrščali segmente na govor in ne-govor s pomočjo GMM modelov. Izvedba samostojnih sistemov segmentacije nam je tako omogočila razvoj in primerjavo 14 1. Uvod različnih predstavitev zvočnih signalov, primernih za modeliranje govora in ne-govora. 1.3.2.2 Samodejna segmentacija zvočnih posnetkov Postopki segmentacije zvočnih posnetkov se ločijo glede na namen uporabe in glede na metode, uporabljene pri sami segmentaciji. Pri obdelavi zvočnih posnetkov informativnih oddaj ločimo postopke samodejne segmentacije glede na naslednja področja uporabe: • segmentacija po govorcih in/ali glede na spremembe akustičnega ozadja; primerna je za nadaljnjo indeksacijo zvočnih posnetkov; • segmentacija po stavkih na podlagi prozodične informacije [Shriberg-00] je osnova postopkom iskanja, detekcije in sledenja vsebinam informativnih oddaj; • segmentacija na govor/šum/glasbo, pri govoru pa še na spol govorca ali samo na govor in ne-govor; predstavlja običajno prvi korak pri obdelavi zvočnega signala v sistemih za samodejne transkripcije in podnaslavljanje informativnih oddaj. V disertaciji smo se ukvarjali s segmentacijo zvočnih posnetkov po govorcih in s segmen-tacijo na govorne in ne-govorne odseke, ki smo jo predstavili že v prejšnjem razdelku. S segmentacijo posnetkov po stavkih se nismo posebej ukvarjali, čeprav smo prozodično informacijo uporabljali pri razvrščanju segmentov po govorcih, kar bomo predstavili v nadaljevanju. Pri samodejni segmentaciji zvočnih posnetkov po govorcih in/ali glede na spremembe akustičnega ozadja je osnovna naloga poiskati časovne meje v zvočnih signalih, s katerimi razdelimo zvočne posnetke na segmente glede na zamenjave govorcev (ang. speaker change detection) in/ali glede na spremembe v akustičnem ozadju (ang. background change detection). Glede na metode, uporabljene pri takšni segmentaciji, razdelimo postopke segmentacije na dve skupini: • metode segmentacije s predhodnim učenjem: Tu se v glavnem uporabljajo GMM modeli, v kombinaciji s HMM modeli, ki jih pridobimo na podlagi učnega materiala, segmentacija pa poteka s prileganjem modelov na predstavitve zvočnih posnetkov s postopki dinamičnega programiranja. Takšni so npr. sistemi opisani v [Kemp-00, Gauvain-02, Woodland-02]. V zadnjem času pa se je uveljavila tudi segmentacija z metodo podpornih vektorjev SVM, [Guo-03, Lu-02]. • metode segmentacije s sprotnim odločanjem: Tu se na podlagi podobnosti ali različnosti dveh sosednjih odsekov odločamo, ali postavimo mejo med segmentoma ali ne. Najbolj uspešne mere podobnosti, ki se uporabljajo pri takšni segmentaciji, so simetrična Kullback-Leiblerjeva (diver-genčna, KL2) mera verjetnostne podobnosti [Siegler-97], mera LLR [Bonastre-00, Delacourt-01, Mori-01, Ajmera-03] in informacijski kriteriji, med njimi najbolj učinkovit Bayesov informacijski kriterij, BIC, [Chen-98, Delacourt-01, Mori-01, 1.3. Pregled področja teme disertacije_________________________________________________15 Tritschler-99, Lopez-00, Zhou-00, Vandecatseye-03, Cettolo-05]. V postopkih se-gmentacije na različne načine določamo meje med segmenti v tistih točkah, kjer s posameznimi merami dosežemo lokalne maksimume ali minimume. Podobne metode segmentacije se uporabljajo tudi na drugih raziskovalnih področjih, kjer je potrebno daljša zaporedja podatkov ali osnovnih enot razdeliti na manjše odseke. Tako se npr. pri analizi DNA vijačnic uporablja segmentacija s sprotnim odločanjem [Li-02], kjer mere segmentacije v glavnem temeljijo na meri LLR oziroma na informacijskih kriterijih. Vsaka izmed teh metod ima svoje prednosti in pomanjkljivosti. Pri metodah segmentacije s predhodnim učenjem izvajamo segmentacijo z modeli, ki jih predhodno določimo na podlagi učnega materiala. Tako se lahko zgodi, da z njimi ne moremo dovolj dobro opisati spremenjenih akustičnih razmer in situacij, ki jih z učnimi podatki nismo uspeli zajeti. To pa posledično pomeni slabšo segmentacijo posnetkov v takšnih primerih. Podobno je tudi v primeru postopkov segmentacije na podlagi mer podobnosti ali različnosti. Tu določamo meje med segmenti na podlagi pragov odločitve, ki jih moramo predhodno določiti. Za to običajno potrebujemo dodatne razvojne zbirke podatkov, kjer na podlagi optimalnih rezultatov segmentacije nastavljamo pragove odločitve. Bistvena prednost takšnih postopkov je ravno v tem, da za določitev pragov potrebujemo manj ustrezno označenih akustičnih podatkov kot pri učenju modelov segmentacije. Zato se te postopke uporablja predvsem v sistemih predhodne obdelave zvočnih posnetkov, kjer je potrebno parametre postopkov prilagajati trenutnim razmeram delovanja. Izkazalo se je tudi, da s postopki segmentacije s sprotnim odločanjem dobimo boljše rezultate segmentacij po govorcih [Kemp-00]. Zato smo se tudi mi v raziskovalnem delu omejili predvsem na preučevanje te skupine postopkov. V nadaljevanju bomo tako podali pregled dosedanjega dela na tem področju. Največji napredek pri segmentaciji zvočnih posnetkov sta dosegla Chen in Gopala-krishnan [Chen-98], ki sta formulirala problem segmentacije po govorcih kot problem izbire med modeli. Tako sta vsak segment predstavila z enimi modelom, kjer sta ugotavljala, ali dva posamezna segmenta boljše opišemo z dvema modeloma ali z enim skupnim. Pri tem sta za primerjave med modeli segmentov vpeljala mero BIC. Osnovnemu kriteriju BIC, ki je bil prvič definiran v [Scwartz-76], sta dodala še en utežni faktor (običajno označen z A), s katerim sta implicitno definirala prag odločitve za meje. Utežni faktor sta določala na podlagi razvojnih zbirk. V številnih eksperimentih [Tritschler-99, Kemp-00, Delacourt-01, Mori-01, Vandecatseye-03, Lopez-00, Cettolo-00, Ajmera-04, Zibert-05] se je izkazalo, da s pravo izbiro faktorja uteži znatno izboljšamo rezultate segmentacije. Osnovni postopek segmentacije s kriterijem BIC sta izboljšala Tritschler in Gopinath [Tritschler-99], ki sta vpeljala številne pohitritve postopka Chena in Gopalakrishnana. Dodatno sta se ukvarjala tudi z detekcijo kratkih segmentov (dolžine manj kot 2 s), ki jih pri segmentaciji s kriterijem BIC težko modeliramo. Podobne izboljšave so bile predlagane tudi v [Cettolo-05], kjer so z različnimi načini ocenjevanja kovariančnih matrik Gaussovih porazdelitev, ki nastopajo v kriteriju BIC, znatno pohitrili postopke in izboljšali rezultate segmentacije. Drugačen pristop pohitritve postopkov določanja mej med segmenti s kriterijem BIC je bil predlagan v 16 1. Uvod postopku DISTBIC [Delacourt-01]. Osnovna ideja je bila, da bi s hitrim postopkom najprej določili kandidate za meje med segmenti, potem pa bi na podlagi kriterija BIC izbrali prave meje. V tem primeru je segmentacija potekala v dveh fazah, v prvi fazi se je z različnimi merami podobnosti določalo kandidate za meje, v drugi pa s kriterijem BIC izbiralo med njimi. V primeru [Delacourt-01] so v prvi fazi uporabljali mero razmerja logaritma verjetnostne ocene levega in desnega odseka (ang. log-likelihood ratio, LLR), v [Zhou-00] pa so predlagali uporabo T2 statistike za določanje kandidatov. Zanimiv eksperiment segmentacije s kriterijem BIC so izvedli tudi v [Vandecatseye-03], kjer so z uporabo normaliziranih vrednosti ocen kriterija BIC dosegli boljše rezultate segmentacije kot v primeru ne-normaliziranih ocen. Kljub temu, da s kriterijem BIC dosegamo najboljše rezultate segmentacije in se ga zato skoraj izključno uporablja pri segmentaciji zvočnih posnetkov po govorcih in/ali spremembah akustičnega ozadja, je bilo veliko poskusov narejenih tudi z drugimi merami podobnosti ali različnosti. Največkrat se je v teh primerih uporabljala razdalja KL2 [Siegler-97, Zibert-05]. Obstajajo pa tudi druge mere. Tako je Gish s sod. [Gish-91] predlagal svojo mero, ki je temeljila na meri LLR in je bila uporabljena tudi pri segmentaciji v [Kemp-00]. Mori in Nakagawa [Mori-01] sta predlagala za mero kriterij popačenja vektorske kvantizacije (ang. vector quantisation distortion criterion) in ga primerjala s kriterijem BIC in mero LLR. V študiji, ki jo je opravil Kemp s sod. [Kemp-00], so primerjali različne metode segmentacije. Ugotovili so, da z metodami, ki temeljijo na predhodnem učenju modelov, zelo natančno določimo dejanske meje med segmenti, vendar pri tem detektiramo preveč mej. Ravno obratno pa je veljalo za postopke segmentacije s sprotnim odločanjem, kjer zelo dobro ocenimo število dejanskih mej med segmenti, vendar so te nenatančno postavljene, zato so predlagali kombinacijo obeh principov segmentacije. Do podobnih ugotovitev sta prišla tudi Liu in Kubala [Liu-99], ki sta predlagala nov kriterij določanja mej na podlagi samodejno pridobljenih transkripcij razpoznavanja govora. V vseh omenjenih postopkih in predlaganih kriterijih je potrebno na nek način določati prag odločitve za mejo. To pa predstavlja največji problem postopkov segmentacije. Zato smo se v disertaciji posvetili postopkom, s katerimi bi v največji možni meri zmanjšali vpliv pragov odločitve na rezultate segmentacije v različnih pogojih delovanja. Omeniti moramo še, da smo se v okviru raziskovalnega dela doktorske disertacije omejili samo na segmentacijo zvočnih posnetkov, vendar se lahko v kombinaciji z video signalom izvaja tudi t.i. bimodalna segmentacija posnetkov. Ta je bila uspešno izvedena v primeru segmentacije po govorcih [Iyengar-00] ter v primeru detekcije in sledenja posameznim vsebinam televizijskih posnetkov informativnih oddaj [Iurgel-01]. 1.3.2.3 Razvrščanje segmentov po govorcih s postopki rojenja Pri razvrščanju segmentov po govorcih gre v bistvu za določanje segmentov, ki pripadajo istim govorcem. Določanje pripadnosti segmentov k govorcem pa izvajamo s postopki rojenja. Večina najbolj uspešnih sistemov s tega področja temelji na hierarhičnih postopkih 1.3. Pregled področja teme disertacije_________________________________________________17 združevanja segmentov v roje. To pomeni, da segmente, ki jih pridobimo pri segmen-taciji zvočnih posnetkov po govorcih, združujemo v skupne roje toliko časa, dokler z vsakim rojem ne opišemo natanko enega govorca v zvočnem posnetku. Običajna strategija rojenja temelji na združevanju segmentov, ki so si med seboj blizu glede na mero podobnosti, ki jo uporabljamo. Pri tem moramo določiti še, kdaj se z združevanjem ustavimo. Tako se pri razvrščanju segmentov po govorcih ukvarjamo predvsem s predstavitvami segmentov, ki bi bile primerne za združevanje po govorcih, z merami podobnosti za združevanje in s kriteriji zaustavitve rojenja. V nadaljevanju bomo podali nekaj temeljnih del s tega področja. Eden izmed prvih poskusov združevanja segmentov po govorcih, ki ga je predlagal Jin s sod. [Jin-97], je bil namenjen prilagajanju govornih modelov na posameznega govorca (ang. speaker adaptation) v sistemu za razpoznavanje govora. Tu je bil vsak segment predstavljen z modelom ene Gaussove porazdelitve, združevanje segmentov pa je potekalo z mero podobnosti, ki je bila predlagana v [Gish-91]. Kriterij zaustavitve je bil izpeljan kot kombinacija povprečne razdalje med pari segmentov znotraj posameznega roja (ang. within-cluster dispersion) na eni strani in faktorja kaznovanja, ki je bil odvisen od trenutnega števila rojev, na drugi strani. Pogoj za zaustavitev rojenja je bil dosežen minimum kriterija zaustavitve. Faktor kaznovanja je bil nujen, saj bi sicer minimum kriterija zaustavitve dosegli v primeru, kjer bi vsak roj vključeval samo en segment. Zato so izvajali številne preizkuse z različnimi izbirami faktorjev kaznovanja, vendar sistematičnih rešitev za določitev kriterija zaustavitve niso podali. Pokazali pa so, da z združevanjem segmentov v roje glede na govorce in s prilagajanjem modelov govora na ta način znatno izboljšamo rezultate razpoznavanja govora. Drugi način rojenja segmentov je bil predstavljen v [Siegler-97], kjer je združevanje segmentov potekalo glede na Kullback-Leiblerjevo (KL) razdaljo med segmenti. V postopku rojenja je združevanje segmentov v roje potekalo tako, da sta bila dva segmenta ali roja (odvisno od koraka rojenja) združena, če je bila njuna medsebojna KL razdalja pod določenim pragom združevanja, ki so ga podali vnaprej. In ravno ta prag združevanja predstavlja največji problem te metode. Zato so bile preizkušane številne tehnike določanja praga, vendar sistematičnih rešitev ni bilo predlaganih. Podobno mero podobnosti za združevanje so predlagali tudi v [Solomonoff-98], kjer je bil za razvrščanje segmentov po govorcih uporabljen hierarhičen postopek rojenja s pomočjo dendrogramov. Dendrogrami združevanja so bili zgrajeni na podlagi dveh mer, mere LLR in razdalje KL. Iskanje optimalnega števila rojev pa je bilo izvedeno s pomočjo kriterija največje čistosti rojev (ang. cluster purity), ki so ga prav tako predlagali v tem delu. Drugačen način razvrščanja segmentov po govorcih je bil predlagan v [Johnson-99]. Postopek rojenja, ki so ga preizkušali, je prav tako temeljil na postopkih hierarhičnega rojenja, vendar so tu uporabljali kombinacijo rojenja od zgoraj-navzdol s postopki združevanja. Ideja postopka je bila predvsem vezana na metodo prilagajanja modelov po govorcih v sistemih za razpoznavanje govora z MLLR6 adaptacijo [Johnson-98]. V tem primeru so za deljenje in za združevanje rojev uporabljali dve meri, mero AHS7 6MLLR je kratica za postopek Maximum Likelihood Linear Regression, [Gales-96]. 7AHS je kratica za mero Arithmetic Harmonic Sphericity. 18 1. Uvod [Bimbot-93] in mero Gaussove divergence. V prvi fazi se je rojenje izvajalo od zgoraj-navzdol, v drugi pa je potekalo združevanje tistih rojev, ki so se preveč delili. Kriteriji za zaustavitve postopkov deljenja in združevanja so bili določeni tako, da so z njimi maksimizirali ocene Gaussovih verjetnostnih porazdelitev na danih podatkih, kar je bilo primerno za MLLR adaptacijo. Ta postopek razvrščanja segmentov po govorcih je bil vključen v sistem za samodejno pridobivanje transkripcij informativnih oddaj [Hain-98, Woodland-02]. Ker sta si problema segmentacije po govorcih in združevanja segmentov po govorcih zelo podobna, saj se v prvem primeru odločamo, ali bomo združili dva segmenta (ne bomo postavili meje) ali jih pustili razdružena (bomo postavili mejo), v drugem pa poteka združevanje več segmentov skupaj, se je tudi tu za najbolj učinkovito mero združevanja izkazal kriterij BIC. Ravno tako kot pri segmentaciji, sta ga tudi pri razvrščanju segmentov prva uporabila Chen in Gopalakrishnan [Chen-98]. Na ta način sta vsak segment predstavila z enim modelom, s postopkom rojenja pa sta na vsakem koraku združevala tiste segmente ali roje, kjer so bile s kriterijem BIC dosežene maksimalne vrednosti. Postopek združevanja je bil končan, ko se je s kriterijem BIC presegel določen prag združevanja, ali ko s kriterijem ni bilo več mogoče povečati BIC vrednosti. Tudi tu, se je podobno kot v primeru segmentacije, vpeljal dodaten utežni faktor A, s katerim je bilo mogoče nadzirati potek združevanja. V številnih eksperimentih [Tritschler-99, Lapidot-03, Vandecatseye-03, Zibert-05] se je izkazalo, da je potrebno faktor A dodatno nastavljati in popravljati v primeru različnih akustičnih pogojev v zvočnih posnetkih. Medtem ko je bilo v večini omenjenih primerov razvrščanje segmentov po govorcih uporabljeno za namene prileganja govornih modelov v sistemih za razpoznavanje govora, smo se v disertaciji osredotočili k rojenju segmentov zvočnih posnetkov za namene indeksacije. V tem primeru smo postopke rojenja in segmentacije izvajali z namenom strukturiranja informativnih oddaj glede na prisotnost govorcev v zvočnih posnetkih. Tako označevanje zvočnih posnetkov je bilo prvič predstavljeno v okviru projekta Rich Transcription [Fiscus-05]. Tu so v evaluacijah "Who spoke when" preizkušali številne postopke segmentacije in združevanja segmentov po govorcih. Pri večini postopkov so za glavno mero podobnosti med segmenti uporabljali kriterij BIC [Nguyen-03, Moraru-03b, Reynolds-05]. V zadnjih evaluacijah pa so se pojavili že prvi sistemi, kjer je združevanje segmentov potekalo z metodami, ki se uspešno uporabljajo pri razpoznavanju govorcev. Prvi tak sistem so predlagali v [Barras-04], kjer so segmente predstavili z GMM modeli, ki so jih pridobili z MAP adaptacijo splošnih modelov govora (ang. universal background models, UBM) [Reynolds-95]. Zamero združevanja so uporabili podoben kriterij, kot se uporablja v sistemih za verifikacijo govorcev. V nadaljnjih raziskavah [Zhu-05, Sinha-05] so preizkušali še s številnimi tehnikami normalizacije akustičnih predstavitev in z izboljšavami postopkov pridobivanja GMM modelov. V okviru disertacije smo razvili in preizkušali referenčni postopek, predstavljen v [Chen-98], postopek, kije temeljil na uporabi metod iz razpoznavanja govora [Barras-04, Zhu-05, Sinha-05], kjer smo preizkusili različne kriterije združevanja, razvili pa smo tudi nov postopek, kjer smo segmente združevali na podlagi akustične in prozodične informacije. 1.4. Pregled vsebine disertacije________________________________________________________19 1.4 Pregled vsebine disertacije Disertacija obsega šest poglavij in en dodatek. V uvodnem poglavju smo natančnejše opredelili raziskovalno področje in naloge, s katerimi smo se ukvarjali v okviru doktorskega dela. Ker raziskovalno področje teme disertacije vključuje številna področja uporabe, so tudi naloge, ki jih rešujemo, različne. Zato smo najprej podali pregled širšega področja obdelave zvočnih posnetkov informativnih oddaj z uporabo govornih tehnologij ter vanje ustrezno umestili naloge, s katerimi smo se ukvarjali v našem raziskovalnem delu. V pregledu ožjega področja teme disertacije pa smo podali pregled temeljnih del, s katerimi se bomo ukvarjali v naslednjih poglavjih. V drugem poglavju bomo tako najprej predstavili dve podatkovni zbirki posnetkov informativnih oddaj, ki smo ju uporabljali pri razvoju in vrednotenju postopkov se-gmentacije in razvrščanja segmentov zvočnih posnetkov. Prva zbirka predstavlja zbirko informativnih oddaj v slovenskem jeziku in je bila pridobljena v okviru raziskovalnega dela doktorske disertacije. Namenjena je predvsem razvoju splošnega sistema za razpoznavanje govora v slovenskem jeziku. Drugo zbirko smo pridobili v okviru sodelovanja v mednarodnem projektu COST278 in predstavlja prvo večjezično zbirko posnetkov informativnih oddaj, namenjeno razvoju postopkov obdelave informativnih oddaj, ki so neodvisni od jezika. V tem poglavju je opisan postopek pridobivanja posnetkov informativnih oddaj, proces označevanja zvočnih posnetkov, podana pa je tudi analiza in primerjava obeh zbirk. Glavne naloge, ki smo jih reševali v disertaciji, so opisane v poglavjih 3, 4 in 5. V tretjem poglavju se ukvarjamo s segmentacijo zvočnih posnetkov na govorne in ne-govorne dele, v četrtem s segmentacijo glede na zamenjave govorcev in spremembe v akustičnem ozadju, peto poglavje pa je namenjeno razvrščanju segmentov po govorcih s postopki rojenja. Problem detekcije govora v zvočnih posnetkih v tretjem poglavju predstavimo kot problem segmentacije zvočnih posnetkov na govorne in ne-govorne odseke. Zato se v tem poglavju ukvarjamo v glavnem s primernimi predstavitvami zvočnih signalov za detekcijo govora in s postopki segmentacije na podlagi teh predstavitev. Predlagane so štiri nove značilke, ki jih pridobivamo neposredno iz transkripcij samodejnega razpoznavanja glasov, in nov postopek segmentacije na podlagi teh značilk. Primerjava standardnih - akustičnih in predlaganih - fonetičnih predstavitev zvočnih posnetkov ter različnih postopkov segmentacije je bila izvedena na podatkovnih zbirkah iz drugega poglavja in je prav tako predstavljena v tem poglavju. V četrtem poglavju se ukvarjamo predvsem s segmentacijo zvočnih posnetkov glede na zamenjave govorcev. Tu smo izboljšali standardni postopek segmentacije s kriterijem BIC tako, da ni več potrebno določati praga odločitve za meje med segmenti vnaprej, ampak se prag odločitve določa relativno glede na akustične razmere v obdelovanih posnetkih. Tako sta v četrtem poglavju predlagani dve metodi segmentacije: postopek segmentacije z relativno določenim pragom in postopek segmentacije z združevanjem različnih predstavitev zvočnih posnetkov. Peto poglavje je namenjeno razvrščanju govornih segmentov k istim govorcem. To do- 20 1. Uvod sežemo s postopki rojenja z združevanjem, kjer se ukvarjamo s predstavitvami govornih segmentov, primernimi za združevanje po govorcih, z merami združevanja in kriteriji zaustavitve rojenja. Primerjamo tri postopke rojenja: osnovni postopek s kriterijem BIC in akustičnimi predstavitvami segmentov, postopek, ki temelji na uporabi metod iz razpoznavanja govora, in nov postopek, ki smo ga razvili iz osnovnega postopka z dodajanjem prozodične informacije. Vrednotenje postopkov je izvedeno v primeru idealne segmentacije, kjer so bili segmenti označeni ročno in v primeru samodejne segmenta-cije, kjer je bila segmentacija izvedena s postopki iz prejšnjih poglavij. V zadnjem delu poglavja se posvečamo kriterijem zaustavitve rojenja. Predlagamo dva nova kriterija in primerjamo rezultate razvrščanja na podlagi teh kriterijev. Ti rezultati predstavljajo hkrati tudi končne rezultate samodejnega označevanja informativnih oddaj glede na prisotnost govorcev v zvočnih posnetkih. V zaključnem poglavju najprej povzamemo in poudarimo bistvene prispevke, ki smo jih predlagali za izboljšanje postopkov segmentacije in razvrščanja segmentov. V nadaljevanju pa obravnavamo možne izvedbe predlaganih postopkov in vključevanje v različne sisteme govornih tehnologij, kjer se osredotočimo na izvedbo sistema za samodejno indeksacijo zvočnih posnetkov informativnih oddaj. V dodatku A podrobneje opišemo razdelitev zvočnih posnetkov informativnih oddaj iz zbirk SiBN in COST278 na učne, razvojne in testne množice, ki smo jih uporabljali v posameznih preizkusih postopkov iz disertacije. Podatkovne zbirke zvočnih posnetkov informativnih oddaj 2.1 Pridobivanje podatkovnih zbirk informativnih oddaj 2.2 Slovenska zbirka informativnih oddaj SiBN 2.3 Večjezična zbirka informativnih oddaj COST278 2.4 Zaključek V tem poglavju bomo predstavili in primerjali dve podatkovni zbirki posnetkov informativnih oddaj: slovensko zbirko SiBN in večjezično zbirko informativnih oddaj COST278. Zbirka SiBN je bila namensko pridobljena za potrebe doktorske disertacije in je označena tako, da jo bomo lahko uporabili tudi za izgradnjo različnih sistemov za samodejno razpoznavanje govora. Poleg posnetkov informativnih oddaj smo pridobili in ustrezno pripravili tudi jezikovni korpus informativnih oddaj, kije pridružen osnovni zbirki SiBN. Večjezična jezikovna zbirka informativnih oddaj COST278 pa je bila pridobljena v okviru mednarodnega sodelovanja v projektu COST278. Sestavljena je iz usklajeno označenih zvočnih posnetkov informativnih oddaj v devetih evropskih jezikih in je primerna za razvoj in vrednotenje postopkov govornih aplikacij, ki so neodvisne od jezika. Zaradi raznolikosti zbranih posnetkov jo lahko uporabljamo tudi za vrednotenje neobčutljivosti postopkov v različnih pogojih delovanja. V okviru doktorske disertacije smo ravno zaradi specifičnih lastnosti obeh podatkovnih zbirk izvajali eksperimente na obeh zbirkah. S tem smo lahko bolj objektivno ocenjevali in primerjali učinkovitost posameznih postopkov v različnih pogojih delovanja. 21 22_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj 2.1 Podatkovne zbirke informativnih oddaj Ker so informativne oddaje v večini primerov sestavljene iz različnih multimedijškili vsebin, so tudi podatkovne zbirke informativnih oddaj sestavljene iz različnih tipov podatkov, ki jih je potrebno označiti in uskladiti med seboj. Kakšne podatke in koliko jih potrebujemo, pa je odvisno od sistemov, kijih načrtujemo, in nalog, kijih rešujemo. Tako se v primeru podatkovnih zbirk informativnih oddaj, ki jih uporabljamo za razvoj sistemov govornih tehnologij oziroma širše jezikovnih tehnologij, omejimo na dva osnovna tipa podatkov: govorne in tekstovne podatke. Govorne podatke pridobivamo predvsem na podlagi zvočnih posnetkov, ki jim po potrebi (če je mogoče) pridružimo še video posnetke. Zbrane posnetke ustrezno označujemo in usklajujemo med seboj. Stopnja označevanja posnetkov je odvisna od namena in uporabe zbirke. Običajno se v takšnih zbirkah poleg osnovnih tekstovnih prepisov govora označuje še značilnosti govorca, tip govora, akustična ozadja, vsebino govora ipd. Zato v tem primeru govorimo, da smo osnovno informacijo tekstovnega prepisa govora obogatili z dodatno govorno informacijo (ang. rich transcriptions). Skupaj z govorno informacijo običajno takšne zbirke vsebujejo še tekstovne podatke, ki so predstavljeni z velikimi korpusi besedil sorodnih vsebin, kot so vsebine, ki so zajete v govornih posnetkih informativnih oddaj. Oboje skupaj lahko štejemo za podatkovno zbirko informativnih oddaj (ang. broadcast news speech database), ki jo uporabljamo kot govorno zbirko za razvoj aplikacij govornih tehnologij. Posebnost takšnih govornih zbirk je v tem, da niso načrtovane in se močno razlikujejo od namensko pridobljenih govornih zbirk. Osnovne razlike lahko strnemo na naslednja področja: • akustične lastnosti posnetkov: govorni posnetki v namenskih zbirkah so pridobljeni običajno v nadzorovanih akustičnih pogojih, posnetki informativnih oddaj pa zaradi narave pridobivanja novic v različnih akustičnih pogojih; • tip govora: v namenskih zbirkah je običajno zajet en tip govora (bran govor, ločeno izgovorjene besede,...), v informativnih oddajah je prisotno več tipov govora (bran, spontan, čustven, govor, ne-govor, ...); • govorci: v namenskih zbirkah imamo običajno manjše število govorcev, ki so enakomerno zastopani, nimamo tujih govorcev; pri zbirkah informativnih oddaj imamo večje število govorcev, ki so zelo neenakomerno zastopani, prisotna je različna kvaliteta govorne artikulacije, imamo tudi znatno število tujih govorcev ipd.; • jezik: v namenskih zbirkah imamo običajno tematsko omejene vsebine govora, kar posledično pomeni sorazmeroma majhna besedišča in temu primerno dobre jezikovne modele govora; v primeru informativnih oddaj imamo različne vsebine, posledično velika besedišča, tuj govor, različne dialekte, ... Ravno zaradi kompleksnosti podatkov in zaradi velikih količin različnih informacij, ki so vsebovane v govornih in tekstovnih podatkih, predstavljajo podatkovne zbirke 2.1. Podatkovne zbirke informativnih oddaj 23 informativnih oddaj velik izziv za zbiranje, označevanje in usklajevanje različnih tipov podatkov, ki jih lahko pridobivamo iz informativnih oddaj. Po drugi strani ravno zaradi teh lastnosti in možnosti sprotnega razširjanja zbirk z novimi podatki predstavljajo zbirke informativnih oddaj skoraj neomejen vir podatkov, primernih za izgradnjo in razvoj sistemov z različnih področij govornih tehnologij. Tipično govorne podatke za takšne zbirke pridobivamo iz radijskih in televizijskih informativnih oddaj, tekstovni material pa iz dnevnega časopisja oziroma preko informacijskih portalov iz medmrežja. Pridobivanje in označevanje večjih govornih podatkovnih zbirk informativnih oddaj se je koncem devetdesetih let prejšnjega stoletja začelo z namenom, da bi pridobili dovolj govornih podatkov za izgradnjo večjih sistemov za razpoznavanje govora, ki bi bili primerni za razpoznavanje splošnega govora v različnih akustičnih pogojih. Prva uporaba takšnih sistemov je bila usmerjena k samodejnemu pridobivanju tekstovnih prepisov zvočnih posnetkov informativnih oddaj [Woodland-02, Beyerlein-02, Chen-02, Gauvain-02]. Z razpoznavanjem in vključevanjem dodatne informacije osnovnim (samodejnim) tekstovnim prepisom govora je bil omogočen tudi razvoj novih sistemov za samodejno pridobivanje, sledenje in indeksacijo različnih vsebin informativnih oddaj [Wayne-00], ki smo jih pregledali že v uvodnem poglavju. Osnova za razvoj različnih postopkov obdelave zvočnih posnetkov, ki so vključene v takšne sisteme, so pravilno pridobljene in ustrezno označene podatkovne zbirke. Zato smo tudi mi začeli z razvojem in pridobivanjem takšnih zbirk. V nadaljevanju bo tako predstavljena podatkovna zbirka informativnih oddaj v slovenskem jeziku - SiBN in večjezična zbirka COST278. V okviru doktorske disertacije smo obe zbirki uporabljali za razvoj in vrednotenje postopkov detekcije govora, segmenta-cije in razvrščanja segmentov po govorcih za namene indeksacije zvočnih posnetkov. Medtem ko je bila zbirka SiBN zasnovana širše za razvoj LVCSR sistemov, je bila zbirka COST278 namenjena ravno postopkom, s katerimi smo se ukvarjali v okviru našega raziskovalnega dela. Ker sta bili obe zbirki enako zasnovani, bomo tako najprej predstavili, kako smo zajemali in označevali posnetke informativnih oddaj in katera orodja smo pri tem uporabljali, v nadaljevanju pa bomo podali podrobnejšo analizo obeh zbirk. 2.1.1 Pridobivanje podatkovnih zbirk informativnih oddaj V tem razdelku bomo opisali skupne značilnosti obeh podatkovnih zbirk, opisali potek označevanja zvočnih posnetkov ter predstavili orodja za pretvorbo med različnimi formati transkripcij in za preverjanje transkripcij, ki smo jih razvili vzporedno z označevanjem podatkov. Kljub temu da sta bili obe zbirki zasnovani za različne namene, je osnovna struktura obeh zbirk enaka. Obe zbirki vsebujeta zvočne in video posnetke samo televizijskih informativnih oddaj iz različnih televizijskih postaj, ki so bile posnete v različnih obdobjih. Zbirka SiBN je bila zasnovana širše in poleg govornega materiala vključuje še tekstovni material, ki smo ga pridobili z zbiranjem besedil za podnaslavljanje informativnih oddaj preko teleteksta. 24_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj Ker je razvoj obeh zbirk potekal skoraj sočasno, smo pri obeh zbirkah uporabili enaka pravila za pridobivanje in označevanje zvočnih posnetkov ter za usklajevanje z video posnetki. Glavna razlika je bila v namenu uporabe obeh zbirk. Zbirka COST278 je bila zasnovana tako, da je vsaka partnerska skupina, ki je sodelovala pri izdelavi zbirke, prispevala 3 ure posnetkov informativnih oddaj v svojem jeziku in je bila tako namenjena predvsem razvoju postopkov obdelave informativnih oddaj, ki so neodvisne od jezika. Skupaj smo tako dobili 30 ur posnetkov v devetih jezikih. Zbirka SiBN pa trenutno vsebuje 34 ur posnetkov informativnih oddaj v slovenskem jeziku in je namenjena predvsem izgradnji splošnega sistema za razpoznavanje govora v slovenskem jeziku. Druga pomembna razlika med zbirkama je tudi v raznolikosti posnetkov. V zbirki COST278 so zbrani posnetki informativnih oddaj različnih TV postaj, kar posledično pomeni večjo vsebinsko in strukturno pestrost zbranih posnetkov. Posnetki zbirke SiBN pa vsebujejo informativne oddaje samo ene TV postaje, kar pomeni, da so podatki bolj homogeni in posnetki podobno strukturirani. Tako lahko zaključimo, da so v zbirki SiBN zbrani podatki jezikovno, vsebinsko in strukturno bolj homogeni, namen zbirke COST278 pa je bil ravno nasproten, in sicer uskladiti in poenotiti transkripcije informativnih oddaj iz različnih zbirk, ki bi bile jezikovno, vsebinsko in strukturno čim bolj raznolike. Ravno zato smo v vseh naših eksperimentih uporabljali obe zbirki: zbirko SiBN za primerjanje postopkov v primeru bolj homogenih posnetkov, zbirko COST278 pa za testiranje neobčutljivosti postopkov v različnih pogojih delovanja. 2.1.2 Označevanje zvočnih posnetkov informativnih oddaj Bistveni element vsake take podatkovne zbirke so ustrezne transkripcije1 zvočnih posnetkov informativnih oddaj. Proces pridobivanja transkripcij zvočnih posnetkov imenujemo označevanje zvočnih posnetkov. Za razliko od namenskih govornih zbirk je v primeru informativnih oddaj označevanje posnetkov najbolj zahtevno opravilo, saj je potrebno posnetke označiti in dokumentirati na različnih nivojih, uskladiti oznake za različne (ne)govorne in (ne)jezikovne pojave in zaradi velike količine podatkov organizirati označevanje in preverjanje transkripcij v več fazah. Običajno transkripcije zvočnih posnetkov informativnih oddaj, kijih zbiramo v podatkovnih zbirkah, vključujejo naslednje elemente označevanja: struktura oddaje: Osrednje informativne oddaje so običajno sestavljene iz več ločenih sklopov novic, ki se nanašajo na določena področja informacij: politične novice (mednarodne, notranje-politične) lokalne novice (regijske informacije, črna kronika ipd.), finančne, kulturne, športne novice, vremenske napovedi ipd. Vsaka informativna oddaja je tako lahko sestavljena iz več ločenih pododdaj oziroma iz ene oddaje, ki je osredotočena samo na določeno informativno področje. Prehodi iz enega sklopa novic k drugemu so običajno povezani z značilnimi avdio- 1 Transkripcije zvočnih posnetkov informativnih oddaj ne vključujejo samo tekstovnega prepisa govora, ampak še druge oznake, ki jih je potrebno pridobivati v procesu označevanja in bodo predstavljeni v nadaljevanju. Transkripcije zvočnih posnetkov informativnih oddaj v tem poglavju tako pomenijo v celoti označene posnetke informativnih oddaj in ne zgolj tekstovnih prepisov govora. 2.1. Podatkovne zbirke informativnih oddaj_____________________________________________25 vizualnimi efekti, ki najavljajo naslednjo oddajo oziroma zaključujejo prvo. Pravimo jim televizijske špice. Znotraj posameznih sklopov novic so zaporedoma nanizana poročila o novicah, ki so lahko dodatno opremljena s komentarji, intervjuji, anketami, lahko pa gre tudi za soočenja več govorcev o določeni temi. Vsako novico tako lahko opremimo z informacijo o tipu novice (poročilo, komentar, intervju, anketa, soočenje), o času in kraju dogajanja ter o akterjih in o dogajanju novice. Dodatno lahko novice razvrstimo še, h kateremu sklopu novic pripadajo. Označevanje novic mora biti usklajeno, pri tem pa običajno sledimo vnaprej pripravljenim ali pridobljenim strukturam novic, ki so značilne za določeno informativno oddajo ali TV postajo. Tako označene novice informativnih oddaj lahko uporabimo za razvoj sistemov za detekcijo in sledenje vsebinam informativnih oddaj (ang. topic detection and tracking). govorci: Običajno je pri informativnih oddajah struktura govorcev zelo pestra. Informativne oddaje vsebujejo veliko število govorcev, ki prispevajo zelo malo govora, kar je posledica številnih novic in različnih novinarjev, ki poročajo o novicah, ter akterjev novic. Po drugi strani pa imamo nekaj govorcev z izredno veliko količino govora. To so voditelji informativnih oddaj, ki povezujejo, napovedujejo oziroma prebirajo poročila o novicah. Običajno tudi vodijo soočenja in intervjuje v TV študijih. Ker so to običajno šolani govorci in prebirajo že vnaprej pripravljeno besedilo, je njihov govor zelo kvaliteten in jezik izbran. V drugo skupino sodijo novinarji, ki poročajo ali komentirajo posamezne novice. Ti prav tako prispevajo enako kvaliteten govor in jezik, vendar v manjši količini, govorcev pa je več kot je voditeljev. V zadnjo skupino sodijo predvsem govorci, ki niso novinarji, ampak akterji novic. Vsak tak govorec prispeva izredno malo govornih podatkov, tako njihov govor kot jezik pa sta zelo pestra. Pri označevanju govorcev običajno poleg osnovne identifikacije o govorcih označujemo še spol govorca, kvaliteto govora in jezika posameznega govorca ter kvaliteto posnetkov zvočnih podatkov. govor in jezik: Govor in jezik sta v informativnih oddajah izredno pestra. To je predvsem posledica strukture govorcev, ki so vključeni v informativne oddaje. Prvo skupino govora prispevajo govorci, ki poročajo in komentirajo novice, drugo pa sestavlja govor akterjev novic. Kot smo že povedali v prejšnjem primeru, novinarji in voditelji prispevajo zelo kvaliteten, ostali govorci pa manj kvaliteten govor in jezik. V prvi skupini imamo tako pretežno bran govor s tekočo izgovorjavo, skoraj brez napak in dobro artikuliran; jezik je izbran brez pogovornih in narečnih besed, stavki so dobro strukturirani. V drugi skupini pa je zajet govor iz realnega sveta, kar pomeni, da imamo tu od branega do povsem spontanega govora, jezik je v glavnem pogovorni, v primeru lokalnih novic je veliko narečnega govora, veliko je negovornih in nejezikovnih elementov, ki so posledica neizkušenosti in nepripravljenosti nastopanja govorcev pred mikrofonom. Tudi struktura jezika je precej prosta, večje odsekanih in novih sestavljenih besed, nedokončanih stavkov ipd. Poleg tega imamo v informativnih oddajah tudi veliko domačih in tujih lastnih imen, novih imen za nove dogodke in stvari, kratic, raznih rezultatov ipd., kar predstavlja veliko težavo za označevanje in jezikovno modeliranje 26_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj informativnih oddaj. Dodatna posebnost informativnih oddaj je tudi v tem, da vsebujejo tudi govor v tujih jezikih, ki ga običajno ne označujemo. Prav zaradi številnih govornih in jezikovnih lastnosti govora informativnih oddaj predstavlja označevanje govora najtežji del v procesu označevanja. Tu poleg osnovnih tekstovnih prepisov govora označujemo še številne negovorne in neje-zikovne elemente v govoru, kot so razni medmeti, nedokončane in nove besede, napačne izgovorjave, govorne napake ipd. Da bi zagotovili usklajenost označevanja, je potrebno ravno zaradi teh elementov dodatno preverjati transkripcije in usklajevati vse oznake. Pri transkripcijah govora dodatno označujemo tudi tip govora in kvaliteto jezika. Govor v tujih jezikih pa običajno ne označujemo, ampak ga samo identificiramo. ostali elementi: Sem spada označevanje vseh ostalih elementov, ki ne sodijo v nobeno izmed zgornjih skupin. Tu predvsem mislimo na označevanje ne-govornih pojavov v zvočnih posnetkih. Sem spada označevanje kvalitete akustičnega ozadja oziroma označevanje akustičnih dogodkov, ki so slišni v ozadju govornih posnetkov, kot so razni šumi ali glasba v ozadju, označevanje prekrivajočega govora ipd. Poleg tega označujemo tudi odseke televizijskih špic in identificiramo dele informativnih oddaj, ki jih običajno ne označujemo, kot so reklamni bloki, daljši premori, razne prekinitve ipd. Tudi v tem primeru je potrebno zagotoviti usklajeno označevanje vseh teh elementov. V primeru zbirk SiBN in COST278 smo označevali posnetke informativnih oddaj v skladu s pravili, ki jih je predpisalo združenje LDC2 [LDC-00] in so jih uporabljali tudi za označevanje posnetkov zbirk v projektu Hub-4 [Graff-02]. V obeh primerih smo označevali vse prej naštete elemente TV informativnih oddaj. Za označevanje smo uporabljali orodje Transcriber [Barras-01], kije prikazano na sliki 2.1. S tem orodjem smo pridobivali transkripcije zvočnih posnetkov informativnih oddaj, ki so bile organizirane hierarhično glede na naslednje osnovne elemente označevanja: oddaja (ang. episode) : Tu smo označevali osnovne lastnosti informativne oddaje: datum posnetka, ime oddaje, TV postajo in identifikacijo informativne oddaje. sekcija (ang. section) : Sekcija predstavlja vsebinsko enovit del informativne oddaje. Informativna oddaja je običajno razdeljena na več sekcij, ki vključujejo tri skupine vsebin. V prvo skupino spadajo vsi neoznačeni deli informativnih oddaj (ang. notrans), kot so reklamna sporočila, televizijske špice (ang. jingles) in daljši ne-govorni deli. Drugo skupino predstavljajo vse najave v oddaji (ang. filler), ki vključujejo različne preglede vsebin informativnih oddaj, napovedi novic, uvodne in zaključne dele oddaj ipd. Zadnjo skupino pa tvorijo posamezne novice informativnih oddaj. Tu smo označevali osnovni tip novice (poročilo, komentar, intervju, soočenje), področje vsebine (mednarodne, domače, lokalne novice, finance, kultura, šport, ...) ter osnovne podatke o novici (čas in kraj dogajanja, 2Lingustic Data Consortium, http://www.ldc.upenn.edu/ 2.1. Podatkovne zbirke informativnih oddaj 27 —" ¦ ¦•¦¦-••"»•¦ Jsl*l File Edit Signal Segmentation Options Help 1:Gospod predsednik hvala lepa za pojasnila. 2:Hvala. lepoil ¦ EU nt>vice. evropska ustava Nadaljujemo pa z delom Evropske konvencije, ki je po številnih razpravah in usklajevanjih, kot kaže, vendarle bliže kompromisu, kakšna naj bo nova evropska ustava.[i] * [lj Tako je. Ožje predsedstvo, ki se je sestalo še pred plenarnim +zasednm zasedanjem v dokument že vneslo nekaj popravkov, sicer pa morajo osnutek, ustave člani konvencije sprejeti soglasno. MarlaRazboržak Ožje predsedstvo konvencije, v katerem je tudi slovenski predstavnik ALojze ^Peterle, bo nov osnutek ustave pripravilo čez noč in ga predstavilo jutri. / J* 050S03_naznanL01 MailaRazbažak I___ ish-][-kmg =Engiish] hHl «| I »I H il dr>BvnikJK0603-19DD emo pa z delom Evropske konvencije .. nova evropska ustava [i]__________ [i] Tako je. Ožje predsedstvo, ki seje sestalo še pred , __________konvencije spiBJeli soglasno.___________ fi;ic, pie-dEerJstvci konvencije, v katerem ie. [lanrpEnghsh |[-_______.. ga pradstavilo jutri_____________________lish] Cursor: 0E.25 SOS Slika 2.1: Transcriber: orodje za označevanje zvočnih posnetkov informativnih oddaj, ki smo ga uporabljali pri označevanju posnetkov zbirk SiBN in COST278. akterje novice, opis dogodka). Pri označevanju novic smo upoštevali hierarhično lestvico razvrstitve področij vsebin, ki smo jo vnaprej določili. odsek govorca (ang. speaker turn) : Tu je zajet govor enega samega govorca. Označbe govorca in kvalitete govora bomo opisali v nadaljevanju. segment (ang. segment) : Predstavlja osnovni odsek transkripcije. Običajno vključuje odsek govora enega govorca, ki je ločen z daljšim premorom ali vzdihom (izdihom) govorca, ko tvori nov stavek ali del povedi. V redkih primerih pa je v segmentih zajet tudi prekrivajoč govor dveh ali več govorcev. Po kakšnih pravilih smo določali segmente, bo opisano v nadaljevanju. Osnovni elementi označevanja odsekov govorcev so zbrani v tabeli 2.1. Označevanje odsekov govorcev je vključevalo tri glavne skupine označb: elemente govorca, jezik govorca in kvaliteto govora. Dodatno smo označevali tudi akustično ozadje govora pri posameznem govorcu, ki pa se je lahko spreminjalo znotraj posameznega odseka. Običajno je časovna razporeditev in trajanje akustičnih ozadij neodvisno od govora v ospredju, zato je potrebno voditi dva časovna toka označitev: v prvem označujemo govor, v drugem pa spremembe v akustičnem ozadju. Usklajevanje in združevanje obeh tokov označitev predstavlja dodaten problem pri nadaljnji obdelavi transkripcij in ga bomo predstavili v nadaljevanju. Osnovno pravilo pri združevanju je, da se akustična ozadja lahko spreminjajo znotraj enega odseka govorcev, ne morejo pa se raztezati čez enega ali več odsekov. Kot je razvidno iz tabele 2.1, smo označevali 9 osnovnih 28_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj Tabela 2.1: Osnovni elementi označevanja odsekov govorcev. element oznake govorec: oznaka govorca govorec: spol ime_ priimek, neznani_ id_ nn moški/ženski/neznani jezik: naglas govorca jezik: dialekt materni/nematerni jezik govor: tip govora govor: kvaliteta posnetka govor: kanal posnetka bran/spontan govor visoka/srednja/nizka studio/telefon ozadje: akustično ozadje posnetka čisto/glasba/govor/ostalo elementov odsekov govorcev. Pri oznakah govorcev smo morali poenotiti identifikacije govorcev v celotni zbirki posnetkov informativnih oddaj. Pri tem smo morali biti pozorni na oznake neznanih govorcev, ki smo jih označevali z neznani_ id_ nn, pri čemer smo morali uskladiti zaporedne številke nn govorcev po celi zbirki. Pri spolu govorca smo dodali tudi kategorijo neznani, v katero smo vključili govor otrok in starejših ljudi, kar je običajna praksa tudi v ostalih zbirkah [Federico-00, Meinedo-03a]. Pri jeziku govorca smo beležili posebnosti posameznih govorcev. Posebna kategorija je bila namenjena govorcem, ki so govorili v jeziku, ki ni njihov materni jezik3. Pri govornih elementih govorca smo ocenjevali tip govora: brani ali spontani govor. Kot bran govor smo označevali govor voditeljev informativnih oddaj in novinarjev, ki so brali poročila oziroma komentarje o novicah. Kot spontan govor pa smo označevali predvsem govor akterjev novic, govor pri soočenjih v informativnih oddajah, intervjuje, govor pri anketah ipd. Kvaliteto posnetkov smo določali glede na pogoje prikazane v tabeli 2.2. Nizka kvaliteta posnetkov se v obeh primerih iz tabele 2.2 nanaša na Tabela 2.2: Označevanje kvalitete in kanala posnetka v odsekih govorcev. kanal posnetka studio frekv. širina > 4kHz telefon frekv. širina < 4kHz kvaliteta posnetka nizka velik šum kanala nerazumljiv govor srednja govor v zunanjem okolju razumljiv govor visoka studijska kvaliteta govora čist govor posnetke, ki so bili pridobljeni v težavnih akustičnih pogojih in je bil zato govor težko razumljiv. Srednja kvaliteta posnetkov je pomenila še vedno slabe akustične pogoje zajema posnetkov, vendar je bil govor na posnetkih dobro razumljiv. To je v primeru studijske kvalitete kanala pomenilo zajemanje posnetkov v ne-studijskih razmerah, v primeru telefonskih posnetkov pa smo s tem opisovali razumljiv govor s prisotnostjo izrazitega šuma kanala. Najvišja kvaliteta oziroma visoka kvaliteta posnetkov se je v obeh kanalih nanašala na posnetke, kjer je bil zajet zelo kvaliteten, čist govor brez 3To je bil jezik transkripcije, ki smo ga označevali, ampak govorec ni izhajal iz govornega področja tega jezika. 2.1. Podatkovne zbirke informativnih oddaj_____________________________________________29 zaznavnih šumov, ki bi bili posledica delovanja kanala. Osnovni elementi označevanja so bili segmenti. Vsak odsek govorca je bil tako sestavljen iz enega ali več segmentov govora govorca iz enega odseka. Osnova za določevanje mej med segmenti so bili premori med govorom, ki nastanejo v glavnem zaradi dihanja govorca med govorjenjem. Pravilo za določitev segmentov v obeh zbirkah je bilo naslednje. Če je premor med govorom trajal manj kot 0.5 s, meje med segmentoma nismo označevali, če je bil premor dolg med 0.5 in 1.5 s, smo označili eno mejo med segmentoma, ki je bila postavljena na sredino področja premora oziroma na začetek ali konec vdiha ali izdiha govorca (ang. inspiration, expiration event). Če je bilo področje premora daljše od 1.5 s, smo označili dve meji med segmentoma (na vsakem koncu področja), vmesno področje pa smo označili kot premor. Segmenti so v glavnem vsebovali stavke govora posameznega govorca in običajno niso bili daljši od desetih sekund. Osnova pri označevanju segmentov so bili tekstovni prepisi govora. Pri tem smo se držali priporočil združenja LDC, ki smo jim dodali še svoja pravila označevanja. Tako smo dodatno označevali še: • lastna imena z znakom ~ pred imenom, • kratice z znakom @ ali z ~, odvisno od načina izgovorjave; z znakom @ smo označevali kratice, ki so bile izgovorjene kot ena beseda, z znakom ~ pa kratice, ki so bile črkovane, • tuje besede ali besedne zveze, ki smo jim dodali oznake o jeziku in po potrebi označili še izgovorjavo, • števila in številske oznake: vsa števila smo pretvorili v besedne oblike, številske oznake, kot so športni rezultati, fizikalne in matematične količine, finančne vrednosti ipd. smo zapisali, kot so bile izgovorjene, • ne-besedne elemente: medmete smo poenotili in označevali v oglatih oklepajih [], nepravilno izgovorjene besede smo označili in dodali še izgovorjave, nedokončane ali odrezane besede smo označili z znakoma + in -, odvisno, ali je bila beseda odrezana na začetku ali koncu, • ne-govorne elemente: poenotili smo oznake za vse pričakovane ne-govorne pojave (smeh, jok, aplavz, šelestenje papirja, zvoke pri zamenjavi mikrofona in še druge zvoke v ozadju). Pri označevanju govora v tujem jeziku smo označevali samo elemente govorca in kvalitete govora, nismo pa označevali tekstovnih prepisov govora. Na sliki 2.1 si tako lahko ogledamo večino elementov označevanja zvočnih posnetkov informativnih oddaj. V orodju Transciber je delovno okolje razdeljeno na dva dela: spodnji del je namenjen postavljanju mej med segmenti in odseki govorcev, zgornji del pa je namenjen izdelavi transkripcij. V spodnjem delu lepo vidimo del strukture transkripcije ene informativne oddaje. Prva vrstica pod signalom je namenjena označevanju akustičnega ozadja v posnetkih (v našem primeru imamo večinoma čist posnetek, razen govora v ozadju (speech) na enem delu). Druga vrstica označuje sekcijo, ki je v našem 30_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj primeru namenjena novici o Evropski uniji. Vrstica pod njo prikazuje odseke govorcev. Tu so prikazane samo identifikacije govorcev, ki so v našem primeru kar imena govorcev. Za vpisovanje vseh ostalih elementov odsekov je potrebno odpreti posebno okno. Zadnja vrstica v spodnjem oknu je namenjena oznakam osnovnih segmentov. Zgornje okno pa je namenjeno predvsem vpisovanju osnovnih elementov transkripcije. Tudi v tem oknu lahko vidimo vse elemente označevanja. Glavni del zavzemajo tekstovni prepisi govora z vsemi dodatnimi elementi, ki smo jih že opisali. Tu moramo še omeniti, da orodje Transciber omogoča izdelavo transkripcij v različnih kodnih formatih. Tako so bile vse govorne transkripcije v zbirkah SiBN in COST278 izdelane v nacionalnih kodnih formatih, kasneje pa so bile pretvorjene v format Unicode (UTF-8). Proces označevanja posnetkov v obeh zbirkah je potekal v več fazah. Kot smo že omenili, je zbirka COST278 sestavljena iz različnih posnetkov informativnih oddaj izbranih iz osnovnih zbirk posnetkov. Zato je bilo pri zbirki COST278 potrebno samo uskladiti in poenotiti že pripravljene transkripcije. Tako je vsaka skupina, ki je prispevala svoje posnetke, uskladila transkripcije, da so ustrezale predpisom označevanja, ki smo jih že opisali v tem razdelku. Posebna pozornost pa je bila namenjena predvsem izvedbi segmentacije posnetkov in usklajevanju oznak za ne-govorne in ne-besedne elemente. Pri zbirki SiBN je potekal proces označevanja od začetka. Potrebno je bilo označiti vse potrebne elemente transkripcij. Zato je bilo označevanje posnetkov organizirano v več fazah. V prvi fazi je potekala segmentacija oziroma razdelitev zvočnih posnetkov informativnih oddaj glede na osnovne elemente transkripcije. Tu je bilo potrebno določiti meje med osnovnimi segmenti, odseki govorcev in sekcijami. V drugi fazi je bilo potrebno izvesti natančne prepise govora z vsemi dodatnimi oznakami, ki smo jih opisali pri označevanju segmentov. To je bil najbolj zahteven del postopka označevanja, saj je bila potrebna velika natančnost označevanja in je bilo potrebno upoštevati veliko pravil za določitev oznak. Običajno je to tudi časovno najbolj potraten del postopka označevanja. Zato smo si v primeru informativnih oddaj zbirke SiBN pomagali z delnimi tekstovnimi prepisi, ki smo jih pridobili preko teleteksta iz besedil namenjenih podnaslavljanju informativnih oddaj. S tem smo znatno pohitrili proces označevanja osnovnih govornih segmentov. V tretji fazi je bilo potrebno določiti oznake za odseke govorcev in označiti sekcije informativnih oddaj. Identifikacijo govorcev in kategorizacijo vsebin novic je bilo potrebno uskladiti s seznami, ki so bili vnaprej pripravljeni in so se sprotno dopolnjevali. V primeru novih govorcev je bilo potrebno njihovo identiteto ugotoviti iz video posnetkov, sicer je govorec dobil oznako neznani in ustrezno identifikacijsko številko. V primeru novih vsebin pa je bilo potrebno določiti oznake novice po pravilih, ki smo jih že opisali. Zadnji fazi sta bili namenjeni preverjanju transkripcij. Četrta faza je bila namenjena preverjanju tekstovnih prepisov in ustreznih oznak vseh elementov označevanja. Peta faza pa je bila namenjena preverjanju usklajenosti oznak znotraj transkripcije posnetka informativne oddaje in usklajevanju oznak med vsemi transkripcijami različnih informativnih oddaj, ki so zajete v zbirki. Proces označevanja ene ure informativne oddaje zbirke SiBN je tako zahteval približno od 12 do 15 ur dela izkušenih označevalcev, dodatne 2 do 3 ure dela pa je bilo potrebno 2.1. Podatkovne zbirke informativnih oddaj_____________________________________________31 vložiti za preverjanje pravilnosti transkripcij. 2.1.3 Orodja za nadaljnjo obdelavo transkripcij zvočnih posnetkov 2.1.3.1 Pretvorba transkripcij v format STM Transkripcije, ki smo jih pridobili z orodjem Transcriber, so zapisane v osnovnem formatu XML. Za nadaljnjo uporabo transkripcij pa je bilo potrebno zapise XML oznak prilagoditi postopkom, ki smo jih razvijali. V okviru projektov Hub-4 in Rich Transcriptions je potekalo vrednotenje postopkov na podlagi formata STM, ki ga je predpisala organizacija NIST4 [Graff-02]. Zato smo se tudi mi odločili, da za osnovni razvojni format transkripcij v obeh zbirkah uporabljamo format STM. Format STM je bolj enostaven od formata XML definiranega z orodjem Transcriber. Osnovni element označevanja v formatu STM je govorni odsek posnetka enega govorca, kjer se akustične lastnosti signala ne spreminjajo. S transkripcijami v formatu STM tako razdelimo zvočne posnetke na osnovne segmente, pri katerih označujemo začetek in konec segmenta, identifikacijo in spol govorca, osnovno stanje posnetka in tekstovni prepis govora. Osnovna stanja segmentov opišemo s sedmimi razredi in jim pravimo F-stanj a (ang. focus conditions, F-conditions). To so: FO: V to skupino je vključen čist, bran govor, ki je jezikovno pravilen in posnet v najboljših akustičnih pogojih. Fl: Tu je zbran v glavnem spontan govor prav tako posnet v dobrih akustičnih pogojih. F2: Sem spadajo telefonski posnetki. F3: Vključuje govor, kjer je prisotna glasba v ozadju. F4: Vključuje govor, ki je posnet v slabih akustičnih pogojih ali pa je prisoten izrazit šum v ozadju, ki pa ni glasba. F5: Vključuje govor govorcev, ki govorijo v osnovnem jeziku transkripcije, vendar to ni njihov materni jezik. FX: Vključuje preostale tipe govora, ki niso zajeti v prejšnjih skupinah. Postopek pretvorbe osnovnih oznak Transcriber formata v F-stanja je podan s shemo 2.2 Kot lahko vidimo iz postopka s sheme 2.2, gre tu za pretvorbo treh skupin oznak formata XML iz tabele 2.1 (jezikovne in govorne oznake ter oznake akustičnih ozadij) v predpisanih sedem F-stanj. Pretvorba oznak v F-stanja ni enolična, potrebno je obdelati tudi primere, ko imamo takšne oznake, da bi lahko posnetek pripisali dvema ali več F-stanjem. V takih primerih se ponavadi odločimo za stanje FX, ni pa nujno. 4National Institute of Standards and Technology 32 2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj postavi F-stanje na "FO" if tip govora = "spontan" //spontan govor F-stanje = "Fl" if tip kanala = "telefon" //telefonski posnetek F-stanje = "F2" if kvaliteta posnetka = "nizka ' //govor posnet v slabih akustičnih pogojih F-stanje = "F4" if dialekt = "neizviren" //govor v neizvirnem jeziku if F-stanje = "F4" F-stanje = "FX" else F-stanje = "F5" if prekrivajoč govor //prekrivajoč govor več govorcev F-stanje = "F4" if tip ozadja = "glasba" //govor z ozadjem glasbe if F-stanje = "F4" or F- stanje = -- "F5" F-stanje = "FX" else F-stanje = "F3" else //pretvorba ostalih tipov ozadja if F-stanje = "F5" F-stanje = "FX" else F-stanje = "F4" Shema 2.2: Algoritem pretvorbe osnovnih oznak govora v F-stanja. V primeru, ko imamo spontan govor, segmente pripišemo stanju Fl, telefonske posnetke pa označimo z F2. Poseben primer predstavlja prekrivajoč govor, ki pripada več govorcem in ga pripišemo k skupini F4. V to skupino spadajo tudi vsi posnetki z akustičnimi ozadji, razen posnetkov, ki imajo glasbo v ozadju in jih zato pripišemo stanju F3. Če segmenti ne ustrezajo nobeni zgornji predpostavki, ostanejo v stanju FO. Poleg pretvorbe v F-stanja je bistvo postopka predvsem v tem, da združuje oznake dveh časovnih tokov označevanja iz formata XML v eno samo zaporedje oznak. Za to je bilo potrebno definirati dodatna pravila pretvorbe, da bi dobili smiselne transkripcije v formatu STM. Kot smo že omenili, smo imeli v osnovnem formatu dva toka označevanja: osnovne govorne prepise in oznake akustičnega ozadja. Združevanje obeh tokov lahko poteka na več načinov. Osnovno pravilo, ki smo se ga držali v našem postopku, je bilo, da se lahko akustična ozadja spreminjajo samo znotraj enega odseka govorca in se ne morejo raztezati čez več govorcev. Na ta način smo definirali ujemanje odsekov v formatu XML in STM na nivoju govorcev. Združevanje obeh tokov oznak znotraj posameznih segmentov je potekalo na dva načina. Pri prvem načinu smo v vsakem odseku govorca postavili toliko mej, kolikor jih je bilo postavljenih v obeh tokovih oznak iz formata XML. Osnovni segmenti formata STM v tem primeru so bili definirani med dvema takima mejama. Če je bilo trajanje segmenta krajše od predpisanega 2.1. Podatkovne zbirke informativnih oddaj_____________________________________________33 minimalnega trajanja, smo ga pridružili sosednemu segmentu glede na podobnosti med oznakami segmentov in mu spremenili oznake tako, da so bile enake oznakam časovno daljšega segmenta. Na ta način smo zagotovili enake akustične pogoje posnetka znotraj vsakega osnovnega segmenta formata STM, ki smo mu tako lahko predpisali samo eno F-stanje po algoritmu iz sheme 2.2. V tem primeru predstavljajo problem govorni prepisi. Ker smo osnovne segmente iz formata XML razbili na več manjših odsekov, smo s tem razbili tudi govor, zajet v osnovnih segmentih formata XML. Pravilo, ki smo ga tu uporabljali, je bilo, da smo govorni prepis pridružili največjemu izmed odsekov osnovnega segmenta. Na ta način so postale transkripcije govora neveljavne, saj smo izgubili prvotno informacijo o začetku in koncu trajanja govora. Po drugi strani pa smo na ta način pridobili segmentacijo zvočnih posnetkov glede na F-stanja. Takšen postopek pretvorbe se uporablja tudi v postopku, ki je pridružen orodju Transcriber, za pretvorbo v format STM. Takšne transkripcije, kjer so osnovni segmenti definirani z govorci in F-stanji, so primerne za razvoj postopkov segmentacije in razvrščanja segmentov po govorcih, zato smo jih uporabljali tudi pri razvoju postopkov doktorske disertacije. Drugi način združevanja obeh tokov oznak iz formata XML je primeren predvsem za razvoj sistemov za razpoznavanje govora. Tu prav tako upoštevamo osnovno pravilo združevanja, da se lahko akustična ozadja spreminjajo samo znotraj odsekov govorcev iz formata XML. Združevanje oznak znotraj odsekov pa tu poteka na drugačen način. Tu ohranimo osnovne segmente govora iz formata XML in s tem obdržimo celotno informacijo o transkripciji govora. F-stanja pa določimo po postopku iz sheme 2.2 na sledeč način. Če imamo eno F-stanje v celotnem osnovnem segmentu, pustimo stanje nespremenjeno, če je F-stanj več, pa ločimo dva primera: če prevladuje eno F-stanje, označimo segment s tem stanjem; če pa so F-stanja zastopana enakomerno, skupno F-stanje osnovnega segmenta označimo kot FX. Na ta način ohranjamo enake segmente v obeh formatih transkripcij, manj natančno pa določimo F-stanja osnovnih segmentov in so zato takšne transkripcije primerne predvsem za razvoj postopkov razpoznavanja govora. Opisani postopek pretvorbe transkripcij iz formata XML v format STM smo uporabljali za pretvorbo transkripcij posnetkov zbirke SiBN. Uporabljen je bil tudi kot osnovni postopek pretvorbe transkripcij iz zbirke COST278 v skupnem eksperimentu več raziskovalnih skupin, ki so sodelovale pri vrednotenju postopkov segmentacije in razvrščanja segmentov na zbirki COST278 [Vandecatseye-04, Zibert-05]. 2.1.3.2 Preverjanje transkripcij z video posnetki Predstavili bomo še eno orodje, ki smo ga razvili za preverjanje pravilnosti transkripcij. Ker smo v obeh zbirkah poleg zvočnih posnetkov pridobivali tudi video posnetke informativnih oddaj, smo razvili orodje za preverjanje transkripcij na podlagi video posnetkov. Osnova za razvoj orodja je bila pretvorba transkripcij iz osnovnega formata XML v format SMIL5. Ta format je namenjen predvsem združevanju različnih tipov podatkov 5The Synchronized Multimedia Integration Language: http://www.w3.org/AudioVideo/ 34_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj multimedijskih vsebin. Mi smo ga izkoristili za združevanje tekstovne informacije pridobljene iz transkripcij informativnih oddaj z video posnetki teh oddaj. Pri tem smo pretvorili vse elemente transkripcij v različne tekstovne tokove, ki smo jih poravnali z zvočnim signalom video posnetkov. Sinhronizacija transkripcij z video posnetki je bila izvedena na nivoju osnovnih segmentov transkripcij, in sicer tako, da smo izvajali poravnavo detektiranih televizijskih špic iz video posnetkov z označenimi špicami iz transkripcij. Za pretvorbo transkripcij iz formata XML v format SMIL smo uporabljali enak postopek pridobivanja elementov Transcriber formata, ki smo ga razvili za pretvarjanje transkripcij v format STM. Pri tem pa smo lahko za razliko od prejšnjega primera enolično pretvorili vse elemente transkripcije v format SMIL, kar nam je omogočalo tudi enolično pretvorbo v nasprotno smer. Ta format smo zato lahko izkoristili za preverjanje in popravljanje napak v transkripcijah. Slika 2.3: Preverjanje transkripcij z video posnetki. Prikazano je delovanje video predvajal-nika, ki lahko prikazuje multimedijske vsebine v formatu SMIL. Na sliki 2.3 je prikazana izvedba formata SMIL v primeru preverjanja transkripcij z video posnetki. Osnovno orodje za preverjanje transkripcij je bil v tem primeru video predvajalnik, ki zmore prikazovati multimedijske vsebine v formatu SMIL. V osrednjem oknu poteka predvajanje video posnetka, zgoraj in spodaj glede na osrednje okno pa so razporejena okna za prikazovanje tekstovne informacije, pridobljene iz osnovnih transkripcij. V spodnjem oknu poteka prikazovanje osnovnih govornih segmentov s popolnoma opremljenimi tekstovnimi prepisi govora. Levo zgoraj je okno namenjeno oznakam trenutnih govorčevih lastnosti, ki se spreminjajo glede na oznake iz osnovne transkripcije. Desno zgoraj je okno, ki prikazuje trenutne informacije o akustičnem ozadju zvočnega posnetka. Okno zgoraj na sredini pa je namenjeno prikazovanju informacije o trenutni vsebini novic, ki so bile označene v osnovnih transkripcijah. Po potrebi se lahko poljubno sprehajamo po video posnetkih in s tem tudi po transkripcijah ter tako preverjamo točnost transkripcij z video informacijo. Preverjanje transkripcij z video posnetki informativnih oddaj se je izkazalo za izjemno 2.2. Slovenska zbirka informativnih oddaj SiBN_________________________________________35 koristno. To pa zato, ker so video posnetki TV informativnih oddaj opremljeni s številnimi dodatnimi informacijami o govorcih, o novicah in drugimi podatki, s katerimi lahko preverjamo in dodatno popravljamo nepravilne oznake transkripcij. Tak način preverjanja se je izkazal za učinkovitega pri preverjanju identitete govorcev, ugotavljanju pravilnosti zapisov tujih lastnih in zemljepisnih imen ter pri preverjanju vzrokov za nastanek različnih akustičnih ozadij. Običajno je potekalo preverjanje pravilnosti transkripcij z video posnetki v zadnji fazi označevanja in je bilo namenjeno predvsem popravkom in dopolnjevanju oznak, ki jih je bilo samo na podlagi zvočnih posnetkov težko določiti. 2.2 Slovenska zbirka informativnih oddaj SiBN Zbirka SiBN vključuje informativne oddaje v slovenskem jeziku in je bila zasnovana kot podatkovna zbirka za razvoj sistemov za samodejno podnaslavljanje in samodejno pridobivanje vsebin informativnih oddaj. Tako vsebuje ustrezno dokumentirane zvočne in video posnetke informativnih oddaj, ki jim je dodatno pridružen še jezikovni korpus besedil novic informativnih oddaj. Zbirka SiBN predstavlja tako poleg zbirke BNSI [Zgank-04] prvo takšno podatkovno zbirko v slovenskem jeziku. V nadaljevanju bomo opisali samo lastnosti govornih podatkov, ki so vključeni v zbirki, jezikovni korpus pa bo predstavljen v naslednjem razdelku. Zbirka SiBN je še vedno v razvojni fazi. To pomeni, da se podatke zbirke še vedno dopolnjuje in izboljšuje transkripcije zvočnih posnetkov glede na različne namene uporabe. Trenutno zbirka vsebuje približno 34 ur ustrezno dokumentiranih posnetkov informativnih oddaj. Osnovno vodilo pri izbiri informativnih oddaj za označevanje v prvi fazi zbiranja podatkov je bilo, da bi bile oddaje čimbolj pestre po vsebini in čimbolj homogene po akustični kvaliteti. S tem smo hoteli pridobiti čimveč raznolikega govornega materiala, ki pa bi bil zajet v čimbolj konstantnih akustičnih pogojih, zato smo se v prvi fazi zbiranja odločili za posnetke samo ene informativne oddaje. Za oddajo smo izbrali osrednjo informativno oddajo nacionalne TV postaje RTVSLOl6, TV dnevnik, ki se predvaja vsak dan ob 19:00 uri. Vsak TV dnevnik je sestavljen iz več vrst informativnih oddaj, ki vsebinsko pokrivajo različna področja dnevnih novic, v skupnem trajanju okoli ene ure. Trenutno je tako v zbirki SiBN obdelanih 34 TV dnevnikov, ki smo jih zajemali v času od maja do avgusta leta 2003. Pridobivanje podatkov informativnih oddaj je obsegalo zajemanje zvočnih in video posnetkov ter delnih tekstovnih prepisov namenjenih podnaslavljanju TV dnevnikov. Zvočni posnetki so bili posneti enokanalsko pri frekvenci vzorčenja 16000 Hz in shranjeni v formatu WAV z uporabo 16-bitne linearne kvantizacije. Video posnetki so bili zajeti v standardnem formatu 25 slik na sekundo pri ločljivosti 320x240 točk na sliko. Shranjeni so v formatu Windows Media Video (WMV). Tekst namenjen podnaslavljanju informativnih oddaj smo pridobivali preko teleteksta. Zajemanje vseh treh podatkovnih tipov je potekalo hkrati s posebno strojno opremo in programskimi orodji, 6Z RTVSLO je bil sklenjen sporazum, ki je dovoljeval pridobivanje, označevanje in uporabo zvočnih posnetkov informativnih oddaj za raziskovalne namene. 36 2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj ki smo jih prilagodili za ta namen. V nadaljevanju bomo analizirali zbirko glede na jezikovne in akustične lastnosti, ki so zajete v transkripcijah zvočnih posnetkov informativnih oddaj. Tabela 2.3: Količina zvočnih posnetkov različnih tipov vsebin informativnih oddaj zbirke SiBN. oddaja skupno trajanje posnetkov vsebina oddaje Dnevnik I 10:59 novice iz Slovenije 3:53 mednarodne novice Dnevnik II 4:52 regionalne in lokalne novice Denar 0:31 finančne in borzne informacije Sport 3:18 športne novice Vreme 1:38 vremenske napovedi Magnet 1:43 kulturne novice Skupaj 29:14 Osnovna analiza vsebine informativnih oddaj je prikazana v tabeli 2.3. Skupna količina označenih govornih podatkov je nekaj več kot 29 ur, ostalih 5 ur posnetkov pripada neoznačenim blokom informativnih oddaj, kot so reklame, TV špice, odseki govora v tujem jeziku ipd. V označenem delu informativnih oddaj približno 90% govornih podatkov pripada novicam, ostalo pa pokrivajo najave vsebin informativnih oddaj ali najave novic. Med novicami največji delež zavzemajo novice iz Slovenije (približno 11 ur), pol manjši delež pripada regionalnim in lokalnim novicam, še nekaj manj pa mednarodnim novicam. Od ostalih vsebin zavzemajo največji delež športne informacije (12%), približno pol manjša deleža pa pripadata vremenskim napovedim (6%) in novicam iz sveta kulture (7%). Najmanjši delež označenih posnetkov predstavljajo borzne in finančne informacije. Vsega skupaj je bilo označenih 877 različnih novic in 148 sekcij z najavami. Strukturo vsebin, ki je prikazana v tabeli 2.3, smo uporabili tudi za osnovo pri hierarhični kategorizaciji novic za označevanje posameznih sekcij informativnih oddaj. F1 19% Deleži F-stanj F2 F3 2% 8% ~------------T7—------^^i "T- ^^r ^ F4 25% ^^ mj F5 FO 44.5% FXV 1% 0.5% Slika 2.4: Deleži F-stanj v zbirki SiBN glede na skupno trajanje vsakega F-stanja. Akustično raznolikost govornega materiala najbolje ponazarja razmerje med deleži F-stanj na sliki 2.4. Pretvorbo osnovnih transkripcij v F-stanja smo izvedli s postopkom, 2.2. Slovenska zbirka informativnih oddaj SiBN_________________________________________37 kije bil opisan v prejšnjem razdelku. Porazdelitev F-stanj v zbirki SiBN je pričakovana glede na to, da so v zbirko trenutno vključeni posnetki samo ene informativne oddaje. Največji delež govora pripada razredu FO (44%), spontanega govora (Fl) je okoli 19%, govora z različnimi akustičnimi ozadji (F4) pa okoli 25%. V primerjavi s podobnimi zbirkami informativnih oddaj v drugih jezikih [Pallett-02, Federico-00, Meinedo-01] lahko ugotovimo, da se razmerje med čistim govorom (FO) in spontanim govorom (Fl) približno ujema z razmerji v teh zbirkah. Največja razlika pa je v deležu govora iz razreda F4. Običajno je delež takega govora enak deležu najbolj kvalitetnega govora iz razreda FO. V našem primeru pa imamo skoraj še enkrat več govora iz FO, kot je govora v razredu F4. Druga večja razlika je tudi v tem, da imamo sorazmerno malo telefonskih posnetkov (F2), in sicer samo 2%, kar pomeni približno pol ure govornega materiala. Večji delež pa zavzemajo posnetki z ozadjem glasbe (F3), kar je posledica dejstva, da imajo skoraj vse najave v TV dnevniku glasbo v ozadju. Največji delež F3 posnetkov prispevajo posnetki oddaj o kulturi, ki imajo skoraj vedno glasbeno spremljavo v ozadju. Posnetki iz razreda FX zavzemajo okoli 1% govornega materiala, kar ustreza podobnim zbirkam. Skoraj zanemarljiv pa je delež tujih govorcev, ki govorijo v jeziku transkripcij (F5), kar je pričakovano, saj slovenski jezik govori razmeroma malo tujcev. Drugi pomemben pokazatelj akustične raznolikosti je porazdelitev in število različnih govorcev, ki so zajeti v govornem materialu. Statistika govorcev, ki so označeni v zbirki, je prikazana v tabelah 2.4 in 2.5 ter na sliki 2.5. Tabela 2.4: Razporeditev govorcev po spolu v zbirki SiBN. govorci skupaj moški govorci ženske govorke število govorcev 1476 1113 346 trajanje govora (hh:mm) 29:14 17:25 12:07 Tabela 2.5: Razporeditev govorcev glede na jezik v zbirki SiBN. govorci skupaj materni jezik ne-materni jezik tuj jezik število govorcev 1476 1165 50 261 Skupno število vseh govorcev, ki nastopajo v zbirki, je 1476. 1113 govorcev je moškega spola, ostalo pa so ženske govorke, ki prispevajo približno 41% govornega materiala. Razmerje v količini posnetkov med obema spoloma je tako primerljivo s podobnimi zbirkami v tujih jezikih [Graff-02], število govorcev pa je predvsem posledica slabše zastopanosti žensk v novicah informativnih oddaj. Razporeditev govorcev glede na jezik je prikazana v tabeli 2.5. Približno 80% govorcev pripada skupini, ki jim je slovenščina materni jezik, sledijo tujejezični govorci in tuji govorci, ki govorijo slovensko. Razmerje med govorci glede na jezik je pričakovano, saj večina novic, ki so označene v zbirki, pripada informacijam iz Slovenije ali pa lokalnim novicam. Razmerje med domačimi in tujimi govorci tako ustreza razmerju med domačimi in tujimi novicami. Najboljši pokazatelj akustične raznolikosti po govorcih pa je prikazan na sliki 2.5, kjer je prikazana porazdelitev govorcev glede na skupno trajanje govora, ki ga je vsak 38 2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj Delež govorcev po času 86.86% v+ ., , -cev: 1476 8.13% 3.79% - — 0.47% 0.75% _ 1 1 < lmin lmin < t < 5min 5min < t < 15min 15min < t < 25min 25min > # govorcev 1282 120 56 11 7 Slika 2.5: Porazdelitev govorcev glede na skupno trajanje njihovega govora v zbirki SiBN. govorec prispeval v zbirki. Za zbirke informativnih oddaj je tipična ravno razporeditev govorcev po času. Največji delež govorcev pripada skupini, ki prispeva najmanj govora, po drugi strani pa imamo nekaj govorcev, ki prispevajo zelo velik delež govora. To so običajno voditelji informativnih oddaj. Tudi v našem primeru je tako. Zadnja dva stolpca v histogramu na sliki 2.5 pripadata voditeljem posameznih informativnih oddaj, pri katerih je vsak prispeval 15 minut govora ali več. Govorcev, ki so prispevali manj kot minuto govora, je približno 87%. V to skupino govorcev spadajo predvsem akterji novic, vse ostale skupine pa običajno vključujejo novinarje in napovedovalce poročil. To pomeni, da je govor govorcev iz prve skupine (prvi stolpec v histogramu) tudi najbolj raznolik in zajet v različnih akustičnih pogojih. To predstavlja tudi jedro večine težav pri nadaljnji obdelavi zvočnih posnetkov informativnih oddaj s postopki iz govornih tehnologij. Po eni strani imamo veliko različnih govorcev, ki jih moramo detektirati, prispevajo pa zelo malo govornega materiala in še to v različnih akustičnih razmerah. Zato je potrebno postopke prilagoditi tem razmeram, saj se pogosto izkaže, da postopki, ki delujejo v idealnih razmerah, ko imamo dovolj govornih podatkov v enakih akustičnih razmerah, povsem odpovejo v takšnih situacijah. Ker je zbirka SiBN zasnovana predvsem za razvoj sistema za podnaslavljanje informativnih oddaj, smo analizirali tudi analizo besedišča in ne-govornih elementov v govornih prepisih zvočnih posnetkov. Število besed, ki so zajete v tekstovnih prepisih govora, je 255 tisoč, od tega je 32 tisoč različnih besed. To pomeni precejšen skok v velikosti slovarja v primerjavi z dosedaj zbranimi govornimi zbirkami v slovenskem jeziku [Mihelič-03, Kačič-00]. Trenutno so izdelani slovarji fonetičnih prepisov približno 13 tisoč besed, ki se že uporabljajo pri izgradnji akustičnih modelov za razvoj sistema za samodejno prevajanje govora v okviru projekta Voicetran [Gros-05]. Poseben izziv sistemov za razpoznavanje govora pa zagotovo predstavlja spontani govor, ki je prav tako na voljo v zbirki SiBN. Pri tem je potrebno razpoznavalnike govora prilagoditi na številne posebnosti takega govora, predvsem na številne ne-jezikovne in ne-govorne elemente v govoru. Porazdelitev teh elementov v zbirki SiBN je prikazana na sliki 2.6. 2.2. Slovenska zbirka informativnih oddaj SiBN 39 Ne–jezikovni elementi Ne–jezikovni elementi brez [i] 14000 12000 10000 8000 6000 4000 2000 Hfl , 1. i (a) * •<> $ ^ / * < *e / / * * (b) Slika 2.6: Porazdelitev ne-jezikovnih elementov v posnetkih iz zbirke SiBN. Na sliki (a) je prikazana porazdelitev vseli ne-jezikovnih elementov, na sliki (b) pa porazdelitev brez elementov [i], ki označujejo dihanje govorcev. Na sliki 2.6 (a) lahko vidimo, da je v zbirki označenih izrazito največ elementov, ki označujejo dihanje govorcev pri govorjenju. Pri tem moramo poudariti, da so bili premori, ko govorec zajame ali izdihne zrak, osnova za postavitev mej med osnovnimi segmenti govora v transkripcijah. Označevalci so bili še posebej pozorni na te elemente in so jih skrbno beležili. Na sliki 2.6 (b) je prikazana še porazdelitev ostalih ne-jezikovnih elementov. Tu največji delež pripada še drugemu najpogostejšemu pojavu pri govorjenju, to je tleskom ([bb]) in raznim drugim šumom ([b]), ki jih povzročamo z usti, ko govorimo. Ostali elementi nastanejo predvsem zaradi napak pri govoru oziroma so prisotni v ozadju govora. Pri tem moramo opozoriti, da tu niso zajeti medmeti in številna mašila, ki so prisotna predvsem pri spontanem govoru. Te smo posebej označevali neposredno v tekstovnih prepisih govora. Pri gradnji akustičnih modelov za razpoznavanje govora pa jih moramo posebno obravnavati, praviloma tako, da jih posebej modeliramo in pridružimo osnovnim modelom govora. 2.2.1 Jezikovni korpus zbirke SiBN Kot smo že omenili, zbirka SiBN vsebuje tudi korpus besedil večjega števila informativnih oddaj. Namen korpusa je, da bi na podlagi besedil, ki smo jih pridobili neposredno iz različnih informativnih oddaj, pridobili jezikovne modele, ki bi jih lahko vključili v izgradnjo sistema za podnaslavljanje informativnih oddaj. V ta namen smo zvočnim in video posnetkom informativnih oddaj pridružili še tekstovne prepise, ki so bili posredovani preko teleteksta in se uporabljajo za podnaslavljanje informativnih oddaj. Zajemanje besedil je potekalo v obdobju od maja 2003 do decembra 2004. Da bi bila besedila informativnih oddaj čimbolj usklajena z govornim materialom zbirke SiBN, smo se tudi tu odločili za pridobivanje tekstovnega materiala informativnih oddaj iste nacionalne TV postaje - RTVSLOl. Besedila, ki smo jih pridobivali, so bila besedila, namenjena podnaslavljanju informativnih oddaj, ki se vsakodnevno posredujejo preko teleteksta RTVSLO. Zajemanje besedil je potekalo sedemkrat na dan za vse informativne oddaje, ki so bile predvajane na TV postaji RTVSLOl. 40_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj Besedila predstavljajo delne podnapise različnih informativnih oddaj, od kratkih poročil do enournih sestavljenih informativnih oddaj. Namen zbiranja takšnih besedil je bil predvsem v tem, da bi dobili čim več tekstovnega materiala jezika, ki se uporablja pri TV informativnih oddajah. Posredovana besedila so tako predstavljala približne prepise govora, ki se uporabljajo pri informativnih oddajah, in je bila zato njihova kvaliteta izjemno slaba. Tekst je bil neenotno označen, besede so bile napačno zapisane, uporabljale so se številne okrajšave besed in besednih zvez, ki so bile neenotno izbrane, števila in rezultati so bili zapisani na različne načine, tuja lastna in zemljepisna imena so bila napačno zapisana ipd. Zato je bilo potrebno celoten zajeti tekstovni material ustrezno obdelati, popraviti besedišče in poenotiti oznake. Trenutno smo tako obdelali 1358 prepisov informativnih oddaj v obsegu 280 dni iz obdobja od decembra 2003 do decembra 2004. Dodatno smo definirali tudi posebne jezikovne kategorije, ki smo jih označevali v tekstu, in sicer: kategorijo osnovnih števil, kategorijo vrstilnih števnikov, kategorijo rezultatov in drugih športnih izidov, kategorijo lastnih imen ter kategorijo fizikalnih enot in matematičnih količin. Skupno število vseh besed v korpusu tako znaša okoli 2 milijona 300 tisoč besed, kar pomeni okoli 110 tisoč različnih besed oziroma 68 tisoč besed ob uporabi kategorij. Po številu vseh besed se tako naš jezikovni korpus uvršča med manjše korpuse besedil v slovenskem jeziku [JTSI-03], po številu različnih besed pa je povsem primerljiv z njimi. Pomembno je, da zbrani tekstovni podatki, ki smo jih pridobili neposredno iz prepisov govora informativnih oddaj, predstavljajo prvi tak korpus besedil v slovenskem jeziku in je primeren predvsem za izgradnjo jezikovnih modelov, ki se bodo uporabljali v sistemu za samodejno podnaslavljanje informativnih oddaj v slovenskem jeziku. 2.3 Večjezična zbirka informativnih oddaj COST278 Druga zbirka, ki smo jo uporabljali v našem raziskovalnem delu, je bila večjezična zbirka informativnih oddaj COST278. Namen in nastanek te zbirke je bil drugačen kot pri zbirki SiBN. Zbirka COST278 [Vandecatseye-04] je nastala v okviru sodelovanja 10 raziskovalnih institucij v projektu COST2787. Pri zbirki je vsaka sodelujoča skupina prispevala po tri ure posnetkov informativnih oddaj. Tako je v zbirki zbranih in označenih približno 30 ur posnetkov informativnih oddaj v devetih evropskih jezikih: češkem, slovaškem, portugalskem, grškem, nizozemskem, hrvaškem, madžarskem, galicijskem in v slovenskem. Posnetki informativnih oddaj, ki prav tako kot v zbirki SiBN zajemajo zvočne in video posnetke, so zbrani iz štirinajstih različnih televizijskih postaj. Namen združevanja takšnih oddaj je bil, da bi pridobili čimbolj raznolike govorne in jezikovne vsebine, zajete v različnih akustičnih pogojih in v različnih časovnih obdobjih. Tako zbrane in enotno označene posnetke bi lahko uporabljali za razvoj postopkov govornih tehnologij neodvisnih od jezika obdelave, in za preučevanje njihove neobčutljivosti na različne pogoje delovanja. 7EU projekt COST Action 278: Spoken Language Interaction in Telecommunication, posebna skupina COST278 BN Interest Group. 2.3. Večjezična zbirka informativnih oddaj COST278_________________________________41 Bistveni poudarek združevanja posnetkov v zbirko je bil zato namenjen predvsem poenotenju transkripcij informativnih oddaj. V ta namen sta bila organizirana dva delovna srečanja, kjer je potekalo poenotenje transkripcij na več nivojih, in sicer v naslednjih elementih transkripcij: • pri označevanju odsekov govorcev, kjer smo se držali pravil označevanja kvalitete in kanala posnetka iz tabele 2.2; • pri tekstovnih prepisih govora, kjer smo sledili pravilom združenja LDC z dodatki, ki so bili že opisani v prejšnjih razdelkih; • v postavljanju mej med osnovnimi segmenti: pravilo je bilo, da se postavi meja med segmentoma v točki vdiha; koliko mej se postavi, pa je bilo odvisno od dolžine premora med govorom; • pri oznakah govorcev; • pri označevanju odsekov najavnih in odjavnih TV špic in drugih multimedijskih dodatkov, ki spremljajo informativne oddaje; • pri označevanju govora v tujem jeziku in • pri označevanju ne-jezikovnih in ne-govornih elementov govora. Pri vseh naštetih elementih označevanja smo v glavnem sledili pravilom združenja LDC, ki smo jih v splošnem že opisali v prejšnjih razdelkih. Dodatno smo poenotili tudi formate zvočnih in video posnetkov. Podobno kot v zbirki SiBN je bila tudi tu frekvenca vzorčenja zvočnih signalov 16 kHz, snemanje je bilo enokanalsko, posnetki pa so shranjeni v WAV formatu. Video posnetki pa so bili zajeti v ločljivosti 352x288 in shranjeni v formatu Real Media Video (RM). Ker so v zbirki zbrani podatki različnih informativnih oddaj v različnih jezikih, nismo izvajali vsebinske analize podatkov, ampak smo se osredotočili predvsem na analizo akustične raznolikosti posnetkov, ki jo bomo predstavili v nadaljevanju. Slika 2.7: Deleži F-stanj v zbirki COST278 glede na skupno trajanje vsakega F-stanja. 42_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj Na sliki 2.7 so zbrani skupni deleži F-stanj vseh posnetkov informativnih oddaj v zbirki COST278. V primerjavi z zbirko SiBN tu lahko opazimo drugačna razmerja med F-stanji. Predvsem je opazna razlika v razmerju med govorom stanja FO in govorom stanja F4. Delež govornih podatkov v obeh skupinah je ravno obraten, kot je bilo to v zbirki SiBN. Opazno sta se povečala tudi deleža govora iz F2 in FX, kar priča o tem, da so govorni podatki v tej zbirki zajeti v slabših akustičnih razmerah, kot so bili v primeru zbirke SiBN. To pa je bil tudi eden izmed ciljev nastanka te zbirke. Dodatno lahko opazimo, da je v primerjavi z zbirko SiBN upadla tudi količina spontanega govora in govora z ozadjem glasbe. V prvem primeru je to posledica dejstva, da je večina informativnih oddaj, ki so zbrane v zbirki, bolj osredotočena k mednarodnim novicam in manj k lokalnim poročilom. Glasba v ozadju govora pa je bolj specifična za zbirko SiBN, kjer imamo zbrane posnetke samo ene informativne oddaje, kjer je prisotno veliko glasbe v ozadju. Na splošno lahko ugotovimo, da razmerje deležev F-stanj ustreza zbirkam, kjer imamo zbrane posnetke informativnih oddaj v samo enem jeziku [Graff-02, Meinedo-03b, Federico-00]. Statistika govorcev v zbirki COST278 je podobna, kot je bila v zbirki SiBN in je zbrana v tabelah 2.6 in 2.7. Porazdelitev govorcev po času pa je prikazana v histogramu na sliki 2.8. Tabela 2.6: Razporeditev govorcev po spolu v zbirki COST278. govorci skupaj moški govorci ženske govorke število govorcev 1815 1241 480 trajanje govora (hh:mm) 28:39 17:21 10:08 Tabela 2.7: Razporeditev govorcev glede na jezik v zbirki COST278. govorci skupaj materni jezik ne-materni jezik tuj jezik število govorcev 1815 1595 127 93 Razmerje med številom ženskih in moških govorcev (tabela 2.6) je podobno razmerju iz zbirke SiBN, delež ženskega govora pa se je tu nekoliko zmanjšal, in sicer na 35%. Nekoliko so se spremenila tudi razmerja med deleži govora v tujem in domačem jeziku (tabela 2.7). Delež govorcev v domačem jeziku je pričakovan in je primerljiv z zbirko SiBN. Zanimivo pa je, da se je v primerjavi s SiBN spremenilo razmerje med govorci v tujem jeziku in govorci, ki uporabljajo jezik transkripcije, ki pa ni njihov materni jezik. Porazdelitev govorcev po času je prikazana na sliki 2.8 in povsem ustreza tipični porazdelitvi govorcev v zbirkah informativnih oddaj. Največ je govorcev, ki prispevajo najmanj govora, izredno malo pa imamo govorcev z veliko govora. Tako lahko ugotovimo, da je delež govorcev, ki prispevajo manj kot 5 minut govora, 97.5%, kar je za približno 2% več, kot je to v zbirki SiBN, čeprav je razmerje tistih, ki prispevajo več ali manj kot minuto govora manj izrazito, kot je to pri zbirki SiBN. To si lahko razlagamo z dejstvom, da imamo v zbirki COST278 zbrane različne informativne oddaje, zato je tudi skupnih govorcev zelo malo, kar posledično pomeni manjše deleže govorcev, ki 2.4. Zaključek 43 Delež govorcev po času 1600 - 77. 50% število vseh govorcev: 1813 20.02% 2.10% 0.22% 0.17% 0 - ^^^™ < 1min 1min < t < 5min 5min < t < 15min 15min < t < 25min 25min > # govorcev 1405 363 38 4 3 Slika 2.8: Porazdelitev govorcev glede na skupno trajanje njihovega govora v zbirki COST278. prispevajo veliko govora. V tem primeru tudi ne moremo sklepati, kako se porazdelju-jejo akterji novic in novinarji, ker imamo premalo skupnih posnetkov ene informativne oddaje, kot je bilo to v primeru zbirke SiBN. Skupna ugotovitev je, da je zbirka COST278 veliko bolj raznolika v primerjavi z zbirko SiBN tako po vsebinskih, jezikovnih in akustičnih lastnostih, kar je bil tudi glavni namen zbirke. Bistveno v tej zbirki pa je bilo to, da smo poenotili transkripcije zvočnih posnetkov različnih informativnih oddaj. 2.4 Zaključek V tem poglavju sta bili predstavljeni dve zbirki informativnih oddaj, ki smo jih uporabljali v okviru raziskovalnega dela doktorske disertacije. Zbirka SiBN je zbirka informativnih oddaj v slovenskem jeziku in je bila zasnovana z namenom pridobivanja govornih in jezikovnih podatkov za razvoj sistema za samodejno podnaslavljanje informativnih oddaj, zato jo štejemo med govorne zbirke. Takšne zbirke predstavljajo drugačen koncept pridobivanja in označevanja zvočnih podatkov, kot je to v primeru vnaprej pripravljenih in načrtovanih govornih zbirkah. Zaradi velike količine podatkov in raznolikosti akustične, jezikovne in vsebinske informacije, je največji problem dokumentiranja takšnih zbirk ravno označevanje zvočnih posnetkov. V zbirki SiBN je trenutno popolnoma označenih 34 ur posnetkov ene informativne oddaje, poleg tega pa zbirka vključuje tudi obsežen jezikovni korpus, ki je sestavljen iz besedil, namenjenih podnaslavljanju informativnih oddaj. Medtem ko je bilo potrebno zbirko SiBN pridobiti in označiti povsem na novo, pa je bilo v zbirki COST278 potrebno samo uskladiti transkripcije različnih informativnih oddaj v devetih evropskih jezikih. Zbirka COST278 je namreč nastala kot plod sodelo- 44_________________________2. Podatkovne zbirke zvočnih posnetkov informativnih oddaj vanj a več raziskovalnih institucij z namenom združevanja govornih podatkov različnih informativnih oddaj v različnih jezikih. Namen zbirke je bil, da bi poenotili in uskladili transkripcije zvočnih posnetkov informativnih oddaj, ki bi jih lahko uporabljali za razvoj postopkov obdelave govornih podatkov, ki so neodvisni od jezika. V okviru raziskovalnega dela doktorske disertacije smo uporabljali obe zbirki za razvoj in testiranje postopkov segmentacije, detekcije govora in razvrščanja segmentov po govorcih. Razdelitev posnetkov na učne, razvojne in testne množice, ki smo jih uporabljali v posameznih preizkusih, je podrobneje opisana v dodatku A disertacije. Detekcija govornih delov v zvočnih posnetkih 3.1 Uvod 3.2 Pridobivanje značilk za detekcijo govora v zvočnih posnetkih 3.3 Segmentacija zvočnih posnetkov na govorne in ne-govorne dele 3.4 Preizkusi postopkov segmentacije 3.5 Zaključek V tem poglavju bomo obravnavali razdelitev zvočnih posnetkov informativnih oddaj na govorne in ne-govorne dele. Naloga iskanja odsekov govora v zvočnih posnetkih je sestavljena iz dveh problemov: segmentacije zvočnih posnetkov in razvrščanja segmentov glede na govor in ne-govor. V tem poglavju se bomo ukvarjali s predstavitvami zvočnih posnetkov ter postopki segmentacije in razvrščanja segmentov na govorne in ne-govorne odseke na podlagi teh predstavitev. Tako bomo predstavili standardne postopke segmentacije in razvrščanja, ki temeljijo na akustičnih predstavitvah zvočnih signalov, in jih primerjali z novo predstavitvijo zvočnih signalov, ki je bila namensko razvita prav za ločevanje govornih in ne-govornih odsekov v zvočnih posnetkih. Glavna ideja predstavitve je bila v tem, da smo opazovali delovanje samodejnih razpoznavalni-kov glasov na govornih in ne-govornih posnetkih in na podlagi glasovnih transkripcij pridobljenih iz razpoznavalnikov glasov izpeljali štiri osnovne fonetične značilke, primerne za določevanje govora in ne-govora. V tem poglavju bomo predstavili dva tipa fonetičnih predstavitev, ki smo jih tvorili iz osnovnih zaporedij razpoznanih govornih enot iz dveh skupin razredov glasov. Značilke so bile izvedene tako, da so bile primerne za uporabo v sistemih za detekcijo govornih odsekov v zvočnih posnetkih. Primerjava standardnih - akustičnih in predlaganih - fonetičnih predstavitev zvočnih posnetkov je bila izpeljana v primeru dveh različnih postopkov detekcije govora, s katerimi se bomo prav tako ukvarjali v tem poglavju. Dodatno smo eksperimentirali tudi z združevanjem različnih predstavitev zvočnih posnetkov in v primeru združevanja akustičnih in predlaganih fonetičnih značilk dosegli najboljše rezultate ločevanja govornih in ne-govornih odsekov na zbirkah SiBN in COST278. 45 46________________________________________3. Detekcija govornih delov v zvočnih posnetkih 3.1 Uvod Osnovna naloga segmentacije zvočnih posnetkov na govorne in ne-govorne odseke (ang. speech/non-speech segmentation) je razdeliti zvočne posnetke na dele, kjer je govor in na dele, kjer govora ni. Medtem ko so odseki govora dobro definirani - to so namreč področja v zvočnih posnetkih, kjer je prisoten govor enega ali več govorcev - zajemajo odseki ne-govora vse ostale dele zvočnih posnetkov, kjer govora ni, in so tako lahko sestavljeni iz različnih akustičnih pojavov, kot so npr. glasba, tišina, različni zvoki strojev in živali, šumi v ozadju ipd. Običajno nas pri obdelavi zvočnih posnetkov v govornih aplikacijah zanimajo le govorni deli, zato lahko v tem primeru govorimo o detekciji govora v zvočnih posnetkih. Detekcija govora je primerna povsod, kjer nas zanima samo informacija iz govornih signalov in se hočemo znebiti nepotrebne obdelave ne-govornih delov. Z uporabo zanesljivih postopkov iskanja in detekcije govora tako zagotovimo razdelitev zvočnih posnetkov na dele, ki jih obdelujemo, in na dele, ki jih zavržemo. Na ta način zagotovimo bolj učinkovito delovanje sistemov za obdelavo govora in hkrati strukturiramo daljše zvočne posnetke na smiselne in razumljive odseke. Postopki detekcije in iskanja govora v zvočnih posnetkih se tako uporabljajo na različnih področjih uporabe govornih tehnologij: v splošnih sistemih za samodejno razpoznavanje govora [Shafran-03], v sistemih za samodejno podnaslavljanje informativnih oddaj [Gauvain-02, Woodland-02, Beyerlein-02], v sistemih indeksacije zvočnih posnetkov in samodejne izdelave povzetkov novic [Makhoul-00, Magrin-Chagnolleau-02], v sistemih iskanja in sledenja govorcev [Reynolds-05, Zhu-05, Sinha-05, Istrate-05, Moraru-05] ipd. Zanesljivo iskanje govora v daljših zvočnih posnetkih nam zagotavlja dobro delovanje postopkov obdelave govora v nadaljevanju, hkrati pa nam zmanjša čas obdelave zvočnih posnetkov. Zaradi tega je poleg zanesljivega delovanja postopkov detekcije govora potrebno zagotoviti tudi učinkovito in robustno delovanje teh postopkov, ki morajo biti izvedeni tako, da jih lahko brez težav vključimo v različne sisteme za obdelavo govora. Z drugimi besedami to pomeni, da moramo načrtovati takšne postopke detekcije govora, ki delujejo hitro, v različnih akustičnih pogojih in jih lahko vgradimo v različne sisteme govornih tehnologij. V nadaljevanju bomo tako predstavili postopke detekcije in iskanja govora v zvočnih posnetkih informativnih oddaj, ki ustrezajo vsem zgoraj naštetim lastnostim. Pri tem se bomo osredotočili na predstavitve zvočnih signalov, ki so primerne za ločevanje govora in ne-govora ter na postopke iskanja oziroma segmentacije zvočnih posnetkov na podlagi teh predstavitev na govorne in ne-govorne odseke. Iskanje govora v zvočnih posnetkih združuje dva problema: segmentacijo in razvrščanje segmentov na govor in ne-govor. Dosedanje raziskovalno delo na tem področju je bilo omejeno predvsem na razvoj postopkov in predstavitev signalov samo za razvrščanje posnetkov na govor in ne-govor. Pri tem se je predpostavljalo, da so zvočni posnetki že segmentirani in je bilo potrebno v danih segmentih poiskati tiste, ki predstavljajo govor. Dosedanje predstavitve signalov za razvrščanje segmentov na govorne in ne-govorne dele v glavnem temeljijo na akustičnih lastnostih segmentov. Pri tem se za predstavitve signalov uporabljajo standardni postopki izpeljave akustičnih značilk, ki jih uporabljamo tudi pri drugih postopkih obdelave govora. Za najbolj učinkovite so se 3.1. Uvod 47 izkazale značilke koeficientov melodičnega kepstra MFCC, ki se uporabljajo predvsem za razpoznavanje govora [Picone-93]. Uporaba akustičnih predstavitev signalov za razvrščanje govora in ne-govora je predvsem posledica tradicije modeliranja govornih signalov za namene razpoznavanja govora, sloni pa na predpostavki, da lahko preko akustičnih predstavitev signalov modeliramo akustične vire, ki proizvajajo te signale. Pri govoru tako lahko modeliramo en vir - vir govora, problem pa nastane pri modeliranju ne-govora, kjer je virov lahko več. Običajno se zato pri razvrščanju segmentov na govor in ne-govor uporablja več modelov za detekcijo ne-govora in enega ali več za detekcijo govora. Drugačen pristop k modeliranju govora je obravnava govora kot zaporedja razpoznanih govornih enot. Tako lahko proces tvorjenja govora modeliramo kot končni avtomat s stanji, ki predstavljajo osnovne govorne enote [Ajmera-03]. Takšen avtomat bo drugače deloval, če bomo z njim opisovali govorne oziroma ne-govorne signale. Na podlagi karakterističnih lastnosti delovanja avtomata v primeru govornih in negovornih posnetkov tako lahko pridobimo značilke, primerne za ločevanje govora od ne-govora. Takemu pristopu modeliranja smo sledili tudi mi in na podlagi tega izvedli novo predstavitev signalov primerno za ločevanje govornih in ne-govornih delov, ki je temeljila na samodejno pridobljenih fonetičnih transkripcijah signalov. V nadaljevanju bomo predstavili predlagani postopek izpeljave fonetičnih značilk, ki so bile izpeljane iz razpoznanih osnovnih enot govora. Podali bomo osnovni koncept pridobivanja takšnih značilk in predstavili dve skupini značilk. Prva je bila izpeljana na podlagi zaporedja parov glasovnih enot samoglasnik-soglasnik, druga pa iz parov zvenečih in nezvenečih glasovnih enot. Drugi del tega poglavja bo posvečen predvsem segmentaciji zvočnih posnetkov na govorne in ne-govorne dele (segmentacija govor/ne-govor, GNG segmentacija). Za se-gmentacijo smo uporabljali dva postopka. Prvi postopek je bil povzet po [Ajmera-03] in smo ga ustrezno prilagodili za izvajanje segmentacije na podlagi naših predstavitev. Postopek je temeljil na izgradnji GMM modelov, ki jih v mreži HMM modelov uporabimo za razvrščanje in segmentacijo hkrati. Drugi postopek pa smo razvili prav zaradi predlaganih predstavitev zvočnih signalov. Izkazalo se je namreč, da predstavitve delujejo bolje, če so ocenjene iz daljših odsekov zvočnih posnetkov, zato smo segmentacijo in razvrščanje ločili na dva dela. V prvi fazi smo izvajali segmentacijo posnetkov glede na različne akustične lastnosti. S tem smo pridobili večje segmente zvočnih posnetkov, na katerih smo ocenili predlagane fonetične značilke, in na podlagi teh predstavitev smo v drugi fazi razvrstili segmente na govor in ne-govor. Tudi v tem primeru smo za razvrščanje segmentov uporabljali GMM modele. Postopki segmentacije bodo predstavljeni v razdelku 3.3. V zadnjem delu se bomo posvetili vrednotenju različnih predstavitev in postopkov GNG segmentacije na zbirkah zvočnih posnetkov informativnih oddaj SiBN in COST278. Primerjali smo dve referenčni metodi z dvema različnima predstavitvama signalov z našimi predlaganimi postopki, ki so temeljili na fonetičnih predstavitvah. Dodatno pa smo izvedli še poskuse združevanja različnih predstavitev zvočnih posnetkov, s katerimi smo dosegli najboljše rezultate razpoznavanja govornih in ne-govornih segmentov, in jih bomo prav tako predstavili v nadaljevanju. 48________________________________________3. Detekcija govornih delov v zvočnih posnetkih 3.2 Pridobivanje značilk za detekcijo govora v zvočnih posnetkih V tem razdelku bomo predstavili nov način pridobivanja značilk za razpoznavanje govornih in ne-govornih odsekov zvočnih posnetkov. Predstavitve signalov s temi značil-kami bomo imenovali fonetične predstavitve in značilke, fonetične značilke. Predstavili bomo štiri mere za izračun značilk na podlagi samodejno pridobljenih osnovnih glasovnih enot govora, ki smo jih pridobivali neposredno iz razpoznavalnikov glasov. Na ta način bomo izpeljali dve skupini značilk: prva bo temeljila na kombinaciji parov samoglasnikov in soglasnikov, druga pa na parih zvenečih in nezvenečih glasov. V nadaljevanju bomo najprej predstavili osnovne koncepte in motivacije za izvedbo takšnih značilk, nato pa opisali samo izpeljavo značilk. 3.2.1 Osnovni koncepti pridobivanja značilk Osnovna ideja pri izvedbi značilk za razpoznavanje govornih in ne-govornih odsekov v zvočnih posnetkih je bila, da bi pridobili takšne predstavitve signalov, s katerimi bi dobro detektirali govor, hkrati pa bi približno enako opisovali različne ne-govorne pojave. S takšnimi predstavitvami bi tako pridobili značilke, ki bi bile primerne za modeliranje samo dveh osnovnih razredov razvrščanja, razreda govora in razreda ne-govora. Običajno so namreč osnovni sistemi za razpoznavanje govora in ne-govora sestavljeni iz več statističnih modelov, s katerimi modeliramo različne akustične pojave v signalih, od govora do glasbe, tišine, različnih šumov ipd. Detekcija govornih odsekov v zvočnih posnetkih tako poteka na podlagi odločanja med modeli, ki jih predhodno ocenimo s pomočjo učnih podatkov. Ker so v takšnih sistemih običajno zvočni posnetki predstavljeni samo z akustičnimi predstavitvami, moramo tako pridobiti in ustrezno modelirati različne govorne in ne-govorne pojave in situacije. To pa predstavlja glavni problem takšnih postopkov. Vedno se je namreč potrebno odločati na podlagi več modelov, hkrati pa je potrebno predvideti vse možne situacije akustičnih pojavov, kar je v praksi skoraj nemogoče. Po drugi strani pa nas pri detekciji govora zanimajo le govorni odseki v zvočnih posnetkih in ne različni ne-govorni pojavi, zato lahko problem detekcije govora predstavimo kot problem odločanja, ali dani odsek predstavlja govor ali ne. V tem primeru gre torej za razvrščanje odsekov v dva razreda, pri katerem prvi razred - govor - definira drugega - ne-govor. Tako so nas zanimale takšne predstavitve zvočnih posnetkov, s katerimi bi dobro modelirali vsak razred samo z enim modelom. Prvi poskus v tej smeri je izvedel Greenberg [Greenberg-95] z značilkami, ki so temeljile na opisovanju tipičnih spektralnih potekov signalov govora glede na pričakovan ritem sprememb zlogov v govoru. Karneback [Karneback-02] je prav tako uporabljal različne značilke, ki so bile izpeljane iz ocen frekvenc modulacije spektra govora, in je ugotovil, da v kombinaciji z MFCC značilkami predstavljajo robustne predstavitve za detekcijo govora in glasbe. Povsem drugačen pristop izpeljave značilk sta izvedla Williams in Ellis [Williams-99]. Zgradila sta samodejni razpoznavalnik glasov in opazovala njegovo 3.2. Pridobivanje značilk za detekcijo govora v zvočnih posnetkih_________________________49 delovanje v primeru govora in glasbe. Na podlagi razlik v delovanju sta izpeljala zna-čilke, ki so temeljile na ocenjevanju verjetnosti stanj razpoznavalnika glede na položaj in tip signala. Tako sta predlagala dve osnovni značilki, entropijo (ang. entropy) in dinamizem (ang. dynamism), ki sta ju uporabljala za razvrščanje posnetkov na govor in glasbo. Ajmera s sod. [Ajmera-03] pa je na podlagi teh značilk izvedel sistem za segmentacijo zvočnih posnetkov na govor in glasbo, ki smo ga uporabljali tudi v okviru doktorske disertacije za GNG segmentacijo in ga bomo predstavili v nadaljevanju. Idejo, da se pri detekciji govora uporabljajo značilke izpeljane na podlagi različnega delovanja razpoznavalnikov govora v primeru govornih in ne-govornih posnetkov, smo pri predlaganih fonetičnih predstavitvah razvili še naprej [Zibert-06]. Značilke smo namreč izpeljali na podlagi samodejnih transkripcij zvočnih posnetkov, ki smo jih pridobili neposredno iz razpoznavalnikov glasov. Osnovno vodilo pri tem je bilo, da je govor sestavljen iz smiselnih zaporedij osnovnih govornih enot, medtem ko so v primeru ne-govora zaporedja razpoznanih govornih enot bolj naključna. 3.2.2 Fonetične značilke za detekcijo govora V splošnem lahko razpoznavalnik glasov (govora) predstavimo kot sistem, ki zvočnim signalom na vhodu pripisuje zaporedja osnovnih govornih enot na izhodu. Vhodni signali so običajno parametrizirani z akustičnimi predstavitvami, ki so sestavljene iz zaporedij vektorjev značilk. V procesu razpoznavanja se tako zaporedje vektorjev značilk prevede v najbolj verjetno zaporedje osnovnih govornih enot, ki so vključene v razpoznavalnik. Poleg zaporedja osnovnih govornih enot pa je izhod razpoznavalnika glasov običajno opremljen tudi z informacijo o trajanju in verjetnostjo posamezne enote v zaporedju. Zato lahko tudi informacije, ki jih pridobimo s takšnimi razpoznavalniki, obravnavamo kot predstavitve vhodnih signalov. Seveda so razpoznavalniki glasov (govora) namenjeni predvsem obdelavi govornih signalov, lahko pa jih prav tako uporabljamo tudi na ne-govornih signalih. V primeru govornih signalov tako lahko pričakujemo pričakovano delovanje razpoznavalnikov in s tem tudi smiselne izhodne informacije, v primeru ne-govornih signalov pa je delovanje nepredvidljivo, kar se odraža tudi pri razpoznanih govornih enotah na izhodu. In ravno to dejstvo smo želeli izkoristiti pri izpeljavi fonetičnih značilk. Po drugi strani pa je izhodna informacija, ki jo pridobimo iz transkripcij1, močno odvisna od jezika govora, ki ga razpoznavamo, in modelov, ki so vključeni v razpoznavalnik. Dodatno omejitev predstavlja tudi dejstvo, da v splošnem razpoznavalniki glasov ne delujejo zelo zanesljivo v različnih akustičnih razmerah. To pomeni, da je bilo potrebno načrtovati takšne značilke, ki bi bile neodvisne od jezika govora in zanesljivosti delovanja razpoznavalnikov, zato smo se odločili, da bomo opazovali delovanje razpoznavalnikov iz transkripcij na podlagi širših skupin glasov. Izvedli smo dve skupini fonetičnih značilk, prva je temeljila na opazovanju zaporedja parov glasovnih enot 1 Transkripcije v primeru fonetičnih značilk za detekcijo govora zajemajo razpoznane glasovne enote, čas trajanja posameznih enot in oceno verjetnosti posamezne enote (opcijsko) v razpoznanem zaporedju enot, kar bo podrobneje opisano v nadaljevanju. Zato tudi tu, podobno kot v primeru transkripcij zvočnih posnetkov informativnih oddaj, uporabljamo besedo transkripcija namesto glasovnih prepisov. 50________________________________________3. Detekcija govornih delov v zvočnih posnetkih soglasnik-samoglasnik (ang. consonant-vowel, CV), druga pa je bila izpeljana iz parov zvenečih in nezvenečih glasovnih enot (ang. voiced-unvoiced, VU). Izbira širših skupin glasov je smiselna vsaj iz dveh razlogov. Ker so te skupine glasov značilne za večino jezikov, so tudi izpeljane značilke manj odvisne od jezika govora, hkrati pa na ta način povečamo zanesljivost ocen značilk, saj je razpoznavanje širših skupin glasov običajno boljše kot razpoznavanje osnovnih govornih enot. Drugi razlog je bil ta, da lahko govor obravnavamo tudi kot zaporedje značilnih zlogov sestavljenih iz osnovnih govornih enot, iz katerih tvorimo besede. To pomeni, da ocenjevanje delovanja razpoznavalnika opazujemo na nivoju zlogov in ne na nivoju osnovnih govornih enot, s čimer še dodatno povečamo neobčutljivost značilk na napake razpoznavanja. / w pridobivanje akustičnih / ^ razpoznavalnik glasov / ^ izračun / ~X* značilk (MFCC) ~V^ (HMM) "V* CVS (VUS) značilk ~\ 7 vektorji razpoznani vektorji značilk s'igna značilk glasovi CVS (VUS) Slika 3.1: Shema pridobivanja CVS (VUS) značilk za detekcijo govora v zvočnih posnetkih. Shema pridobivanja fonetičnih značilk je prikazana na sliki 3.1. Kot smo že omenili, signal najprej parametriziramo z akustičnimi značilkami, ki so primerne za razpoznavanje govora. Običajno se za razpoznavanje govora uporabljajo osnovne značilke MFCC z izpeljanimi prvimi in drugimi odvodi [Picone-93]. Razpoznavalnik glasov nato na podlagi zaporedja vektorjev značilk tvori transkripcijo signala, ki je sestavljena iz najbolj verjetnega zaporedja osnovnih govornih enot s pridruženim trajanjem posameznih enot v zaporedju. V našem primeru smo pri vseh izpeljavah fonetičnih značilk uporabljali razpoznavalnike glasov, ki so temeljili na HMM modelih. Transkripcije se nato prevedejo v širše skupine glasov, ki jih predhodno določimo glede na tip razpoznavalnika. V primeru parov soglasnik-samoglasnik imamo tri skupine glasov: samoglasnike (V), soglasnike (C) in oznake za premore (S). Te enote označujemo kot CVS enote. V primeru zvenečih in nezvenečih glasov pa dobimo naslednje skupine glasov: zveneče (V), nezveneče (U) in premore (S). Te enote označujemo kot VUS enote. Po preslikavi osnovnih govornih enot v CVS (VUS) enote se izvaja izpeljava fonetičnih značilk. V primeru CVS enot govorimo o CVS značilkah, v primeru VUS enot pa o VUS značil-kah. V tej fazi postopka se izvaja analiza transkripcij na podlagi CVS ali VUS enot in izračun fonetičnih značilk, ki jih po izračunu sestavimo v vektorje CVS (VUS) značilk. Pri izvedbi CVS (VUS) značilk smo iskali tiste lastnosti CVS (VUS) transkripcij, s katerimi je bilo možno ločevati govorne in ne-govorne posnetke. Dodatno smo pazili tudi na to, da bi bile značilke čim manj odvisne od napak razpoznavanja. Pri tem smo izvajali analizo transkripcij na podlagi več razpoznavalnikov glasov, namenjenih razpoznavanju govora v različnih jezikih. Po natančni analizi delovanja razpoznavalnikov smo tako določili štiri mere za izpeljavo značilk, ki so temeljile na trajanju in spremembah posameznih enot v transkripcijah [Zibert-06]. Te so: • Normirano razmerje trajanja CV (VU) enot, ki ga izračunamo kot: \tc — tv\. t S /0 1A —--------+ QC------, (3.1) tcvs tcvs 3.2. Pridobivanje značilk za detekcijo govora v zvočnih posnetkih_________________________51 kjer predstavlja te skupno trajanje vseh razpoznanih soglasnikov (C) v oknu analize s trajanjem tevsi tv pa skupno trajanje vseh samoglasnikov (V). Z drugim členom v izrazu (3.1) merimo s trajanjem t s prisotnost premorov (S) v obravnavanem signalu. Z utežjo a uravnavamo razmerje med prisotnostjo razpoznanih govornih enot in detektiranih premorov v signalu. Utež a izbiramo iz intervala [0,1]. Običajno jo postavimo kar na 0.5, sicer pa jo lahko določimo glede na optimalne rezultate segmentacije. V primeru VUS enot soglasnike zamenjamo z nezvenečimi glasovi (U), samoglasnike z zvenečimi (V), premori (S) pa ostanejo enaki. Pri izpeljavi te mere smo upoštevali dejstvo, daje govor sestavljen iz kombinacije CV (VU) enot, ki se prepletajo z relativno kratkimi premori (S). Zato lahko pričakujemo v primeru govornih signalov približno enaka skupna trajanja CV (VU) enot in kratko skupno trajanje premorov. To pa pomeni, da je v primeru govora vrednost izraza (3.1) okoli 0.0. Ravno nasprotno pa je v primeru ne-govornih signalov. Ker se CV (VU) enote v transkripcijah ne-govora skoraj nikoli ne porazdeljujejo enakomerno, je tudi razlika v skupnem trajanju posameznih enot večja. Prav tako se tudi večina daljših premorov v signalih razpozna kot premor, zato je tudi relativno trajanje premorov večje. Iz tega sledi, da se v primeru ne-govornih signalov vrednost izraza (3.1) giba okoli 1.0. Tu moramo omeniti, da smo pri računanju razmerji med CV (VU) enotami v izrazu (3.1) uporabili absolutne razlike med trajanji (\tc—ty |) in ne pravih deležev podanih z razmerji te /tv ali tv /te- V primeru deležev bi namreč vedno ena enota (C ali V) prevladovala nad drugo, kar bi v primeru različnih razpoznavalnikov pomenilo različne vrednosti izraza (3.1) in s tem bi dobili slabše ocene predlagane mere. • Normirana CV (VU) hitrost govora je definirana z izrazom: kjer sta ric in riv števili razpoznanih C in V enot v signalu v času tcvs- Pri tem ne upoštevamo število razpoznanih premorov (enot S) v signalu. V primeru VU enot je mera (3.2) definirana podobno. S to mero ocenjujemo hitrost govora na nivoju osnovnih govornih enot. Dejstvo je, da, ko govorimo, tvorimo zaporedje osnovnih govornih enot, ki se spreminjajo na vsakih nekaj deset milisekund. S štetjem teh sprememb na nekem časovnem intervalu tako dobimo hitrost govora, ki je odvisna predvsem od posameznega govorca in tipa govora, zato se takšne značilke uporabljajo tudi v sistemih za razpoznavanje govorcev [Reynolds-03b]. V našem primeru smo oceno hitrosti govora uporabljali za ločevanje med govornimi in ne-govornimi signali. Izkazalo se je namreč, da kljub temu, da se hitrost govora spreminja glede na različne govorce in tipe govora, se še vedno spreminja drugače kot v primeru ne-govora. V primeru ne-govornih posnetkov smo namreč opazili, daje spreminjanje osnovnih govornih enot veliko manjše kot v primeru govora. Pri tem moramo poudariti, da nismo šteli sprememb enot S. S tem smo se hoteli znebiti vpliva spontanega govora, kjer je hitrost govora tudi zaradi številnih premorov nižja. 52____________________________________3. Detekcija govornih delov v zvočnih posnetkih Mera hitrosti govora, definirana z izrazom (3.2), se obnaša podobno kot mera povprečnega dinamizma, ki je bila predlagana v [Williams-99] za ločevanje govora in glasbe. • Normirane spremembe CVS (VUS) enot so definirane z izrazom c(C, V, S) tcvs kjer v funkciji c(C, V, S) štejemo, kolikokrat je prišlo do zamenjave ene izmed enot C, V, S z drugo v času tcvs- Podobno štejemo spremembe v primeru VUS enot s funkcijo c(V, U, S). S to mero podobno kot v prejšnjem primeru merimo spremembe C V (VU) enot v signalu, vendar obstaja pomembna razlika med obema merama. V prejšnjem primeru smo šteli vse spremembe med enotami v signalu, tu pa štejemo samo spremembe med različnimi enotami. Na ta način v bistvu ocenjujemo, koliko zlogov CV (VU) je prisotnih na nekem odseku signala. Dejstvo je namreč, da je govor sestavljen iz osnovnih zlogov CV (VU), zato lahko v tem primeru pričakujemo večje vrednosti ocene izraza (3.3). Po drugi strani pa smo iz analiziranih transkripcij ne-govornih signalov ugotovili, da ne vsebujejo veliko takšnih zlogov, kar posledično pomeni nižje vrednosti mere (3.3). Predlagano mero lahko razširimo še naprej. V našem primeru smo opazovali samo pare enot C (U) ,V (V), S (S), lahko pa bi šteli tudi višje kombinacije enot. V tem primeru bi tako dobili n-gramske modele CVS (VUS) enot (kot pri izgradnji statističnih jezikovnih modelov), ki bi jih lahko ocenjevali iz govornih in ne-govornih transkripcij. • Normirana razlika povprečnega trajanja CV (VU) enot je definirana z izrazom \tc — ty tcv kjer s te in ty označujemo povprečno trajanje C in V enot na danem odseku analiziranega signala. Podobno tudi tCy predstavlja povprečje trajanja enot (C,V) v danem odseku signala. V primeru VU enot namesto soglasnikov (C) uporabljamo nezveneče glasove (U) in namesto samoglasnikov (V) zveneče glasove (V). S to značilko merimo razmerje med povprečnim trajanjem samoglasnikov (zvenečih glasov) in soglasnikov (nezvenečih glasov). Znano je, da so samoglasniki pri govoru v povprečju daljši od soglasnikov, podobno je tudi v primeru zvenečih in nezvenečih glasov, zato lahko v primeru govornih signalov pričakujemo značilna razmerja med temi enotami. V primeru ne-govornih signalov pa nismo opazili takšnih lastnosti, saj so bila razmerja v povprečnem trajanju med CV (VU) enotami precej raznolika. Mera v (3.4) je korelirana z mero (3.1), saj v obeh primerih primerjamo razmerje med trajanji CV (VU) enot. Razlika pa je v tem, da v tem primeru vzamemo povprečno trajanje enot, v prejšnjem pa smo vzeli skupno trajanje enot. Tudi v tem primeru smo uporabljali razliko med trajanji in ne deležev. Razlogi za to so podobni kot v prejšnjem primeru. (3.3) (3.4) 3.2. Pridobivanje značilk za detekcijo govora v zvočnih posnetkih_________________________53 Slika 3.2: Potek CVS značilk. Zgornje/prvo okno prikazuje značilko normiranega razmerja trajanja CV enot, drugo okno prikazuje normirano CV hitrost govora, tretje normirane spremembe CVS enot, v četrtem oknu pa je prikazan potek značilke normirane razlike povprečnega trajanja CV enot. V vsakem oknu sta prikazana dva poteka: temnejša črta predstavlja delovanje značilk, ki smo jih pridobili iz slovenskega razpoznavalnika glasov, svetlejša črta pa prikazuje potek značilk ob uporabi angleškega razpoznavalnika glasov. V spodnjem oknu je prikazan zvočni signal skupaj z oznakami govornih in ne-govornih delov. Z vsemi štirimi predlaganimi značilkami merimo posamezne lastnosti transkripcij na podlagi CVS (VUS) enot na določenih odsekih signalov, ki jih obdelujemo. Ti odseki morajo biti dovolj veliki, da lahko dovolj dobro ocenimo vrednosti značilk. V naših preizkusih smo uporabljali vnaprej določene odseke dolžin od 2.0 do 5.0 s. Lahko pa definiramo odseke tudi s številom razpoznanih enot, na katerih ocenjujemo predlagane značilke. Izbira odsekov je seveda odvisna od namena uporabe in od pričakovane dolžine govornih in ne-govornih odsekov v zvočnih posnetkih. V našem primeru smo se morali omejiti na krajše odseke, dodatna zahteva pa je bila, da smo hoteli pridobivati CVS (VUS) značilke, ki bi bile časovno usklajene z akustičnimi značilkami. To pa zato, ker smo hoteli združevati oba tipa predstavitev v postopkih fuzije GNG segmen-tacije. Časovno usklajevanje fonetičnih značilk z akustičnim značilkami smo dosegli na podoben način, kot to delamo v primeru spektralne analize signalov. Tako smo poleg osnovnega odseka (okna) izračuna značilk definirali še premik po času za naslednji izračun (ang. frame skip). S tem smo tako računali značilke na konstantnih oknih analize na vsakih nekaj milisekund (odvisno od premika). Na drugačen način pa smo računali 54________________________________________3. Detekcija govornih delov v zvočnih posnetkih fonetične značilke, ki smo jih pridobili iz vnaprej segmentiranih zvočnih posnetkov. V tem primeru ni bilo potrebno definirati oken in premika izračunov, ampak smo ocenili CVS (VUS) značilke kar na segmentu posnetka. Tako pridobljene značilke seveda niso bile časovno usklajene z akustičnimi značilkami. Na sliki 3.2 je prikazan potek CVS značilk v primeru krajšega zvočnega posnetka slovenske informativne oddaje iz zbirke SiBN2. Potek CVS značilk je bil izveden ob uporabi dveh različnih razpoznavalnikov glasov: prvi je bil slovenski razpoznavalnik glasov (temnejša črta na potekih značilk), drugi pa je bil naučen na zbirki TIMIT [Garofolo-93] in je bil namenjen razpoznavanju angleških govornih enot (svetlejša črta). Angleški razpoznavalnik glasov je bil v tem primeru uporabljen na slovenskem govoru. Kot lahko vidimo iz slike 3.2, je zvočni posnetek sestavljen iz različnih odsekov govora in ne-govora. Govorni odseki vključujejo govor z ozadjem glasbe (SP+MU) in čist govor različnih govorcev (SPEECH), ne-govorni odseki pa so sestavljeni iz glasbe (MUSIC) in tišine (SIL). V zgornjih oknih na sliki 3.2 so prikazani poteki posameznih značilk iz (3.1) - (3.4) v primeru CVS enot. Iz potekov značilk na sliki 3.2 so razvidna velika odstopanja značilk v primeru govornih in ne-govornih odsekov. Dodatno lahko ugotovimo tudi, da je potek približno enak za različne govorne in ne-govorne odseke. To potrjuje naše namene, da bi pridobili takšne predstavitve zvočnih posnetkov, s katerimi bi izvajali razvrščanje posnetkov na govor in ne-govor samo na podlagi dveh modelov. Tudi primerjava poteka CVS značilk, izpeljanih iz dveh različnih razpoznavalnikov, zagotavlja učinkovitost ocen značilk v primeru različnih razpoznavalnikov glasov. Potek značilk se namreč v obeh primerih zelo dobro ujema, kar priča, da tudi različne govorne enote, ki jih uporabljamo v primeru slovenskega in angleškega razpoznavalnika glasov, ne vplivajo bistveno na izračun značilk. To pomeni, da so izbrane značilke tudi neodvisne od jezika. V zaključku lahko povzamemo, da smo s predlaganimi fonetičnimi značilkami poskušali pridobiti takšne predstavitve signalov, s katerimi bi bilo mogoče ločevati govor od vseh ostalih ne-govornih pojavov. To smo naredili tako, da smo ocenjevali delovanje razpoznavalnikov glasov na podlagi samodejno pridobljenih transkripcij osnovnih govornih enot. Tako smo izpeljali štiri fonetične značilke, s katerimi smo merili, kako dobro delujejo razpoznavalniki v primeru govornih in ne-govornih posnetkov. Značilke so bile zasnovane tako, da so bile neodvisne od jezika razpoznavanja in modelov razpoznavalnika. Na ta način smo prenesli odločanje o govornih in ne-govornih pojavih v zvočnih posnetkih iz akustičnega nivoja na višji - fonetični nivo. V nadaljevanju si bomo pogledali, kako smo predlagane značilke vključili v postopke GNG segmentacije, kako smo jih združevali z akustičnimi značilkami in kakšne rezultate segmentacije smo dosegli na različnih zbirkah zvočnih posnetkov. 2Prikaz značilk je bil izveden z orodjem wavesurfer (http://www.speech.kth.se/wavesurfer/). 3.3. Segmentacija zvočnih posnetkov na govorne in ne-govorne dele______________________55 3.3 Segmentacija zvočnih posnetkov na govorne in ne-govorne dele 3.3.1 Postopki GNG segmentacije Pri razvoju fonetičnih značilk smo preizkušali dva postopka GNG segmentacije [Zibert-06], ki sta shematično prikazana na sliki 3.3. V prvem postopku (slika 3.3 (a)) se izvaja segmentacija in razvrščanje segmentov na govor in ne-govor hkrati, v drugem postopku (slika 3.3 (b)) pa sta bili fazi segmentacije in razvrščanja segmentov ločeni. V prvem primeru se je izvajala GNG segmentacija s pomočjo prikritih Markovovih modelov (HMM), v drugem primeru pa se je naprej izvedla segmentacija zvočnih posnetkov glede na akustične spremembe v signalih, nato so se na pridobljenih segmentih izračunale fonetične značilke, na podlagi katerih se je potem izvedlo razvrščanje na govor in ne-govor. / V-F" HMM -4> -4r BIC GMM vektorji razpoznani vektorji razpoznani značilk segmenti značilk segmenti segmenti (a) (b) Slika 3.3: Shemi dveh postopkov GNG segmentacije. Pri shemi (a) se segmentacija in razvrščanje segmentov izvajata sprotno z uporabo HMM modelov in s postopkom Viterbijevega dekodiranja. Shema (b) prikazuje zaporeden postopek segmentacije in razvrščanja: v prvem koraku se izvede segmentacija na podlagi akustičnih predstavitev zvočnih posnetkov, v drugi pa razvrščanje segmentov s pomočjo GMM modelov. V obeh primerih smo za razvrščanje posnetkov oziroma segmentov uporabljali GMM modele, ki smo jih pridobili iz učnega materiala govornih in ne-govornih posnetkov. Učenje GMM modelov je potekalo na standarden način z uporabo EM algoritma3 [Theodoridis-03, str. 491-494]. V primeru prvega postopka iz slike 3.3 (a) smo sledili izvedbi GNG segmentacije s HMM modeli, ki je bila predstavljena v [Ajmera-04]. Razlika je bila le v tem, da so v [Ajmera-04] izvajali segmentacijo zvočnih posnetkov glede na govor in glasbo, mi pa smo postopek posplošili na detekcijo govornih in ne-govornih odsekov. Zato smo ta postopek obravnavali kot referenčni postopek, s katerim smo primerjali rezultate GNG segmentacije ob uporabi različnih predstavitev zvočnih posnetkov. Osnova za izgradnjo HMM modelov so bili GMM modeli, ki smo jih pridobili z učenjem na govornih in ne-govornih predstavitvah zvočnih posnetkov. Iz GMM modelov govora in ne-govora smo sestavili HMM modele, ki smo jih povezali v mrežo s povratno zanko. Topologija HMM modelov je prikazana na sliki 3.4. Vsako stanje HMM mreže predstavlja en GMM model. Mreža je sestavljena iz N HMM modelov, ki predstavljajo 3EM algoritem je kratica za Expectation-Maximization (EM) algorithm, kije bil prvič predstavljen v [Dampster-77]. 56________________________________________3. Detekcija govornih delov v zvočnih posnetkih N modelov M stanj Slika 3.4: Topologija HMM modelov, ki smo jih uporabljali pri GNG segmentaciji. posamezne razrede govora in ne-govora. V primeru akustičnih predstavitev je bilo razredov več, npr. model čistega govora, telefonskega govora, model glasbe, šuma, tišine ipd. V primeru fonetičnih značilk pa smo uporabljali samo dva HMM modela: model govora in model ne-govora. HMM modeli so bili sestavljeni iz M stanj. Vsako stanje HMM modela je vsebovalo isti GMM model posameznega razreda. Z razmnoževanjem GMM modelov v M stanj predpišemo najmanjše možno trajanje odsekov, ki jih lahko modeliramo s takimi HMM modeli. Vrednosti povezav med stanji v HMM modelih so bile določene ročno, vrednosti povezav med HMM modeli, s katerimi določamo verjetnosti posameznih modelov, pa smo določali na podlagi optimalnih rezultatov GNG segmentacije na razvojni zbirki. Postopek določanja optimalnih vrednosti povezav bomo predstavili v naslednjem razdelku. GNG segmentacija na podlagi takšnih HMM modelov je potekala podobno kot pri razpoznavanju govora s HMM modeli. S postopkom Viterbijevega dekodiranja [Rabiner-89] smo poskušali poiskati najbolj verjetno zaporedje govornih in ne-govornih HMM modelov, s katerimi bi najbolje opisali dano predstavitev signala, ki smo ga obdelovali. Rezultat je bilo zaporedje oznak HMM modelov, ki jim je bilo pridruženo trajanje posamezne oznake. Na ta način smo dobili segmentirane zvočne posnetke na govorne in ne-govorne dele. Drugi postopek, prikazan na sliki 3.3 (b), smo razvili prav za namene GNG segmentacije s fonetičnimi značilkami. V tem postopku se je izvajala segmentacija in razvrščanje segmentov ločeno. V prvi fazi se je izvedla segmentacija glede na akustične lastnosti zvočnih posnetkov. Postopek segmentacije, ki smo ga uporabljali v našem primeru, bo podrobneje opisan v naslednjem poglavju. Bistvo segmentacije je, da na podlagi akustičnih značilk - v našem primeru smo uporabljali MFCC značilke - z uporabo kriterija BIC [Chen-98, Tritschler-99] najprej razdelimo zvočni posnetek na večje odseke glede na zamenjave govorcev in spremembe akustičnih ozadij. Na teh odsekih smo nato na podlagi glasovnih transkripcij izračunali fonetične značilke CVS (VUS). Tako smo za vsak odsek pridobili samo en vektor značilk (4 značilke). Na podlagi vsakega takega vektorja smo nato z GMM modelom določili, kateremu razredu je pripadal dani segment. GMM modeli, ki smo jih tu uporabljali, so bili isti kot v primeru GNG segmentacije s HMM modeli. Predlagana metoda GNG segmentacije je primerna za CVS (VUS) značilke, saj v tem primeru dobimo večje odseke signalov, na katerih lahko bolj zanesljivo ocenimo CVS (VUS) značilke kot pa v primeru krajših, vnaprej določenih odsekov. Predlagani postopek segmentacije smo primerjali s prvim postopkom samo v 3.4. Preizkusi postopkov segmentacije__________________________________________________57 primeru fonetičnih značilk. 3.4 Preizkusi postopkov segmentacije V preizkusih GNG segmentacije smo preverjali dvoje: postopke segmentacije in predstavitve signalov, ki bi bile primerne za GNG segmentacijo zvočnih posnetkov informativnih oddaj. Pri tem nas je zanimala predvsem tista kombinacija postopkov in predstavitve zvočnih posnetkov, s katero bi dosegli najboljše rezultate GNG segmentacije v različnih pogojih delovanja, v različnih akustičnih situacijah in pri različnih tipih ne-govornih signalov. Dodatna zahteva pri GNG segmentaciji je bila, da bi poiskali takšen postopek GNG segmentacije, ki bi ga lahko enostavno vključili v sisteme nadaljnje obdelave zvočnih posnetkov. Zato smo dodatno ocenjevali tudi časovno in računsko zahtevnost primerjanih postopkov segmentacije. Tako smo preizkušali tri tipe predstavitev zvočnih posnetkov in dva postopka segmentacije, ki smo ju že predstavili v prejšnjem razdelku. Pri predstavitvah signalov smo se omejili na naslednje skupine značilk: • akustične značilke, ki smo jih opisovali s koeficienti melodičnega kepstra (MFCC); • entropijo in dinamizem, ki sta ju predlagala Williams in Ellis [Williams-99] in sta bili že uspešno uporabljeni pri detekciji govora in glasbe [Ajmera-03]; • predlagane CVS (VUS) značilke, ki smo jih opisali v razdelku 3.2.2. Dodatno smo izvedli tudi postopke segmentacije s kombinacijo vseh treh tipov značilk. Tako smo izvedli dva sistema fuzije GNG segmentacije, ki sta temeljila na kombinaciji MFCC in CVS značilk ter na kombinaciji entropije in dinamizma z MFCC značilkami. V nadaljevanju bomo tako podrobneje opisali pridobivanje vseh treh skupin značilk in natančneje opisali izvedbo postopkov GNG segmentacije, ki smo ju predstavili v prejšnjem razdelku. 3.4.1 Preizkušane predstavitve zvočnih posnetkov GNG segmentacije Osnovni referenčni sistem GNG segmentacije je predstavljal postopek GNG segmentacije z uporabo HMM modelov, kjer so bili zvočni posnetki predstavljeni z MFCC značilkami. MFCC značilke skupaj z oceno kratkočasovne energije signala in z izvedbo prvih in drugih odvodov osnovnih značilk, ki jih izpeljemo iz koeficientov regresij-skih premic, predstavljajo osnovno akustično parametrizacijo signalov v sistemih za razpoznavanje govora [Picone-93]. Uporabljajo pa se tudi v drugih postopkih govornih tehnologij. Izvedba značilk je narejena tako, da z njimi lahko dobro modeliramo osnovne enote govora, vendar se je izkazalo, da delujejo dobro tudi v primeru detekcije in ločevanja govora od ostalih ne-govornih pojavov [Carey-99]. Ravno zato smo se odločili, da bomo v osnovnem sistemu uporabljali 12 MFCC značilk, ki smo jim pridružili 58________________________________________3. Detekcija govornih delov v zvočnih posnetkih še normalizirano4 kratkočasovno energijo signala in prve odvode osnovnih značilk. Pri tem moramo omeniti, da smo v naših preizkusih uporabljali tudi druge odvode, vendar z njimi nismo izboljšali rezultatov GNG segmentacije. Druga skupina značilk so bile značilke, ki so temeljile na meri entropije in dinamizma. V naših preizkusih smo uporabljali kratkočasovna povprečja obeh mer, ki so definirana v [Ajmera-03]. Z obema značilkama merimo delovanje preprostih razpoznavalnikov govora. V našem primeru smo uporabljali razpoznavalnik glasov, ki je temeljil na HMM modelih in na akustičnih predstavitvah signalov z MFCC značilkami. V tem primeru se tako izračun entropije in dinamizma prevede na ocenjevanje posteriornih verjetnosti posameznih stanj v določenem trenutku razpoznavalnika, ki so odvisne od zaporedja vektorjev MFCC značilk. Entropija nam predstavlja mero določenosti takšnega sistema; večja kot je, bolj razpršene so verjetnosti stanj, manjša kot je, bolj je sistem določen. To z drugimi besedami pomeni, večja kot je entropija, manjša je verjetnost, da je dan signal govor in obratno. Pri dinamizmu pa ocenjujemo razlike med verjetnostmi stanj pri prehodu med dvema zaporednima vektorjema MFCC značilk. Tu je situacija ravno obratna, večja kot je verjetnost, da ostajamo znotraj istega stanja v HMM modelu, bolj verjetno je dan signal govor. Razpoznavalnik glasov, ki smo ga uporabljali v naših eksperimentih za izračun entropije in dinamizma, smo zgradili na podlagi govornih podatkov iz zbirke TIMIT [Garofolo-93]. Razpoznavanje glasov je potekalo na standarden način z uporabo 12 MFCC značilk z energijo in prvimi in drugimi odvodi [Young-04]. Vse ostale parametre za izračun entropije in dinamizma pa smo povzeli po [Ajmera-04]. Osnova za izračun CVS (VUS) značilk so samodejne transkripcije, ki jih pridobimo iz razpoznavalnikov glasov. V naših preizkusih smo uporabljali dva razpoznavalnika: prvi je bil namenjen za razpoznavanje slovenskih glasov govora, drugi pa razpoznavanju angleškega govora. Slovenski razpoznavalnik glasov smo zgradili iz govornih podatkov treh slovenskih govornih zbirk: GOPOLIS, VNTV in K211d, [Mihelič-03]. Ta razpoznavalnik smo zato označili kot razpoznavalnik-SI. Drugi razpoznavalnik, ki smo ga označili kot razpoznavalnik-EN, pa je bil naučen na podlagi zbirke TIMIT [Garofolo-93]. Razpoznavalnik-EN je bil enak, kot razpoznavalnik glasov, ki smo ga uporabljali za izračun entropije in dinamizma. Oba sistema za razpoznavanje glasov sta bila zgrajena iz osnovnih govornih enot, ki smo jih modelirali s HMM modeli. Vsak HMM model je bil sestavljen iz treh stanj GMM modelov z diagonalnimi kovariančnimi matrikami. Ocenjevanje parametrov HMM modelov je potekalo s postopkom Baum-Welch na standarden način [Young-04]. Zaradi različnega jezika modeliranja smo v obeh primerih razpoznavalnikov modelirali različne skupine osnovnih govornih enot. V primeru razpoznavalnika-SI smo uporabljali 38 monofonskih enot govora, v primeru razpoznavalnika-EN pa 48 monofonov, ki smo jih pridobili iz osnovnih 68 enot po postopku opisanem v [Lee-89]. Topologija mreže HMM modelov obeh razpoznavalnikov je bila postavljena glede na bigramske jezikovne modele glasov, ki smo jih ocenili iz danih zbirk učenja. V fazi razpoznavanja smo v obeh primerih uporabljali običajno izvedbo MFCC značilk z energijo in prvimi in drugimi odvodi. Pri tem smo izvedli tudi analizo natančnosti razpoznavanja obeh razpoznavalnikov. Z razpoznavalnikom- 4 Normalizacij a energije je bila potrebna za boljšo detekcijo ne-govornih delov, predvsem tišine, v različnih akustičnih razmerah. 3.4. Preizkusi postopkov segmentacije__________________________________________________59 SI smo na testnem delu zbirke GOPOLIS dosegli 70% natančnost razpoznavanja glasov, z razpoznavalnikom-EN pa na testnem delu zbirke TIMIT 61% natančnost. Ker pa so nas v primeru CVS (VUS) značilk zanimale predvsem enote CVS (VUS), smo v primeru obeh razpoznavalnikov ocenili še natančnost razpoznavanja CVS (VUS) enot. V primeru razpoznavalnika-SI je bila natančnost 88%, v primeru razpoznavalnika-EN pa 75%. Podobne rezultate smo dobili tudi v primeru VUS enot. Po prevedbi samodejnih transkripcij iz osnovnih govornih enot v CVS (VUS) enote smo izvedli izračun značilk CVS (VUS) po formulah iz (3.1) - (3.4). Pri izračunu značilke iz (3.1) je bila a v vseh primerih postavljena na 0.5. Prevedba transkripcij je potekala za vsak jezik razpoznavanja posebej. Pri tem smo ocenjevali vrednosti značilk na dva načina: na vnaprej določenih oknih analize in na akustičnih segmentih. Pri prvotnem preizkušanju fonetičnih značilk se je namreč izkazalo, da pridobimo bolj zanesljive ocene iz daljših odsekov zvočnih posnetkov. Ravno zaradi tega smo tudi razvili drugi postopek segmentacije, kjer s postopkom BIC najprej določimo akustične segmente [Chen-98, Tritschler-99] in na njih nato ocenimo fonetične značilke, na podlagi katerih z GMM modeli razvrščamo segmente na govor ali ne-govor. Zato smo ta postopek označili kot BIC-GMM segmentacija. 3.4.2 Določanje parametrov postopkov GNG segmentacije Vse prej opisane predstavitve signalov zvočnih posnetkov smo kombinirali z dvema postopkoma GNG segmentacije, ki sta bila predstavljena v razdelku 3.3. V primeru GNG segmentacije s HMM modeli (slika 3.3 (a)) je bilo potrebno vektorje značilk vseh treh predstavitev izračunavati na konstantno določenih oknih analize z vnaprej določenim premikom izračuna. V primeru MFCC značilk ter entropije in di-namizma je bil premik postavljen na 10 ms, v primeru CVS (VUS) značilk pa smo ocenjevali značilke na oknih dolžine 3.0 s na vsakih 100 ms. Na ta način smo v vseh treh primerih pridobili zaporedja vektorjev značilk, ki smo jih razvrščali v zaporedja govornih in ne-govornih oznak glede na HMM modele z dinamičnim postopkom Viter-bijevega dekodiranja [Rabiner-89]. V primeru GNG segmentacije s postopkom BIC-GMM segmentacije je bilo potrebno najprej določiti akustične segmente. To smo storili s postopkom segmentacije BIC [Chen-98, Tritschler-99]. Segmentacija je potekala na podlagi 12 MFCC značilk z energijo, kjer smo določali meje med segmenti s kriterijem BIC na podlagi Gaussovih porazdelitev, ocenjenih z enim povprečnim vektorjem in polno kovariančno matriko. Prag za določitev meje smo postavili na razvojni zbirki, ki bo opisana v nadaljevanju. Podrobnejši opis postopka akustične segmentacije s kriterijem BIC bo predstavljen v naslednjem poglavju. Razvrščanje segmentov na govor in ne-govor je potekalo z uporabo GMM modelov. Segment je bil razvrščen v enega izmed razredov glede na največjo verjetnost GMM modela, s katerim smo opisali dani segment. Postopek BIC-GMM segmentacije smo uporabljali samo v primeru fonetičnih značilk. Osnova za določitev govornih in ne-govornih odsekov v obeh postopkih GNG segmentacije so bili GMM modeli. V vseh primerih segmentacije smo Gaussove porazdelitve 60________________________________________3. Detekcija govornih delov v zvočnih posnetkih v GMM modelih opisovali z diagonalnimi kovariančnimi matrikami, parametre pa smo določali s postopkom EM [Theodoridis-03, str. 491-494]. V primeru MFCC značilk ter značilk entropije in dinamizma smo uporabljali več modelov za modeliranje govora in več za modeliranje ne-govora. Govor smo modelirali z dvema modeloma, in sicer glede na kanal posnetka (telefon, ne-telefon). Razred ne-govora pa je bil prav tako sestavljen iz dveh GMM modelov: prvi je predstavljal glasbo, drugi pa premore. V primeru CVS (VUS) predstavitev smo vsak razred modelirali samo z enim modelom. Tako je en GMM model predstavljal govor, drugi pa ne-govor. Vsi modeli so bili naučeni na podlagi podatkov iz učnih zbirk. Število Gaussovih porazdelitev v vsakem GMM modelu pa je bilo določeno na podlagi optimalnih rezultatov GNG segmentacije na razvojni zbirki. V primeru MFCC značilk smo uporabljali GMM modele sestavljene iz 128 Gaussovih porazdelitev. V primeru značilk entropije in dinamizma smo določili 4 porazdelitve na model (v [Ajmera-03] so uporabljali samo 2). V primeru CVS (VUS) značilk pa je bil vsak model sestavljen samo iz dveh Gaussovih porazdelitev. Tako določene in naučene GMM modele smo uporabili v obeh primerih postopkov GNG segmentacije. V primeru segmentacije s HMM modeli smo morali dodatno določati stanja modelov in nastavljati vrednosti povezav v HMM mreži, ki predstavljajo prehodne verjetnosti med posameznimi modeli. Tu smo se zgledovali po nastavitvah, ki so bile opisane v [Ajmera-03]. Za določitev vseh odprtih parametrov smo uporabljali razvojno zbirko. Ker smo ugotovili, da v zbirki ni govornih in ne-govornih segmentov krajših od 1.4 s, smo ustrezno načrtovali tudi HMM modele. Tako smo v primeru značilk MFCC ter entropije in dinamizma določili 140 stanj HMM modelov, kar je ob izračunu teh značilk na vsakih 10 ms ustrezalo ravno trajanju 1.4 s. Podobno smo tudi v primeru CVS (VUS) značilk določili 14 stanj zaradi izračuna značilk na vsakih 100 ms. Vse prehodne verjetnosti povezav v HMM modelih smo nastavili na 0.5. Vrednosti povezav med HMM modeli pa so bile določene tako, da smo favorizirali enega izmed razredov glede na optimalne rezultate GNG segmentacije na razvojni zbirki. Postopek in izbira teh uteži bodo predstavljeni v naslednjih razdelkih. Postopke GNG segmentacije z uporabo HMM modelov smo izvajali z orodji iz zbirke HTK Toolkit [Young-04]. Za določitev parametrov GMM modelov (EM postopek, učenje) in izvajanje segmentacije s postopkom BIC (pri BIC-GMM segmentaciji) pa smo razvili svoja lastna orodja. 3.4.2.1 Računska zahtevnost postopkov GNG segmentacije Jasno je, da je izvedba značilk, ki temeljijo na opisovanju delovanja razpoznavalnikov govora, računsko in časovno zahtevnejša, kot pa sam izračun akustičnih značilk. Zato nas je v primeru fonetičnih značilk in značilk entropije in dinamizma zanimalo, kako se poveča računska zahtevnost postopkov GNG segmentacije. V našem primeru smo za izračun obeh skupin značilk (entropije-dinamizma in CVS (VUS) značilk) uporabljali sorazmeroma preproste razpoznavalnike glasov, s katerim smo pospešili proces razpoznavanja govora. Kljub temu je pridobivanje takih značilk ravno zaradi procesa razpoznavanja mnogo bolj zahtevno, kot pa pridobivanje samo 3.4. Preizkusi postopkov segmentacije__________________________________________________61 akustičnih predstavitev. Iz poskusov smo ocenili, da je časovna zahtevnost procesa izračuna CVS (VUS) značilk približno 3-krat večja kot v primeru MFCC značilk. Tako smo npr. za izračun CVS značilk v primeru razpoznavalnika-SI s standardnim PC računalnikom potrebovali v povprečju približno 25% časa dolžine zvočnega posnetka, ki smo ga obdelovali. Po drugi strani je postopek GNG segmentacije s HMM modeli pri CVS (VUS) značilkah potekal hitrejše, saj smo v tem primeru potrebovali samo dva modela za razvrščanje segmentov. V primeru ostalih značilk smo imeli več modelov. Vendar je bila razlika v času delovanja zanemarljiva, saj smo v vseh primerih izvajali postopke Viterbijevega dekodiranja na sorazmerno majhnem številu HMM modelov. Na hitrost GNG segmentacije pa je predvsem vplival korak izračuna vektorjev značilk. V primeru značilk MFCC in entropije-dinamizma je bil korak 10-krat manjši kot v primeru CVS (VUS) značilk, kar je pomenilo hitrejšo GNG segmentacijo v zadnjem primeru. Dodaten problem je predstavljal tudi način izračuna fonetičnih značilk. Zvočni posnetek je bilo potrebno namreč najprej obdelati z razpoznavalnikom in šele nato izračunati značilke. To pomeni, da takšen sistem deluje v dveh fazah. V prvi fazi poteka razpoznavanje, v drugi pa odločanje o govornih in ne-govornih odsekih. Podobno lahko ugotovimo tudi za postopek BIC-GMM segmentacije: najprej je potrebno izvesti segmentacijo in šele nato razvrščanje. Vendar z nekaj izboljšavami v obeh primerih lahko prevedemo postopke, da delujejo samo v enem koraku, kar je priporočljivo za vključevanje takšnih postopkov v sisteme nadaljnje obdelave zvočnih posnetkov, ki delujejo v stvarnem času. Tako lahko npr. daljši zvočni posnetek razdelimo na krajše odseke, ki jih nato obdelamo s predlaganimi postopki GNG segmentacije. V tem primeru sicer dodamo določeno zakasnitev v sistem, ki pa jo lahko prilagajamo glede na tip in namen aplikacije, ki jo izvajamo. 3.4.3 Združevanje predstavitev zvočnih posnetkov pri GNG segmentaciji Kot smo že omenili, smo želeli pridobiti čimbolj robustne in zanesljive predstavitve zvočnih posnetkov, ki bi bile primerne za GNG segmentacijo v različnih pogojih delovanja, zato smo v okviru našega raziskovalnega dela preizkušali tudi kombinacije vseh treh predlaganih predstavitev. Osnovna ideja je bila, da bi akustična informacija v signalu predstavljala osnovno informacijo za GNG segmentacijo, z informacijo višjega reda izpeljano iz akustičnih predstavitev (entropija-dinamizem, fonetične značilke) pa bi zagotavljali večjo neobčutljivost sistemov GNG segmentacije. Zaradi tega smo izvedli dve skupini združevanja predstavitev: v prvi skupini smo združevali MFCC značilke z entropijo in dinamizmom, v drugi skupini pa MFCC in fonetične značilke. V obeh primerih je bilo potrebno časovno uskladiti različne predstavitve zvočnih posnetkov. To smo dosegli tako, da smo v vseh treh skupinah predstavitev pridobivali vektorje značilk ob enakih časovnih premikih izračunov. Tako smo v obeh primerih združevanja dobili dva toka predstavitev (ang. stream), ki smo ju združevali v modelih GMM. GNG segmentacija z združevanjem predstavitev je potekala samo v primeru uporabe HMM modelov, ki smo jih tvorili na podoben način, kot je bilo že 62________________________________________3. Detekcija govornih delov v zvočnih posnetkih opisano. Razlika je bila le v tem, da smo v stanjih HMM modelov vodili GMM modele, sestavljene iz dveh tokov predstavitev. Odločitev razvrščanja na govor in ne-govor je tako potekala na podlagi kombinacije verjetnosti iz obeh tokov predstavitev v vsakem stanju HMM modela. V našem primeru smo se odločili za združevanje odločitev na podlagi utežene vsote logaritma verjetnosti posameznih tokov predstavitev. Tak postopek združevanja različnih tokov predstavitev v HMM modelih je bil predlagan v [Potamianos-04]. V primeru GNG segmentacije smo te postopke označili kot GNG segmentacija s fuzijo. V primeru takšne GNG segmentacije smo združene GMM modele sestavili iz osnovnih GMM modelov posamičnih predstavitev, ki smo jih pridobili s postopkom EM. Dodatno pa smo morali pri tem določati še uteži združevanja, ki smo jih pridobili na podlagi optimalnih rezultatov GNG segmentacije na razvojni zbirki. 3.4.4 Podatkovne zbirke zvočnih posnetkov za vrednotenje postopkov GNG segmentacije Podatkovne zbirke, ki smo jih uporabljali za vrednotenje postopkov GNG segmentacije, so bile sestavljene iz zvočnih posnetkov informativnih oddaj iz zbirk SiBN in COST278. Razvojno zbirko pa smo sestavili iz posebno izbranih posnetkov različnih TV oddaj. Glavni namen eksperimentalnih zbirk je bil, da bi zagotovili čimbolj pestro akustično in jezikovno vsebino zvočnih posnetkov, s katerimi bi zajemali različne govorne in ne-govorne pojave. Tako bi lahko ocenjevali postopke GNG segmentacije in predstavitve zvočnih posnetkov v različnih pogojih delovanja in v različnih govornih in ne-govornih situacijah. Razvojna zbirka je vsebovala 3 ure zvočnih posnetkov dveh zabavnih TV oddaj. Prva oddaja (2 uri) je bila v slovenskem jeziku, druga (1 ura) pa v italijanskem. Posnetki so bili izbrani tako, da so vsebovali približno 2/3 govora, preostala tretjina pa je pripadala različnim ne-govornim situacijam. Ker smo izbrane posnetke pridobili iz zabavnih oddaj, je večina ne-govornih pojavov pripadala glasbi, različnim aplavzom, smehu, veliko je bilo tudi tišine, raznih zvočnih efektov ipd. Govor v posnetkih je prispevalo več različnih govorcev, ki so govorili v slovenskem in italijanskem jeziku. Zaradi narave oddaj je bil govor v posnetkih večinoma spontan z veliko nejezikovnimi elementi, ki smo jih v glavnem opredelili kot govor. Razvojno zbirko smo uporabljali za nastavitev vseh odprtih parametrov postopkov in predstavitev, predvsem pa za določitev optimalnih uteži modelov detekcije GNG razpoznavanja, ki smo jih kasneje uporabljali pri testnih zbirkah. Ostali eksperimentalni zbirki sta bili sestavljeni iz posnetkov informativnih oddaj iz zbirk SiBN in COST278, ki smo ju že opisali v prejšnjem poglavju. S stališča govornih in ne-govornih elementov, ki jih vsebujejo informativne oddaje, lahko ugotovimo, da je bila skupna značilnost vseh posnetkov, da je v njih prevladoval govor, ne-govorni elementi pa so pripadali predvsem glasbi najavnih in/ali odjavnih TV špic, premorom med posameznimi novicami in različnim šumom v ozadju TV poročil. Govor je bil sestavljen iz velikega števila različnih govorcev, ki govorijo v različnih jezikih, v različnih akustičnih situacijah in na različne načine. Kot smo že omenili v prejšnjem poglavju, je 3.4. Preizkusi postopkov segmentacije__________________________________________________63 bila zbirka COST278 zaradi načina pridobivanja posnetkov informativnih oddaj veliko bolj pestra z različnimi govornimi in ne-govornimi pojavi v primerjavi z zbirko SiBN. Podatke vseh treh eksperimentalnih zbirk smo razdelili na učni in testni del. Učne posnetke so predstavljale 3 oddaje iz vsake zbirke v skupnem trajanju okoli treh ur. Te posnetke smo uporabili za učenje GMM modelov GNG segmentacije v vseh primerih predstavitev. Testni del razvojne zbirke (2 uri) smo uporabljali za določitev vseh ostalih parametrov postopkov: uteži modelov detekcije, uteži GMM modelov pri fuziji, nastavitev pragov za BIC segmentacijo in nastavitev optimalnih parametrov za pridobivanje CVS (VUS) značilk. Testni del zbirke SiBN je vseboval 30 ur posnetkov informativnih oddaj, testni del zbirke COST278 pa 25 ur. Oba sta služila za primerjavo in vrednotenje postopkov GNG segmentacije. Natančnejša razdelitev posnetkov na učne, razvojne in testne množice, ki smo jih uporabljali pri preizkusih postopkov GNG segmentacije, je opisana v dodatku A disertacije. 3.4.5 Mere vrednotenja postopkov GNG segmentacije Pri vrednotenju postopkov GNG segmentacije smo merili natančnost razpoznavanja glede na čas skupnega ujemanja detektiranih govornih in ne-govornih segmentov z referenčnimi segmenti. Pri tem smo uporabljali tri mere: delež ujemanja govornih segmentov, delež ujemanja ne-govornih segmentov in skupni delež ujemanja obeh tipov segmentov. S prvo mero smo tako merili pravilno razpoznavanje govora, z drugo pravilno razpoznavanje ne-govora, s tretjo pa skupno natančnost razpoznavanja (skupno razpoznavanje). Čas ujemanja smo merili glede na način izračuna vektorjev značilk posameznih predstavitev. Tako smo v primeru značilk MFCC in entropije-dinamizma čas ujemanja zaokroževali na 10 ms natančno, v primeru CVS (VUS) značilk pa na 100 ms. Pri tem moramo omeniti, daje potrebno pri vrednotenju postopkov GNG segmentacije upoštevati vse tri mere in ne samo skupno natančnost razpoznavanja. To pa predvsem zato, ker se lahko zgodi, da je lahko en razred bolj izrazito zastopan v testnih podatkih in je skupna natančnost razpoznavanja bolj odvisna samo od razpoznavanja tega razreda. To se je zgodilo v primeru obeh testnih zbirk SiBN in COST278. V obeh primerih imamo namreč v povprečju okoli 90% govora in samo 10% ne-govora. To pa bi pomenilo, da bi lahko dosegli skupno natančnost razpoznavanja 90%, če bi celoten testni material razpoznavali kot govor. Na ta način seveda s skupno mero natančnosti ne bi mogli oceniti delovanje posameznih postopkov. Pri razvojni zbirki smo kljub temu optimirali rezultate GNG segmentacije glede na skupno natančnost razpoznavanja, saj je bilo v tem primeru razmerje med govornimi in ne-govornimi podatki bolj uravnoteženo. 3.4.6 Primerjava postopkov GNG segmentacije na razvojni zbirki Razvojno zbirko, sestavljeno iz treh ur posnetkov TV zabavnih oddaj, smo uporabili za dve vrsti preizkusov: za določanje optimalnih parametrov predstavitev in postopkov 64 3. Detekcija govornih delov v zvočnih posnetkih GNG segmentacije ter za vrednotenje in izbiro optimalnih CVS (VUS) značilk, ki smo jih kasneje uporabljali za GNG segmentacijo zvočnih posnetkov iz zbirk SiBN in COST278. V prvi skupini preizkusov smo določali takšne parametre predstavitev in modelov, da smo z njimi dosegli optimalne rezultate GNG segmentacije. Kriterij za določitev parametrov je bila mera skupnega razpoznavanja, ki smo jo predstavili v prejšnjem razdelku. Tu smo se predvsem ukvarjali z izbiro uteži modelov govora in ne-govora. Na slikah 3.5 in 3.6 so tako prikazani poteki rezultatov GNG segmentacije z različnimi postopki ob izbiri različnih kombinacij uteži modelov govora in ne-govora. Uteži modelov smo izbirali tako, da smo z njimi uravnavali skupno verjetnost razpoznavanja posameznih modelov govora in ne-govora, ki smo jih modelirali z GMM modeli. Na ta način smo v bistvu favorizirali en model (razred) proti drugemu. Z izbiro različnih uteži smo tako pridobili tudi različne rezultate GNG segmentacije. Optimalna kombinacija uteži je bila tista, pri kateri smo z določeno metodo dosegli najboljše rezultate skupnega razpoznavanja. Takšno kombinacijo smo poimenovali optimalna izbira parametrov in v eksperimentih s testnimi zbirkami smo tako primerjali postopke ob optimalnih in neoptimalnih izbirah parametrov. Predstavitve in postopke GNG segmentacije, ki smo jih preizkušali in so prikazani tudi na slikah 3.5 in 3.6, lahko razdelimo na štiri skupine: • MFCC značilke z GMM modeli: 12 MFCC značilk z energijo in prvimi odvodi; GMM s 128 Gaussovimi porazdelitvami na model. Predstavitev smo označili kot MFCC-E-D-26. • Značilke entropije in dinamizma z GMM modeli: povprečna entropija in dinamizem stanj HMM modelov razpoznavalnika-EN; GMM s 4-imi kombinacijami normalnih porazdelitev. Predstavitev smo označili kot entropija, dinamizem. • Fonetične značilke CVS, VUS: značilke smo pridobili iz transkripcij CVS in VUS enot na podlagi razpoznavalnika-EN in razpoznavalnika-SI iz izrazov (3.1) - (3.4). Modelirali smo jih z GMM modeli z dvema normalnima porazdelitvama na model. Predstavitve smo označili kot SI glas. enote CVS in SI glas. enote VUS v primeru razpoznavalnika-SI in EN glas. enote CVS in EN glas. enote VUS v primeru razpoznavalnika-EN. • Kombinacije predstavitev: v enem primeru je bila fuzija MFCC značilk in značilk entropija-dinamizem (označeno kot fuzija MFCC+ent.,din.), v drugem pa bila fuzija izvedena na podlagi značilk MFCC in CVS (označeno kot fuzija MFCC+CVS). CVS značilke smo pridobili na podlagi razpoznavalnika-SI na podoben način kot v prejšnjem primeru. Preizkušali smo dva načina postopkov segmentacije. Vse predstavitve smo izpeljali s postopkom GNG segmentacije z uporabo HMM modelov, ki so bili sestavljeni iz GMM modelov. Te postopke smo označevali kot segmentacija HMM-GMM. Samo s 3.4. Preizkusi postopkov segmentacije 65 Potek rezultatov ob različnih izbirali uteži detekcije govora/ne—govora 100 95 g? O 90 85 80 75 HMM-GMM HMM-GMM HMM-GMM HMM-GMM HMM-GMM HMM-GMM MFCC-E-D-26 entropija, dinamizem SI glas. enote CVS SI glas. enote VUS EN glas. enote CVS EN glas. enote VUS BICseg-GMM: SI glas. enote CVS BICseg-GMM: EN glas. enote VUS (1.8, 0.2) (1.6, 0.4) (1.4, 0.6) (1.2, 0.8) (1.0, 1.0) (0.8, 1.2) (0.6, 1.4) (0.4, 1.6) (0.2, 1.8) uteˇzi modelov detekcije (ne-govor, govor) Slika 3.5: Določanje uteži modelov detekcije (ne-govor, govor) različnih postopkov glede na optimalne rezultate razpoznavanja na razvojni zbirki. fonetičnimi predstavitvami pa smo testirali tudi drugi postopek, kjer je bila naprej izvedena BIC segmentacija in nato postopek razvrščanja s pomočjo GMM modelov. Ta postopek smo označevali kot segmentacija BICseg-GMM. Na sliki 3.5 so prikazani poteki rezultatov skupnega razvrščanja različnih predstavitev GNG segmentacije. Primerjava rezultatov ob različnih izbirah uteži modelov detekcije pokaže bistveno razliko med fonetičnimi in ostalimi referenčnimi predstavitvami GNG segmentacije. Izkaže se namreč, da fonetične predstavitve delujejo stabilno na celotnem področju izbire uteži, medtem ko z ostalima dvema predstavitvama (MFCC in entropij a-dinamizem) dosežemo najboljše rezultate na ozkih področjih izbire uteži. To pomeni bistveno prednost fonetičnih predstavitev, saj ne glede na optimalne izbire odprtih parametrov postopkov dosežemo dobre rezultate GNG segmentacije. Z drugimi besedami to pomeni, da so fonetične značilke manj občutljive na različne spremembe v delovanju postopkov in s tem tudi na spremembe kvalitete zvočnih posnetkov. To smo še dodatno pokazali v primeru testnih zbirk, ko smo izvajali preizkuse z optimalnimi in neoptimalnimi izbirami parametrov in smo s fonetičnimi značilkami dosegli znatno boljše rezultate kot pa z značilkami MFCC ter entropijo-dinamizmom. Na sliki lahko tudi vidimo, da z obema postopkoma GNG segmentacije (HMM-GMM, BICseg-GMM) v primeru fonetičnih značilk dosežemo podobne rezultate, ki se gibljejo v intervalu med 92% in 95% skupne natančnosti razpoznavanja. Iz rezultatov s slike 3.5 pa ne moremo sklepati o razliki GNG segmentacije v primeru CVS in VUS značilk, ki smo jih pridobili iz dveh različnih razpoznavalnikov glasov. Najboljše rezultate GNG segmentacije (ne- 66 3. Detekcija govornih delov v zvočnih posnetkih 100 95 iL o 85 80 75 Potek rezultatov ob različnih izbirah uteži detekcije govora/ne—govora fuzija (1.8, 0.2) (1.6, 0.4) (1.4, 0.6) (1.2, 0.8) (1.0, 1.0) (0.8, 1.2) (0.6, 1.4) (0.4, 1.6) (0.2, 1.8) uteži modelov detekcije (ne-govor, govor) Slika 3.6: Določanje uteži modelov detekcije (ne-govor, govor) različnih postopkov fuzije glede na optimalne rezultate razpoznavanja na razvojni zbirki. kaj nad 95%) pa dosežemo v primeru MFCC značilk z utežmi ne-govornih modelov 0.8 in utežmi govornih modelov 1.2. S predstavitvami zvočnih posnetkov, ki so temeljile na značilkah entropije in dinamizma, smo na razvojni zbirki dosegli najslabše rezultate. Skupna ugotovitev na podlagi rezultatov na sliki 3.5 je, da ne glede na izbiro fonetičnih značilk dosežemo bolj stabilno delovanje postopkov GNG segmentacije v primerjavi z značilkami entropije in dinamizma in MFCC značilkami, s katerimi pa smo na razvojni zbirki dosegli najboljši rezultat GNG razpoznavanja. Na sliki 3.6 so zbrani rezultati postopkov GNG segmentacije s fuzijo predstavitev. Podana je primerjava fuzije z značilkami MFCC in CVS (MFCC+CVS) in značilkami MFCC in entropije-dinamizma (MFCC+ent.,din.). Na sliki so prikazani še rezultati posamičnih predstavitev, s katerimi smo tvorili kombinacije predstavitev fuzije. Glavni namen fuzije predstavitev je bil, da bi združili akustične značilke, ki jih dobimo neposredno iz signalov zvočnih posnetkov, z izpeljanimi značilkami, ki jih tvorimo na podlagi delovanja sistemov za razpoznavanje govora. Kot je razvidno na sliki 3.6, smo na ta način izboljšali rezultate GNG segmentacije v obeh kombinacijah značilk. Podobno kot v prejšnjem primeru pa lahko ugotovimo, da je delovanje postopkov GNG segmentacije v primeru fuzije MFCC+CVS enako stabilno oziroma neodvisno od izbire uteži modelov detekcije. Pri fuziji MFCC+ent.,din. pa se je ta odvisnost še povečala, kar je predvsem posledica dejstva, da sta obe posamični predstavitvi, iz katerih je sestavljena združena predstavitev, močno odvisni od izbire uteži. Sklepna ugotovitev na podlagi rezultatov s slike 3.6 je tako, da smo s fuzijo predstavitev izboljšali rezultate GNG segmentacije in v primeru kombinacije MFCC značilk s predlaganimi fonetičnimi 3.4. Preizkusi postopkov segmentacije__________________________________________________67 značilkami CVS še izboljšali stabilnost delovanja postopkov. Drugi namen razvojne zbirke je bil, da bi jo uporabili za oceno učinkovitosti delovanja posameznih fonetičnih značilk za detekcijo govornih in ne-govornih odsekov. Tako so v tabeli 3.1 zbrani rezultati razpoznavanja govora in ne-govora v primeru posameznih CVS značilk, ki smo jih izpeljali iz samodejnih transkripcij razpoznavalnika-SI. GNG segmentacija je bila izvedena z referenčnim postopkom HMM-GMM, uteži modelov detekcije pa so bile enake. Tabela 3.1: Primerjava rezultatov GNG razpoznavanja z različnimi CVS značilkami iz (3.1) - (3.4). Primerjava je izvedena na razvojni zbirki in podana skupaj z rezultati ob uporabi vseh CVS značilk skupaj in uporabi MFCC značilk. tip značilke razpoznavanje govora razpoznavanje ne-govora skupno razpoznavanje norm. raz. trajanja C V enot 82.3 70.0 77.8 norm. CV hitrost govora 89.6 93.7 91.1 norm. spremembe CVS enot 91.6 92.5 92.0 norm. raz. povp. trajanja CV enot 81.7 70.0 77.4 vse značilke CVS 94.7 93.4 94.2 značilke MFCC 93.5 97.4 94.9 Glede na rezultate razpoznavanja iz tabele 3.1 lahko ugotovimo, da z vsako od CVS značilk lahko dovolj zanesljivo detektiramo govorne in ne-govorne segmente. Z značilkami, ki temeljijo na spremembah CVS enot (normirana CV hitrost govora, normirane spremembe CVS enot), smo dosegli boljše rezultate razpoznavanja v primerjavi z značilkami, ki temeljijo na trajanju CVS enot (normirano razmerje trajanja CV enot, normirana razlika povprečnega trajanja CV enot). Preizkušali smo tudi vse preostale kombinacije CVS značilk, vendar v nobenem primeru nismo presegli rezultatov GNG segmentacije ob uporabi vseh štirih značilk. Zato smo tudi pri vrednotenju postopkov GNG segmentacije na testnih zbirkah uporabljali fonetične predstavitve sestavljene iz vseh štirih mer CVS (VUS) značilk. Vzporedno z rezultati GNG razpoznavanja s posameznimi značilkami smo ugotavljali tudi stopnjo korelacije med posameznimi značilkami. Večje ujemanje smo tako izmerili med značilkami trajanja (normirano razmerje trajanja C V enot in normirana razlika povprečnega trajanja CV enot) in značilkami sprememb CVS enot (normirana CV hitrost govora, normirane spremembe CVS enot), kar je bilo zaradi izvedbe značilk pričakovano. 3.4.7 Primerjava postopkov GNG segmentacije na testnih zbirkah Obsežnejši preizkusi postopkov GNG segmentacije so bili izvedeni s testnima zbirkama SiBN in COST278. Rezultati različnih postopkov in predstavitev GNG segmentacije so 68________________________________________3. Detekcija govornih delov v zvočnih posnetkih zbrani v tabeli 3.2 za zbirko SiBN in v tabeli 3.3 v primeru zbirke COST278. V preizkusili na testnih zbirkah smo izvajali dve skupini primerjav. V prvi skupini preizkusov smo primerjali postopke GNG segmentacije ob izbiri optimalnih parametrov in uteži modelov detekcije, ki smo jih določili na razvojni zbirki. V drugi skupini preizkusov pa smo primerjali postopke segmentacije ob uporabi enakih uteži modelov detekcije, torej v primeru neoptimalno določenih parametrov postopkov. Na ta način smo želeli primerjati delovanje postopkov tudi v primeru, ko nimamo na razpolago razvojnih zbirk in je zato potrebno izvajati postopke GNG segmentacije ob neoptimalnih pogojih delovanja. Tako so prvi rezultati v tabelah 3.2 in 3.3 pridobljeni v primeru optimalno določenih uteži, rezultati v okroglih oklepajih () pa v primeru enakih uteži modelov detekcije. Tabela 3.2: Rezultati GNG segmentacije na zbirki SiBN. Vrednosti v okroglih oklepajih () predstavljajo rezultate ob izbiri neoptimalnih vrednosti uteži modelov (enake uteži). Poudarjeni so najboljši rezultati v primeru fuzije in brez fuzije. način razpoznavanja & tip značilk razpoznavanje govora razpoznavanje ne-govora skupno razpoznavanje HMM-GMM: MFCC 97.9 (96.4) 58.7 (72.3) 95.3 (94.8) HMM-GMM: entropija, dinamizem 99.3 (88.9) 55.8 (88.7) 96.5 (88.9) HMM-GMM: SI glas. enote, CVS 98.2 (97.6) 91.1 (93.0) 97.8 (97.3) HMM-GMM: SI glas. enote, VUS 98.1 (97.7) 88.73 (90.1) 97.5 (97.2) HMM-GMM: EN glas. enote, CVS 98.5 (98.4) 88.2 (88.8) 97.8 (97.7) HMM-GMM: EN glas. enote, VUS 97.52 (96.7) 89.95 (92.9) 97.0 (96.4) BIC-GMM: SI glas. enote, CVS 97.9 (97.9) 89.5 (89.7) 97.4 (97.3) BIC-GMM: EN glas. enote, CVS 98.3 (98.2) 89.2 (89.2) 97.7 (97.7) BIC-GMM: EN glas. enote, VUS 98.05 (97.9) 89.72 (90.2) 97.5 (97.4) HMM-GMM: fuzija MFCC+ent.,din. 99.7 (97.9) 62.9 (88.9) 97.3 (97.3) HMM-GMM: fuzija MFCC+SI-CVS 99.3 (98.3) 87.0 (93.6) 98.5 (98.0) Kljub temu da sta zbirki SiBN in COST278 konceptualno različni in se zvočni posnetki informativnih oddaj med zbirkama razlikujejo po akustični, vsebinski in jezikovni vsebini, se rezultati GNG segmentacije v tabelah 3.2 in 3.3 ujemajo. To je predvsem posledica dejstva, da smo v obeh primerih uporabljali modele in nastavitve parametrov, ki smo jih določili iz enakih učnih in razvojnih podatkov. Skupna ugotovitev primerjave rezultatov iz obeh zbirk je, da smo s CVS (VUS) značilkami dosegli boljše rezultate GNG segmentacije kot pa z značilkami MFCC in značilkami entropije in dinamizma. Učinkovitost predlaganih fonetičnih značilk je še bolj izrazita, če primerjamo rezultate na podlagi ločenega razpoznavanja govora in ne-govora. V vseh primerih CVS (VUS) značilk lahko opazimo izrazito odstopanje rezultatov razpoznavanja ne-govornih segmentov v primerjavi z značilkami MFCC in entropije-dinamizma. To je ob podobnih rezultatih razpoznavanja govornih segmentov pomenilo boljše rezultate skupnega razpoznavanja. Se večje razlike v delovanju se pokažejo, če primerjamo delovanje GNG postopkov v primeru enakih uteži modelov detekcije. Tu pride do podobnega pojava kot v primeru razvojne zbirke. Izkaže se namreč, da se rezultati GNG segmentacije 3.4. Preizkusi postopkov segmentacije 69 Tabela 3.3: Rezultati GNG segmentacije na zbirki COST278. Vrednosti v okroglih oklepajih () predstavljajo rezultate ob izbiri neoptimalnih vrednosti uteži modelov (enake uteži). Poudarjeni so najboljši rezultati v primeru fuzije in brez fuzije. način razpoznavanja & tip značilk razpoznavanje govora razpoznavanje ne-govora skupno razpoznavanje HMM-GMM: MFCC 98.7 (97.8) 44.0 (54.2) 94.6 (94.6) HMM-GMM: entropija, dinamizem 98.5 (83.4) 38.4 (79.3) 94.0 (83.1) HMM-GMM: SI glas. enote, CVS 96.6 (95.6) 76.9 (79.3) 95.1 (94.3) HMM-GMM: SI glas. enote, VUS 97.2 (96.6) 72.2 (74.3) 95.3 (95.0) HMM-GMM: EN glas. enote, CVS 97.9 (97.8) 71.1 (71.6) 95.9 (95.8) HMM-GMM: EN glas. enote, VUS 96.8 (96.6) 72.4 (74.3) 95.0 (95.0) BIC-GMM: SI glas. enote, CVS 97.1 (97.0) 76.3 (76.4) 95.6 (95.5) BIC-GMM: EN glas. enote, CVS 98.1 (98.0) 75.0 (75.2) 96.4 (96.3) BIC-GMM: EN glas. enote, VUS 97.7 (97.5) 75.2 (75.6) 96.0 (95.9) HMM-GMM: fuzija MFCC+ent.,din. 99.4 (97.1) 34.7 (65.6) 94.6 (94.8) HMM-GMM: fuzija MFCC+SI-CVS 98.6 (97.0) 70.5 (78.4) 96.5 (95.6) v primeru značilk MFCC in entropije-dinamizma močno spreminjajo glede na izbiro uteži delovanja in kar je še slabše, boljše rezultate dobimo v primeru neoptimalne izbire parametrov. To pa se ne zgodi v primeru fonetičnih značilk. Rezultati ostajajo konsistentni ne glede na izbiro uteži modelov. To je posledica dejstva, da so modeli govora in ne-govora naučeni na podlagi fonetičnih značilk veliko bolj diskriminatorni in je delovanje postopkov GNG segmentacije v tem primeru bolj stabilno. Če primerjamo rezultate GNG segmentacije samo v primeru fonetičnih značilk, ne moremo ugotoviti kakšnih izrazitih posebnosti v delovanju različnih postopkov in različnih značilk. Tako s CVS kot VUS značilkami smo dobili dobre rezultate razpoznavanja. Tudi s postopki segmentacije nismo pridobili kakšnih izrazitih razlik v delovanju, čeprav smo v obeh primerih zbirk s segmentacijo BICseg-GMM dobili malce boljše rezultate. Lahko pa ugotovimo, da so predlagane fonetične značilke neodvisne od jezika razpoznavanja, saj smo v primeru obeh razpoznavalnikov glasov dobili zelo primerljive rezultate, ki se ujemajo s poteki rezultatov GNG segmentacije na razvojni zbirki. Najboljše rezultate razpoznavanja smo dosegli s kombinacijo predstavitev v postopkih GNG segmentacije s fuzijo. V obeh primerih fuzije smo s kombinacijo dveh predstavitev presegli rezultate razpoznavanja samostojnih predstavitev. Prav tako kot v razvojni zbirki je bilo tudi tu v primeru fuzije MFCC+ent.,din. opazno izrazito odstopanje razpoznavanja govora in ne-govora v primeru optimalnih in neoptimalnih izbir uteži (še posebej v tabeli 3.3). Generalno gledano pa smo najboljše rezultate GNG segmentacije dosegli s fuzijo MFCC in CVS značilk. To govori v prid dejstvu, da z združevanjem akustične in fonetične informacije pridobimo dvoje: z akustičnimi značilkami povečamo detekcijo govora (predvsem kratkih segmentov), s fonetičnimi pa detekcijo ne-govornih pojavov, hkrati pa še povečamo stabilnost delovanja postopkov GNG segmentacije. Če vse skupaj povzamemo, lahko na podlagi rezultatov iz razvojne zbirke in rezulta- 70________________________________________3. Detekcija govornih delov v zvočnih posnetkih tov iz tabel 3.2 in 3.3 ugotovimo, da s predlaganimi fonetičnimi značilkami izboljšamo delovanje postopkov GNG segmentacije. To lahko razložimo z dejstvom, da so bile te značilke namensko pridobljene za detekcijo govornih in ne-govornih segmentov, medtem ko se značilke MFCC in značilke entropije-dinamizma uporabljajo širše. Poglavitna prednost fonetičnih značilk je predvsem v stabilnosti delovanja postopkov GNG segmentacije ob uporabi teh značilk. Medtem ko je zanesljivost delovanja postopkov z MFCC značilkami in značilkami entropije-dinamizma močno nihala, smo s CVS (VUS) značilkami dosegali podobne rezultate v različnih pogojih delovanja. Najboljše rezultate GNG segmentacije smo dosegli s kombinacijo MFCC in CVS značilk, s čimer smo pokazali, da z združevanjem akustične in fonetične informacije pridobimo najboljše predstavitve zvočnih posnetkov za GNG segmentacijo. 3.5 Zaključek V tem poglavju smo se posvečali predstavitvam in postopkom segmentacije zvočnih posnetkov na govorne in ne-govorne odseke. V ta namen smo razvili novo predstavitev zvočnih signalov, s katero smo lahko izvajali detekcijo govora v segmentih samo na podlagi dveh modelov razvrščanja: modela govora in modela ne-govora. S tem smo sledili osnovnemu principu detekcije govora, kjer imamo definirana samo dva razreda razvrščanja in je razred ne-govora določen z razredom govora. Predstavitev je temeljila na fonetični informaciji, ki smo jo pridobili iz samodejnih transkripcij govora na podlagi osnovnih razpoznavalnikov glasov. Na ta način smo izpeljali štiri osnovne mere značilk, ki so bile izvedene iz dveh kombinacij skupin glasov: parov samoglasnik - soglasnik in parov zvenečih in nezvenečih glasov. Značilke so bile načrtovane tako, da so bile neodvisne od jezika razpoznavanja in modelov osnovnih govornih enot, ki so bile vključene v razpoznavalnik. Pridobivanje značilk je bilo zasnovano tako, da smo jih lahko vključili v različne sisteme segmentacije posnetkov na govor in ne-govor. Preizkušali smo tudi dva postopka segmentacije. Oba sta temeljila na GMM modelih. V prvem postopku sta se izvajala segmentacija in razvrščanje istočasno. To smo dosegli s sestavljanjem GMM modelov v HMM modele. V alternativnem postopku segmentacije, ki smo ga razvili skupaj s fonetičnimi značilkami, pa sta potekala segmentacija in razvrščanje ločeno. V prvi fazi se je izvedla segmentacija posnetkov glede na akustične lastnosti signalov, nato pa smo izračunali fonetične značilke in sprožili postopek razvrščanja z GMM modeli. Predlagane predstavitve in postopke smo primerjali z referenčnimi segmentacijami na dveh zbirkah zvočnih posnetkov informativnih oddaj, zbirki SiBN in zbirki COST278. Skupna ugotovitev vrednotenja postopkov GNG segmentacije na podlagi različnih predstavitev je bila, daje delovanje postopkov s fonetičnimi značilkami bolj robustno in stabilno ne glede na različne pogoje delovanja. Dodatna analiza rezultatov je pokazala, da so akustične predstavitve, ki smo jih v našem primeru modelirali z MFCC značilkami, in predstavitve na podlagi delovanja razpoznavalnikov, ki smo jih opisovali z entropijo in dinamizmom, zelo občutljive na spremenjene pogoje delovanja. Tako smo v vseh primerih teh predstavitev opazovali zelo spremenljive rezultate detekcije ne-govornih segmentov ob različnih izbirah uteži modelov detekcije. To pa se ni zgodilo v primeru 3.5. Zaključek________________________________________________________________71 fonetičnih značilk, kjer se je skupno razpoznavanje govora in ne-govora na testnih zbirkah gibalo med 95% in 98% na glede na izbiro odprtih parametrov segmentacije. Na ta način smo lahko pokazali, da so fonetične značilke manj občutljive na različne akustične razmere in na različne ne-govorne situacije, ki jih lahko pričakujemo v zvočnih posnetkih. Druga skupina preizkusov je zajemala postopke GNG segmentacije s kombinacijo različnih predstavitev zvočnih signalov. Osnovno vodilo je bilo, da bi z združevanjem osnovne - akustične informacije in višje - fonetične informacije izboljšali razpoznavanje krajših govornih ali ne-govornih odsekov, hkrati pa bi ohranili neobčutljivost segmentacije na različne pogoje delovanja. V primeru kombinacije fonetičnih in MFCC značilk nam je tako uspelo izboljšati rezultate GNG segmentacije v vseh preizkusih. Najboljše predstavitve in postopke GNG segmentacije smo uporabili v nadaljevanju pri segmentaciji in razvrščanju segmentov po govorcih. // Samodejna segmentacija zvočnih posnetkov 4.1 Uvod 4.2 Formulacija problema 4.3 Referenčne metode in kriteriji 4.4 Predlagane metode in kriteriji 4.5 Preizkusi postopkov segmentacije 4.6 Zaključek V tem poglavju se bomo posvetili segmentaciji zvočnih posnetkov informativnih oddaj. Namen segmentacije je razdeliti eno ali večmodalne tokove podatkov v homogene dele -segmente - glede na določene lastnosti, kijih vnaprej predpišemo. Tako se lahko izvaja segmentacija glede na govor/ne-govor, zamenjavo govorcev, spremembe akustičnega ozadja, spremembe kvalitete posnetka ipd. V tem poglavju se bomo na primeru posnetkov informativnih oddaj omejili na seg-mentacijo zvočnih posnetkov glede na zamenjave govorcev in spremembe akustičnega ozadja. V uvodu bomo natančneje formulirali problem segmentacije in pregledali nekaj temeljnih del s tega področja. V nadaljevanju bomo opisali dva obstoječa postopka segmentacije, ki smo jih preizkušali na naših zbirkah zvočnih posnetkov, in na podlagi katerih smo predlagali dva nova postopka segmentacije. Prvi predlagani postopek je izboljšana verzija osnovnega postopka segmentacije, le da je kriterij iskanja mej med segmenti določen z relativnim pragom. Drugi postopek pa temelji na združevanju dveh metod segmentacije na podlagi različne akustične informacije. Vse opisane postopke bomo primerjali med seboj na različnih zbirkah zvočnih posnetkov. 73 74_________________________________________4. Samodejna segmentacija zvočnih posnetkov 4.1 Uvod Pri določanju segmentov glede na zamenjave govorcev (ang. speaker change detection) in/ali akustičnega ozadja (ang. background change detection) gre za iskanje časovnih mej, kjer pride do zamenjave govorca in/ali spremembe v akustičnem ozadju zvočnega posnetka. Segment je tako definiran kot del posnetka med dvema mejama, kjer se zahtevane lastnosti ne spreminjajo. Postopki samodejne segmentacije zvočnih posnetkov glede na zamenjave govorcev (sprememba po govorcih, SG) in spremembe v akustičnem ozadju (sprememba po govorcih in v akustičnem ozadju, SAG) se uporabljajo v različnih sistemih govornih tehnologij. Običajno predstavljajo prvi korak pri obdelavi zvočnih posnetkov v sistemih, kjer je potrebno daljše posnetke 'smiselno' razdeliti na relativno kratke dele za nadaljnjo obdelavo. Takšnih sistemov je več, delimo pa jih na dve skupini. Prvo skupino tvorijo sistemi, ki temeljijo na samodejnem razpoznavanju govora, drugo pa sistemi, ki temeljijo na razpoznavanju govorcev. V primeru razpoznavanja govora s segmentacijo razdelimo zvočne posnetke na manjše dele, ki so primerni za razpoznavanje, s postopki SG ali SAG segmentacije pa skupaj s postopki rojenja pridobimo še informacijo o govorcih v takšnih posnetkih. V takem primeru lahko z uporabo tehnik prilagajanja modelov razpoznavanja glede na govorce znatno izboljšamo rezultate razpoznavanja [Zhang-02, Pusateri-02]. Podobno se v primeru razpoznavanja govorcev uporablja SG ali SAG segmentacija v postopkih sledenja in de-tekcije govorcev [Martin-00, Istrate-05, Moraru-05] ter indeksacije zvočnih posnetkov [Magrin-Chagnolleau-02] običajno v prvih fazah, kjer se izvaja strukturiranje posnetkov glede na govorce. V tem primeru z učinkovito SG ali SAG segmentacijo razdelimo posnetke na take dele, kjer en segment predstavlja enega govorca v nespremenjenih akustičnih pogojih. Zato govorimo o t.i. čistosti segmentov (ang. segment purity). Učinkovita segmentacija je tista, pri kateri dosežemo visoko stopnjo čistosti segmentov (ang. high segment purity). Pri pregledu raziskovalnega področja postopkov segmentacije v uvodnem poglavju smo razvrstili postopke glede na namen uporabe in glede na metode uporabljene pri sami segmentaciji. Glede na metode uporabljene pri segmentaciji smo razdelili postopke na dve skupini: metode segmentacije s predhodnim učenjem modelov in metode s sprotnim odločanjem na podlagi mer podobnosti med segmenti. Pri SG in SAG segmentaciji se skoraj izključno uporabljajo metode iz druge skupine. Za to obstajata vsaj dva razloga, ki smo jih omenili že v uvodnem poglavju. Poglavitni razlog je ta, da se SG (SAG) segmentacija izvaja kot začetni postopek v sistemih obdelave zvočnih posnetkov in zato običajno nimamo na razpolago nobene informacije o stanju obdelovanih posnetkov (npr. koliko in kakšni govorci so v posnetku, kakšnega tipa akustična ozadja lahko pričakujemo ipd.) in zato ni možno pri uporabi predhodno naučenih modelov predvideti vseh možnih pričakovanih situacij. Drugi razlog pa je v tem, da se za detek-cijo meje med dvema segmentoma ne moremo odločati samo na podlagi predhodnega znanja (predhodnih mej med segmenti), ampak vsakič znova na podlagi trenutne podobnosti ali različnosti med segmentoma. Zato je 'naraven' pristop reševanja problema SG (SAG) segmentacije uporaba mer podobnosti (različnosti) med dvema segmentoma. Pri takšni segmentaciji se tako predvsem ukvarjamo z izbiro kriterijev in predstavitvijo 4.2. Formulacija problema segmentacije________________________________________________75 zvočnih signalov za določanje podobnosti (različnosti) med segmenti. V nadaljevanju bomo tako v razdelku 4.2 najprej formulirali problem SG in SAG segmentacije in opisali dva referenčna postopka segmentacije, ki temeljita na Bayesovem informacijskem kriteriju (ang. Bayesian information criterion, BIC) kot meri podobnosti med dvema segmentoma. Bistvena lastnost takšnih in podobnih postopkov, kjer se uporabljajo mere podobnosti ali različnosti med segmentoma, je, da se sprejema odločitev o možni meji na podlagi vnaprej določenega praga združevanja. Tak prag se običajno oceni iz razvojne zbirke in ga je potrebno vedno znova prilagajati glede na akustične lastnosti posnetkov, ki jih obdelujemo. To predstavlja tudi glavno pomanjkljivost takšnih metod. V razdelku 4.4.1 je tako predstavljen postopek segmentacije z uporabo kriterija BIC, kjer se prag odločitve določa sprotno na podlagi zvočnega posnetka, ki ga trenutno obdelujemo, in tako ni že vnaprej podan. Takšen pristop k segmentaciji nam je omogočil tudi normalizacijo ocen odločitev (ang. score normalization), zato smo lahko razvili še drugi postopek segmentacije z združevanjem BIC ocen na podlagi različnih značilk segmentov, ki je predstavljen v razdelku 4.4.2. Predlagane metode segmentacije smo primerjali z referenčnima metodama na zbirkah SiBN in COST278. Rezultati segmentacije so predstavljeni v razdelku 4.5. 4.2 Formulacija problema segmentacije V postopkih SG ali SAG segmentacije, ki temeljijo na merah podobnosti (različnosti) med segmenti, izvedemo iskanje mej na podlagi odločitve, ali sta dva sosedna odseka analiziranega zvočnega signala med seboj podobna (različna) ali ne. Če označimo levi odsek zvočnega posnetka z X, desnega pa z Y, kot je to prikazano na sliki 4.1, potem je kandidat za mejo med njima tista točka t, kjer v primeru mere podobnosti med odsekoma dosežemo najmanjšo vrednost kriterijske funkcije oziroma v primeru mere različnosti največjo vrednost. Odločitev, ali je točka t meja ali ne, pa običajno sprejmemo na podlagi vnaprej podanega praga segmentacije. -Z- -X- -Y- Slika 4.1: Odseka X in Y zvočnega signala, kjer se odločamo ali postavimo mejo t ali ne. Učinkovito iskanje mej med odseki zvočnih posnetkov v primeru SG (SAG) segmentacije je torej odvisno od pravilne izbire mere podobnosti (različnosti) med odseki, postavitve praga odločitve za detekcijo meje in same predstavitve odsekov zvočnih signalov. Za segmentacijo celotnega zvočnega posnetka pa je bistvenega pomena postopek iskanja segmentov. V okviru doktorskega dela smo se tako ukvarjali s pravilno postavitvijo pragov za detekcijo mej, s predstavitvami zvočnih signalov in s postopki segmentacije. 76_________________________________________4. Samodejna segmentacija zvočnih posnetkov Za mere podobnosti ali različnosti med odseki se uporabljajo predvsem mere verjetnostne različnosti [Pavešič-00, str. 168] in informacijski kriteriji [Burnham-03]. V prvem primeru primerjamo dva sosedna odseka na podlagi verjetnostnih porazdelitev ocenjenih iz predstavitev zvočnih signalov danih odsekov, v drugem pa primerjamo modele naučene iz danih odsekov. Primerjava dveh sosednih odsekov je lahko neposredna (uporabimo mero primerljivosti neposredno na odsekih X in Y iz slike 4.1), lahko pa jih primerjamo posredno preko skupnega odseka (primerjamo odseka X in Y s skupnim odsekom Z na sliki 4.1). Med najbolj uveljavljenimi merami verjetnostne različnosti pri SG (SAG) segmentaciji je simetrična Kullback-Leiblerjeva mera KL2 [Pavešič-00, str. 168], pri informacijskih kriterijih pa je najbolj uveljavljen kriterij BIC [Scwartz-76, Fraley-98]. V različnih študijah [Cettolo-00, Cettolo-05, Zibert-04] je bilo pokazano, da so najboljše mere za SG (SAG) segmentacijo tiste, pri katerih se izvaja primerjava odsekov posredno preko skupnega odseka, in med njimi je bil najboljši kriterij BIC. Zato smo za izbrano mero podobnosti v vseh naših postopkih uporabljali kriterij BIC, ki je opisan v naslednjem razdelku. 4.2.1 Kriterij BIC Kriterij BIC je prvi predlagal Schwartz [Scwartz-76], pri SG (SAG) segmentaciji pa sta ga prva uporabila Chen in Gopalakrishnan [Chen-98], ki sta tudi prva formulirala problem SG segmentacije kot problem izbire pravih modelov za opisovanje odsekov zvočnih posnetkov. Osnovna lastnost kriterija BIC je namreč v tem, da se za vsaka dva sosedna odseka sprašujemo, ali jih je boljše opisati z dvema ločenima modeloma ali z enim skupnim modelom. Formulirajmo problem bolj natančno. Denimo, da segmenta X in Y iz slike 4.1 opišemo z zaporedjem vzorcev X = {x\,X2, ¦ ¦ ¦ ,xnx} in Y = {j/i, j/2, • • • ,VNy}, kjer sta Nx in Ny števili vzorcev v obeh odsekih. Označimo skupni odsek Z kot unijo obeh odsekov, torej Z = X U Y, s skupnim številom vzorcev N = Nx + Ny. Pri kriteriju BIC za model predstavitve odsekov izberemo funkcijo porazdelitve gostote verjetnosti p(. | 9), kjer 9 predstavlja parametre porazdelitve p. V tem primeru predpostavljamo, da so vzorci {xi} in {j/j} predstavljeni z naključnimi spremenljivkami, ki so enako porazdeljene in med seboj neodvisne (ang. independent and identically distributed, IID). Označimo parametre porazdelitve odsekov X, Y in Z s 9x, 9y in Qz. Običajno se za p izbere funkcijo gostote verjetnosti normalne porazdelitve, tako da so parametri takšnega modela predstavljeni z ocenjenim povprečnim vektorjem m in kovariančno matriko S vzorcev danega odseka. Iskanje meje med dvema odsekoma pri SG (SAG) segmentaciji se tako pri kriteriju BIC prevede na odločitev med dvema hipotezama. Predpostavka prve hipoteze H0 je, da v času t ni meje med odsekoma X in F oziroma, da je zaporedje vzorcev {xi} in {i/i} odsekov X in Y prispeval isti govorec pri SG segmentaciji oziroma isti vir pri SAG segmentaciji. V tem primeru lahko logaritem vrednosti gostote verjetnosti (ang. 4.2. Formulacija problema segmentacije________________________________________________77 log-likelihood, LLH) za hipotezo H0 zapišemo kot: Nx Ny L0 = J]logp(xra | Oz) + ^logp(yra | Oz). (4.1) n= i n= i Pri drugi hipotezi Hx je predpostavka, da točka v času t predstavlja mejo med odsekoma X in Y oziroma, da sta zaporedje vzorcev odseka linfv primeru SG segmentacije tvorila dva različna govorca (v primeru SAG segmentacije dva različna vira). V tem primeru je logaritem vrednosti gostote verjetnosti (LLH) enak: Nx Ny Li = J]logp(xra | dx) + J]logp(yra | 9Y). (4.2) n=i n=i Kriterij BIC v primeru SG (SAG) segmentacije je tako definiran kot [Ajmera-04]: dBic = Li-L0-yAK-log N, (4.3) kjer sta L0 in Li definirana z enačbama (4.1) in (4.2), N je število vzorcev v skupnem odseku Z, AK predstavlja razliko v številu parametrov med modeloma iz hipoteze Hi in H0, A pa je utežni faktor kriterija BIC. V primeru Gaussovih porazdelitev se kriterij prevede na [Chen-98]: dBic = y log|Sz| " ^log|Lx| - ^log|Sy| - \{d+ ^-^) -logN, (4.4) kjer so Sj, Sy in S^ ocenjene kovariančne matrike odsekov X, Y in Z ter d dimenzija vektorjev vzorcev danih segmentov. Razlika Lx — L0 v enačbi (4.3) predstavlja razliko v oceni podatkov iz modelov hipotez Hi in H0, drugi del enačbe AK ¦ logN pa razliko v kompleksnosti modelov. Razlika Li — L0 je vedno pozitivna, saj podatke iz odseka Z v primeru Li ocenjujemo z dvema porazdelitvama in je zato LLH večji (model je boljši), v primeru L0 pa jih ocenjujemo samo z eno porazdelitvijo in je zato LLH manjši. Po drugi strani pa imamo v primeru dveh modelov (dveh porazdelitev) še enkrat več parametrov kot v primeru enega modela (porazdelitve) in je zato kompleksnost modela pri hipotezi Hi večja kot v primeru H0. Z utežnim faktorjem A tako uravnavamo razmerje med kvaliteto ocen in kompleksnostjo modelov. V splošnem velja, večja kot je vrednost dBic, boljše opišemo dane podatke s kompleksnejšim modelom (torej z dvema porazdelitvama), manjša kot je vrednost dBic, boljše opišemo podatke z manj kompleksnim modelom (torej z eno porazdelitvijo). To v primeru SG (SAG) segmentacije pomeni, večja kot je vrednost dsic, bolj verjetna je hipoteza Hi, in obratno, manjša kot je vrednost dsic, bolj verjetno velja hipoteza H0. Odločitev med obema hipotezama se uravnava z utežnim faktorjem A in velja, če je dBic > 0, velja hipoteza Hi, če je dsic < 0, pa velja hipoteza H0. V osnovni definiciji kriterija BIC [Scwartz-76] je A = 1, vendar se je v primeru SG (SAG) segmentacije izkazalo, da je potrebno za doseganje optimalnih rezultatov spreminjati vrednost A. Tako je Kemp s sod. [Kemp-00] pokazal, da so rezultati segmentacije močno odvisni od spreminjanja vrednosti A in so pri A = 1 slabši, 78_________________________________________4. Samodejna segmentacija zvočnih posnetkov kot pa pri izbiri optimalnih vrednosti. Številni avtorji uporabljajo različne vrednosti A, [Tritschler-99, Vandecatseye-03], ki jih določajo izkustveno ali na podlagi razvojnih zbirk [Delacourt-01]. V naših preizkusih smo določali vrednosti A glede na optimalne rezultate segmentacije na razvojni zbirki. A predstavlja implicitno določen prag segmentacije, pri katerem se odločamo za eno izmed hipotez H0 ali H\. Kot se je pokazalo v številnih eksperimentih segmentacije [Chen-02, Ajmera-04, Vandecatseye-03] in smo opazili tudi mi pri naših preizkusih, z večjimi vrednostmi A ne uspemo detektirati vseh mej med dejanskimi segmenti, z manjšimi vrednostmi A pa detektiramo preveč mej, kot je dejanskih. 4.3 Referenčne metode segmentacije V nadaljevanju bomo opisali dva referenčna postopka segmentacije, ki delujeta na podlagi kriterija BIC. Predstavljena referenčna postopka se razlikujeta v načinu iskanja kandidatov za meje med posameznimi segmenti, medtem ko za odločitev, ali je predlagani kandidat res meja, uporabljata kriterij BIC. Predstavljena sta oba postopka, ker smo na podlagi obeh pristopov zgradili nov postopek segmentacije z normalizacijo ocen odločitev za meje, ki ga bomo opisali v naslednjem razdelku. 4.3.1 Osnovni postopek segmentacije s kriterijem BIC Postopek SG (SAG) segmentacije zvočnih posnetkov, ki bo opisan v nadaljevanju, sta predlagala Chen in Gopalakrishnan [Chen-98]. Osnovna ideja postopka je, da se začetni osnovni odsek, kjer iščemo potencialna segmenta, povečuje toliko časa, dokler s kriterijem BIC ne najdemo meje med levim in desnim delom danega odseka. Ko takšno mejo najdemo, jo označimo s t, postavimo odsek iskanja meje na osnovno dolžino z začetkom v točki t + 1 in ponovimo postopek iskanja. Postopek segmentacije [Ajmera-04, Chen-98] se tako izvaja po naslednjih korakih: 1. določi interval iskanja meje [a,b] a = 0; b= MIN.ODSEK; 2. poišči kandidata za mejo na intervalu [a, b] glede na kriterij BIC t = argmax[a)6] dBIC; 3. če je dsic < 0 v točki t, potem velja hipoteza H0 b = 6 + D0DAMI_VZ0RCI; če je dsic > 0 v točki t, potem velja hipoteza H\ a = t + l; b = a + MIN_0DSEK; 4. če velja b- a> MAX_0DSEK, potem a = b- MAX_0DSEK; b = a + MIM.ODSEK; 5. ponovi točko 2. 4.3. Referenčne metode segmentacije__________________________________________________79 Poleg A v kriteriju BIC, dBIC, so odprti parametri postopka še MIN.ODSEK, DODANI.VZORCI in MAX_0DSEK, ki jih običajno določimo iz razvojnih zbirk glede na optimalne rezultate segmentacije in glede na željeno hitrost delovanja algoritma. Dejstvo je namreč, da za vsak izračun kriterija dsic potrebujemo nove ocene modelov levega, desnega in skupnega odseka na intervalu [a, b] in večji kot je odsek, več časa potrebujemo za izračun parametrov modelov. Pri uporabi Gaussovih porazdelitev za modele segmentov je potrebno pri iskanju največje vrednosti kriterija BIC iz (4.4) za vse t iz intervala [a, b] vsakič znova ocenjevati kovariančne matrike levega (X) in desnega odseka (Y), medtem ko se za skupni odsek (Z) izračuna kovariančna matrika samo enkrat na iteracijo. Zato so bile v [Tritschler-99] in v [Cettolo-05] predlagane številne izboljšave za pohitri-tev postopka segmentacije, predvsem kriterija BIC, ki jih omogoča uporaba Gaussovih porazdelitev za modeliranje segmentov. Opozoriti velja tudi, da se pri iskanju kandidatov za možno mejo med segmenti izbere samo tisti t, pri katerem doseže vrednost cIbic lokalni maksimum na intervalu [a, b] (korak 2 v postopku), kljub temu da lahko za več t-jev iz intervala velja hipoteza Hi (torej cIbic > 0 pri danem t). Izbiro takšnega t, pri katerem doseže cIbic maksimalno vrednost, lahko utemeljimo z dejstvom iz razdelka 4.2.1, da večja kot je vrednost cIbic, bolj verjetna je hipoteza H\. Opisani postopek segmentacije z izboljšavami, predlaganimi v [Tritschler-99], smo uporabili kot referenčno metodo pri vrednotenju postopkov segmentacije v naših preizkusih. 4.3.2 Postopek segmentacije DISTBIC Postopek segmentacije DISTBIC je bil predlagan v [Delacourt-01] in je v bistvu izboljšana verzija postopka [Siegler-97], ki so ga uporabljali kot referenčni postopek segmentacije v evaluacijah NIST Hub-4 samodejnega podnaslavljanja informativnih oddaj [Pallett-02]. Postopek segmentacije DISTBIC poteka v dveh fazah. V prvi poiščemo kandidate za meje med segmenti, v drugi pa se na podlagi kriterija BIC odločamo, ali je kandidat res meja ali ne. Tako se v postopku DISTBIC predpostavlja, da imamo celotne posnetke že na razpolago, medtem ko je pri osnovnem postopku BIC možna sprotna segmentacija posnetkov. Na sliki 4.2 je prikazana prva faza segmentacije DISTBIC. Tu se odločamo o kandidatih za možne meje med segmenti na podlagi mere razdalje1 med odseki (od tod tudi prvi del imena metode, DIST je okrajšava za razdaljo (ang. distance)). Postopek iskanja kandidatov za mejo se v tem primeru prevede na iskanje lokalnih maksimumov kriterijske funkcije, ki je definirana kot mera razdalje med dvema sosednima enako dolgima odsekoma zvočnega signala. Tako se razdalja d{t) v točki t iz slike 4.2 izračuna kot vrednost mere podobnosti med odsekoma L _odsek{t) in R_odsek{t). Odseki L_odsek in R_odsek so enakih dolžin za vse t. Dolžine odsekov izbiramo tako dolge, xZa mero razdalje se ne uporablja nujno metrika (razdalja) v matematičnem smislu, ampak se lahko uporablja poljubna mera podobnosti (različnosti) med segmentoma. Zato uporabljamo izraz mera razdalje in ne samo razdalja. 80 4. Samodejna segmentacija zvočnih posnetkov segmentacija: izračun razdalje d med odseki L-odsek(t) R-odsek(t) L.odsek{t + \) R.odsek{t + 1) L.odsekit + 2) R.odsekit + 2) y t t d(t) d(t + 1) d(t + 2) Slika 4.2: Prva faza segmentacije DISTBIC. Izračun razdalj d na enako dolgih levili in desnih odsekih za vsak t po celotnem posnetku. da lahko dovolj dobro ocenimo vrednosti mere podobnosti, ki jo računamo. Običajne dolžine odsekov za segmentacijo so okoli 2.0 s, [Delacourt-01]. Razdalja v času t + 1 se izračuna povsem enako kot za točko t, le da se premaknemo v signalu za predpisani premik naprej (lahko je en vzorec - en vektor v zaporedju vektorjev značilk, s katerimi predstavimo analizirani signal, ponavadi to pomeni, da se premikamo za nekaj deset milisekund analiziranega signala) in ponovimo izračun za vrednost razdalje d na premaknjenih odsekih. Ko izračunamo razdalje d za vse predpisane t, poiščemo med njimi točke, kjer vrednosti kriterijske funkcije dosežejo lokalne maksimume. Kandidat za mejo postane tisti lokalni maksimum zglajene verzije kriterijske funkcije, ki ustreza določenim dodatnim pogojem, predpisanim v [Delacourt-01]. Druga faza segmentacije DISTBIC poišče dejanske meje med kandidati za mejo iz prve faze postopka. Tu se za detekcijo meje uporablja kriterij BIC (od tod tudi drugi del imena metode). Meja med segmentoma postane tista točka t, za katero velja hipoteza HI, torej dsic > 0 v točki t. Točke, za katere je dsic < 0, izločimo in segmenta združimo. V obeh fazah postopka nastopajo mere podobnosti (različnosti) med segmenti. V osnovni verziji postopka [Siegler-97] so tako v obeh fazah uporabljali simetrično Kullback-Leiblerjevo mero, medtem ko so v [Delacourt-01] testirali različne mere za iskanje kandidatov za mejo v prvi fazi, v drugi fazi pa so uporabljali kriterij BIC. Najboljše rezultate segmentacije so dobili, ko so za kriterijsko funkcijo izbrali razliko v LLH-jih skupnega odseka in vsote levega in desnega odseka, L\ — L0 iz enačbe (4.3), (ang. generalized log-likelihood ratio, GLLR). Tudi mi smo zato v vseh naših preizkusih segmentacije s postopkom DISTBIC uporabili v obeh fazah kriterij BIC, pri čemer smo v prvi fazi A postavili na 0.0, v drugi fazi postopka pa smo uporabljali optimalne A pridobljene iz razvojnih zbirk. 4.4. Predlagane metode segmentacije 81 WaveSurfer 1.6.3 Slika 4.3: Postopek DISTBIC segmentacije na delu posnetka informativne oddaje. V zgornjem oknu je prikazan potek kriterijske funkcije na podlagi (Ibig iz prve faze postopka. V srednjem oknu so prikazane izračunane vrednosti (Ibig iz druge faze na kandidatih za mejo, ki smo jih določili v prvi fazi postopka. V spodnjem oknu je prikazan zvočni signal skupaj z dejanskimi mejami segmentov različnih govorcev, ki so predstavljene z navpičnimi črtami po celotni sliki. Na sliki 4.3 je prikazan primer segmentacije s postopkom DISTBIC. V zgornjem oknu je prikazan potek kriterijske funkcije GLLR v primeru dela posnetka informativne oddaje. V srednjem oknu so prikazane vrednosti kriterija BIC iz druge faze pri A = 1.0 v točkah lokalnih maksimumov iz prve faze postopka. Spodnje okno pa prikazuje zvočni signal skupaj z dejanskimi mejami med segmenti. Kot lahko vidimo, se v večini primerov lokalni maksimumi kriterijske funkcije ujemajo z dejanskimi mejami med segmenti. Tudi vrednosti dsic pri A = 1.0 v srednjem oknu potrjujejo, da so izbrane točke res meje med segmenti, težava pa je v tem, da so lokalni maksimumi v nekaterih primerih zelo izraziti, v nekaterih primerih pa ne. Zato je potrebno izvajati izredno natančno iskanje lokalnih maksimumov, ki predstavljajo prave kandidate za meje. To pa predstavlja tudi glavno pomanjkljivost te metode. 4.4 Predlagane metode segmentacije V prejšnjih razdelkih smo si ogledali dva postopka segmentacije, ki temeljita na kriteriju BIC za določitev meje med segmenti. Kriterij BIC se je v različnih preizkusih segmentacij izkazal za izredno učinkovito mero podobnosti med segmenti. To pa predvsem zato, ker se primerjava med segmenti ne 82_________________________________________4. Samodejna segmentacija zvočnih posnetkov izvaja neposredno na množicah vzorcev analiziranih segmentov, ampak posredno preko modelov predstavitev danih segmentov. S tem se doseže manjšo občutljivost na spremembe v zvočnih signalih in se obravnava segmente kot enovite celote. Druga prednost kriterija BIC s podobnimi merami je tudi v tem, da se dva segmenta ne primerjata neposredno med seboj, ampak daje izvedena primerjava preko skupnega segmenta. Na ta način se izognemo absolutnim ocenam primerjave in dejansko merimo relativne odmike, koliko se levi in desni segment, predstavljena z ločenima modeloma, razlikujeta od skupnega segmenta, predstavljenega z enim modelom. Kriteriji, ki delujejo na podoben način (informacijski kriteriji AIC2, MDL3, ...), so bili tudi že preizkušeni v postopkih segmentacije [Cettolo-00, Zibert-04], vendar se je z njimi dosegalo slabše ali primerljive rezultate s kriterijem BIC. Zato se je kriterij BIC uveljavil kot skoraj edini kriterij za SG (SAG) segmentacijo. Glavna pomanjkljivost postopkov segmentacije, ki temeljijo na kriteriju BIC, je v odločitvi, ali je dana točka meja med segmentoma ali ne. Ta odločitev se sprejema na podlagi vrednosti cIbic in pogoja cIbic ^ 0. Ali je vrednost cIbic večja ali manjša od 0, pa je odvisno od izbire A, ki tako implicitno določa prag odločitve. Izbira prave A je odvisna tako od predstavitve zvočnih signalov, ki jih obdelujemo, kot od postopka segmentacije in nastavitve odprtih parametrov postopkov (npr. MIN_0DSEK, D0DAMI_VZ0RCI in MAX_0DSEK pri osnovni metodi, ali pa dolžina odsekov L_odsek in R_odsek pri metodi DISTBIC). Prag odločitve je potrebno prilagajati zaradi različne kvalitete in tipov zvočnih posnetkov, kijih obdelujemo, zato je najpogostejši način določitve A in ostalih odprtih parametrov postopkov segmentacije na podlagi optimalnih rezultatov segmentacije na razvojnih zbirkah [Delacourt-01, Vandecatseye-03]. Drugi način je izbira kriterijev in predstavitev zvočnih signalov, ki so manj občutljivi na pričakovane spremembe v kvaliteti in tipu posnetkov, [Ajmera-03]. V okviru doktorskega dela bomo v nadaljevanju predstavili drugačno rešitev problema iskanja optimalnega praga odločitve za mejo. Ker se prag odločitve spreminja od posnetka do posnetka in je močno odvisen tudi od drugih odprtih parametrov postopka segmentacije, kijih lahko sprotno spreminjamo, predlagana metoda temelji na relativno določenem pragu, ki ga sprotno prilagajamo glede na dani posnetek. V ta namen smo združili oba referenčna postopka segmentacije: postopek DISTBIC smo uporabili za oceno praga odločitve, osnovni postopek, opisan v razdelku 4.3.1, s prilagodljivim pragom odločitve pa za detekcijo mej med segmenti. 4.4.1 Postopek segmentacije s kriterijem BIC in relativno določenim pragom Ker so se postopki segmentacije s kriterijem BIC izkazali za učinkovite v primeru optimalne izbire prostih parametrov in konstantnih pogojev zvočnih posnetkov, smo se tudi mi v okviru doktorskega dela odločili za SG (SAG) segmentacijo z uporabo kriterija BIC. Kot je bilo že nakazano v prejšnjem razdelku, največji problem takšnih postopkov predstavlja prav izbira optimalnih odprtih parametrov postopkov, predvsem izbira 2AIC je kratica za Akaike Information Criteria. 3MDL je kratica za mero Minimum Description Length. 4.4. Predlagane metode segmentacije 83 praga odločitve za mejo, ki ga predstavlja A. V nadaljevanju bomo opisali postopek segmentacije, kjer prag odločitve za mejo sprotno prilagajamo glede na spremembe zvočnih razmer v posnetkih, ki jih obdelujemo. V predlaganem postopku smo združili oba postopka segmentacije: osnovni postopek (refBIC), opisan v razdelku 4.3.1, in postopek DISTBIC. Oba postopka temeljita na kriteriju BIC, pa tudi segmentacija se izvaja na podoben način. Pri postopku DISTBIC najprej na podlagi lokalnih maksimumov poiščemo kandidate za meje v prvi fazi, v drugi pa jih izločamo, pri postopku refBIC pa obe fazi opravimo hkrati. Če tudi v prvi fazi postopka DISTBIC za iskanje kandidatov za meje uporabimo kriterij BIC, postane delovanje obeh postopkov zelo podobno. V obeh primerih se v točkah maksimumov kriterija BIC odločamo za mejo med segmentoma, razlika je le v tem, da v primeru postopka DISTBIC iščemo lokalne maksimume na celotnem posnetku, v primeru refBIC pa iščemo globalne maksimume na krajših odsekih danega posnetka (na intervalu [a, b] iz koraka 2 postopka refBIC). V obeh primerih so torej kandidati za meje lokalni maksimumi, le da jih v primeru postopka DISTBIC iščemo globalno na podlagi vrednosti kriterijske funkcije na fiksno določenih odsekih izračuna kriterija BIC, medtem ko v primeru postopka refBIC iščemo lokalno med vrednostmi BIC izračunanimi na spremenljivih odsekih. Na splošno torej velja, da pri postopku DISTBIC v primeru, če za mero podobnosti uporabimo kriterij BIC, računamo vrednosti BIC na vedno enako določenih odsekih, pri postopku refBIC pa na spremenljivih odsekih. To pa pomeni, da se vrednosti ocen kriterija BIC v obeh primerih približno enako obnašajo. Se pravi, da v okolicah potencialnih mej med segmenti dobimo višje vrednosti kriterija BIC, na področjih, kjer ni meje pa primerjalno nižje vrednosti ne glede na izbrano A. Primerjava vrednosti ocen kriterija BIC pri segmentaciji z refBIC in DISTBIC značilke MFCC, A = 2.5, dnevnik-050603-1 značilke MFCC, A = 2.5, dnevnik-050603-1 800 .° 'o J 600 S o E-, 200 m 3 .a 0 > -600 -40 0 -20 0 0 200 400 600 vrednosti ocen pri segmentaciji 800 -600 -40 0 -20 0 0 200 40 0 600 X kvantil: ocene iz refBIC segmentacije (a) (b) Slika 4.4: Primerjava vrednosti ocen kriterija BIC pri segmentaciji s postopkoma refBIC in DISTBIC v primeru ene ure posnetka TV dnevnika. Slika (a) prikazuje histograma vrednosti ocen kriterija BIC obeh segmentacij, na sliki (b) pa je graf kvantil-kvantil primerjav. To dejstvo je lepo razvidno iz prikazov na sliki 4.4. Tu smo primerjali vrednosti kriterija BIC v postopku refBIC in DISTBIC segmentacije na približno eni uri posnetka informativne oddaje. V obeh primerih smo izvajali segmentacijo na podlagi standardnih statičnih značilk koeficientov melodičnega kepstra MFCC pri A = 2.5. Na sliki 4.4 (a) 84_________________________________________4. Samodejna segmentacija zvočnih posnetkov je prikazan histogram porazdelitev ocen kriterija BIC v primeru obeh postopkov. Kot lahko ugotovimo, se ocenjene porazdelitve vrednosti obeh segmentacij ujemajo, le da sta malce zamaknjeni. To je posledica dejstva, da smo pri DISTBIC segmentaciji uporabili okno izračuna kriterija BIC dolžine 3.0 s, medtem ko pri refBIC segmentaciji računamo kriterij BIC, (Lbic, na spremenljivih odsekih dolžine od 2.0 do 10.0 s. Ujemanje porazdelitev ocen kriterija BIC je še bolj razvidno na sliki 4.4 (b), kjer smo primerjali med seboj kvantile obeh porazdelitev. Prekinjena premica na sliki 4.4 (b) predstavlja ekstrapolirano premico med prvim in tretjim kvartilom obeh porazdelitev in služi kot merilo za linearno ujemanje obeh porazdelitev. V splošnem velja, bližje kot so točke kvantilov obeh porazdelitev ekstrapolirani premici, večja je linearna odvisnost obeh porazdelitev. V našem primeru je ujemanje veliko, zato lahko zaključimo, da se ocene kriterijev BIC v obeh segmentacijah porazdeljujejo enako. To spoznanje nam je omogočilo, da smo lahko iz postopka segmentacije DISTBIC se-gmentacije ocenjevali vrednosti kriterijske funkcije postopka refBIC. V našem primeru nas je zanimal predvsem interval porazdelitve DISTBIC ocen, saj smo na podlagi minimalne in maksimalne vrednosti ocen postopka DISTBIC lahko sklepali na interval porazdelitve ocen iz postopka refBIC. Tako smo na podlagi intervala minimalne in maksimalne vrednosti DISTBIC ocen določili prag odločitve za mejo v postopku refBIC. Postopek je potekal v dveh fazah. V prvi fazi smo izračunali vrednosti kriterija BIC na vnaprej določenih odsekih analize danega posnetka. V bistvu smo izvedli prvo fazo postopka DISTBIC. Iz izračunanih ocen smo poiskali minimalno (minBIC'distbic) in maksimalno vrednost ocen (maxBICoisTBic) ter tako določili interval porazdelitev vrednosti DISTBIC. Na podlagi relativnega deleža ocen a, ki je bil podan kot vhodni parameter predlaganega postopka segmentacije, smo določili prag segmentacije postopka refBIC po formuli: 9 = maxBICDISTBic - a ¦ {maxBICDisTBic ~ minBICDisTBic)- (4.5) Tako smo določili relativni prag segmentacije postopka refBIC. Prag 9 je posredno odvisen od izbire A in se od posnetka do posnetka razlikuje glede na ocenjene vrednosti kriterija BIC v postopku DISTBIC. Relativni delež ocen a smo izbirali med 0.0 in 0.2. Druga faza postopka je bila segmentacija s postopkom refBIC, opisanem v razdelku 4.3.1. Razlika je bila le v tem, da smo prag odločitve za mejo v koraku 3 postopka refBIC postavili na 9, torej če je bil cIbic > 9 v točki t, potem je bila točka t meja, če pa je veljalo cIbic < 9, potem točka t ni bila meja. Pri tem smo seveda predpostavili, da sta A v postopku DISTBIC in refBIC enaki. Z združitvijo obeh postopkov smo tako v predlaganem postopku segmentacije odpravili potrebo po iskanju optimalnih vrednosti A. Hkrati smo na podlagi relativnega deleža ocen a definirali relativni prag odločitve za meje med segmenti, ki se spreminja glede na zvočne razmere v obdelovanih posnetkih. Relativni delež a predstavlja tudi bolj naravno izbiro praga kot pa absolutne vrednosti A, saj z njim določimo, kolikšen delež maksimalne ocene naj predstavlja prag odločitve. Omenimo še, da bi idejo o uvedbi relativnega praga lahko izvedli tudi v postopku DISTBIC pri iskanju lokalnih maksimumov za kandidate za meje. Med njimi bi lahko izbirali samo tiste lokalne maksimume, ki ležijo nad pragom 9. Izkazalo pa se je, da 4.4. Predlagane metode segmentacije 85 je ravno iskanje lokalnih maksimumov najbolj problematičen del postopka DISTBIC, zato smo relativni prag 9 raje uporabili pri segmentaciji s postopkom refBIC. 4.4.2 Postopek segmentacije z združevanjem različnih predstavitev zvočnih posnetkov Drugi stranski učinek ocenjevanja vrednosti referenčnega postopka refBIC iz vrednosti postopka DISTBIC je tudi možna normalizacija ocen kriterija BIC v osnovnem postopku. To nam je omogočilo uravnoteženo združevanje ocen segmentacije iz osnovnega postopka na podlagi različnih predstavitev zvočnih signalov. V nadaljevanju bomo zato opisali postopek, ki temelji na združevanju ocen kriterija BIC iz različnih predstavitev na podlagi min-max normalizacije vrednosti ocen [Jain-05]. Predlagani postopek predstavlja segmentacijo na podlagi odločitev, sprejetih iz skupnih normaliziranih in uravnoteženih ocen odločitev kriterija BIC iz več posamičnih segmentacij, zato govorimo o t.i. segmentaciji na podlagi fuzije ocen kriterija BIC (ang. score-based fusion). Osnovna ideja predlagane segmentacije je bila v tem, da bi združevali ocene kriterija BIC dveh različnih predstavitev zvočnih posnetkov z namenom povečanja zanesljivost odločanja o mejah med segmenti. Postopek z združevanjem ocen kriterija BIC (fuzBIC) je tako potekal v dveh fazah. V prvi fazi smo najprej ocenili vrednosti kriterija BIC na podlagi postopka DISTBIC, kot je bilo že opisano v prejšnjem razdelku. Tako pridobimo ocene za minimalno vrednost kriterija BIC, minBIC D i ISTBIC, in ocene za maksimalno vrednost, maxBIC D i ISTBIC za vsako izmed predstavitev zvočnih posnetkov Si. Na podlagi teh ocen določimo pragove 9st za posamične segmentacije predstavitev Si po formuli (4.5). Pragove 9st in ocene kriterijev BIC, d BIC, ki jih računamo iz enačbe (4.3) v osnovnem postopku segmentacije refBIC, normaliziramo po obrazcu: norm d%c =---------4/c ~ ™mBIC%STBIC---------_ "buXJDI(y DISTBIC llbblbJDl^ DISTBIC Podobno dobimo tudi normalizirane pragove norm_9si, le da v zgornjem obrazcu zamenjamo dBIC s 9st- V drugi fazi postopka izvajamo segmentacijo na podlagi referenčnega postopka refBIC, le da se tu zaradi združevanja ocen spremenita korak 2 in 3 osnovnega postopka opisanega v razdelku 4.3.1. Združevanje ocen različnih predstavitev izvedemo kot uteženo vsoto normaliziranih vrednosti kriterijev BIC, norm_dBIC, posamičnih predstavitev Sn s fus_dBIC = ^2 fwi ¦ norm_d%c. (4.7) i=\ fwi predstavljajo uteži združevanja posamičnih predstavitev Si in ustrezajo pogoju J2i=i fwi = 1) kjer je S število vseh predstavitev. Tako se v koraku 2 metode refBIC izvaja iskanje točke t, kjer vrednosti fus_dBic dosežejo maksimum na intervalu [a, b]. Med kandidati t za mejo med segmenti sprejmemo v koraku 3 osnovne metode tistega, 86_________________________________________4. Samodejna segmentacija zvočnih posnetkov za katerega je fus_d,Bic > fus_9, kjer je s fusJ = Y,fv>i-Osi. (4-8) i=\ Če velja fus_d,Bic < fus_9, kandidata v točki t zavrnemo in sledimo korakom osnovnega postopka naprej. Za normalizacijo ocen pri združevanju smo izbrali postopek min-max normalizacije, ki pa ne velja za najbolj učinkovitega med postopki normalizacije ocen predvsem zato, ker je zelo občutljiv na napake meritev (ang. outlier's scores), [Jain-05]. Za napake veljajo namreč tiste ocene meritev, ki se porazdeljujejo drugače kot večina vrednosti ocen in so ponavadi na robu intervala zaupanja v ocene. Takšne so v večini primerov maksimalne in minimalne vrednosti ocen, zato jih v večini postopkov normalizacije hočemo odpraviti. V našem primeru pa nam ravno maksimalne in minimalne ocene meritev predstavljajo osnovo za izračun pragov odločitve, zato smo temu dejstvu prilagodili tudi normalizacijo ocen. Preizkušali smo fuzijo dveh predstavitev zvočnih signalov: osnovnih značilk MFCC in njihovih odvodov ?MFCC, [Young-04]. V tem primeru je bil torej S = 2, imeli smo dve predstavitvi Si in S2 ter eno utež združevanja fw\, saj je bila druga določena s prvo, fw2 = 1 — fw\. Značilke MFCC in ?MFCC smo izbrali za segmentacijo iz več razlogov. Prvi je bil v tem, da se značilke MFCC skupaj s kombinacijo ?MFCC skoraj vedno uporabljajo v postopkih segmentacije. V naših preizkusih se je izkazalo, da smo tudi samo z uporabo značilk ?MFCC dobili zelo primerljive rezultate segmentacije kot samo z uporabo značilk MFCC. S primerjalnimi testi smo tudi ugotovili, da s statičnimi značilkami MFCC bolje detektiramo meje med segmenti, kjer se spreminjata bodisi akustično ozadje v zvočnem posnetku ali pa se zamenja govorec, medtem ko samo z ?MFCC bolje detektiramo zamenjave govorcev ob nespremenjenih akustičnih pogojih. Zato je bila za SG (SAG) segmentacijo smiselna uporaba kombinacije obeh tipov značilk. Običajno se pri standardnih postopkih SG (SAG) segmentacije ravno tako izbere 12 MFCC značilk skupaj z logaritmom kratkočasovne energije in njihove odvode [Young-04]. Tako dobimo 26-dimenzionalne vektorje akustičnih značilk, ki jih uporabljamo za ocenjevanje modelov kriterija BIC iz enačbe (4.4). V primeru normalnih porazdelitev moramo tako oceniti povprečni vektor m in (polno) kovariančno matriko S, kar v primeru 26-dimenzionalnih vektorjev pomeni ocenjevanje 351 parametrov. To pomeni, da imamo v primeru kratkih segmentov premalo vzorcev (vektorjev značilk) za dobre ocene parametrov modelov kriterija BIC in posledično slabšo segmentacijo krajših odsekov. To pomanjkljivost odpravlja segmentacija s fuzijo. Ker predstavimo značilke MFCC in ?MFCC kot dva toka podatkov Si in S2, na vsakem odseku tako ocenjujemo dva povprečna vektorja značilk s še enkrat manjšo dimenzijo in prav tako dve kovariančni matriki, kar v primeru 26-dimenzionalnih vektorjev predstavlja ocenjevanje 182 parametrov. Tako znatno znižamo dimenzijo modelov kriterija BIC in lahko boljše ocenjujemo modele tudi v primeru krajših segmentov. 4.5. Preizkusi postopkov segmentacije__________________________________________________87 4.5 Preizkusi postopkov segmentacije V naslednjih razdelkih so opisani preizkusi SAG segmentacije, ki smo jih izvedli v okviru doktorskega dela. Preizkušali smo vse štiri predstavljene postopke segmentacije: osnovni postopek (refBIC), opisan v razdelku 4.3.1, postopek DISTBIC, opisan v razdelku 4.3.2, postopek segmentacije z relativnim pragom (relpragBIC), opisan v razdelku 4.4.1, in postopek segmentacije s fuzijo (fuzBIC), opisan v razdelku 4.4.2. Vrednotenje postopkov je potekalo na dveh zbirkah zvočnih posnetkov informativnih oddaj, SiBN in COST278, predstavljenih v poglavju 2. Medtem ko je zbirka SiBN razmeroma enotna, v njej so namreč zbrani posnetki TV dnevnikov informativnih oddaj v slovenskem jeziku ene TV postaje, pa so v večjezični zbirki COST278 zbrani posnetki različnih informativnih oddaj iz različnih TV postaj v različnih jezikih. Tako smo v primeru zbirke SiBN primerjali učinkovitost postopkov v sorazmerno stabilnih zvočnih pogojih, z zbirko COST278 pa smo želeli ocenjevati robustnost postopkov segmentacije. V ta namen smo del zbirke SiBN uporabili kot razvojno zbirko za ocenjevanje vseh odprtih parametrov postopkov in za natančnejše analize postopkov segmentacije. Optimalno ocenjene parametre iz razvojne zbirke smo potem uporabili v vseh preizkusih segmentacij na zbirkah SiBN in COST278. V primeru SiBN smo tako izvajali postopke segmentacije na podlagi optimalnih izbir parametrov, medtem ko so bili parametri v primeru postopkov segmentacije na zbirki COST278 zaradi tega neoptimalno določeni. V nadaljevanju bomo naprej opisali mere za vrednotenje postopkov segmentacije, nadaljevali pa z opisom izvedbe preizkusov segmentacije na razvojni in na obeh testnih zbirkah. 4.5.1 Vrednotenje postopkov segmentacije V postopkih SAG segmentacije merimo običajno dva tipa napak. Napake prve vrste predstavljajo meje med dejanskimi segmenti, ki jih s postopkom segmentacije ne uspemo detektirati. Napake druge vrste pa predstavljajo meje, ki jih s postopkom segmentacije postavimo, vendar jih v dejanskih posnetkih ni. Napake prve vrste relativno izrazimo s priklicem (ang. recall, RCL), napake druge vrste pa z natančnostjo (ang. precision, PRC), [Kemp-00]: ^^r št. pravilno določenih mej RCL =------------------------------------- (4.9) št. napovedanih mej ^^^ št. pravilno določenih mej PRC =--------------------—-------------. (4.10) št. dejanskih mej Z mero priklica (RCL) ocenimo, koliko mej bi potrebovali, da bi pravilno napovedali dejanske meje. Mera natančnosti (PRC) pa nam podaja delež dejanskih mej, ki bi jih s segmentacijo pravilno določili. Običajno je v postopkih segmentacije priklic večji od natančnosti. Zaradi lažjega vrednotenja postopkov segmentacije pa se uporablja skupna mera napake, mera F (ang. F-measure), ki je sestavljena iz obeh napak: 2-PRC-RCL PRC + RCL K ' 88_________________________________________4. Samodejna segmentacija zvočnih posnetkov Vrednosti mere F so na intervalu med 0.0 in 1.0, večje vrednosti pomenijo večje ujemanje mej iz postopka segmentacije z dejanskimi mejami med segmenti. Pri obeh vrstah napak imamo opravka s pravilno določenimi mejami. Če označimo mejo, ki smo jo dobili s postopkom segmentacije, s t' in dejansko mejo med segmenti s t, potem pravimo, da se meji t in t' ujemata, oziroma daje meja t' pravilno določena, če ustreza pogoju t — At