Vesna Izaković
Filozofska fakulteta Hamburg
ANALIZA S POMOČJO SINTEZE IN  SINTETIZATORJI
»Analiza na podlagi sinteze nam omogoča spoznati bistvene prvine govora,« je nekoč rekel eden vodilnih sodobnih fonetikov, Gunnar Fant. V zadnjih dvajsetih letih je zelo naraslo zanimanje za akustično fonetiko. Vse, kar dobimo z analizo govora, je treba potrditi s sintezo, saj nam le sinteza lahko pove, kateri podatki iz ogromnega števila obvestil, ki nam jih daje analiza, so za naš govor bistveni, katere akustične značilnosti glasov so optimalne, da te glasove prav prepoznamo.
Optimalne akustične značilnosti — imenujemo jih ključe (s tujko cue, množina cues*) — so tiste vrednosti (parametri), brez katerih določenega glasu ne moremo »slišati« ali »prepoznati«, tj. ga s sluhom dekodirati. Optimalne akustične značilnosti ali ključi so zmeraj tisto najmanjše število parametrov, brez katerih glasu nikakor ne prepoznamo. Te akustične značilnosti so vedno neizogibno prisotne pri določenem glasu in jih zato lahko imenujemo tudi diferentoide* tega glasu, ker z njimi ta glas razločujemo od vseh drugih. Sele če imamo urejene vse te in take podatke in zapisano, kako se obnašajo posamezni diferentorji,' lahko mislimo na sintezo.
Sinteza (ali sestava) glasov in sploh govora je ljudi zmeraj zanimala. Poskušali so napraviti čarobne škatle, »škatle, ki govore«, čudili pa so se tudi odmevu. Pogosto so pri »narejanju glasu« goljufali z raznimi triki, samo da bi zadovoljili človekovo večno željo napraviti umetni govor.
' CUES — KLJUCl — optimalne akustične značilnosti govornega glasu, tj. zveza dife-rentorjev Istega fonema.
^ DIFERENTOID — vsaka razločevalna akustična značilnost govornega glasu. 3 DIFERENTOR — vsaka razločevalna značilnost fonema.
242
Prva prava sinteza se je posrečila 1. 1779. Bila je seveda enostavna in zelo nespretno dosežena, vendar se je le opirala na čisto pravilne podatke. Tega leta je učenjak Kratzenstein prikazal svoj govorni stroj članom Carske akademije Tinanosti v Petrogradu. Njegov stroj se je v zgradbi opiral na fiziološke razlike, ki nastajajo v ustni votlini pri izgovoru samoglasnikov i, e, a, o, u. S tem je Kratzenstein hotel dokazati pravilnost svoje teze o tvorbi samoglasnikov. To se mu je povsem posrečilo, hkrati pa je s tem generiral prve umetne glasove.
Tudi nadaljnji poskusi so se opirali na posnemanje fizioloških zakonitosti pri tvorbi samoglasnikov: von Kempelen, sir Charles Wheatstone, A. G. Bell, Riesz itd. Leta 1855 pa se je von Helmholtzu posrečilo doseči slušni učinek samoglasnika s pomočjo spretno izpeljanega spleta različnih rezonatorjev (odzvočil).
Sedanje naše naprave za sintezo glasov so rezultat velikega napredka elektrotehnike v našem stoletju, vendar tudi sedaj lahko razločujemo dva glavna tipa naprav za sintezo, podobna, kot smo ju spoznali pri Kratzensteinu in von Helmholtzu. Prvi se opira na fiziološka načela, drugi na načela odzvočil. Seveda pa dandanes tudi fiziološki tip konfigurativnega analoga (posnemovalca) deluje z elektroakustičnimi sredstvi.
Oglejmo si najprej konfigurativni posnemovalec.
Eden prvih in še vedno najbolj znan takih sintetizatorjev se imenuje LEA. Načelo, po katerem tak generator deluje, je v glavnem isto. Izvor energije je tonski generator. Ta zamenjuje tresenje glasilk v govorni cevi. Energija iz tonskega generatorja mora skozi vrsto filtrov, kondenzatorjev, tranzistorskih sklopk itd. Ves ta splet je napravljen tako, da ustreza konfiguraciji posameznih delov govorne celote. Spodnja slika prikazuje eno tako razmerje.
Pomeni: Loudspeaker — zvočnik, Ampi — ojačevalec, Ups —• ustnice, moulh — usta, Pharynx — grlo, eletrical voice source — električni vir glasu.
243
Pri napravi LEA je takih povezanih filtrskih členov (segmentov) 45. Vsak člen ima še druge dodatne dele, tako da jih je mogoče naravnati na več načinov. Vsak člen predstavlja približno pol centimetra velik »kolešček« govorne cevi (poprečni izrez navpično na smer zračnega pretoka). Ker je vsak člen mogoče različno naravnati, lahko dobimo popolno »odprtost«, zmanjšano »odprtost« ali pa zaprtost ustreznega dela govorne cevi. Vsak člen je torej mogoče popolnoma »zapreti«, tj. izvzeti iz zveze, ali pa naravnati tako, da ustreza pretrganemu zračnemu toku na ustreznem mestu govorne cevi. To naravnavanje členov je pri napravi LEA ročno, in sicer dvigamo ali spuščamo ustrezne ročke. Tako se že od zunaj vidi na komandni plošči, kateri členi so zaprti ali odprti in koliko. Odprtost je pri obravnavani napravi 16-stopenjska, kar ustreza odprtosti govorne cevi od pribl. 0,16 cm- do 16 cm^. Ko je govorna cev na kakem mestu zaprta, se ustrezni člen iz niza enostavno izloči. Tako ali podobno so zgrajene tudi druge naprave za sintezo, seveda konfigurativnega posnemovalca.
Podatki, ki jih izkoriščajo pri tem tipu naprave, se dobijo z raznimi tehnikami izgovorne (artikulacijske) analize: z rentgenskimi posnetki, rentg. filmi, s plato-grami in elektroplatogrami. Seveda je tako dobljene podatke treba prevesti v ustrezne akustično-spektralne vrednosti. To danes delajo precej hitro z računalniki. Programi za take prevedbe obstajajo v več ustanovah, ki se ukvarjajo z akustično analizo in sintezo govornih valov: R. I. T. na Švedskem, Bellovi laboratoriji v ZDA itd.
Sedaj pa o drugem tipu. Za primer vzemimo Vocoder in druge parametrske naprave za sintezo.
Pri Vocoderju generirajo posamezne formante z elektronskimi krogi. Zaradi tega take sintetizatorje imenujejo formatni krožni sintetizator (Format Circuit Synthesizer). Naprava ima razne člene, vendar take, da so časovni, tj. vsak posamezen člen predstavlja določen izsek časa, v katerem traja sintetizirani glas, zlog itd. Vsak člen je mogoče uravnavati glede na trajanje, in sicer v mejah od pribl. 10 do pribl. 75 milisekund, odvisno od ustroja naprave. Členi so zgrajeni tako, da brez premora slede eden drugemu, tj. se vključujejo nepretrgano, brez zastoja. Vsakemu členu lahko uravnavamo parametrske količine glede na frekvenco in amplitudo. To pomeni, da vsak člen lahko uravnava vrednosti in jakost frekvenc Fj, Fi, Fj, F«, Fn. Posameznim zvezam tormantov^ je mogoče določiti tudi pasovno širino.* Navadni vir energije je tonski generator. Posamezne člene naprave je namesto z virom energije iz tonskega generatorja mogoče povezati z generatorjem belega šuma (noise generator). Tako lahko generiramo tudi vokoide^ in kontoide.' Z generatorjem belega šuma je F„ povezan tudi tedaj, ko je vir energije tonski generator. Tako elektronsko lahko sintetiziramo vse
* FORMANT — večje frekvencijsko področje s strnjeno energijo govornega glasu (ali
petega). Glas ima po več formantov, upoštevamo pa najpogosteje 3. Zapisujemo jih z
Fl, F2, F3 itd., ko gre za višje. Najbolj vidni so pri samoglasnikih. Fo je valovna frekvenca
nosilca kakega glasu (tembra). Formanti se ločijo tudi po svoji središčni frekvenci in po
jakosti, po pasovni širini in po trajanju, lahko tudi po prehodu (drsni dvoglasniki).
^ Širina pasu — frekvencijsko področje z energijo večje jakosti.
^ VOKOID — čisti samoglasniški glas s formantskim ustrojem (zveneči glasovi).
' KONTOID — čisti soglasniški, tj. šumni glas, brez formantskega ustroja, vendar s proti-
formanti (nezveneči soglasniki).
244
govorne glasove, če seveda poznamo njihove diferentorje. Te glasove slišimo takoj pri izhodu iz sintetizatorja.
Sintetizator je pogosto povezan s krožno vrvco ali ploščo, tako da se sintetizirano glasovje takoj tudi snema. Sintetizator je lahko povezan tudi S katodno cevjo; na njej potem ob slušni kontroli takoj vidimo posamezne diferentoide (tako kot pri sonagrafski analizi), in sicer v obliki, kot smo jo sintetizirali. Tako sintezo lahko hkrati kontroliramo slušno in vidno.
Ce želimo generirati zloge in besede, moramo seveda imeti tako kontoide kot vokoide. V takem primeru ustrezne člene različno »hranimo«: člene za kontoide povezujemo z generatorjem belega šuma, člene za vokoide pa s tonskim generatorjem. Ni določeno, koliko členov je treba za posamezen glas.
Sintetiziramo lahko tudi drugače, tj. s stiliziranimi risbami diferentoidov; to je t. i. vzvratni (play-back) sintetizator. Diferentoidi se generirajo podobno kot pri prejšnjem tipu, samo da se tu energija posameznih frekvenčnih področij inducira s fotografsko celico, to pa na podlagi risb, napravljenih s posebnim kovinskim črnilom na posebnem plastičnem papirju. Ta tehnika je v svetu zelo priljubljena. Take stilizirane risbe imamo prikazane na naši drugi podobi (str. 246); to je strukturna preglednica francoskih soglasnikov; le-ti so prikazani samo z akustičnimi značilnostmi, tj. s ključi (cues). Prav jasno se vidijo skice akustično bistvenih prvin, tj. diferentorjev. (Abscisa preglednice ustreza mestu izgovora, ordinata pa načinu izgovora.)
Oglejmo si pobliže to preglednico s ključi! Prednjejezični samoglasnik ima zmeraj tri formante, zadnjejezičnega pa lahko sintetiziramo tudi samo s formantoma Fl in Fj. — Na sliki se lepo vidi tudi prehod (tranzicija)* k soglasniku (ti zlogi imajo ustroj VCV, tj. samogl.-sogl.-samogl.). Posebno opazen je prehod pri p, I, k, b, d, g; tu je usmerjen k lokusu,' pri w, y, R pa imamo t. i. drsni prehod (glide), tj. povsem nepretrgano črto. Pri zvenečih soglasnikih, razen pri zapornikih, vidimo tudi formantsko maso med trajanjem soglasnikov. Pri /, s, š vidimo točkasto strukturo, kakor ustreza njihovemu značilnemu šumu. Pri zlitih glasovih se šum glede na izgovorno mesto navadno loči po funkcijskem področju, na katerem ga ni; to so t. i. antiformanti" (zero poles, tj. ničti poli).
V nekaterih jezikih se šumni soglasniki ločijo tudi po širini pasu in po jakosti šuma. Tako se angl. medzobni & loči od zobnoustničnega 1 v glavnem samo po frekvencijskem področju, od s in š pa oba po jakosti šuma. Francoski /, s, š'' pa se dovolj ločijo že po frekvencijskem področju šuma, zato na preglednici ne vidimo jakostne razlike. Pri zvenečih pripornikih v, z, ž vidimo poleg področja šuma še vrsto formantske mase. Ta posebna vrsta »skritih« formantov se pojavlja tudi, če glas zašepetamo; zato lahko tudi pri šepetu dobro razločujemo zveneče in nezveneče soglasnike. Ustničnomehkonebni w in ustničnotrdonebni y se ločita predvsem po lokusu Fj.
' TRANZICIJA — PREHOD — povezovanje frekvencijskega pasu enega glasu s frekvencijskim pasom sosednjega glasu. 9 LOKUS — začetna točka prehoda.
'° ANTIFORMANT — frekvencijsko področje glasu, na katerem ni videti energije; značilen je za nezveneče soglasnike.
" Na sliki 2 so glasovi š, ž n' zaznamovani z /, z in /; R je nebni, y pa ustnično-nebni drsni glas.
245
Podoba 2
Pomeni: Frequency (CPS) — frekvenca (nihajev v eni sekundi), Seconds — sekunde. Structuralna preglednica spektrografskih likov francoskih soglasnikov, opirajoča se samo na akustična dejstva. Navpični navedki se nanašajo na zaznavo mesta izgovora. Vodoravni se nanašajo na zaznavo načina izgovora.
246
Za sintezo je važno poznati najboljše ključe glasov, prav tako pa jih moramo i znati povezati z izgovorom, in sicer v smislu razločevalnih značilnosti (distinc-i tive features) Romana Jakobsona in tovarišev. Prav s sintezo govora se je i posrečilo najti zakonitosti med izgovorom in akustičnimi ključi. Obenem nam postane jasna tesna povezanost analize in sinteze, tj. njihova medsebojna odvisnost. -
LITERATURA ;
1. Chiba, Kajiyama, The Vowel, its Nature and Structure. The Phonetic Society' of Japan, Tokyo, 1958.
2. Delattie P. C, Liberman A. M., Cooper F. S.: Acoustic Loci and Transitional Cues for Consonants. Journal of the Acoustical Society of Ameiica, No. 27, 1955.
3. Delattre P. C, From Acoustic Cues to Distinctive Features. Phonetica, No. 4, Vol. 18, 1968, Fig. 1, p. 199.
4. Delattre P. C, Le jeu des transitions de formants et la perception des conson- ; nes. Proceedings of the IVth International Congress of Phonetic Sciences, 1962, ; Mouton & Co. The Hague. I
5. Dudley H. W., Fundamentais of Speech Synthesis. Bell Tel. Lab., Rep. Mono- i graph 2648, 1956.
6. Fant Gunnar, Transmission Properties of the Vocal Tract with Application to the Acoustic Specification of Phonemes. M. I. T. Report No. 12, 1952, Cam- i bridge, Mas. USA.
7. Fant Gunnar, Modern Instruments and Methods for Acoustic Studies of Speech. R. I. T. Rep. No. 8, 1957, Stockholm.
8. Fant Gunnar, Acoustic Theory of Speech Production. Mouton & Co., The ; Hague, 1960.
9. Guberina Petar, Verbotonal Method and its Application to the Rehabilitation of the Deaf (tiskano kot rokopis). Zavod za fonetiku, Zagreb, 1964.
10. Guberina Petar, L' audiometrie verbotonale. Revue de Laryngologie, \ Bordeaux, No. 1—2, 1956.
11. Helmiioltz von H., Die Lehre von den Tonempfindungen als phylsiologische i Grundlage für die Theorie der Musik. Braunschweig, 1863. 1
12. Izaković V., Perceptional Cues for the Distinction between the Voiceless Pa- | latized and Nonpalatalized Affricates in Serbo-Croatian. University of London, ¦ M. A. Thesis, 1966.
13. Jakobson R., Fant G., Halle M., Preliminaries to Speech Analysis. M. I. T. Rep. No. 13, 1952, Cambridge, Mas. ZDA.
14. Jakobson R., Halle M., Fundamentals of Language. Mouton & Co., The ; Hague, 1956. i
15. Katičić R., Osnovni pojmovi suvremene lingvističke teorije. Sveučilište u ; Zagrebu, Zagreb, 1967.
16. Ladefoged P., Three Areas of Experimental Phonetics. Oxford Univ. Press, Oxford, 1967.
17. Liberman A. M., Delattre P. C, Cooper F. S., Gerstman L. J., Tempo of Fre-quency Change as a Cue for Distinguishing Classes of Speech Sounds. Journal of Exper. Psychology, No. 52, 1956.
18. Šaumjan S. K., Die Zweitstufentheorie der Phonologie im Licht der modernen Wissenschaftslogik. Phonetica, Vol. 16, No. 3, 1967.
19. Skarić f.. Glasovi Hrvatskosrpskog jezika u fizio/psiho/akustičkoj i akustič-koj analizi. Jezik, No. 2—3, 1967.
247 i