Univerza v Ljubljani Fakulteta za elektrotehniko Rudolf Sušnik Postopki kodiranja elevacije izvorov zvoka v akustični sliki prostora DOKTORSKA DISERTACIJA Mentor: prof. dr. Sašo Tomažič Ljubljana, 2006 ZAHVALA Zahvaljujem se vsem, ki so v kakršnikoli obliki pripomogli k nastanku tega dela. Mentorju prof. dr. Sašu Tomažiču se zahvaljujem za strokovno vodstvo, koristne nasvete, konstruktivne predloge in komentarje. Kolegu Jaku Sodniku se zahvaljujem za konstruktivne strokovne debate in predloge ter nenadomestljivo pomoč pri izvajanju poskusov. Za strokovna mnenja se zahvaljujem tudi dr. Antonu Umeku in mag. Goranu Bobojeviću. Prav tako se zahvaljujem ostalim sodelavcem Laboratorija za komunikacijske naprave za vsestransko pomoč. Za sodelovanje pri poskusih se zahvaljujem dijakom Gimnazije Kranj, dijakom Tehniškega šolskega centra Kranj, učiteljicam Osnovne šole Orehek, študentom Fakultete za elektrotehniko in sodelavcem Laboratorija za komunikacijske naprave. Posebna zahvala pa gre predvsem domačim – Špeli, staršema in bratu za vse vzpodbudne, optimistične in kritične nasvete ter dejanja v preteklih letih. Vsem imenovanim in neimenovanim še enkrat hvala. POVZETEK Akustična slika je pojem, ki se nanaša na podajanje informacij z neartikuliranimi zvoki, tj. z zvoki, ki jih ne moremo opredeliti kot govor. Tak način komunikacije zajema široko paleto naprav, vse od preprostih zvočnih alarmov do predstavitve prostora z zvokom. Na predstavitev prostora z zvokom se nanaša tudi akustična slika prostora s katero se ukvarjamo v tem delu, kjer nas zanima predvsem vertikalna dimenzija, tj. elevacija v akustični sliki prostora. Prostor v akustični sliki predstavimo s prostorskim zvokom oz. z navideznimi izvori zvoka v prostoru. Predmete v okolici poslušalca nadomestimo z navideznimi izvori zvoka, ki jih s pomočjo prostorskega zvoka premikamo po prostoru. Prostorski zvok je »tridimenzionalen«, tj. poslušalec zmore za vsak zvok določiti položaj njegovega izvora (azimut, elevacija, oddaljenost). Za reprodukcijo zvoka se uporabijo običajne slušalke, kar glede na dejstvo, da ima človek dva sprejemnika za zvok, povsem zadostuje. Prostorskost zvoka je posledica dveh poglavitnih vzrokov, ki nastaneta pri poslušanju v prostoru: medušesne razlike (razlika v amplitudi valovanja in časovni zamik med trenutkoma, ko zvočno valovanje doseže levo oz. desno uho) in vplivi poslušalčevega telesa (predvsem uhljev) na spekter zvočnega valovanja. Za dosego prostorskih učinkov pri reprodukciji zvoka s slušalkami je omenjene vplive potrebno ustrezno upoštevati. Vplivi so najtočneje opisani s t.i. HRIR (Head Related Impulse Response), ki predstavljajo odziv prenosne poti med izvorom zvoka in ušesom na enotin impulz. Fourierov transform HRIR se imenuje HRTF (Head Related Transfer Functions). Filtriranje poljubnega zvoka s filtrom na osnovi HRIR povzroči, da poslušalec s slušalkami sliši zvok v smeri, ki jo opisuje HRIR. HRIR oz. HRTF delimo na individualne (pripadajo točno določeni osebi) in splošne (izmerjene na lutki). Z akustično sliko prostora se v tem delu ukvarjamo v smislu orientacijskega in navigacijskega pripomočka, ki naj bi slepim osebam služil namesto bele palice. V literaturi najdemo podatke o že obstoječih izvedbah akustične slike prostora. V teh izvedbah se uporabljajo princip eholokacije, individualne HRTF in umetni načini kodiranja prostora. Uporaba individualnih HRTF je sicer najboljši način, vendar je zaradi kompleksnosti merjenja individualnih HRTF le-to velika ovira. Eholokacija in umetni načini kodiranja zahtevajo bistveno več učenja, poleg tega pa izvedbe, ki smo jih preizkusili, proizvajajo silno moteče zvoke. Naša rešitev predvideva kombinacijo splošnih HRTF in umetnega kodiranja ter uporabo zvokov, ki so prijetni za poslušanje. Ker z uporabo splošnih HRTF točnost lokalizacije izvorov zvoka pade le v elevaciji, v naši akustični sliki uporabimo splošne HRTF za kodiranje azimuta, za kodiranje elevacije pa uvedemo umetno kodiranje. Razvoj kodirnih postopkov za kodiranje elevacije izvorov zvoka predstavlja jedro tega dela. Postopek kodiranja elevacije izvorov zvoka v akustični sliki prostora mora zadostiti več zahtevam. Predvsem je pomembno kolikšno točnost lokalizacije lahko dosežemo – kot orientacijsko vrednost vzamemo točnost lokalizacije izvorov zvoka v prostoru. Nadalje je pomembno, da zvok, ki ga proizvaja akustična slika ni pretirano moteč in da je poslušalec sposoben čim hitreje osvojiti t.i. umetno kodiranje. V vseh akustičnih slikah, ki uporabljajo umetno kodiranje elevacije, se mora poslušalec naučiti katero elevacijo predstavlja posamezen zvok. Lokalizacija po elevaciji je brez predhodnega učenja možna le pri kodiranju z individualnimi HRTF, saj ljudje to kodiranje uporabljamo od rojstva. Za določitev praktičnih omejitev pri lokalizaciji izvorov zvoka po elevaciji smo izvedli poskus z zvočniki v gluhi sobi. Rezultati kažejo, da je človek sposoben ločiti dva izvora zvoka, ki sta po elevaciji razmaknjena za vsaj 6o. Poskus ugotavljanja ločljivosti po elevaciji smo izvedli tudi s slušalkami – z uporabo splošnih HRTF in z uporabo individualnih HRTF. Splošne HRTF dajejo silno slabe rezultate, za ločevanje dveh izvorov zvoka morata biti izvora kar 23o narazen, z individualnimi HRTF pa se približamo ločljivosti, ki jo dosežemo v prostoru. Pri razvoju postopka kodiranja elevacije smo izhajali iz predpostavke, da bo čas učenja oz. privajanja uporabnika na umetno kodiranje tem krajši, čim natančneje nam bo uspelo posnemati lastnosti, ki omogočajo človeku lokalizacijo izvorov zvoka v naravnem okolju. Uhlji in ostali deli poslušalčevega telesa delujejo kot filter katerega učinke v odvisnosti od elevacije oz. položaja izvora zvoka lahko opazujemo v HRTF. Učinke filtriranja smo ugotavljali z analizo poteka frekvenc oslabitve uhlja (angl. pinna notch) in porazdelitve energije HRTF v odvisnosti od elevacije. Na podlagi rezultatov analiz in poznanih dejstev o povezavi elevacije in frekvence smo razvili tri modele kodiranja elevacije. Zvoke smo izbrali izmed zvokov, ki se najpogosteje uporabljajo v poskusih povezanih z akustiko: beli šum, rožnati šum, sinus oz. ton. S kombinacijami zvokov in modelov kodiranja elevacije smo dobili več naborov zvokov (nabor dobimo, ko modelu priredimo zvok). S testom zaznavnih razlik med zvoki istega nabora smo ugotavljali najboljše kombinacije zvoka in modela, ki smo jih nato uporabili za kodiranje elevacije. Razvili smo šest akustičnih slik prostora z različnimi načini umetnega kodiranja elevacije in preizkusili kako natančno so se testne osebe sposobne naučiti lokalizacije z umetno kodirano elevacijo izvorov zvoka. Pri najboljših izvedbah akustične slike so testne osebe po desetih, približno 5 minut trajajočih serijah učenja, dosegle povprečno ločljivost 7.5o, kar je rezultat, ki daje dobre obete za nadaljnji razvoj akustične slike prostora z umetnim kodiranjem elevacije. ABSTRACT Auditory display or auditory image is the use of nonspeech sound to communicate information to a listener. The field of auditory display encompasses everything from alarms to complex sonification like auditory display of space. Latter is primary concern of this thesis particularly concentrated on elevation in auditory display of space. The key attribute which enables representation of space with auditory display is spatial sound. Spatial sound enables one to hear in three dimensions which mean that he or she is able to localize sound source with three coordinates - azimuth, elevation and distance. In auditory display, the objects around the listener are therefore replaced with virtual sound sources which can be virtually moved according to the position of listener and object. Sounds of auditory display of space are played through headphones. There are two main causes which enable spatial sound: interaural (level and time) differences and head related influences which affect sound spectrum. When played through headphones, sound must be correctly pre-processed to invoke spatial sensations. All influences are due to sound propagation from sound source to listener's eardrum and are therefore most accurately described with head related impulse response - HRIR. The Fourier transform of HRIR is called HRTF which stands for head related transfer function. When arbitrary sound is convolved with particular HRIR and played through headphones listener would hear the sound originating from the direction which corresponds to the HRIR used in convolution. HRIRs (HRTFs) are divided into two major groups: individual (measured with particular persons) and non-individual (measured with manikin, e.g. KEMAR). The aim of our auditory display of space is to become an orientation and navigation tool for visually impaired persons. In literature one can found few existing auditory displays of space. They use different principles - echolocation, artificial coding techniques and sound filtering with individual HRTFs. Individual HRTF filtering would be the best choice since it does not require learning and therefore ensures high localization fidelity. Method's main drawback is necessity of individual HRTFs which requires extensive measurements. The use of echolocation and artificial coding requires time to learn the concept of auditory display and produces unpleasant sounds (at least to our feelings). Learning is indispensable for all auditory displays with artificial elevation coding, since absolute localization in elevation is impossible with any kind of artificial elevation coding. Without pre-learning only individual HRTFs enables absolute elevation localization. Individual HRTFs represents coding which humans learn since their birth. Our approach is combination of non-individual HRTFs, artificial coding techniques and non-disturbing sounds. Non-individual HRTFs give good results in azimuth localization but very poor in elevation localization. Therefore our auditory display uses artificial coding only in elevation. Artificial coding of sound source elevation is essence of this thesis. An artificial elevation coding technique should satisfy a few requirements: reasonable localization accuracy (nearly as good as in natural environment), fast learning and pleasantness of sound. Localization accuracy in natural environment was established with experiment in anechoic room. Test subjects were able to distinguish between two sound sources located at least 6° apart in elevation. The nearly same result was obtained with headphones and individual HRTFs, while with headphones and non-individual HRTFs (virtual) sound sources should be at least 23° apart. One of the main hypotheses in auditory display of space development was that similarity of synthesized and natural sounds which represents the same elevation would enable faster learning. Localization cues are introduced by the body, pinna and head filtering and they reflect in HRTFs. Localization cues was therefore studied by analyzing HRTFs – extracting pinna notch frequencies and observing the frequency dependent distribution of HRTFs' energy. According to HRTFs' analyses three elevation coding techniques were developed. Beside coding techniques, sounds must be also defined. We used combinations of sounds which are regularly used in acoustics: white noise, pink noise, pitch. Using particular coding technique and sound we obtained a few sound sets. The most promising sound sets were identified by the experiment in which we searched for number of distinguishable sounds within one sound set. This experiment was a sort of search for just noticeable differences in spectrum. We developed six auditory displays of space for the final experiment. Test subjects tried to learn artificial elevation coding. After ten sessions (each lasted approximately 5 minutes) of learning and testing, the resolution of 7.5° was achieved within the best auditory displays. The result encourages us for further researches in filed of auditory display of space. PRISPEVKI K ZNANOSTI • Razširitev poznavanja mehanizmov zaznavanja elevacije izvorov zvoka na podlagi analize energije HRTF, ki se v splošnem sklada z zakonitostjo povezave elevacije in frekvenc tonov oz. centralnih frekvenc spektra pasovno omejenih zvokovnih signalov. S poskusom smo pokazali, da odvisnost lahko razširimo tudi na pasovno omejene zvokovne signale katerih spektri imajo fiksno spodnjo mejno frekvenco 16 Hz (ali manj) in različno zgornjo mejno frekvenco. • Predlog učinkovitih postopkov umetnega kodiranja elevacije izvorov zvoka v akustični sliki prostora, ki smo jih določili na podlagi opravljenih poskusov. V poskusih smo uporabili kombinacije postopkov kodiranja in zvokov, ki jih v literaturi še nismo zasledili. Kot je razvidno iz rezultatov, je učinkovitost kodiranja poleg kodirnega postopka odvisna tudi od uporabljenega zvoka. • Predlog zvokov, ki so primerni za umetno kodiranje elevacije s stališča učinkovite lokalizacije in prijetnosti za poslušalca. Zahtevi sta si v nekaterih primerih (npr. rožnati šum) nasprotni. Z uporabo zvokov, ki so standardni v akustičnih poskusih (beli šum, rožnati šum, pasovni šum, sinusni signal oz. ton) in v tem delu predlaganimi zvoki, ki posnemajo naravne pojave (npr. udarec na boben), smo s poskusom pokazali, da optimum predstavljajo zvoki, ki posnemajo naravne pojave. KAZALO 1 UVOD .......................................................................................................................... 3 2 PROSTORSKI ZVOK ................................................................................................. 9 2.1 Zvočno valovanje ................................................................................................. 9 2.2 Človekovo uho ................................................................................................... 12 2.3 Opis prostora ...................................................................................................... 14 2.4 Akustika prostora ............................................................................................... 17 3 PSIHOAKUSTIKA IN PROCES UČENJA .............................................................. 19 3.1 Glasnost zvoka ................................................................................................... 19 3.2 Maskiranje in najmanjše zaznavne razlike glasnosti ter frekvence ................... 22 3.3 Kritični pasovi .................................................................................................... 23 3.4 Prenosne funkcije vpliva glave in telesa HRTF (Head Related Transfer Functions) .......................................................................................................... 25 3.5 Učenje ................................................................................................................ 26 4 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH .............................................. 31 4.1 Lokalizacija izvorov zvoka v prostoru in pri predvajanju s slušalkami ............. 31 4.2 Opredelitev pojma »ločljivost« .......................................................................... 32 4.3 Merjenje individualnih HRTF ............................................................................ 34 4.4 Točnost lokalizacije (absolutna ločljivost) ........................................................ 34 4.5 Merjenje diferenčne ločljivosti s slušalkami in z zvočniki ................................ 35 4.5.1 Merjenje diferenčne ločljivosti po elevaciji z zvočniki ............................. 35 4.5.2 Merjenje diferenčne ločljivosti po elevaciji s slušalkami in z uporabo splošnih HRTF ........................................................................................... 38 4.5.3 Merjenje diferenčne ločljivosti po elevaciji s slušalkami in uporabo individualnih funkcij .................................................................................. 40 4.6 Vpliv spektralne vsebine zvoka na lokalizacijo ................................................. 42 4.7 Vpliv glasnosti in trajanja zvočnega signala na lokalizacijo ............................. 43 4.8 Komentar ............................................................................................................ 45 5 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE ................................. 47 5.1 Elevacija v akustični sliki prostora .................................................................... 47 5.2 Pregled nekaterih preizkušenih metod kodiranja elevacije v akustični sliki prostora .............................................................................................................. 48 5.3 Analiza HRTF .................................................................................................... 49 5.3.1 Oslabitev uhlja (pinna notch) ..................................................................... 50 5.3.2 Energija HRTF ........................................................................................... 53 5.4 Akustične iluzije v elevaciji ............................................................................... 56 5.4.1 Akustične iluzije v prostoru ....................................................................... 57 5.5 Komentar ............................................................................................................ 62 6 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE ......... 63 6.1 Ideja umetnega kodiranja elevacije .................................................................... 63 6.2 Postopki obdelave signalov ................................................................................ 64 6.2.1 Model na osnovi »oslabitve uhlja« ............................................................ 64 6.2.2 Model na osnovi porazdelitve energije HRTF ........................................... 65 1 KAZALO 6.2.3 Modeli na osnovi povezave elevacije in frekvence .................................... 65 6.3 Zaznavne razlike med zvoki, ki pripadajo istemu naboru .................................. 65 6.3.1 Nabori zvokov ............................................................................................ 66 6.3.2 Opis poskusa .............................................................................................. 67 6.3.3 Testne osebe in oprema .............................................................................. 69 6.3.4 Rezultati ..................................................................................................... 69 6.4 Akustična slika v vertikalni smeri ...................................................................... 71 6.4.1 Zasnova akustične slike in nabori zvokov .................................................. 72 6.4.2 Opis poskusa .............................................................................................. 77 6.4.2.1 Učenje elevacije v akustični sliki ........................................................... 77 6.4.2.2 Ocenjevanje prijetnosti zvokov v akustični sliki .................................... 78 6.4.3 Testne osebe in oprema .............................................................................. 79 6.4.3.1 Učenje elevacije v akustični sliki ........................................................... 79 6.4.3.2 Ocenjevanje prijetnosti zvokov v akustični sliki .................................... 79 6.4.4 Rezultati ..................................................................................................... 79 6.4.4.1 Učenje akustične slike ............................................................................ 79 6.4.4.2 Ocenjevanje prijetnosti zvokov v akustični sliki .................................... 82 6.4.5 Komentar .................................................................................................... 83 6.5 Razširitev akustične slike po azimutu ................................................................ 84 7 ZAKLJUČEK ............................................................................................................. 85 LITERATURA ................................................................................................................... 87 SEZNAM KRATIC ............................................................................................................ 93 2 1 UVOD Prostor in dogajanje v prostoru lahko namesto z običajno sliko predstavimo s prostorskim zvokom. Zvok je pomemben pripomoček pri orientaciji v prostoru in preprosto se je moč prepričati, da zvok slišimo v treh dimenzijah. Z natančnostjo nekaj stopinj ali celo manj so možgani sočasno sposobni določiti položaj več izvorov zvoka v prostoru. Določanju položaja izvora zvoka rečemo tudi lokalizacija (angl. localisation) [4, 5, 16, 21, 46]. Za lokalizacijo izvorov zvoka ljudje izrabljamo številne lastnosti, ki so prisotne v zvoku. Te lastnosti so posledica razširjanja zvočnih valov od izvora zvoka do bobniča poslušalca. Vpliv okolice na zvočno valovanje je izražen z odboji, lomi in interferenco na predmetih, ki se nahajajo na poti med izvorom zvoka in poslušalcem, slabljenjem amplitude valovanja zaradi razširjanja, absorpcije ipd. [4, 5, 15, 35, 81]. Ti vplivi so odvisni od trenutne situacije, tj. lokacije poslušalca in lokacije izvora zvoka. Vplivi okolice so pomembni predvsem zato, ker v zvok vnašajo informacijo o oddaljenosti izvora zvoka od poslušalca. Zaznavanje oddaljenosti je namreč posledica odbojev, tako od predmetov v okolici poslušalca kot odbojev od poslušalčevega telesa. Za določanje smeri izvora zvoka (azimut in elevacija) so ključni predvsem vplivi, ki so posledica odbojev, loma in interference zvočnega valovanja zaradi poslušalčevega telesa, glave in uhljev. Vpliv glave, telesa in uhljev na širjenje zvoka je opisan v zbirki odzivov prenosne poti med izvorom zvoka in poslušalčevim bobničem na enotin impulz. Odziv se imenuje HRIR (Head Related Impulse Response), njegov Fourierov transform pa HRTF (HRTF – Head Related Transfer Function). HRIR vsebujejo vse potrebne podatke za določitev smeri izvora zvoka – medušesno časovno zakasnitev (angl. Interaural Time Diference – ITD), medušesno amplitudno razliko (angl. Interaural Level Difference – ILD) in amplitudno karakteristiko [5, 11, 27, 56, 63, 67]. Medušesne časovne zakasnitve in amplitudne razlike so ključnega pomena za lokalizacijo izvora zvoka v horizontalni dimenziji (azimut) [4, 16, 67], medtem ko so za lokalizacijo v vertikalni smeri (elevacija) pomembne razlike med amplitudnimi poteki HRTF [1, 33, 39, 76, 79] pri različnih elevacijah. Razlike v amplitudnih potekih HRTF postanejo očitne pri frekvencah nad 4 kHz [1, 5], ko valovna dolžina zvoka postane primerljiva z velikostjo uhlja. Uhelj vpliva na spektralne lastnosti zvoka predvsem s t.i. oslabitvijo uhlja [1, 30, 79], ki se, odvisno od elevacije izvora zvoka, pojavlja med 5 kHz in 17 kHz [57]. Ta ugotovitev se sklada s trditvijo [1, 39], da mora zvok za natančno 3 UVOD lokalizacijo po elevaciji vsebovati komponente višjih frekvenc. Kljub temu pa je človek sposoben lokalizirati tudi zvoke, ki vsebujejo le frekvence do 3 kHz [1]. Prisotnost višjih frekvence izboljša natančnost lokalizacije, vendar so tudi vplivi odbojev od telesa, ki se pojavljajo pod 3 kHz, dovolj za uspešno lokalizacijo po elevaciji [1]. Frekvenčna vsebina zvoka ima tudi minimalni vpliv na lokalizacijo po azimutu [33], kjer se prav tako izkaže, da širši frekvenčni spekter zvoka zagotavlja natančnejšo lokalizacijo. Pojavi v zvezi z elevacijo in oddaljenostjo so zaenkrat še relativno slabo raziskani, medtem ko je azimut bolje obdelan. Akustična slika prostora je pripomoček, ki s pomočjo prostorskega zvoka poskuša pomagati slepim osebam pri orientaciji v prostoru, uporablja se tudi kot navigacijski pripomoček posebnim skupinam ljudi kot so to npr. rudarji, tankisti, piloti ipd. [22, 34, 44, 68]. To pomeni, da želimo s pomočjo zvoka čim natančneje opisati vidno sliko, ki jo zajamemo s kamero, radarjem ali sonarjem, zvoke akustične slike pa predvajamo preko slušalk (slika 1.1). Opravka imamo z dokaj različnimi uporabniki, ki imajo to skupno lastnost, da tudi sicer aktivno uporabljajo sluh. Akustična slika jim predstavlja dodaten vir podatkov, ki naj bi čim manj vplival na obstoječe funkcije, zato je potrebno da zvoki niso moteči za poslušalca. Bistvena razlika med uporabniki je tudi pogostost uporabe pripomočka. Slika 1.1: Akustična slika je transformacija vizualne slike v prostorski zvok, ki ga predvajamo preko slušalk. Iz procesa obdelave slik dobimo podatke o lokacijah objektov, ki so pomembni za orientacijo ali navigacijo (slepe) osebe v prostoru, nato te objekte predstavimo kot virtualne izvore zvoka v prostoru. V tem delu se ukvarjamo izključno z generiranjem prostorskega zvoka. Najbolj razširjen pripomoček slepim ljudem za orientacijo v prostoru je bela palica, v zadnjem času pa se pojavljajo novi, tehnično naprednejši pripomočki. Med te štejemo akustično sliko prostora, elektronsko belo palico ipd. Pri vsaki metodi gre za transformacijo iz vizualne oblike v neko drugo obliko – najpogosteje akustično ali 4 UVOD taktilno (otip). Z akustično sliko želimo slepim ljudem približati vsaj nekaj tega, kar ljudje z normalno razvitim vidom poznamo kot »vid«. Poznanih je več načinov ustvarjanja akustične slike prostora. V tej disertaciji zagovarjamo princip razdeljevanja vidnega prostora v več podprostorov. Če se v podprostoru nahaja ovira, poslušalec zasliši zvok, ki prihaja iz ustreznega podprostora. Velikost podprostorov je omejena s človekovo sposobnostjo lokalizacije izvorov zvoka [4, 48, 64]. Generiranje prostorskega zvoka s slušalkami je poseben problem kjer želimo generirati tak zvok, da se poslušalcu zdi, da zvoki resnično prihajajo iz prostora okoli njega [4, 5, 21]. V najboljšem primeru to pomeni, da poslušalec iz zvoka pridobi enako informacijo, kot bi jo, če bi se resnično nahajal v tem prostoru. Pri tem se srečamo s posebnostmi snemanja zvoka oz. z obdelave poznanega zvoka, ko želimo izvor nekega zvoka (navidezno) postaviti v drugo točko prostora. Pri navideznem postavljanju izvorov zvoka v poljubne točke prostora nam povzroča težave odvisnost spektra zvoka od elevacije izvora, odboji od ovir ter časovne in amplitudne razlike. Pri ustvarjanju akustične slike prostora privzamemo prostor brez ovir in zato ne upoštevamo vplivov okoliških predmetov na zvok. Tak prostor simuliramo z uporabo gluhe sobe [15, 16]. V takem primeru načeloma zadostuje obdelava s HRTF, pri čemer se najbolje obnesejo individualne HRTF, to so funkcije, ki so merjene za vsakega poslušalca posebej [11]. Merjenje HRTF [66] je relativno zapleten in dolgotrajen postopek in se mu zato želimo izogniti. Za kodiranje v horizontalni smeri se zadovoljivo obnesejo tudi splošne HRTF, ki pa za kodiranje elevacije niso neposredno uporabne. Kot smo že omenili, je najboljša rešitev za ustvarjanje akustične slike prostora uporaba individualnih HRTF [77, 78]. S tem se lahko približamo ločljivosti, ki jo doseže človek v prostoru (2° po azimut in 6° po elevaciji) [64, 65]. Pri uporabi splošnih HRTF se ločljivost po elevaciji bistveno poslabša. S splošnimi HRTF knjižnice CIPIC [2] dosežemo po azimutu ločljivost 4°, po elevaciji pa le 23° [65]. Za kodiranje v horizontalni smeri zato lahko uporabimo splošne HRTF, za elevacijo pa moramo uporabiti specifičen način kodiranja. Kodiranje elevacije, ki ga predstavljamo v tem delu, smo si zamislili na osnovi povezave frekvence zvoka in zaznavanja elevacije. Iz osnovnega zvoka dobimo s pomočjo tehnik obdelave signalov množico zvokov, nato pa vsaki elevaciji priredimo svoj zvok. Da bi dobili 2D akustično sliko, zvok vsake elevacije filtriramo s filtrom za ustrezni azimut. Uporabimo lahko filtre horizontalne ravnine katere od splošnih knjižnic HRTF [2, 20, 54] ali pa zgolj upoštevamo medušesne časovne in amplitudne razlike. V preteklih raziskavah o lokalizaciji izvorov zvoka po elevaciji so uporabljali različne oblike zvokovnih signalov, npr. šumi različnih pasovnih širin, naključni signali ipd. [5, 7, 30, 39, 42, 43, 60, 74, 86]. V poskusih z ozkopasovnimi signali (sinusni signali ali ozkopasovni 5 UVOD šum) se je pokazala povezanost centralne frekvence zvoka in elevacije izvora zvoka [3, 59]. Težava pri poslušanju sintetiziranih zvokov s slušalkami je, da poslušalci ne morejo določiti absolutne elevacije položaja izvora [30]. Absolutni položaj izvora zvoka je možno določiti le, če zvok vsebuje individualne lastnosti, ki jih pri poslušanju v prostoru vnesejo vplivi telesa, glave in uhljev. V tem delu torej poskušamo določiti primeren postopek za kodiranje elevacije v akustični sliki prostora in izbrati ustrezen zvok, ki ne bo preveč moteč in bo nudil zadovoljivo ločljivost tako v vertikalni kot horizontalni ravnini. Poglavje ki sledi uvodu, tj. drugo poglavje, je namenjeno predstavitvi prostorskega zvoka s fizikalnega in fiziološkega stališča. Najprej so predstavljene osnovne značilnosti zvočnega valovanja in zgradba ter delovanje človekovega organa za sluh, nato sledi opis prostora in postavitev koordinatnega sistema ter na koncu še nekaj osnovnih pojmov o akustiki prostora, tj. vplivu prostora na človekovo zaznavanje zvoka. V tretjem poglavju je pozornost namenjena psihoakustičnim pojavom in procesu učenja. Psihoakustika se ukvarja s človekovim dojemanjem in ovrednotenjem zvokov, tu razpravljamo o glasnosti zvoka, maskiranju, minimalnih spektralnih razlikah med dvema zvokoma, ki so potrebne za njuno razločevanje, kritičnih pasovih, prenosnih funkcijah glave in telesa (Head Related Transfer Functions – HRTF) ter o procesu učenja, ki npr. omogoča prilagajanje na spremenjene razmere za orientacijo. V četrtem poglavju se ukvarjamo z lokalizacijo prostorskih zvokov pri ljudeh. Uvedemo pojma natančnosti (absolutne) lokalizacije in diferenčne ločljivosti. Podrobneje razčlenjena sta primera lokalizacije resničnih izvorov zvoka v prostoru in lokalizacije navideznih izvorov zvoka, predvajanih preko slušalk, ki sta za nas zanimiva zlasti v elevaciji. Poleg predstavitve rezultatov, ki pomenijo mejo človekove zmožnosti lokalizacije izvorov zvoka so v tem poglavju obdelani še trije dejavniki, ki vplivajo na lokalizacijo izvorov zvoka. To so spekter, glasnost in trajanje zvokovnega signala. Četrto poglavje je zaključeno s komentarjem. V petem poglavju se podrobneje seznanimo s pogoji, ki omogočajo lokalizacijo elevacije izvorov zvoka. Za ugotavljanje mehanizmov lokalizacije po elevaciji je ključna analiza HRTF, ki smo jih analizirali z iskanjem frekvenc oslabitev uhlja (angl. pinna notch) in z analizo porazdelitve energije HRTF v odvisnosti od elevacije. V tem poglavju je opisan tudi poskus z ustvarjanjem akustičnih iluzij z zvočniki v prostoru. Sklepni del poglavja je komentar k glavnim ugotovitvam. V šestem poglavju modelom oz. postopkom kodiranja elevacije izvorov zvoka dodamo zvok in tako dobimo nabore (množice) zvokov, ki so potencialno uporabni za konstruiranje akustične slike prostora. Ker so si zvoki, ki sestavljajo določen nabor podobni, z eksperimentom določimo nabore z najbolj ločljivimi zvoki. Sledi opis konstruiranja akustične slike, ki je zreducirana na eno dimenzijo (elevacija) in poskus 6 UVOD ugotavljanja možnosti lokalizacije navideznih izvorov zvoka v tej sliki. Rezultati vključujejo točnost lokalizacije in prijetnost zvokov. Razdelek o konstruiranju in preizkušanju akustične slike prostora zaključuje komentar k uporabljenim metodam in rezultatom. Šesto poglavje zaključuje opis načrtovane razširitve enodimenzionalne akustične slike v dvodimenzionalno (elevacija in azimut). Delo zaključujemo s poglavjem Zaključek, kjer povzemamo in komentiramo glavne ugotovitve ter hkrati razmišljamo o novih idejah in izboljšavah, ki bi jih lahko uporabili v nadaljnjem razvoju akustične slike prostora. 7 UVOD 8 2 PROSTORSKI ZVOK 2.1 Zvočno valovanje Zvok je mehansko valovanje, ki se širi v snovi (trdnini, kapljevini ali plinu), ki je vsaj malo stisljiva. V kapljevinah in plinih je zvok vedno longitudinalno valovanje, v trdninah pa je mogoče izzvati tudi transverzalno zvočno valovanje. V ožjem pomenu definiramo kot zvok le zvočno valovanje s frekvencami v slišnem območju človeškega ušesa, to je med 16 Hz in 20 kHz. Zvok s frekvencami nižjimi od 16 Hz imenujemo infrazvok, z višjimi od 20 kHz pa ultrazvok. Zvok in z njim povezane fizikalne pojave preučuje akustika [15, 16, 28, 35], subjektivno človeško zaznavanje zvoka pa psihoakustika [5, 28]. Zvočno valovanje opišemo s hitrostjo delcev, s silo, ki jo delci povzročajo in lastnostjo medija v katerem se valovanje širi. S pomočjo drugega in tretjega Newtonovega zakona klasične mehanike ugotovimo [28], da je odvod produkta hitrosti delcev (v) in gostote medija (p) enak gradientu tlaka p(r,t): gradp(r, t) =-----lov) (2.1) V snovi tako nastanejo spremembe tlaka in gostote oz. zgoščine in razredčine, ki so krajevno (r) in časovno (t) odvisne. V zgoščinah se gostota snovi in tlak povečata, v razredčinah pa zmanjšata. Spremembam tlaka v snovi zaradi longitudinalnega valovanja pravimo zvočni tlak. Človeško uho lahko zazna zvok, če je amplituda zvočnega tlaka v zraku ob bobniču najmanj 20 uPa. Najmočnejši zvok, ki ga uho prenese še brez škode, ustreza zvočnemu tlaku okrog 20 Pa. Zgoščine in razredčine potujejo skozi snov s hitrostjo zvoka, ki je odvisna od lastnosti snovi. Za trdnine in kapljevine velja, da se zvok širi tem hitreje, čim lažja in manj stisljiva je snov, pri plinih pa ugotovimo, da je hitrost zvoka odvisna neposredno od temperature [35]. Longitudinalno valovanje povzroča neprestano stiskanje in raztezanje snovi ter s tem spreminjanje temperature, vendar se to dogaja dovolj hitro, da se toplota ne utegne znatno pretakati in valovanje lahko obravnavamo kot adiabatno spremembo. Z upoštevanjem razmerja specifičnih toplot plina (y = cp /cv) [35] izračunamo hitrost zvočnega valovanja c: c = Lp 0 (2.2) P0 9 PROSTORSKI ZVOK Od tod sledi valovna enačba za širjenje zvočnega valovanja v plinu: d2 p 2 a — = chp (2.3) dt 2 ^ oz. zapisana v kartezičnem koordinatnem sistemu (x, y, z): 2 d2p 2fd2p d2p d2p + + dt2 = c d2x d2y d2z Poleg splošne rešitve valovne enačbe sta zanimivi še rešitev za ravninski val (tudi t.i. enodimenzionalna rešitev) in sferična rešitev [28], kjer so zvočne fronte koncentrične krogle. Večina izvorov zvoka proizvaja valovanje, ki se ga da bolje opisati s sferično rešitvijo kot z ravninsko, vendar pa pri velikih razdaljah ali če opazujemo valovanje na površini z majhnim presekom valovanje lažje opišemo kar z ravninsko rešitvijo. Z ravninskim modelom obravnavamo tudi zvočno valovanje v človekovem zunanjem sluhovodu in vokalnem traktu. S tem, ko izvor zvoka vzbuja nihanje delcev v snovi opravlja delo, ki se kot energija razširja skozi snov. Tako s hitrostjo zvoka skozi snov potuje energija, ki jo lahko opišemo kot energijski tok P. Energijski tok P je definiran kot kvocient pretečene energije (W) in energijskega intervala (t) v katerem energija preteče skozi presek pravokotno na smer pretakanja [35]: dW P =----- (2.4) dt Energijski tok P je zvočna moč, ki jo oddaja izvor zvoka, učinek energijskega toka pa merimo z gostoto zvočnega toka j [15, 35]. Gostoto zvočnega toka imenujemo tudi jakost zvoka: dP dW r / 1 j = — = c----- lWmA (2.5) dS dV V enačbi 2.5, pomeni S presek prečne ploskve, c hitrost zvoka in V prostornino. Gostoto zvočnega toka v poljubni točki prostora ob poljubnem času lahko izrazimo s pomočjo zvočnega tlaka in hitrosti zvoka v snovi [28]: j(x, t) = p(x, t)c(x, t) (2.6) Kot smo že napisali, ima najšibkejši še slišni zvok amplitudo zvočnega tlaka 20 uPa. Od tod dobimo gostoto zvočnega toka 0.5·10-12 W/m2. Običajno se kot spodnja meja slišnosti vzame kar 10-12 W/m2, za zgornjo mejo pa 1 W/m2. V praksi se srečamo z različnimi izvori zvoka, ki jih razporedimo v tri skupine, pri čemer je potrebno upoštevati tudi položaj opazovalca oz. oddaljenost opazovalca od izvora: • točkasti izvori (angl. point sources): npr. zvočnik, človek, ki govori; gostota zvočnega energijskega toka sledi inverznemu kvadratnemu zakonu, tj. pri podvojitvi oddaljenosti jakost pade za 6 dB. S povečevanjem oddaljenosti od 10 PROSTORSKI ZVOK izvora se povečuje površina valovne fronte, to pa neposredno vpliva na gostoto zvočnega energijskega toka j in s tem na energijski tok P (2.4, 2.5). • linijski izvori (angl. line sources): npr. prometna cesta; jakost pade za 3 dB pri podvojitvi razdalje. Linijski izvor oddaja osno simetrično valovanje, kjer so valovne fronte koaksialni valjasti plašči. Površina valovnih front narašča premo sorazmerno z oddaljenostjo od linijskega izvora. • ravninski izvori (angl. area sources): npr. množica zvočnikov v isti ravnini; če zanemarimo absorpcijo valovanja v prostoru, je jakost energijskega toka konstantna. Energijski tok, ki ga izvor oddaja z valovanjem, se razporeja po valovnih frontah, ki se jim z oddaljevanjem površina ne spreminja. Pri obravnavi izvorov in ponorov zvoka se srečamo še s pojmom smernosti oz. smerne odvisnosti, ki opisuje odvisnost oddane zvočne energije ali občutljivost sprejemnika od smeri. Ko zvočno valovanje zadane ob oviro oz. mejo kjer se spremenijo lastnosti snovi, se v splošnem deloma odbije, deloma pa preide skozi mejo in se obenem lomi. Poleg omenjenih dveh pojavov se v primeru, ko valovanje naleti na oviro srečujemo še z uklonom in interferenco. V primeru zvočnega valovanja so zakonitosti enake kot veljajo tudi za ostale oblike valovanja [28, 35, 49]. Odbojnost oz. absorpcijske lastnosti na meji dveh snovi opisujemo z impedanco. Zvočno valovanje se na meji dveh snovi tem močneje odbije, čim bolj se akustični impedanci snovi na obeh straneh meje razlikujeta. Karakteristična impedanca snovi je [28]: z = p c (2.7) V splošnem pa lahko definiramo specifično impedanco v poljubni točki prostora kot kvocient tlaka in hitrosti: ( F{p(x)) Zx)= Yy '{ (2.8) F v (x)l pri čemer F označuje Fourierovo transformacijo. Poznavanje osnovnih fizikalnih pojavov in oznak v zvezi z zvočnim valovanjem nam bo v nadaljevanju v pomoč pri razumevanju akustike prostora in delovanja človekovega organa za sluh. Slednje je še posebej pomembno v zvezi z uhljem, ki ga lahko primerjamo z anteno, saj filtrira in usmerja zvočno valovanje v sluhovod ter s tem vpliva na človekovo sposobnost lokalizacije izvorov zvoka. Zvočno valovanje in modifikacije, ki so posledica fizikalnih zakonitosti lahko opišemo z linearnim modelom, tj. filtrom, kar se uporablja npr. za sintezo prostorskih zvokov [27, 30, 37, 56]. 11 PROSTORSKI ZVOK 2.2 Človekovo uho Človeški organ sluha je uho, ki ga sestavljajo zunanje (uhelj, zunanji sluhovod in bobnič), srednje (ušesne koščice - kladivce, nakovalce in stremence) in notranje uho (polkrožni kanali, polž in slušni živec). Zgradbo ušesa prikazuje slika 2.1. Uhelj prestreže zvočno valovanje, ki se širi iz izvora zvoka in ga usmeri v zunanji sluhovod. Uhelj zaradi svoje značilne oblike deluje kot smerno odvisen filter [4, 5, 21]. Omenjena smernost je še posebej očitna npr. pri zvokih, ki prihajajo izza glave poslušalca. Zaradi uhlja se to valovanje ukloni, to pa povzroči slabljenje visokih frekvenc. Količina zvočne energije, ki jo prestreže uhelj je odvisna od velikosti uhlja. Glede na velikost in obliko so faktorji dobitka med različnimi uhlji vse do 5 dB [5, 28]. Večina sesalcev lahko s posebnimi mišicami giblje uhelj na vse strani in s tem lovi zvočne valove. Človek ima te mišice zakrnele. Zunanji sluhovod poenostavljeno obravnavamo kot resonator, ki je na enem koncu odprt (vstop v sluhovod), na drugem pa zaprt oz. zaključen z membrano (bobnič). Dolžina zunanjega sluhovoda je približno L = 3 cm, v njem se vzbudi četrt-valovna resonanca pri približno 3 kHz (fr =c/4L& 3000 Hz). Zunanji sluhovod deluje ojačevalno med prvo in drugo resonančno frekvenco, tj. v območju 3 kHz - 6 kHz. Absolutno vrednost prenosne karakteristike H(f) v frekvenčnem pasu med 3 kHz in 6 kHz med zunanjim svetom in bobničem lahko opišemo s preprostim modelom [28]: H( f ) 1 (2.9) a2+(f-fr)2 Za konstanto a v enačbi 2.9 se uporabi polovična vrednost resonančne frekvence sluhovoda. Zaradi opisanih resonančnih lastnosti sluhovoda je občutljivost človekovega sluha najboljša prav v frekvenčnem pasu med 3 kHz in 4 kHz. Slika 2.1: Shema ušesa – uhelj prestreže zvočno valovanje, to nadaljuje pot po sluhovodu do bobniča, nato se preko slušnih koščic (kladivce, nakovalce) prenese v polža (membrana polža deluje kot spektralni analizator) in od tod po slušnih živcih v možgane. 12 PROSTORSKI ZVOK Bobnič oz. membrana zapira vhod v srednje uho, ki je majhna, komaj za grah velika votlina. V srednjem ušesu so tri drobne, med seboj gibljivo zvezane slušne koščice -kladivce (lat. incus), nakovalce (lat. malleus) in stremence (lat. stapes). Kladivce je pripeto na bobnič, stremence pa na odprtino, ki je v koščeni steni med srednjim in notranjim ušesom. Zvočni valovi, ki pripotujejo po zunanjem sluhovodu zadenejo ob bobnič in ga zatresejo. Pri tem zanihajo slušne koščice. Stremence vzvalovi tekočino v koščenih votlinicah v katerih je polž, ki ga prištevamo k notranjemu ušesu. Koščice pravzaprav predstavljajo prilagoditev impedance med zunanjim in notranjim ušesom. Zaradi velike razlike med akustičnima impedancama zunanjega sluhovoda (medij širjenja je zrak) in s tekočino (perilimfa in endolimfa) napolnjenih votlinic polža, bi se brez posredovanja koščic zvočno valovanje skoraj popolnoma odbilo. Notranje uho je najbolj zapleteno zgrajeni del ušesa, zato se imenuje tudi blodišče ali labirint. Čutilo za sluh je zavita cevka, imenovana polž, ostali deli notranjega ušesa so sprejemniki za dražljaje ravnotežja in gibanja v prostoru. V notranjosti polža so trije zaviti kanali. Bazilarna membrana razdeli polža na dva ločena kanala in sicer sta to scala vestibuli in scala tympani. Scala vestibuli je z Reissnerjevo membrano še enkrat razdeljena na dva kanala in tako imamo poleg scale vestibuli še kohlearni kanal (scala media). Kanali so napolnjeni z dvema različnima tekočinama – perilimfa (scala vestribuli in scala tympani) in endolimfa (scala media). Polžji kanal je zavit okoli živca, ki se imenuje modiolus, v njem pa se nahajajo sistemi za kanale, čez katere gredo vlakna slušnega živca. Polž oz. notranji slušni kanal je v povprečju dolg 35 mm, je okroglega preseka in se proti vrhu zožuje. Na spodnji steni polža so razporejene slušne čutnice, ki imajo na vrhu šop migetalk. Stremence je neposredno povezano s scalo vestibuli preko membrane, ki niha ob spremembi pritiska na membrani bobniča. Ob tem udarjajo slušne čutnice ob mrenico, ki je nad njimi. Ob teh udarcih se vzdražijo čutnice. Čutnice so povezane z živčnimi vlakni, ki vodijo do možganov. S stališča obdelave signalov notranje uho deluje kot spektralni analizator. Vlogo spektralnega analizatorja opravlja bazilarna membrana, ki je na spodnjem koncu polža ozka in toga, na vrhu polža pa velika in mehka. Njena skupna dolžina je približno 35 mm, njena širina pa je precej spremenljiva od osebe do osebe, zaradi tega v literaturi velikokrat zasledimo različne podatke. Zaradi spreminjajoče dolžine in širine bazilarne membrane se spreminja tudi njena frekvenčna karakteristika oz. odziv. Vsaka točka vzdolž membrane ima neko svojo frekvenco, pri kateri najbolj zaniha kot da bi imela svojo resonančno frekvenco na vsakem odseku. Posamezne dele bazilarne membrane modeliramo kot delce mase m, ki nihajo vpeti na vzmet s konstanto k. Hitrost posameznega dela membrane je sorazmerna s produktom zvočnega tlaka in prenosne funkcije H tega dela membrane. 13 PROSTORSKI ZVOK Frekvenca, na katero se ujame del membrane se imenuje karakteristična frekvenca [28]: 1 k(x) (2.10) fc (x) 2k \ m(x) V zgornji enačbi x pomeni lokacijo dela membrane na katerega se nanaša karakteristična frekvenca. Ko val potuje od spodnjega dela polža proti vrhu, se postopoma absorbirajo vse frekvenčne komponente vala, tako da odbojev valovanja in stoječih valov ni. Zvočni tlak frekvenčne komponente p(x, f) pada eksponentno glede na oddaljenost x od začetka polža [28]: f 2*1 -jL p(x,f) = p0(f)-'>R (2.11) 1 J V enačbi (2.11) pomeni p0(f) zvočni tlak na začetku polža in c je hitrost širjenja valovanja, ki v polževi tekočini znaša približno 1600 m/s. Glavni del bazilarne membrane so lasne celice, ki so oživčene z živčnimi končiči. Živčni konči či sestavljajo slušni ali avditorni živec, ki prenaša podatke o vzbujanju notranjega ušesa v možgane. Proženje končičev je odvisno od gibanja lasnih celic, na katere so pritrjeni končiči. Ko se bazilarna membrana upogne v smeri kanala scala vestibuli, se dlačice na različne načine deformirajo, kar ima za posledico generiranje električnih signalov ali elektricitov, ki dražijo slušni živec. Ko se bazilarna membrana upogne v smeri kanala scala tympani, pa se dlačice ne deformirajo in ne generirajo električnih signalov. V mirovnem stanju je električni potencial lasne celice -50 mV, ko pa se zaradi upogibanja membrane generira električna napetost se potencial lasne celice približa 0 V. Vidimo, da v primeru tišine lasne celice pošiljajo enosmerno napetost, ko se pojavi zvoka pa signal pulzirajoče oblike. 2.3 Opis prostora Za opis prostorskega zvoka potrebujemo tudi opis prostora. Prostor opišemo s pomočjo koordinatnega sistema. Najsplošnejši je kartezični koordinatni sistem, glede na obravnavani problem pa uporabljamo tudi druge oblike koordinatnih sistemov (cilindrični, krogelni ipd.). V našem primeru se najbolje obnese krogelni koordinatni sistem, ker glavo najlažje aproksimiramo kot kroglo (slika 2.2). V nadaljevanju sledi natančnejša definicija krogelnega koordinatnega sistema in pretvorbe med kartezičnim in krogelnim koordinatnim sistemom. V kartezičnem koordinatnem sistemu imamo tri med seboj ortogonalne smeri: x, y in z. Razpon osi v kartezičnem koordinatnem sistemu: -oo 12° 0.0 Tabela 4.2: Rezultati lokalizacije po elevaciji, razdeljeni po statističnih razredih. Slika 4.3: Diferenčna ločljivost po elevaciji (interval zaupanja z označeno srednjo vrednostjo) merjena z resničnimi zvočnimi izvori (zvočniki) v gluhi sobi. Zvočna izvora sta bila postavljena v sagitalni (azimut = 0o) ravnini, simetrično okoli točke (azimut, elevacija) = (0o, 0o). Povprečna diferenčna ločljivost v elevaciji je približno 6o. i=1 37 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH 4.5.2 Merjenje diferenčne ločljivosti po elevaciji s slušalkami in z uporabo splošnih HRTF Meritve s slušalkami smo izvajali v prostorih Laboratorija za komunikacijske naprave. Nivo šuma, izmerjen z merilnikom Lutron SL-4012 je bil 40 dB, merjeno po karakteristiki A. Za generiranje zvoka smo uporabili prenosni računalnik IBM ThinkPad 30, zvočno kartico Digigram VX Pocket 440 in studijske slušalke Sennheiser HD270 s slabljenjem zunanjih šumov 10 dB – 15 dB. Tudi v tem poskusu je sodelovalo 32 testnih oseb starih med 15 in 50 let, o katerih smo že pisali v prejšnjem razdelku. Za potrebe testa smo v frekvenčnem prostoru s pomočjo Matlaba generirali signal z ravno amplitudno karakteristiko in naključno fazo ter ga z inverzno Fourierovo transformacijo pretvorili v časovni prostor. Pasovna širina testnega signala je bila 20 kHz. Za generianje prostorskega zvoka oz. za postavljanje izvorov zvoka na poljubne virtualne položaje smo uporabili HRTF knjižnice CIPIC [2], kjer elevacijo izvora zvoka lahko spreminjamo med -45° in 230° v koraku po 5.625°. Ugotavljali smo ločljivost za primere, ko je bil elevacijski kot med izvoroma zvoka 5.625°, 11.25°, 22.5°, 28.125°, 45° in 56.25°. Merjenje smo izvajali v sagitalni ravnini (azimut 0°), položaj testnih izvorov zvoka smo izbirali čim bolj simetrično glede na horizontalno ravnino. Dejanske razmere prikazuje tabela 4.3. diferenca elevacijskega kota / ° elevacija izvora A / ° elevacija izvora B / ° 5.625 5.625 0 11.25 5.625 -5.625 22.5 11.25 -11.25 28.125 16.875 -11.25 45 22.5 -22.5 56.25 28.125 -28.125 Tabela 4.3: Virtualne pozicije izvorov zvoka pri merjenju s slušalkami in splošnimi HRTF (knjižnica CIPIC). Virtualni izvori so bili v vseh primerih v sagitalni (azimut = 0°) ravnini. Poskus smo izvajali po dveh scenarijih – z zmanjševanjem in povečevanjem diference elevacijskega kota. Signal smo predvajali v 100 ms sekvencah, izmenično na prvi in drugi virtualni poziciji. Posamezne 100 ms odseke zvoka smo prekinjali z 200 ms tišine. Z vsako testno osebo smo izvedli 6 meritev. V treh primerih smo elevacijski kot med virtualnima izvoroma zmanjševali od največjega (? = 56.25°) proti najmanjšemu, v ostalih treh primerih pa je bil postopek obrnjen in smo elevacijski kot med virtualnima izvoroma 38 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH povečevali od najmanjšega (? = 5.625°) proti največjemu. Postopek meritve je za vsako osebo trajal približno 4 min. Slika 4.4: Diferenčna ločljivost po elevaciji (interval zaupanja z označeno srednjo vrednostjo), merjena z virtualnimi zvočnimi izvori (slušalke), generiranimi s pomočjo splošnih HRTF. Povprečna diferenčna ločljivost je približno 23o. Vrednosti v grafu na sliki 4.4 so podane kot povprečne vrednosti vzorcev vsakega posameznika (število vzorcev N = 6) z označenim intervalom zaupanja. Podrobnosti v zvezi z računanjem rezultatov so razložene v prejšnjem razdelku. Tabela 4.4 podaja pregled rezultatov po statističnih razredih, določenih z uporabljenimi elevacijskimi koti. statistični razred populacija (%) ep < 5.625° 0 5.625°< cp< 11.25° 0 11.25° < ep < 22.5° 59.4 22.5° < cp< 45° 37.5 cp> 45° 3.1 Tabela 4.4: Rezultati lokalizacije po elevaciji, razdeljeni po statističnih razredih. 39 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH 4.5.3 Merjenje diferenčne ločljivosti po elevaciji s slušalkami in uporabo individualnih funkcij Zvočno valovanje, ki ga vzbudimo s pomočjo slušalk in individualnih HRTF je teoretično enako kot bi ga vzbudilo zvočno valovanje zvočnika. Fizikalno gledano sta primera enakovredna, seveda pa pri tem ne upoštevamo vseh psiholoških dejavnikov, ki vplivajo na lokalizacijo. Najbolj izrazit pojav je zamenjevanje smeri spredaj-zadaj (front-back confusion) o čemer smo podrobneje pisali v razdelku 4.1. V poskusu so sodelovale 3 testne osebe stare med 23 in 28 let za katere smo izmerili individualne HRTF s postopkom, opisanim v razdelku 4.4 in v [66]. Za potrebe ovrednotenja ločljivosti po elevaciji pri uporabi slušalk in individualnih HRTF smo uporabili funkcije sagitalne ravnine – azimut 0° in elevacije med 0° in 35°. Za testni signal smo v frekvenčnem prostoru s pomočjo Matlaba generirali signal z ravno amplitudno karakteristiko in naključno fazo [73] ter ga z inverzno Fourierovo transformacijo pretvorili v časovni prostor. Pasovna širina testnega signala je bila 20 kHz. Signal smo predvajali v 100 ms sekvencah, izmenično na prvi in drugi virtualni poziciji. Posamezne 100 ms odseke zvoka smo prekinjali z 200 ms šuma. Z vsako testno osebo smo izvedli 6 meritev. V treh primerih smo elevacijski kot med virtualnima izvoroma zmanjševali od največjega (? = 30°) proti najmanjšemu, v ostalih treh primerih pa je bil postopek obrnjen in smo elevacijski kot med virtualnima izvoroma povečevali od najmanjšega (? = 5°) proti največjemu. Postopek meritve je za vsako osebo trajal približno 4 min. Virtualne položaje za posamezne testne primere podaja tabela 4.5. razlika elevacijskih kotov / ° elevacija navideznega izvora A / ° elevacija navideznega izvora B / ° 5 15 20 10 15 25 15 10 25 20 10 30 25 5 30 30 5 35 Tabela 4.5: Virtualne pozicije izvorov zvoka pri merjenju s slušalkami in uporabo individualnih HRTF. Meritve ločljivosti smo izvajali v Laboratoriju za komunikacijske naprave. Nivo šuma, izmerjen z merilnikom Lutron SL-4012 je bil 40 dB, zmerjeno po karakteristiki A. Za generiranje zvoka smo uporabili prenosni računalnik Acer TravelMate 4000, zvočno kartico Digigram VX Pocket 440 in studijske slušalke Sennheiser HD270 s slabljenjem zunanjih šumov 10 dB – 15 dB. 40 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH Kot prikazuje tabela 4.6, smo za vse tri osebe ugotovili ločljivost 10°. zaporedna št. osebe ločljivost po elevaciji / ° 1 10 2 10 3 10 Tabela 4.6: Povprečna diferenčna ločljivost po elevaciji pri merjenju s slušalkami in individualnimi HRTF. Predvidevamo, da je v resnici kot ločljivosti še nekoliko manjši, ki pa nam ga zaradi preprostega postopka merjenja individualnih HRTF ni uspelo ugotoviti. elevacija središčne točke / ° elevacija izvora A / ° elevacija izvora B / ° 5 0 10 10 5 15 15 10 20 20 15 25 25 20 30 30 25 35 Tabela 4.7: Virtualne pozicije izvorov zvoka za ugotavljanje ločljivosti po elevaciji v odvisnosti od absolutnega položaja izvorov zvoka. Virtualne izvore smo generirali z individualnimi HRTF in jih predvajali preko slušalk. elevacija središčne točke / ° ločljivost posamezne testne osebe / ° povprečna ločljivost / ° #1 #2 #3 5 10 10 10 10 10 10 10 10 10 15 10 10 10 10 20 10 10 10 10 25 10 10 10 10 30 10 10 10 10 Tabela 4.8: Diferenčna ločljivost navideznih izvorov zvoka (generiranih z individualnimi HRTF in predvajanih preko slušalk) v omejenem obsegu elevacij (5o – 30o) ne kaže odvisnosti od absolutnega položaja izvora zvoka Nadalje nas je zanimala še odvisnost diferenčne ločljivosti od absolutnega položaja izvorov zvoka. Med navideznima izvoroma zvoka smo nastavili kot 10° in spreminjali njun položaj tako kot podaja tabela 4.7. Rezultati, dobljeni v omejenih pogojih ne kažejo, da bi bila ločljivost odvisna od absolutnega položaja (tabela 4.8), kot je to npr. očitno pri ločljivosti v horizontalni smeri [67]. Majhno odvisnost ločljivosti od absolutnega položaja 41 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH središčne točke v za nas zanimivem delu elevacije (-90° do 90°) so potrdili tudi drugi raziskovalci. V [4] najdemo podatek, da ločljivost pada od 9°, pri središčni točki 0°, do ločljivosti 13° pri središčni točki 74°. Situacija pa se precej spremeni, ko izvore zvoka postavimo za poslušalčevo glavo, tj. elevacija je večja od 90°. Ločljivost se poslabša približno za faktor 2, kar npr. pomeni ločljivost 22° pri elevaciji 112° ali ločljivost 15° pri elevaciji 153° [4]. Izmerjena ločljivost kaže, da je dejanska ločljivost pri uporabi individualnih HRTF zelo verjetno še boljša kot 10°. Žal nam naš preprost merilni postopek individualnih HRTF ne omogoča merjenja HRTF po elevaciji z večjo natančnostjo, zato se v tej fazi raziskav zadovoljimo z dobljenimi rezultati. 4.6 Vpliv spektralne vsebine zvoka na lokalizacijo Za zaznavanje elevacije izvorov zvoka je bistvenega pomena spekter zvoka, ki ga prestreže poslušalčev bobnič [1, 4, 13, 30, 57]. Kot smo že napisali, na spekter vplivajo dimenzije in oblika poslušalčevega telesa, glave in uhljev, ki povzročajo uklone, odboje in interferenco zvočnega valovanja. Posebno vlogo pripisujemo uhlju, ki povzroča t.i. oslabitev uhlja (pinna notch). Centralna frekvenca tega slabljenja je odvisna od elevacije izvora zvoka in se spreminja od 5 kHz za nizke elevacije do 17 kHz [57] za visoke elevacije. V literaturi najdemo množico opisov poskusov v katerih so poskušali dokazati vpliv posameznih frekvenčnih pasov na lokalizacijo izvorov zvoka po elevaciji in ki se ukvarjajo z ugotavljanjem zakonitosti zaznavanja elevacije [1, 31, 33, 39, 43]. Omenili smo že oslabitev uhlja, ki jo nekateri viri, npr. [5], navajajo kot glavni parameter lokalizacije po elevaciji. Če je prisotnost te oslabitve v amplitudnem poteku HRTF potreben pogoj za zaznavo elevacije, potem je za zaznavo elevacije v zvokovnem signalu potrebna prisotnost višjih frekvenc, kar pa ne drži. Poskusi s signali nizkih frekvenc so namreč pokazali, da komponente višjih frekvenc v zvokovnem signalu niso nujno potrebne [1]. Če uporablja poslušalec za reprodukcijo zvoka individualne HRTF, je zaznavanje elevacije povsem zadovoljivo tudi s signali, ki vsebujejo le nizke frekvence (< 3 kHz) [1]. Vendar pa obstoj spektralne vsebine pri višjih frekvencah zagotavlja boljšo ločljivost [1, 7, 39] in zmanjša verjetnost zamenjave smeri [7]. V raziskavi [39] pa ugotavljajo, da so za točnost lokalizacije širokopasovnih zvokovnih signalov bistvene spektralne značilnosti v pasu 4 kHz – 16 kHz. V omenjeni raziskavi so uporabili 200 ms trajajočo sekvenco šuma z ravnim spektrom med 0 Hz in 22 kHz, ki so jo filtrirali s pasovno zapornimi filtri. Na podlagi tega so ugotovili, da spektralna vsebina zvoka v pasu 5.7 kHz – 11.3 kHz odločilno vpliva na točnost 42 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH zaznavanja elevacije, spektralna vsebina v pasu 8 kHz – 16 kHz na zaznavanje ali se izvora zvok nahaja pred ali za poslušalcem, spektralne značilnosti zvoka v pasu pod 4 kHz pa imajo le minimalen vpliv na lokalizacijo po elevaciji. Avtorji raziskave glede na rezultate ugotavljajo, da sta za lokalizacijo po elevaciji ključna dejavnika oslabitev uhlja in ojačitev, ki na frekvenčni osi sledi slabljenju uhlja. 4.7 Vpliv glasnosti in trajanja zvočnega signala na lokalizacijo Možgani oz. ustrezni nevroni lokalizirajo prostorske zvoke na podlagi akustičnih značilnosti zvoka. Kot smo že omenili, je človekov slušni sistem občutljiv za časovne in amplitudne razlike med levim in desnim ušesom (angl. binaural hearing) ter spekter zvoka (angl. monaural hearing). Slednje je posledica loma in odbojev zvočnega valovanja od telesa, glave in uhljev. Začetniki raziskav človekovega dojemanja prostorskega zvoka so poskuse izvajali večinoma z relativno dolgo trajajočimi signali s stacionarnimi [72] lastnostmi. Šele kasneje so se pojavile prve raziskave o vplivu glasnosti in dolžine trajanja signalov na lokalizacijo [13, 31, 42, 75] ter s temi raziskavami povezane hipoteze, ki jih bomo na tem mestu zgolj poimensko omenili: »the neural integration hypothesis« (hipoteza nevronske integracije) [31], »negative level effect« (efekt zmanjšanja glasnosti, tj. s povečevanjem glasnosti se točnost lokalizacije zmanjšuje enako kot če bi glasnost zmanjševali) [42] in »adaptation hypothesis« (hipoteza prilagoditve) [25]. V omenjenih raziskavah so raziskovali vpliv glasnosti in trajanja zvočnega signala na lokalizacijo po azimutu in elevaciji, pri čemer so eksperimente izvajali z zvočniki v prostoru. Pregled hipotez in poenoteno teorijo na katero se bomo sklicevali v nadaljevanju najdemo v [75], kjer so za testni signal uporabili beli Gaussov šum trajanja 3 ms – 100 ms in glasnosti 26 dB – 73 dB SPL. Rezultati meritev se nanašajo na absolutno lokalizacijo izvorov zvoka. V splošnem velja, da lokalizacija po azimutu ni omejena ne s trajanjem kot tudi ne z glasnostjo zvokovnega signala, če je le ta v mejah dinamike človekovega sluha [31, 75]. Na lokalizacijo po elevaciji pa vplivata oba dejavnika, ki ju raziskujemo v tem razdelku [75]. Točnost lokalizacije monotono (vendar neenakomerno) narašča s povečevanjem trajanja zvokovnega signala, kar je še posebej izrazito pri časih do 30 ms, nad 30 ms pa je naraščanje točnosti lokalizacije po elevaciji manj izrazito. Sama odvisnost med točnostjo lokalizacije in trajanjem zvokovnega signala je neodvisna od glasnosti zvoka, slednja pa bistveno vpliva na dejansko točnost lokalizacije. Slika 4.5 (povzeta po rezultatih objavljenih v [75]) prikazuje točnost lokalizacije po elevaciji (angl. elevation gain), ki je podana s kvocientom dejanske lokacije in lokacije, ki jo je »slišala« testna oseba, tj. kvocient 1 pomeni najboljše ujemanje. Potek krivulje je sicer določen s 43 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH parametri, ki so izračunani na podlagi nelinearne regresije rezultatov merjenja točnosti lokalizacije [31, 75, 50] (najboljše ujemanje, angl. best fit). Odvisnost točnosti lokalizacije od glasnosti zvoka ni monotona in je pri nizkih (< 30 dB SPL) in visokih glasnostih (> 65 dB SPL) majhna, največja pa pri srednjih glasnostih kot lahko vidimo tudi na sliki 4.5. Slika 4.5: Točnost lokalizacije v odvisnosti od glasnosti in trajanja zvokovnega signala. Vidimo, da obstaja optimum izbire glasnosti, medtem ko z daljšim trajanjem zvoka točnost le izboljšamo. Podatke za sliko smo dobili v [75]. Za razliko od omenjene raziskave [75] smo se v naši raziskavi [70] ukvarjali z odvisnostjo diferenčne ločljivosti po azimutu od trajanja zvokovnega signala. Meritve smo izvajali s pomočjo slušalk, za dosego prostorskega učinka smo uporabili HRTF knjižnice MIT [20]. Za testni signal smo uporabili beli šum filtriran s pasovnim filtrom 350 Hz – 8000 Hz, nivo glasnosti je bil približno 65 dB SPL, trajanje signala je bilo 5 ms – 300 ms. Poskus smo izvajali v treh različnih smereh (azimuti 0°, -45° in -90°) v horizontalni ravnini (elevacija 0°). Ugotovili smo, da je ločljivost v smeri pred poslušalcem (azimut 0°) neodvisna od trajanja zvokovnega signala, pri ostalih dveh preizkušenih lokacijah (azimut -45° in -90°) pa je ločljivost začela upadati, ko smo trajanje zvoka zmanjšali pod 100 ms. 44 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH 4.8 Komentar V tem poglavju smo se ukvarjali z lokalizacijo izvorov zvoka pri ljudeh. Zanimala nas je točnost absolutne lokalizacije izvorov zvoka, diferenčna ločljivost izvorov zvoka ter vplivi spektra, trajanja in glasnosti zvoka na lokalizacijo. Najboljše rezultate lokalizacije smo dosegli v prostoru, kar je pričakovano, saj testne osebe večinoma niso imele predhodnih izkušenj s prostorskimi zvoki predvajanimi preko slušalk, hkrati pa je lokalizacija zvokov v prostoru za njih nekaj vsakdanjega. Rezultati izmerjeni v prostoru dajejo podlago za oceno mej lokalizacije. Vrednostim, doseženim v prostoru, se pri predvajanju zvoka preko slušalk lahko z uporabo individualnih zvokov približamo, hkrati pa nastopijo dejavniki s psihološkimi značilnostmi. Slednje so povezane predvsem s človekovo izkušnjo (zamenjava smeri spredaj-zadaj, lokalizacija znanih zvokov – npr. ropot helikopterja). Kot smo videli, je pri reprodukciji zvoka na slušalkah in uporabi splošnih HRTF diferenčna ločljivost bistveno slabša, absolutna lokalizacija pa niti ni mogoča. Ker so v poskusih sodelovale osebe z normalno razvitim vidom in sluhom, se postavlja vprašanje kakšne rezultate bi dosegli slepi ljudje. Čeprav v javnosti prevladuje mnenje, da imajo slepi ljudje bistveno boljše sposobnosti percepcije zvoka kot ljudje z normalno razvitim vidom [40], je ta hipoteza dvomljiva, rezultati v [74, 82] namreč ne potrjujejo tega. Celo nasprotno, avtorji raziskave [82] trdijo, da omenjena »splošna resnica« nima realne osnove. 45 LOKALIZACIJA IZVOROV ZVOKA PRI LJUDEH 46 5 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE 5.1 Elevacija v akustični sliki prostora Akustična slika v splošnem pomeni predvajanje prostorskih zvokov preko slušalk. To zajema različne aplikacije, vse od navigacijskih pripomočkov do sistemov navidezne in obogatene resničnosti. Raziskave, ki jih opisujemo v tem delu se nanašajo na razvoj orodja za pomoč slepim ljudem pri orientaciji v prostoru. Orodje lahko služi tudi kot pripomoček za zagotavljanje dodatnih orientacijskih in navigacijskih podatkov posebnim skupinam ljudi, ki delajo v oteženih okoliščinah (npr. rudarji, piloti, tankisti ipd.). Generiranje prostorskih zvokov za poslušanje s slušalkami je zanimivo tudi za uporabo v multimedijskih aplikacijah – primere prostorsko bogatih zvokov lahko slišimo npr. v sodobnih računalniških igricah. Problem generiranja prostorskega zvoka za multimedijske aplikacije se od akustične slike, s katero se ukvarjamo tu, razlikuje predvsem v tem, da zvokov v multimedijskih aplikacijah ne moremo poljubno spreminjati, medtem ko je eno od pomembnih izhodišč pri snovanju akustične slike prav izbira ustreznega zvoka, saj smo pokazali, da imajo parametri zvokovnega signala (spekter, glasnost, trajanje ipd.) nezanemarljiv vpliv na lokalizacijo. Ker notranje uho samo po sebi nima sposobnosti lokalizacije izvorov zvoka, je, kot smo že ugotovili, za lokalizacijo ključnega pomena vpliv posameznikovega telesa, ki zvok preoblikuje v odvisnosti od smeri iz katere prihaja zvočno valovanje. Za konstruiranje akustične slike oz. nasploh za generiranje prostorskih zvokov za poslušanje s slušalkami bi bilo zato optimalno uporabiti individualne HRTF [57]. Ker je merjenje individualnih HRTF zahteven postopek, tak pristop v splošnem ni mogoč. S postopki obdelave signalov se optimalni obliki prenosne funkcije lahko zgolj približamo. Za lokalizacijo po azimutu to povsem zadostuje, ker sta glavna dejavnika časovna in amplitudna razlika med ušesoma, ki ju lahko natančno določimo [67]. Za lokalizacijo po elevaciji pa to ne zadostuje, ker (še) ne poznamo postopka s katerim bi vnesli vse detajle, ki poslušalcu dajo avtentičen občutek. Zaradi neavtentičnosti oz. ne-individualnosti zvoka, ki ga poslušalcu predvajamo preko slušalk, je okrnjena zlasti točnost absolutne lokalizacije izvorov zvoka [65]. Dodatne možnosti, ki bi omilile izpostavljeni problem iščemo tudi z ustrezno izbiro zvoka, kjer gre v prvi vrsti za povezavo med elevacijo in frekvenco [59]. Povezava pojmov visoko in nizko v smislu »visoka frekvenca – visoka 47 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE elevacija izvora zvoka« je nekaj tako naravnega, da obstaja v skoraj vseh jezikih sveta [10]. V nadaljevanju tega dela se bomo ukvarjali s postopki obdelave signalov in izbiro zvokov za kodiranje elevacije v akustični sliki prostora. Posvetili se bomo torej ne-individualnim zvokom, ki sicer ne omogočajo absolutne lokalizacije navideznih izvorov zvoka po elevaciji, vendar pa se lahko poslušalec ob primerni ločljivosti posameznih zvokov nauči kje se posamezen izvor zvoka nahaja. Zato se lahko poleg značilnosti v zvoku, pomembnih za zaznavanje elevacije pri ustvarjanju akustične slike prostora opremo tudi na lastnost človeških možganov, ki so se sposobni prilagajati na različne zahteve. Ob upoštevanju ugotovitev psihologov, ki smo jih navedli v poglavju o učenju in glede na rezultate že delujočih sistemov za navigacijo slepih oseb s pomočjo zvoka [22, 34, 44, 45] sklepamo, da bi bilo po določenem času učenja možgane možno naučiti lokalizacije zvoka na poljuben način. Lokalizacijo izvorov zvoka, ki smo se jo naučili glede na pojave, ki so posledica širjenja zvoka v vsakdanjih razmerah, imenujemo naravna lokalizacija. Pri uporabi ne-individualnih zvokov za kodiranje elevacije lahko vpeljemo še pojem umetne lokalizacije, ki se ga možgani naučijo v skladu z vsiljeno predstavitvijo prostora. Pri učenju je čas ena bistvenih komponent, predpostavljamo pa, da predstavitev, ki je bližja zvokom vsakdanjega življenja skrajša čas učenja in hkrati ne povzroča dodatnih dvoumnosti pri ločevanju zaznavanja položajev resničnih in navideznih izvorov zvoka. 5.2 Pregled nekaterih preizkušenih metod kodiranja elevacije v akustični sliki prostora Za kodiranje elevacije oz. nasploh za ustvarjanje akustične slike se uporabljajo različni pristopi, od katerih nekateri v večji, drugi pa v manjši meri upoštevajo princip lokalizacije, ki ga je človeška vrsta razvila tekom evolucije. Ne glede na način kodiranja je za uporabnike akustične slike pomembno kolikšen je predviden čas učenja in kako prijetni ali moteči so zvoki, ki se uporabljajo v akustični sliki. V nadaljevanju si poglejmo značilnosti dveh delujočih sistemov akustične slike [34, 44] in enega testnega sistema [22]. Akustična slika, opisana v [34], posnema princip orientacije, ki ga uporabljajo netopirji in torej uporablja popolnoma naraven način kodiranja (čeprav ni lasten človeku). Sistem vsebuje oddajnik in sprejemnik ultrazvoka. Oddajnik oddaja ultrazvok v različne smeri, sprejemnik pa sprejme odbito zvočno valovanje, izvede frekvenčno pretvorbo ter ga prek slušalk predvaja poslušalcu. Ta princip imenujemo princip odmeva ali preprosteje princip eholokacije (angl. echo location) [4, 5, 34]. Gre za relativno preprost ter dokaj 48 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE učinkovit pincip, ki pa zahteva dolgotrajno učenje. Zvok, ki ga sliši poslušalec je precej neprijeten, poleg tega pa uporaba tega sistema ne onemogoča poslušanja zvokov iz okolice. Avtorji trdijo, da se je slepa oseba z uporabo tega sistema zmožna npr. naučiti vožnje kolesa. Akustična slika, ki jo je skonstruiral Meijer [44, 45] je prav tako relativno zahtevna za učenje in proizvaja poslušalcu precej neprijetne zvoke. Zaradi specifične tehnike snemanja prostora obstaja možnost, da akustična slika ne zazna hitro premikajočih se objektov. V tem sistemu je elevacija kodirana neposredno s frekvenco, tj. nizki toni za nizke elevacije in visoki toni za visoke elevacije. Akustična slika je po poročanju uporabnikov zelo uporaben in dobrodošel pripomoček za slepe ljudi. Metoda, opisana v [22], ima veliko podobnosti z našim načrtom konstrukcije akustične slike prostora [68]. Gre za razdelitev prostora v podprostore, katerih velikost je odvisna od diferenčne ločljivosti v dani smeri. Ko se v nekem podprostoru pojavi ovira, poslušalec zasliši zvok, izhajajoč iz tega podprostora. Avtorji v [22] za kodiranje vseh dimenzij prostora predlagajo HRTF, kar je bistvena razlika glede na naš predlog, ki uvaja posebno kodiranje elevacije. V primerjavi z [22] v vertikalni smeri dolgoročno pričakujemo boljšo točnost lokalizacije in boljšo diferenčno ločljivost kot bi jo dosegli z uporabo splošnih HRTF. 5.3 Analiza HRTF V tem razdelku opisujemo rezultate, ki smo jih dobili s preučevanjem HRTF. Če namreč velja, da je vsa informacija o položaju izvora zvoka vsebovana v zvoku, ki doseže poslušalčevo notranje uho, potem lahko zakonitosti lokalizacije izvorov zvoka ugotavljamo prav s študijem HRTF. Zvočno valovanje, ki prispe v poslušalčev sluhovod oz. naprej v notranje uho, je v praznem prostoru brez odbojnih površin odvisno izključno od poslušalca oz. njegovega telesa. Tako lahko ugotovimo, da ima človekovo telo oz. njegova oblika posebno vlogo pri lokalizaciji izvorov zvoka. Tu lahko še posebej izpostavimo obliko uhljev [24], ki opravljajo neke vrste »smerno filtriranje«. Za obravnavo ločljivosti po elevaciji razdelimo spekter v tri pasove [1]: • nizke frekvence, < 4 kHz; • srednje frekvence, 4 kHz – 16 kHz, pas 8 kHz - 16 kHz poimenujemo pas višjih frekvenc in • visoke frekvence, > 16 kHz. Za potrebe analiz HRTF, ki jih opisujmo v nadaljevanju tega poglavja smo uporabili funkcije iz knjižnice CIPIC [2]. 49 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE 5.3.1 Oslabitev uhlja (pinna notch) Glavna značilnost, ki jo viri [1, 31, 39] navajajo kot ključni faktor zaznavanja elevacije, je oslabitev v amplitudnem poteku HRTF. Ta oslabitev je posledica vpliva uhlja in jo zato poimenujemo oslabitev uhlja (angl. pinna notch). Oslabitev uhlja je pravzaprav več, odboji zvočnega valovanja v uhlju namreč povzročijo več frekvenčnih lukenj [57]. Karakteristike oslabitev (centralna frekvenca, pasovna širina, nivo oslabitve) so odvisne od vsakega posameznika, centralna frekvenca prve (glavne) oslabitve v amplitudnem poteku HRTF pa je naraščajoča funkcija elevacije (izjemoma je pri nekaterih osebah funkcija v krajših intervalih tudi padajoča). Pri spreminjanju elevacije med –45° in 90° ležijo centralne frekvence oslabitev uhlja med 5 kHz in 17 kHz [57]. Spreminjanje centralne frekvence slabljenja uhlja lahko opazujemo na sliki 5.1, ki prikazuje poteke treh HRTF iste osebe (lutka KEMAR – CIPIC oseba 165) pri azimutu 0° in različnih elevacijah. Slika 5.1: Potek amplitudnega spektra HRTF za osebo z oznako 165 (tj. lutka KEMAR) iz knjižnice CIPIC pri azimutu 0o in elevacijah 5o (polna črta), 28o (temna pikčasta črta) in 62o (svetla pikčasta črta). Kot smo omenili, zaradi odbojev v uhlju nastane več oslabitev. Za razliko od slike 5.1, kjer v vsaki HRTF nastopa le ena izrazita oslabitev uhlja, je v funkciji HRTF na sliki 5.2 več oslabitev. Poleg oslabitev uhlja nastopajo še oslabitve, ki so posledica odbojev od drugih delov telesa, vendar so te manj izrazite. 50 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE Slika 5.2: Potek amplitudnega spektra HRTF (CIPIC oseba 131) pri azimutu -45o, elevaciji 0o. Določanje frekvenc oslabitev je mogoče z različnimi postopki obdelave signalov. Nekateri postopki temeljijo na analizi amplitudnega poteka spektra (npr. z linearno predikcijo), v zadnjem času pa je velike pozornosti deležen postopek, ki deluje na osnovi skupinskih zakasnitev [57, 58]. Ker smo ta postopek uporabili tudi v naši analizi, tu na kratko opisujemo algoritem: • Analizo izvajamo v časovnem prostoru, zato uporabimo impulzne odzive HRIR, ki jih poravnamo tako, da jim odrežemo začetne časovne zakasnitve [64]. • Nato signal filtriramo z linearno prediktivnim filtrom reda 10 – 12 in rezultat filtriranja odštejemo od nefiltriranega signala. Rezultat (razlika oz. napaka) predstavlja tisti del signala, ki ga z metodo linearne predikcije ne moremo napovedati. V naši analizi smo uporabili filter reda 12. • Za izločitev resonanc in neizrazitih oslabitev, ki niso posledica uhlja, signal oknimo s polovičnim Hannovim [57] ali polovičnim Kaiserjevim [58] oknom dolžine 1 ms (dolžina okna ni kritičen parameter, vendar se najpomembnejše stvari zgodijo približno v 1 ms; polovično okno pomeni, da ne uporabimo celega okna, pač pa le drugo polovico). Oknjenje v splošnem zmanjša frekvenčno ločljivost in vnese popačitve, ki lahko vplivajo na točnost določanja frekvence oslabitve, zato smo te napake kompenzirali z linearno prediktivnim filtriranjem, izvedenim v prejšnji točki algoritma. Uporabili smo Hannovo okno. 51 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE • Nato izračunamo avtokorelacijo oknjenega signala. • Rezultat avtokorelacije ponovno povprečimo oz. oknimo s polovičnim Hannovim [57] oknom dolžine 1 ms ali Kaiserjevim oknom dolžine 0.7 ms [58]. Uporabili smo Hannovo okno. • Izračunamo Fourierov transform oknjenega signala in odvajamo njegov fazni potek. Odvod faznega poteka je skupinska zakasnitev r(co) = -^p. Iskane frekvence oslabitev uhlja so lokalni minimumi, ki imajo skupinsko zakasnitev manjšo od 0 s. V praksi se je izkazalo, da je bolje vzeti minimume s skupinsko zakasnitvijo manjšo od -1 s, da se izločijo morebitni produkti oknjenja [57], poleg tega moramo izločiti še vse minimume, ki so sicer ustrezni vendar imajo frekvenco manjšo od 3 kHz. Slika 5.3: Odvisnost frekvenc oslabitve uhlja v odvisnosti od elevacije za lutko KEMAR (oseba 165 v knjižnici CIPIC) – levo uho. Grafi prikazujejo situacijo pri azimutih 0° (levo zgoraj), -15° (desno zgoraj), -45° (levo spodaj) in -65° (desno spodaj). 52 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE Namesto neposrednega računanja odvoda faznega poteka, določimo skupinsko zakasnitev s pomočjo Fourierovega transforma funkcij x[n] in nx[n]: N-1 (5.1) N-1 Y(cD) = Y4nx[n\e10M=YR(cD) + jYI(cD) «=0 Od tod sledi [57], da je skupinska zakasnitev 1(0): , , dO(m) X(®)Y((o) + X((o)Y((o) t(cq) =------)L= R ------i (5.2) da X 2 R(co) + X 2 (co) Slika 5.3 prikazuje odvisnost frekvence oslabitev uhlja v odvisnosti od elevacije za nezasenčeno uho lutke KEMAR (oseba 165 knjižnice CIPIC) pri različnih azimutih (0°, -15°, -45°, -65°). V nadaljevanju nas bo zanimala predvsem prva oslabitev uhlja, o kateri smo že zapisali, da njena frekvenca (z nekaj izjemami) narašča v odvisnosti od elevacije. Pomen oslabitve uhlja potrjujejo tudi druge raziskave [46, 78], kjer so ugotovili, da je za zaznavanje elevacije bistvenega pomena potek amplitudnega dela spektra v pasu med 5.7 kHz in 11.3 kHz. Vendar amplitudni potek spektra v omenjenem frekvenčnem pasu ne predstavlja edinega faktorja za ločevanja elevacije izvora zvoka, saj je elevacijo izvora zvoka možno določiti tudi za zvoke, ki ne vsebujejo komponent v tem delu spektra [1]. Na zvoke frekvenc pod 3 kHz vplivajo predvsem odboji od telesa in lom valovanja zaradi glave. Te motnje so izrazitejše izven sagitalne ravnine. Kljub temu, da elevacijo izvora zvoka lahko ugotovimo pri zvokih nižjih frekvenc, pa prisotnost višjih frekvenčnih komponent izboljšuje natančnost lokalizacije [1]. 5.3.2 Energija HRTF Že s površnim pregledom amplitudnih potekov HRTF pri azimutih med -80° in 80° ter elevacijah med -45° in 90° ugotovimo, da je večina energije koncentrirane pri nizkih (< 4 kHz) in srednjih frekvencah (4 kHz - 16 kHz). V nadaljevanju bomo za posamezne elevacije ugotavljali frekvenčni pas v katerem se nahaja večina energije ter poskusili ugotoviti, če v zvezi s tem obstaja kaka zakonitost. Zvočno valovanje, ki ga uho prestreže kot posledico oddanega enotinega zvočnega impulza obravnavamo kot širokopasovni (zvočni) signal, kar je razvidno tudi iz amplitudnega poteka pripadajočega HRTF. Minimalna zaznavna razlika v jakosti zvoka (angl. just noticeable difference of intensity) je enaka za ozkopasovne in širokopasovne zvočne signale [47] in je ocenjena na 0.41 dB za zvoke z jakostjo večjo od 30 dB. Slednji pogoj je v naših raziskavah povsod izpolnjen. Kot smo omenili v poglavju o slabljenju uhlja, se centralna frekvenca oslabitve spreminja v odvisnosti od elevacije. Ker ima ta odvisnost vpliv na razporeditev energije 53 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE signala v odvisnosti od frekvence, nas bo zanimala zgornja meja frekvenčnega pasu v katerem je skoncentrirana večina energije, pri čemer za računanje energije signal (tj. ustrezen HRTF) obtežimo z utežjo karakteristike A standarda ISO 226 (več o utežnih karakteristikah smo napisali v poglavju 3.1). Zgornjo frekvenčno mejo določimo s pogojem, da je količina energije nad to mejo zanemarljiva, tj. ni zaznavna. V frekv. pasu med 0 in zgornjo frekvenčno mejo je torej skoncentrirano 91 % (-0.41 dB) vse energije odziva na enotin zvočni impulz za posamezno lokacijo, ki je določena z elevacijo in azimutom. Sliki 5.4 in 5.5 prikazujeta zgornjo frekvenčno mejo v odvisnosti od elevacije pri različnih azimutih za dve osebi – knjižnica CIPIC, lutka KEMAR (oznaka 165) in oseba z oznako 119. Funkcijske odvisnosti so podane za nezasenčeno uho, tj. uho, na katero zvočno valovanje vpada neposredno. Slika 5.4: Frekvenčne meje do katere je zbrane 91 % vse energije HRTF posamezne elevacije. Odvisnosti frekvenčne meje od elevacije veljajo za lutko KEMAR (oseba 165 knjižnice CIPIC) in so podane za naslednje azimute: 0° (levo zgoraj), -10° (desno zgoraj), -20° (levo spodaj) in -55° (desno spodaj). 54 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE Na sliki opazimo naraščajoč trend, zgornja frekvenčna meja se z večanjem elevacije zvišuje, kar pomeni, da je pri nizkih elevacijah energija koncentrirana pretežno pri nizkih frekvencah, z višanjem elevacije pa se razporedi po širšem frekvenčnem pasu. O naraščanju lahko govorimo le v globalnem smislu, na posameznih delih opazimo tudi padanje, ki je še posebej značilno za elevacije manjše od 0°, tj. pod horizontalno ravnino. Primerjava zgornjih frekvenčnih mej v odvisnosti od elevacije za vse funkcije knjižnice CIPIC pokaže, da v splošnem res velja globalni trend naraščanja, lokalna naraščanja in upadanja pa so značilna zlasti za nizke in zelo visoke elevacije. Lokalni poteki so dokaj naključni in ne najdemo skupnih zakonitosti, ki bi veljale za vse osebke. Zato sklepamo, da je ta naključnost posledica razširjanja valovanja oz. vpliv človekovega telesa. Pri nekaterih funkcijah oz. osebkih, kot npr. oseba z oznako 60, so ti vplivi še posebej izraziti, pri ostalih, kot vidimo tudi na slikah 5.4 in 5.5, pa precej manj. Slika 5.5: Frekvenčna meja do katere je zbrane 91 % vse energije HRTF posamezne elevacije. Odvisnosti frekvenčne meje od elevacije so podane za osebo 119 iz knjižnice CIPIC za naslednje azimute: 0° (levo zgoraj), -10° (desno zgoraj), -20° (levo spodaj) in -55° (desno spodaj). 55 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE Kot smo omenili v uvodu tega razdelka, je energija skoncentrirana pri nizkih frekvencah. V nasprotju s centralno frekvenco oslabitve uhlja, ki se v odvisnosti od elevacije spreminja med 5 kHz in 17 kHz, zgornja frekvenčna meja (91 % energije) leži v vseh primerih bistveno nižje – med 4 kHz in 6.5 kHz. Pri razlagi slednjega si lahko pomagamo s primerjanjem amplitudnih potekov HRTF pri fiksnih azimutih in različnih elevacijah, kjer ugotovimo relativno podoben amplitudni potek med 0 in neko frekvenco, ki je v primeru azimuta 0° približno 4.5 kHz. V okolici te frekvence vsi amplitudni poteki dosežejo maksimum, nato pa začno upadati ter dosežejo minimum pri oslabitvi uhlja. Pri približno 85 % HRTF je to globalni maksimum, v ostalih primerih pa nivo tega maksimum ni dosti nižji kot nivo globalnega maksimuma. V večini ostalih 15 % primerov globalni maksimum leži pri frekvencah nad 10 kHz. 5.4 Akustične iluzije v elevaciji V raziskavah, ki se ukvarjajo z obdelavo zvokovnih signalov z namenom ustvarjanja akustičnih iluzij oz. navideznih izvorov zvoka (tj. prepričati poslušalca, da sliši izvor zvoka na drugi lokaciji kot je v resnici) omejenih na elevacijo, obdelava zvokovnih signalov temelji na postopkih frekvenčne manipulacije. Gre za filtriranje z resonatorji, s filtri z zarezo in pasovno zapornimi filtri (posnemanje oslabitve uhlja) ali za neposredno preslikavo med elevacijo in frekvenco [4, 44, 59]. Glavna razlika med ustvarjanjem akustičnih iluzij v prostoru ali s slušalkami je, da na zvok, ki ga sliši poslušalec pri poslušanju v prostoru, vpliva prenosna pot, ki »vsiljuje« dejansko in ne navidezno lokacijo izvora. To pomeni, da morajo biti v zvočnem valovanju, ki ga prestreže poslušalec lastnosti navidezne lokacije prevladujoče nad lastnostmi, ki jih prispeva dejanska prenosna pot. Odgovor na vprašanje ali je s frekvenčno manipulacijo zvokovnega signala možno navidezno premikati izvor zvoka v prostoru, če uporabimo zvočnik, ki je postavljen na fiksni poziciji nam daje npr. raziskava [5]. V tej raziskavi so uporabili šum z ravnim amplitudnim potekom med 6 kHz in 12 kHz, ki so ga pri različnih frekvencah filtrirali s filtrom z zarezo (notch filter) ter ga predvajali po zvočniku, ki je bil nameščen na lokaciji (azimut, elevacija) = (90°, 60°). Po drugem zvočniku so predvajali šum z ravnim amplitudnim potekom med 6 kHz in 12 kHz. Ta zvočnik je bil premičen in je služil za ugotavljanje navideznega položaja zvočnika, ki je predvajal filtriran signal. Z opisanim načinom obdelave šuma so dosegli navidezno premikanje izvora zvoka, pri čemer je bila ločljivost 15°. Podoben poskus, opisan v točki 5.4.1 smo izvedli tudi sami. Pri ustvarjanju akustičnih iluzij za poslušanje s slušalkami pa je največja težava ta, da so vsi modeli bolj ali manj ne-individualni, zaradi ne-individualnosti sintetiziranih zvokov pa ne moremo ustvariti absolutne lokalizacije. To pomeni, da poslušalec pri poslušanju 56 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE dveh zvokov sicer ugotovi, kateri pripada izvoru z višjo in kateri izvoru z nižjo elevacijo, ne more pa določiti absolutnega položaja izvora zvoka. Absolutni položaj elevacije izvora zvoka lahko poslušalec ugotovi le, če je zvok obdelan z individualnimi HRTF ali če se je predhodno že naučil »umetnega« načina kodiranja. 5.4.1 Akustične iluzije v prostoru Podobno kot v [5] smo izvedli poskus ustvarjanja akustičnih iluzij z zvočniki v prostoru. Ker nas je zanimalo predvsem ali je akustične iluzije v vertikalni smeri sploh možno ustvariti in če je to možno v nekem običajnem okolju, smo za kraj poskusa izbrali prostore Laboratorija za komunikacijske naprave na Fakulteti za elektrotehniko, kjer je jakost hrupa 40 dB, merjeno po lestvici A z merilnikom Lutron SL-4012. Uporabili smo pet navadnih računalniških zvočnikov Genius (model: SP-G06), ki smo jih zložili v vertikalni smeri, 20 cm vsaksebi kot kaže slika 5.6. Poslušalec je bil od zvočnikov oddaljen 150 cm. V poskusu je sodelovalo 8 oseb, ki po njihovih lastnih zagotovilih niso imeli težav s sluhom ali vidom. Slika 5.6: Postavitev zvočnikov pri poskusu ustvarjanja akustičnih iluzij v vertikalni smeri v prostoru. Zvočniki so postavljeni v sagitalni ravnini, med centri zvočniških membran je razmik 20 cm, testna oseba je od zvočniške konstrukcije oddaljena 150 cm. 57 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE Od petih zvočnikov, ki jih je videl poslušalec, smo zvok vedno predvajali le na srednjem zvočniku (lokacija glede na poslušalca: azimut 0°, elevacija 0°). Uporaba več zvočnikov je tako le vizualna iluzija, ki glede na vizualno teorijo (vpliv vizualne percepcije na lokalizacije izvorov) zagotavlja zanesljivejše ustvarjanje iluzij. Poskus smo izvedli s petimi nabori zvokov od katerih je vsak nabor vseboval tri zvoke. Zvoki posameznega nabora so bili rezultat obdelave istega osnovnega zvoka. Vsak od zvokov posameznega nabora naj bi predstavljal svojo elevacijo. Uporabili smo naslednje zvoke in tehnike obdelave signalov: a) zvokovni signali iz narave (zvok ob poku puške in zvok pri razbitju kozarca, spektra signalov sta prikazana na slikah 5.7 in 5.8): obdelava je bila izvedena z množenjem osnovnega signala s sinusnim signalom različnih frekvenc (za potrebe poskusa smo uporabili sinusa s frekvencama 5 kHz in 10 kHz, tretji zvok nabora je bila osnovna oblika zvoka), ideja o frekvenčni prestavitvi osnovnega spektra izvira iz povezave spektra zvoka in elevacije [44, 59]; Slika 5.7: Spekter zvokovnega signala, ki nastane ob poku puške je eden izmed dveh zvokov iz narave, ki smo jih uporabili pri poskusu ustvarjanja akustičnih iluzij v elevaciji. b) šum z ravnim amplitudnim potekom (beli šum): za obdelavo smo uporabili nizko prepustni filter s spremenljivo zgornjo frekvenco (za potrebe poskusa smo uporabili tri filtre z zgornjimi frekvencami 5 kHz, 10 kHz in 20 kHz) in takim ojačanjem, da so bile energije filtriranih signalov vedno enake; ideja postopka izvira iz porazdelitve energije HRTF v odvisnosti od elevacije, ki smo jo opisali v razdelku 5.3.2; 58 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE c) rožnati šum: obdelavo smo izvedli s filtriranjem z nizko prepustnim filtrom s spremenljivo zgornjo frekvenco (za potrebe poskusa smo uporabili tri filtre z zgornjimi frekvencami 5 kHz, 10 kHz in 20 kHz) in takim ojačanjem, da so bile energije filtriranih signalov vedno enake; ideja postopka izvira iz porazdelitve energije HRTF v odvisnosti od elevacije, ki smo jo opisali v razdelku 5.3.2; d) rožnati šum: obdelava je bila izvedena z množenjem rožnatega šuma s sinusnim signalom različnih frekvenc (za potrebe poskusa smo uporabili sinusa s frekvencama 5 kHz in 10 kHz, tretji zvokovni signal je bil rožnati šum v osnovni obliki), tudi tu ideja o frekvenčni prestavitvi osnovnega spektra izvira iz povezave frekvence tona in elevacije [44, 59]. Slika 5.8: Spekter zvokovnega signala, ki nastane ob razbitju kozarca je eden izmed dveh zvokov iz narave, ki smo jih uporabili pri poskusu ustvarjanja akustičnih iluzij v elevaciji. Trajanje posameznega zvokovnega signala je bilo 100 ms, pri predvajanju smo med posamezne zvoke vključili 1 s trajajočo tišino. Preizkusni postopek se je razlikoval glede na uporabljeno tehniko obdelave signalov – vrstni red predvajanja zvokov smo določili glede na predvideno navidezno elevacijo, ki naj bi jo zvok izzval pri poslušalcu, pri čemer smo se oprli na povezavo elevacije in frekvenčne vsebine zvoka [59]. V primeru obdelave signala z množenjem smo predvideli, da najnižjo elevacijo zavzame osnovna oblika zvoka, višjo elevacijo zvok pomnožen s sinusom 5 kHz in najvišjo zvok pomnožen s sinusom 10 kHz. Za zvoke obdelane s filtrom smo ob upoštevanju enakih predpostavk predvideli, da najnižjo elevacijo izzove zvok filtriran s filtrom zgornje frekvence 5 kHz, najvišjo elevacijo zvok filtriran s filtrom zgornje frekvence 20 kHz, vmesno pa zvok 59 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE filtriran s filtrom zgornje frekvence 10 kHz. Poslušalcem smo predvajali zvoke v zaporedju od »najnižje« do najvišje »elevacije«. Zaporedje za zvoke, ki smo jih dobili s pomočjo množenja je bil (ponavljajoči) vrstni red naslednji: 1. osnovna oblika zvokovnega signala; 2. zvokovni signal obdelan (množen) s sinusom frekvence 5 kHz; 3. zvokovni signal obdelan (množen) s sinusom frekvence 10 kHz; 4. zvokovni signal obdelan (množen) s sinusom frekvence 5 kHz; 5. osnovna oblika zvokovnega signala. V primeru obdelave z nizkoprepustnim filtrom pa je bil (ponavljajoči) vrstni red predvajanja zvokov naslednji: 1. signal obdelan (filtriran) s filtrom zgornje frekvence 5 kHz; 2. signal obdelan (filtriran) s filtrom zgornje frekvence 10 kHz; 3. signal obdelan (filtriran) s filtrom zgornje frekvence 20 kHz; 4. signal obdelan (filtriran) s filtrom zgornje frekvence 10 kHz; 5. signal obdelan (filtriran) s filtrom zgornje frekvence 5 kHz; Zaporedje, opisano v zgornjih točkah, smo vsakemu poslušalcu ponovili 3 krat. Naloga poslušalcev je bila, da z navzgor, navzdol ali vodoravno usmerjenim palcem nakažejo (navidezno) spremembo lokacije izvora zvoka. Poslušalce, ki so vsaj dvakrat pravilno sledili celotno zaporedje smo uvrstili v »uspešno«, ostale pa v »neuspešno«. Rezultate podajata tabela 5.1 in graf na sliki 5.9. pok puške razbitje kozarca beli šum rožnati šum (filtriran) rožnati šum (množen) usp. neusp. usp. neusp. usp. neusp. usp. neusp. usp. neusp. 7 1 3 5 2 6 5 3 2 6 Tabela 5.1: Število uspešnih oz. neuspešnih sledenj zaporedju navideznih premikov izvora zvoka. Z vsako testno osebo smo izvedli tri ponovitve za vsak zvok. Za uvrstitev v »uspešno« je testna oseba morala vsaj dvakrat pravilno slediti celotno zaporedje navideznega spreminjanja elevacije izvora posameznega zvoka. Pred izvajanjem poskusa, tj. pred poslušanjem prvega nabora zvokov, smo vsakemu poslušalcu predvajali uvajalno proceduro, kjer smo uporabili osnovne oblike zvokov (oz. šume s pasovno širino 20 kHz), ki smo jih predvajali na posameznih zvočnikih, od tistega z najnižjo elevacijo do najvišjega in nazaj. To zaporedje smo ponovili trikrat. Uvajalna procedura s posameznim zvokom je trajala približno 30 s. Po koncu uvajalne procedure je testna oseba imela 5 min premor. Prav tako je 5 min odmor sledil tudi poslušanju posameznega nabora zvokov, tj. pred poslušanjem naslednjega nabora. 60 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE Rezultati kažejo, da je ustvarjanje akustičnih iluzij v vertikalni smeri v prostoru izvedljivo, vendar močno odvisno od izbire zvoka in postopka obdelave signalov. Najboljši rezultat je bil dosežen z zvokom puške, ki smo ga množili s sinusnimi signali različnih frekvenc. V spektru signala (slika 5.7) opazimo, da so izrazitejše komponente pri nižjih frekvencah, ki jih z množenjem premikamo po frekvenčni osi. Mehanizem iluzije je potemtakem povezava dominantnega dela frekvenčnega spektra in elevacije, kot je med drugim ugotovil tudi Blauert, ki je eksperimentiral z ozkopasovnimi zvokovnimi signali [3]. S spektrom, ki smo ga ravnokar omenili, ima nekaj podobnosti spekter rožnatega šuma, vendar množenje rožnatega šuma in sinusnih signalov ni povzročilo prepričljivih akustičnih iluzij. Vzrok bi bil lahko preozek dominantni del frekvenčnega spektra, pa tudi spektralno siromašnejši in manj naraven zvok kot zvok puške. Akustične iluzije, izvedene z zvokom ob razbitju kozarca, so zanemarljivo bolj prepričljive kot v primeru prej omenjenega rožnatega šuma. Sklepamo, da to majhno prednost zagotovi naravnost zvoka. Slika 5.9: Uspešnost akustičnih iluzij ustvarjenih z zvočniki v vertikalni smeri v odvisnosti od zvokovnega signala in postopka obdelave. Graf podaja delež testnih oseb, ki so sintetizirane (virtualne) izvore zvoka lokalizirali na navidezni in ne na dejanski lokaciji. Filtriranje šumov z nizko prepustnim filtrom in s tem povezana zastopanost spektralnih komponent je eden izmed mehanizmov, ki smo ga uporabili tudi pri poskusih 61 ELEVACIJA – ANALIZA HRTF IN AKUSTIČNE ILUZIJE s slušalkami. Ustvarjanje akustičnih iluzij v vertikalni smeri v prostoru je bilo prepričljivejše pri uporabi rožnatega šuma kot pri uporabi belega šuma. 5.5 Komentar Preučevanje vplivov, ki vnašajo spremembe v zvočno valovanje, kar je ključno za lokalizacijo, je silno živahna raziskovalna disciplina. Poleg analize je veliko pozornosti namenjeno tudi sintezi, predvsem gre za iskanje modelov za simulacijo HRTF. Glavni problem, ki zaenkrat ostaja nerešen, je ne-individualnost na tak način pridobljenih smernih funkcij. V smeri reševanja tega problema so zanimiva zlasti modeliranja vplivov glave, telesa in uhljev na zvočno valovanje, saj se fizične karakteristike posameznikovih delov telesa bolj ali manj razlikujejo. Ker smo v naši raziskavi problem lokalizacije razdelili na dva neodvisna dela, se z zgoraj opisanimi izzivi nismo ukvarjali. Ker nas zanimajo specifični modeli, povezani zgolj z elevacijo, smo se tudi pri analizi HRTF osredotočili zgolj na to dimenzijo. Tako oslabitev uhlja kot povezave med spektrom in elevacijo, ki smo ju preučevali, sta predmet mnogih raziskav, kljub temu pa do sedaj v literaturi nismo zasledili poskusov, ki bi izhajali iz razporeditve energije po frekvenčni osi na način kot smo ga predstavili tu. 62 6 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE V skladu z zastavljenim ciljem, tj. uvedbo umetnega kodiranja elevacije v akustično sliko prostora, bomo v tem poglavju podrobneje predstavili konkreten poskus kodiranja elevacije v enodimenzionalni akustični sliki, rezultate, ki so jih dosegle testne osebe in predlog razširitve akustične slike v dve dimenziji. Z analizo rezultatov bomo poskušali natančneje opredeliti nadaljnje možnosti razvoja umetnega kodiranja elevacije in predvsem sposobnosti učenja absolutne lokalizacije navideznih izvorov zvoka, kar je pri uporabi ne-individualnih (tj. splošnih) funkcij ključnega pomena. 6.1 Ideja umetnega kodiranja elevacije Najučinkovitejši postopek za dosego prostorskega učinka s poljubnim zvokom predstavlja uporaba individualnih HRTF [57], tj. konvolucije zvokovnega signala in odziva prenosne poti med (navideznim) izvorom zvoka in poslušalčevim uhljem na enotin impulz. Zaradi težavnosti merjenja individualnih HRTF želimo uporabiti splošen model HRTF, kot so to npr. HRTF, izmerjene na lutki. Težava splošnih modelov je ne-individualnost, kar pomeni, da poslušalec ni zmožen absolutne lokalizacije navideznega izvora zvoka oz. se mora naučiti njegove prostorske lokacije. V osnovni ideji smo predpostavili, da v akustično sliko uvedemo posebno (umetno) kodiranje le po elevaciji, za kodiranje po azimutu pa uporabimo splošne HRTF ali le ustrezne časovne zakasnitve in amplitudne razlike med obema uhljema [67]. Na tak način se poslušalčevo učenje reducira na učenje lokalizacije navideznih izvorov zvoka po elevaciji. Kot bomo videli v nadaljevanju, pa ustrezen model kodiranja elevacije pripomore k hitrejšemu učenju. Za reševanje problema lokalizacije po elevaciji in razvoja modelov, smo problem razdelili na dva dela: • izbira zvoka in • razvoj postopkov obdelave signalov s katerimi obdelujemo izbrane zvoke. Zvoke, ki smo jih uporabili v modelih za kodiranje elevacije smo izbrali izmed zvokov, ki se najpogosteje pojavljajo v sorodnih poskusih. Poskušali smo zajeti čim bolj raznolike zvoke glede na njihov frekvenčni spekter. V zvezi s psihoakustiko v literaturi največkrat zasledimo raznobarvne šume, sinusne signale oz. tone, psevdonaključne 63 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE signale, kombinacije navedenih signalov ipd. Za potrebe našega poskusa smo izbrali naslednje zvokovne signale: • šum z ravnim frekvenčnim potekom med 0 Hz in 20 kHz (beli šum), • rožnati šum in • sinusni signal (ton). Pri razvoju postopkov obdelave signalov smo se oprli na analize, ki smo jih opisali v prejšnjem poglavju. Na podlagi analiz smo razvili več modelov, od katerih vsak na svoj način opisuje povezavo med elevacijo in frekvenco. V vsakem postopku obdelave signalov nastopa frekvenčni parameter, ki ga poimenujemo karakteristična frekvenca in predstavlja odvisnost od elevacije. Število frekvenčnih parametrov posameznega modela je v splošnem poljubno. Ker večino postopkov obdelave, ki smo jih uporabili lahko realiziramo z različnimi filtri, je karakteristična frekvenca pravzaprav parameter filtra, npr. mejna frekvenca, centralna frekvenca ipd. Nabor karakterističnih frekvenc, ki jih uporabimo v posameznemu modelu torej pomeni število različnih signalov (zvokov), ki jih dobimo kot rezultat obdelave. Množico zvokov, ki imajo različne karakteristične frekvence in so posledica obdelave skupnega (osnovnega) zvoka, imenujemo zvokovni nabor. Nabor zvokov predstavlja tudi nabor elevacij, ki jih s tem modelom kodiramo – karakteristična frekvenca je neposredno povezana z zvokom, ki mu priredimo točno določeno elevacijo. Elevacije, ki jih želimo predstaviti v akustični sliki lahko kodiramo z zvoki, ki pripadajo istemu zvokovnemu naboru, lahko pa uporabimo zvoke različnih naborov. V naših eksperimentih v posamezni akustični sliki prostora vedno nastopajo zvoki enega nabora. Z vključitvijo zvokov iz več naborov bi povečali raznolikost in morda posledično pripomogli k večji ločljivosti, vendar pa vključevanje več naborov v isto akustično sliko ni predmet tega dela. 6.2 Postopki obdelave signalov 6.2.1 Model na osnovi »oslabitve uhlja« Za neposredno modeliranje oslabitve uhlja smo razvili model v katerem uporabimo filter z zarezo oz. pasovno zaporni filter. Uporabimo različne pasovne širine (B) s čimer poudarimo izločitev spektralne vsebine, centralna frekvenca filtra fc je parameter, ki povezuje model z navidezno elevacijo izvora zvoka. 64 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE 6.2.2 Model na osnovi porazdelitve energije HRTF V petem poglavju smo ugotovili, da je v odzivih prenosne poti med izvorom zvoka in poslušalčevim uhljem na enotin impulz energija razporejena tudi v odvisnosti od elevacije izvora zvoka. Kot smo videli, je za nizke elevacije energija koncentrirana v ožjih frekvenčnih pasovih pri nizkih frekvencah, za višje elevacije pa v širših frekvenčnih pasovih s spodnjo frekvenco 0. Na podlagi napisanega smo model poimenovali nizko pasovni model, ki ga realiziramo z nizko prepustnim filtrom. Zgornja mejna frekvenca filtra, ki je v sorazmerju s pasovno širino filtra, predstavlja povezavo z elevacijo. 6.2.3 Modeli na osnovi povezave elevacije in frekvence Na osnovi zakonitosti o povezavi elevacije izvorov zvoka in pripadajočih spektrov [3, 59] smo razvili tri modele: • Model 1 – uporabimo pasovno prepustni filter: eksperimentiramo z različnimi pasovnimi širinami, centralna frekvenca filtra fc pomeni povezavo z elevacijo izvorov zvoka. • Model 2 – zvokovni signal množimo s sinusom, kar pomeni, da celoten zvokovni signal premaknemo po frekvenčni osi, frekvenca sinusa oz. tona pomeni povezavo z elevacijo izvora zvoka. • Model 3 – osnovni zvok sestavimo iz enega ali več tonov s pripadajočimi višjimi harmonskimi komponentami (v razponu 16 Hz – 20 kHz). Za kodiranje elevacije spreminjamo frekvenco osnovnih tonov in v skladu s temi spremembami tudi frekvence harmonskih komponent. Nabor frekvenc osnovnih tonov predstavlja karakteristične frekvence oz. karakteristični nabor. Osnovne tone, višje harmonske komponente in njihove amplitude določimo tako, da si najprej izberemo naraven zvok, ki ga povzroči nek preprost akustični pojav kot npr. nihanje strune kitare, udarec na boben, pisk piščalke ipd. S pomočjo Fourierove transformacije ugotovimo najznačilnejše frekvence, njihove amplitude in pripadajoče višje harmonske komponente. Postopek določanja osnovnih frekvenc naravnega zvoka v tej fazi razvoja akustične slike ni strogo določen. 6.3 Zaznavne razlike med zvoki, ki pripadajo istemu naboru Prostor, ki bi ga želeli z akustično sliko predstaviti poslušalcu ima vertikalni razpon od -45° do 90°. Z ločljivostjo po elevaciji, kot jo človek izkazuje v prostoru (6°), bi to v 65 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE našem modelu zahtevalo 23 zvokov za kodiranje elevacije. Ta vrednost naj zaenkrat služi zgolj za orientacijo, natančneje bomo število potrebnih zvokov določili kasneje. Preden smo se lotili ugotavljanja zaznavnih razlik med zvoki, ki pripadajo istemu naboru, smo predpostavili konstantno razliko (250 Hz) med karakterističnimi frekvencami v celotnem slišnem območju (16 Hz – 20 kHz). Ker so rezultati o potrebni razliki v frekvenci [83] podani le za sinusni signal (ton), je za ostale oblike zvokov potreben preizkus, ki ga opisujemo v nadaljevanju. 6.3.1 Nabori zvokov Z uporabo nizko prepustnega, pasovno prepustnega in pasovno zapornega filtra ter z uporabo množilnika smo generirali sedem različnih naborov zvokov. Vsak nabor zvoka je vseboval 73 različnih zvokov. a) Rožnati šum množen s sinusnim signalom. Rožnati šum se pogosto uporablja v akustiki, njegova glavna značilnost je frekvenčno odvisen amplitudni oz. močnostni spekter. Moč šuma upada obratno sorazmerno s frekvenco – konstantno 3 dB na oktavo: 1 P = . (6.1) f Slika 6.1: Močnostni spekter rožnatega šuma (levo) in močnostni spekter rožnatega šuma množenega s sinusnim signalom frekvence 5 kHz (desno). Rožnati šum se pogosto uporablja v akustiki, njegova glavna lastnost je konstantno upadanje moči 3 dB na oktavo. Produktu rožnatega šuma in sinusa ne moremo več reči rožnati šum, saj ne ustreza zakonitosti enačbe (6.1). Slika 6.1 prikazuje rožnati šum v osnovni obliki in rožnati šum množen s sinusnim signalom frekvence 5 kHz. V 66 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE eksperimentu smo uporabili naslednje frekvence sinusnega signala, f = {1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, … 18.5, 18.75, 19} kHz. b) Beli šum, filtriran s pasovno prepustnim filtrom. Beli šum se v tem primeru nanaša na signal z ravnim spektrom v področju slišnih frekvenc, tj. med 16 Hz in 20 kHz. Model ima dva parametra – pasovno širino B in centralno frekvenco fc. Zvoki, ki jih dobimo pri filtriranju s konstantno pasovno širino in s spreminjanjem centralne frekvence fc tvorijo en nabor. Glede na povezavo med elevacijo in frekvenco [59], zvoki z nižjimi fc predstavljajo nižje elevacije, zvoki z višjimi fc pa višje elevacije. V eksperimentu smo uporabili pasovno širino B = 2 kHz in naslednje centralne frekvence fc = {1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, … 18.5, 18.75, 19} kHz. c) Beli šum, filtriran s pasovno zapornim filtrom. Beli šum se v tem primeru nanaša na signal z ravnim spektrom v področju slišnih frekvenc, tj. med 16 Hz in 20 kHz. Kot smo že omenili, je eden izmed glavnih faktorjev zaznavanja elevacije izvorov zvoka oslabitev, ki je posledica vpliva uhlja (»pinna notch«). Centralna frekvenca oslabitve fc je odvisna od elevacije, z naraščanjem elevacije narašča tudi centralna frekvenca oslabitve. Nabor zvokov dobimo s spreminjanjem centralne frekvence oslabitve, z različnimi pasovnimi širinami zapornega pasu pa dobimo več naborov. V fazi načrtovanja smo predvidevali, da bi s širšo spektralno luknjo izboljšali možnost lokalizacije. Uporabili smo naslednje centralne frekvence fc = {1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, … 18.5, 18.75, 19} kHz in pasovne širine B: • 30 Hz, • 600 Hz, • 2 kHz. d) Beli šum, filtriran z nizko prepustnim filtrom. Beli šum se nanaša na signal z ravnim spektrom v področju slišnih frekvenc, tj. med 16 Hz in 20 kHz. V nizko prepustnem modelu, ki ga realiziramo z nizko prepustnim filtrom je parameter zgornja mejna frekvenca fzg. Uporabili smo naslednje mejne frekvence fzg = {1, 1.25, 1.5, 1.75, 2, 2.25, 2.5, … 18.5, 18.75, 19} kHz. e) Rožnati šum, filtriran z nizko prepustnim filtrom. Za ta primer veljajo enake zakonitosti in predpostavke kot za model, opisan v točki e. Razlika med modeloma je zgolj v osnovnem zvokovnem signalu. 6.3.2 Opis poskusa S sedmimi nabori zvokov, opisanimi v prejšnjem razdelku, smo izvedli test ločljivosti zvokov, ki pripadajo posameznim naborom (angl. just noticeable differences, JND). Cilj 67 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE poskusa je bil ugotoviti koliko zvokov v posameznem naboru je ločljivih oz. kolikšna minimalna razlika karakterističnih frekvenc (zaradi omejenega nabora je v našem primeru ta lahko le večkratnih 250 Hz) je potrebna, da razločimo dva zvoka. Za test smo uporabili transformirano metodo gor-dol (angl. transformed up-down procedure) [41, 85]. Gre za eno izmed adaptivnih metod, kjer je spreminjanje parametrov stimulatorja (tj. testnega signala) odvisna od prejšnje vrednosti parametrov in od rezultata poskusa. S postopnim spreminjanjem vrednosti parametrov se asimptotično približujemo mejni vrednosti, ki jo poslušalec zazna s 50 % verjetnostjo. Mejna vrednost je zaradi svoje psihofizične narave določena statistično, ponazorimo jo lahko s t.i. psihometrično funkcijo, ki jo prikazuje slika 6.2. Slika 6.2: Psihometrična funkcija se uporablja v poskusih psihofizične narave. Običajno se kot iskana meja ločljivosti (tj. rezultat poskusa) vzame nivo stimulansa (npr. glasnost zvoka) pri katerem je verjetnost iskanega odgovora 50 %. Literatura [41] podrobneje opisuje različne načine določanja rezultata na psihometrični funkciji. Med najučinkovitejše metode spadajo tudi metoda gor-dol (angl. simple up-down method) in njene izvedenke – transformirane metode gor-dol. Za razlago metode gor-dol si poglejmo primer, ko imamo ton s frekvenco 5 kHz in želimo določiti ton s frekvenco večjo od 5 kHz tako, da bosta tona ločljiva in da bo frekvenčna razlika med njima najmanjša. Na začetku si izberemo začetni odmik, npr. 100 Hz in korak, npr. 10 Hz (iz [83] vemo, da je frekvenčna razlika, ki jo iščemo, približno 30 Hz). Če ugotovimo, da sta preiskovani ton in ton s frekvenco, ki ustreza začetnemu odmiku ločljiva, zmanjšamo frekvenco drugega tona za en korak (10 Hz). To počnemo vse dokler poslušalec ne loči več tonov (prvi tek, angl. first run). V naslednjih korakih nato povečujemo frekvenco drugega tona toliko časa, da poslušalec ponovno loči tona (drugi tek). Mejo med posameznimi teki imenujemo tudi obrat (angl. turnaround). Za določitev frekvenčne razlike, ki jo iščemo, moramo izvesti najmanj 6 tekov, končni 68 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE rezultat pa je povprečje srednjih vrednosti vseh sodih tekov. Srednjo vrednost teka določimo iz začetne in končne (v našem primeru) frekvence drugega tona v pripadajočem teku. Transformirane metode gor-dol so v osnovi enake metodi iz katere izhajajo. Glavna razlika je uvedba skupin gor in dol. To pomeni, da frekvenčno razliko med preizkušenima tonoma zmanjšamo (dol) oz. povečamo (gor) na podlagi več odgovorov, poleg tega pa lahko uvedemo tudi spremenljiv frekvenčni korak. V našem primeru sta bila za zmanjšanje razlike potrebna dva zaporedna pozitivna odgovora (poslušalec loči zvoka), za povečanje razlike pa je zadostoval en negativen odgovor (poslušalec ne loči zvokov). Za razliko od osnovne metode s tem pristopom dosežemo 70 % verjetnost na psihometrični funkciji. S spremenljivim frekvenčnim korakom pa izboljšamo hitrost konvergence rezultata. Na začetku tako lahko izberemo večji korak, ki ga nato ob vsakem obratu prepolovimo. Tako bi v prej omenjenem primeru dveh tonov izbrali začetni odmik npr. 100 Hz in korak 40 Hz. Če vemo, da bo rezultat 30 Hz, potem bo prvi obrat ko bomo frekvenčno razliko med tonoma zmanjšali na 20 Hz, tedaj bomo prepolovili korak na 20 Hz in naslednji obrat bo pri frekvenčni razliki 40 Hz. Sedaj bomo korak zmanjšali na 10 Hz, kar pomeni, da bomo ob naslednjem poslušanju že dosegli končni rezultat. Več o tej in ostalih transformiranih metodah gor-dol je napisano v [41]. 6.3.3 Testne osebe in oprema V poskusu je sodelovalo 12 oseb, starih od 17 do 37 let. Osebe niso imele predhodnih izkušenj s poslušanjem prostorskih zvokov na slušalkah, prav tako pa so potrdile, da nimajo težav s sluhom in vidom. Poskus smo izvajali v različnih prostorih, kjer nivo okoliškega šuma ni presegel 40 dB, merjeno po lestvici A z inštrumentom Lutron SL-4012, nivo glasnosti testnih zvokov je bil približno 65 dB. Za generiranje in predvajanje zvokov smo uporabili prenosni računalnik Acer TravelMate 4000, zvočno kartico Digigram VXpocket 440 in slušalke Sennheiser Control HD270. 6.3.4 Rezultati Tabela 6.1 in slika 6.3 podajata povprečno število zvokov, ki so jih testne osebe razločile iz 73 zvokov posameznega nabora. S pomočjo testov za ugotavljanje porazdelitev (t-test, Smirnov-Kolmogorov, Jarque-Bera) [8, 50] smo ugotovili, da imajo rezultati normalno porazdelitev. Nadalje smo s 69 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE pomočjo t-testa ugotovili, da zvoke lahko razdelimo v 4 skupine s statistično značilnimi povprečnimi vrednostmi. Zvoki, ki pripadajo posameznim skupinam nimajo statistično značilnih razlik v povprečnih vrednostih: • Skupina 1: beli in rožnati šum filtrirana z nizko prepustnim filtrom, beli šum filtriran s pasovno prepustnim filtrom. • Skupina 2: rožnati šum množen s sinusom, beli šum filtriran s pasovno zapornim filtrom B = 2 kHz. • Skupina 3: beli šum filtriran s pasovno zapornim filtrom B = 600 Hz. • Skupina 4: beli šum filtriran s pasovno zapornim filtrom B = 30 Hz. nabor ločljivost / število zvokov Rožnati šum množen s sinusom 35±7.87 Beli šum, filtriran s pasovno prepustnim filtrom, B = 2kHz 42±6.11 Beli šum, filtriran s pasovno zapornim filtrom B = 30 Hz 8±6.67 Beli šum, filtriran s pasovnozapornim filtrom B = 600 Hz 22±3.91 Beli šum, filtriran s pasovno zapornim filtrom B = 2 kHz 35±8.23 Beli šum, filtriran z nizko prepustnim filtrom 43±7.15 Rožnati šum, filtriran z nizko prepustni filtrom 45±7.39 Tabela 6.1: Število zvokov (z intervalom zaupanja), ki so jih testne osebe razločile izmed 73 zvokov posameznega nabora. Vsak nabor je bil sestavljen iz zvokov, ki so se med sabo le malo razlikovali (npr. v centralni frekvenci pasovno omejenega šuma). Grafična predstavitev rezultatov je na sliki 6.3. Glede na prej podano oceno o potrebnem številu razločljivih zvokov za akustično sliko prostora – 23, izpade beli šum filtriran s pasovno zapornim filtrom B = 30 Hz, medtem ko je beli šum filtriran s pasovno zapornim filtrom B = 600 Hz ravno na meji. Najboljše rezultate smo dobili s pasovnim in obema nizko pasovnima šumoma. Glede na to, bi za nabor rožnatega šuma množenega s sinusom, ki ga lahko obravnavamo kot ozko pasovni šum pričakovali večje število ločljivih zvokov. Slednje bi pričakovali tudi na podlagi primerjave ločljivosti sinusnega signala [83] in ločljivosti nizko pasovnega in pasovnega šuma [55, 74], ki kaže, da ima sinusni signal najboljšo ločljivost – rožnati šum množen s sinusom je izrazito ozkopasoven signal, kar ga z upoštevanjem delovanja ušesa pri višjih frekvencah uvršča bliže tonu kot pasovnemu šumu. Kot je nakazano v [74] gre vzroke za slabšo ločljivost najverjetneje iskati v povezavi trajanja in nivoja signalov, katere posledice so v našem primeru očitno izrazitejše za rožnati šum množen s sinusom. 70 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE Poleg tega nenatančnost vnaša še relativno velik frekvenčni korak uporabljen pri meritvi. Ker pa imajo rezultati pomen predvsem v okviru našega raziskovanja v zvezi z akustično sliko prostora, je zastavljeni cilj dosežen. Rezultati, tj. minimalne zaznavne razlike v spektru za signale različnih oblik zaradi fiksnega koraka karakteristične frekvence (250 Hz) seveda niso splošni, kar v našem primeru, kot že napisano ni potrebno. Vsekakor pa bi bili splošni rezultati nujni v primeru, ko bi se lotili izboljševanja ločljivosti akustične slike. Slika 6.3: Grafična predstavitev rezultatov ločljivosti v posameznem naboru zvokov (rožnati šum filtriran z nizko prepustnim filtrom, beli šum filtriran z nizko prepustnim filtrom, beli šum filtriran s pasovno prepustnim filtrom, rožnati šum množen s sinusom, beli šum filtriran s pasovno zapornim filtrom pasovne širine 2 kHz, beli šum filtriran s pasovno zapornim filtrom pasovne širine 600 Hz in beli šum filtriran s pasovno zapornim filtrom pasovne širine 30 Hz), v vsakem naboru je bilo 73 zvokov Rezultati so tabelarično podani v tabeli 6.1. 6.4 Akustična slika v vertikalni smeri Če želimo ustvariti akustično sliko prostora z umetnim kodiranjem, moramo ugotoviti koliko podatkov lahko sploh posredujemo poslušalcu, ki nima izkušenj z umetnim kodiranjem in na kakšno učinkovitost naj pri tem računamo. Ker nas v tem delu zanima 71 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE predvsem elevacija, smo zgradili enodimenzionalno akustično sliko in s pomočjo testnih oseb ugotavljali njeno uporabnost. Ker uporaba ne-individualnih prostorskih zvokov ne omogoča absolutne prostorske lokalizacije izvorov zvokov, smo z akustično sliko opisali grafični uporabniški vmesnik na računalniškem zaslonu. Uporabniški vmesnik je bil bistvenega pomena pri učenju – služil je za predstavitev lokacij posameznih izvorov zvoka, ki se jih mora poslušalec naučiti. Ustrezna zasnova in razporeditev zvokov naj bi bila poslušalcu v pomoč pri učenju. Poleg ločljivosti med zvoki, ki predstavljajo različne elevacije, je za učenje v pomoč, da zvoki vsebujejo značilnosti, ki jih poslušalec pozna iz vsakdanjega življenja, tj. predvsem vplivi poslušalčevega telesa na zvočno valovanje, ki se kažejo npr. v HRTF. 6.4.1 Zasnova akustične slike in nabori zvokov Slika 6.4 prikazuje grafični vmesnik testne aplikacije, ki smo jo razvili v Microsoft Visual Basic-u. Osemnajst gumbov razporejenih v vertikalni smeri predstavlja osemnajst (navideznih) izvorov zvoka. Ker preizkušamo zvoke na splošni osnovi, tj. ne-individualne zvoke, vsakemu gumbu oz. elevaciji priredimo zvok, ki naj bi po pričakovanjih najbolje predstavljal elevacijo. Ker glede na ne-individualnost zvokov težko govorimo o »zvoku, ki najbolje predstavlja elevacijo«, gre pri razporejanju zvokov za zagotavljanje enega ali več faktorjev z monotono odvisnostjo v celotnem obsegu elevacije, ki jo želimo zajeti. Na primer, kadar elevacijo kodiramo neposredno s sinusnim signalom, je ta faktor kar frekvenca. Če želimo z akustično sliko predstaviti dogajanje pred poslušalcem oz. dogajanje v prostoru, ki ga vidi človek z normalno razvitim vidom, tudi akustično sliko prostora omejimo v skladu s človekovim vidnim kotom. Glede na sposobnosti zaznavanja človekov vid razdelimo v glavni in periferni. Vidni kot glavnega vida je ±15° v azimutu in elevaciji, periferni vid pa zajema vse ostalo področje do ±90° v horizontalni in približno ±68° v vertikalni smeri. Ločljivost v perifernem delu je 15 % – 50 % slabša kot v glavnem vidu, odvisno od kota. To pomeni, da moramo tudi v akustični sliki izvore zvoka najgosteje razporediti v bližini horizontalne ravnine, stran od nje pa razdalje med izvori zvoka povečevati. Število izvorov zvoka, ki jih potrebujemo v akustični sliki dobimo z oceno povprečnega odstopanja po celotnem vidnem polju, ki je glede na predstavljene podatke približno 25 %. To odstopanje prištejemo ločljivosti človeškega sluha v prostoru (6°) in z upoštevanjem človekovega vidnega kota v vertikalni smeri (136°) ugotovimo, da potrebujemo 18 izvorov zvoka. Če zgolj za orientacijo za hip odmislimo neenakost ločljivosti v glavnem in perifernem delu vida, to pomeni, da vsak izvor pokriva elevacijski kot 7.5o. Ker za predstavitev prostora uporabljamo grafični 72 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE vmesnik na računalniškem zaslonu, ki ga vidimo pod precej manjšim vidnim kotom kot 136°, pred poslušalca postavljamo še dodatno nalogo – razširitev vidnega kota. Slika 6.4: Grafični vmesnik enodimenzionalne akustične slike, ki smo jo uporabili v poskusu učenja umetno kodirane elevacije. Testne osebe so se poskušale čim natančneje naučiti povezave med zvokom in lokacijo (gumbi z oznakami 1 – 18). Za učenje so bile na razpolago tri učne serije (»Initalization«), za preverjanje naučenega (gumb »StartGame!«) pa je aplikacija naključno izbirala zvok. Za večjo motivacijo testnih oseb je aplikacija štela tudi točke. Osemnajst izvorov zvoka oz. elevacij bi morali razvrstiti simetrično glede na horizontalno ravnino, kar pa zaradi povezave elevacije s frekvenco v vseh obravnavanih modelih ni trivialen problem. Kot smo videli pri obravnavi najmanjših zaznavnih razlik tona, obravnavi kritičnih pasov in pri ugotavljanju ločljivosti zvokov istega nabora, za razločevanje potrebna razlika v frekvenci dveh zvokov ni konstantna. Razlike v karakterističnih frekvencah (za osvežitev spomina – s pojmom karakteristična frekvenca mislimo na parameter, ki ga v posameznem modelu spreminjamo, tj. frekvenca sinusa, frekvence osnovnih tonov, zgornja mejna frekvenca filtra, centralna frekvenca filtra), ki so potrebne za ločevanje zvokov, dobimo iz rezultatov poskusa ugotavljanja ločljivosti 73 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE zvokov istega nabora, za oceno psihofizičnega dojemanja razlike med zvoki pa uporabimo Webrov zakon (enačba 3.2), kjer kot neodvisno spremenljivko uporabimo karakteristično frekvenco. a b c d e pozicija zvoka f / kHz fcut / kHz fcut / kHz fc / kHz, B = 2 kHz fc / kHz, B = 1 kHz 1 14 14 14 14 14 2 11 11 11 11 11 3 9 9 9 9 9 4 8 8 8 8 8 5 7 7 7 7 7 6 6 6 6 6 6 7 5 5 5 5 5 8 4 4 4 4 4 9 3.5 3.5 3.5 3.5 3.5 10 3 3 3 3 3 11 2.75 2.75 2.75 2.75 2.75 12 2.5 2.5 2.5 2.5 2.5 13 2.25 2.25 2.25 2.25 2.25 14 2 2 2 2 2 15 1.75 1.75 1.75 1.75 1.75 16 1.5 1.5 1.5 1.5 1.5 17 1.25 1.25 1.25 1.25 1.25 18 1 1 1 1 1 Tabela 6.2: Povezava med elevacijo izvora zvoka in karakteristično frekvenco zvoka za naslednje nabore zvokov: (a) rožnati šum množen s sinusnim signalom, (b) rožnati šum filtriran z nizko prepustnim filtrom, (c) beli šum filtriran z nizko prepustnim filtrom, (d) beli šum filtriran s pasovno prepustnim filtrom in (e) beli šum filtriran s pasovno zapornim filtrom. Ker smo v akustični sliki uporabili tudi zvoke, ki smo jih generirali že pri poskusu ločevanja zvokov istega nabora, nam ni povsem uspelo slediti konstantnemu upadanju ločljivosti vida pri oddaljevanju od horizontalne ravnine (elevacije 4 – 7 v tabeli 6.2), ki 74 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE bi bilo potrebno za pravilno modeliranje perifernega vida – razlike karakterističnih frekvenc pri omenjenih elevacijah bi morale upadati in ne ostati konstantne. Gledano izključno za naš poskus to ne pomeni kake ovire ali pomanjkljivosti, je pa opombo vsekakor smiselno upoštevati pri načrtovanju akustične slike za praktično uporabo. Seznam karakterističnih frekvenc in prireditve zvoka elevacijam z oznakami kot so na sliki 6.4 je v tabelah 6.2 in 6.3. Pri načrtovanju zvoka, sestavljenega iz več osnovnih tonov in njim pripadajočih harmonskih komponent (tabela 6.3) smo uporabili nekoliko drugačen pristop, kar bo opisano v nadaljevanju. osn. 1 osn. 2 osn. 3 osn. 4 osn. 5 osn. 6 pozicija zvoka f / Hz f / Hz f / Hz f / Hz f / Hz f / Hz 1 250 260 300 310 330 630 2 280 290 340 350 370 710 3 320 330 390 400 420 800 4 360 370 440 450 480 910 5 410 420 500 510 540 1030 6 460 480 570 580 610 1170 7 520 540 650 660 690 1330 8 590 610 740 750 780 1510 9 670 690 840 850 880 1710 10 760 780 950 960 1000 1940 11 860 880 1080 1090 1130 2200 12 970 1000 1220 1240 1280 2490 13 1100 1130 1380 1410 1450 2820 14 1250 1280 1560 1600 1640 3200 15 1420 1450 1770 1810 1860 3630 16 1610 1640 2010 2050 2110 4110 17 1820 1860 2280 2320 2390 4660 18 2060 2110 2580 2630 2710 5280 Tabela 6.3: Povezava med elevacijo izvora zvoka in karakterističnimi frekvencami za nabor zvoka s harmoniki. Uporabili smo šest osnovnih tonov (osn. 1, osn. 2, … osn. 3), ki so dodeljeni posameznim elevacijam (1 – 18). Višje harm. komponente posameznega tona si sledijo do frekvence 20 kHz. 75 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE V testni aplikaciji smo uporabili šest različnih naborov zvokov za šest izvedb akustične slike. Trajanje posameznega intervala zvoka je bilo 100 ms, med zaporedno predvajanimi zvoki je bilo 250 ms tišine. a) Rožnati šum množen s sinusnim signalom oz. tonom. V tabeli 6.2 je seznam frekvenc sinusnega signala, ki smo jih uporabili v akustični sliki in prireditev signalov elevaciji. b) Rožnati šum, filtriran z nizko prepustnim filtrom: v nizko prepustnem modelu, ki ga realiziramo z nizko prepustnim filtrom je parameter zgornja mejna frekvenca fzg. Pri filtriranju spreminjamo ojačanje filtra tako, da imajo vsi zvoki enako jakost. Tabela 6.2 prikazuje zgornje mejne frekvence, ki smo jih uporabili v akustični sliki in prireditev signalov elevaciji. c) Beli šum, filtriran z nizko prepustnim filtrom: beli šum se nanaša na signal z ravnim spektrom v področju slišnih frekvenc, tj. med 16 Hz in 20 kHz. V nizko prepustnem modelu, ki ga realiziramo z nizko prepustnim filtrom je parameter zgornja mejna frekvenca fzg, s spremenljivim ojačanjem filtra zagotovimo, da imajo vsi zvoki enako jakost. Tabela 6.2 prikazuje zgornje mejne frekvence, ki smo jih uporabili v akustični sliki in prireditev signalov elevaciji. d) Beli šum, filtriran s pasovno prepustnim filtrom: za beli šum veljajo enake predpostavke kot v točki c, model ima dva parametra – pasovno širino B in centralno frekvenco fc. Uporabili smo filter s pasovno širino B = 2 kHz, centralne frekvence in povezava z elevacijo je prikazana v tabeli 6.2. e) Beli šum, filtriran s pasovno zapornim filtrom. Za beli šum veljajo enake predpostavke kot v točki c. Uporabili smo filter s pasovno širino B = 1 kHz, nabor zvokov dobimo s spreminjanjem centralne frekvence oslabitve. V tabeli 6.2 najdemo seznam centralnih frekvenc in povezavo zvokov in elevacije. f) Zvok s harmoniki. Za osnovo smo uporabili 100 ms izsek zvoka, ki nastane ob udarcu na boben. Za osnovne tone smo uporabili naslednje frekvence: 250 Hz, 260 Hz, 300 Hz, 310 Hz, 330 Hz in 630 Hz. Glede na prejšnje primere smo v tem primeru izbrali precej manjše razmike med karakterističnimi frekvencami za posamezne elevacije, ker želimo, da ima tudi ton z najvišjo frekvenco pri vsaki elevaciji vsaj 3 ali 4 harmonske komponente. Za zagotovitev ločljivosti zvokov smo se oprli na najmanjšo zaznavno razliko v frekvenci tonov [83], ki je pri tonu 300 Hz enaka 4 Hz. Vrednost smo 10-krat povečali in jo po Weber-Fechnerjevem zakonu (enačba 3.2) uporabili za določitev frekvenc ostalih elevacij za vseh šest tonov. V tabeli 6.3 je seznam frekvenc osnovnih tonov za posamezne elevacije. V tabeli 6.4 so navedene relativne amplitude harmonskih 76 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE komponent glede na harmonsko komp. z najvišjo amplitudo v posameznem harmonskem sestavu. Razmerje med amplitudami osnovnih komponent je: A0(250 Hz) : A0(260 Hz): A0(300 Hz): A0(310 Hz): A0(330 Hz): A0(630 Hz) = = 22 : 24 :16 : 22 : 36 :100 (6.2) f0 / Hz A0 A1 A2 A3 A4 A5 A6 A7 A8 A9 250 0.67 0.39 0.57 1 0.69 0.23 0.35 0.15 0.25 0.11 260 1 0.36 0.24 0.44 0.20 0.42 0.18 0.36 0.10 0.24 300 1 0.64 0.52 0.46 0.42 0.39 0.37 0.36 310 0.35 1 0.14 0.28 0.14 0.09 0.05 330 1 0.32 0.65 0.30 0.53 0.28 0.46 0.25 0.40 0.24 630 1 0.04 0.11 0.03 0.07 0.02 Tabela 6.4: Razmerja amplitud komponent harmonskih sestavov glede na komponento z največjo amplitudo v harmonskem sestavu. Razmerja med osnovnimi komponentami posameznih harmonskih sestavov podaja enačba 6.2. 6.4.2 Opis poskusa 6.4.2.1 Učenje elevacije v akustični sliki Kot že omenjeno, je bil cilj poskusa, da se poslušalci naučijo pomenov zvokov v akustični sliki, kar pomeni, da znajo na podlagi slišanega zvoka ugotoviti navidezno elevacijo izvora tega zvoka. Poslušalci, tj. testne osebe, so zato s pomočjo testne aplikacije izvajali učenje in preizkušanje naučenega. Kot vidimo na sliki 6.4, je testna aplikacija omogočala tri različne scenarije učenja (»Initialization#1«, »Initialization#2« in »Initialization#3«) in preizkušanje naučenega (»Start Game!«). V fazi učenja je računalnik izbiral elevacije naključno (»Initialization#1«), od najnižje do najvišje (»Initialization#2«) oz. od najvišje do najnižje (»Initialization#3«). Glede na izbrano elevacijo je poslušalec zaslišal ustrezen zvok, poleg tega pa se je še osvetlil pripadajoči gumb. Faza preizkušanja je bila zasnovana kot nekakšna računalniška igrica, kjer je računalnik naključno izbiral elevacije in predvajal pripadajoči zvok, poslušalec pa je s klikom na gumb sporočil kateri elevaciji po njegovem mnenju ustreza zvok. Če je bil izbrani gumb pravilen, je poslušalec zaslišal kratek pisk potrditvenega tona, če pa je bila izbira napačna pa kratek pisk, ki je signaliziral nepravilno izbiro, poleg tega pa se je osvetlil gumb s pravilno elevacijo. Zgolj za motivacijo so se v 77 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE zgornjem desnem kotu grafičnega vmesnika izpisovale dosežene točke (točen zadetek 3 točke; zgrešil za eno elevacijo 2 točki; zgrešil za dve elevaciji 1 točka; v ostalih primerih 0 točk), število točnih zadetkov in število zgrešenih zadetkov (ne glede na razdaljo do pravilne elevacije). V »log« datoteko pa so se zapisovali podatki o pravilni elevaciji in elevaciji, ki jo je izbral poslušalec. Poskus preizkušanja naučenega se je izvajal na način, ki ga opisujemo v naslednjih vrsticah. Naključna izbira elevacije (porazdelitev naključne spremenljivke je enakomerna) in največ osem ponovitev predvajanja pripadajočega zvoka (100 ms) z vmesno tišino (250 ms), kar skupaj traja 2.8 s. V tem času se je moral poslušalec odločiti kateri elevaciji zvok pripada. Če poslušalec ni podal svoje izbire, je računalnik štel rezultat za napačen z največjim možnim odstopanjem, ki ga v posameznem primeru izračunamo kot maksimum razlik pravilne elevacije in najnižje oz. najvišje elevacije akustične slike. Med pregledom rezultatov smo ugotovili, da so se poslušalci vedno odločili za neko vrednost, torej ta scenarij ni bil nikoli upoštevan. Posamezen poskus je obsegal ugotavljanje elevacij osmih naključno izbranih izvorov zvoka, kar časovno znese slabih 23 s. Zaporedje desetih poskusov imenujemo serija. V povprečju je ena serija trajala 5 minut. Poslušalcem je bilo naročeno, naj pred vsakim prvim poskusom v seriji vsaj 2 minuti poslušajo zvoke učenja (»Initialization#1«, »Initialization#2« in »Initialization#3« na sliki 6.4). Učenje med naslednjimi poskusi v seriji ni bilo dovoljeno. Testne osebe so poskuse izvajale samostojno. Naročeno jim je bilo, naj jih izvajajo le, ko so se sposobne primerno skoncentrirati. Zahtevali smo, da naj med dvema zaporednima serijama mine vsaj ena ura. Poslušalci, ki so se ukvarjali z več kot eno akustično sliko, so po končanem eksperimentiranju ene slike lahko nadaljevali z naslednjo po štirih dneh. 6.4.2.2 Ocenjevanje prijetnosti zvokov v akustični sliki Poleg možnosti učenja akustične slike z umetnim kodiranjem elevacije nas je zanimala še prijetnost zvokov v akustični sliki. V ta namen smo izvedli ločen poskus v katerem so poslušalci eksperimentirali z vsemi šestimi akustičnimi slikami in ocenjevali zvoke posamezne slike z ocenami od 1 do 5. Poslušalci so imeli nalogo, da z vsako sliko izvedejo dvakrat po pet poskusov in podajo ocene, ki naj odražajo relativno primerjavo med posameznimi nabori zvokov. 78 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE 6.4.3 Testne osebe in oprema 6.4.3.1 Učenje elevacije v akustični sliki V poskusu je sodelovalo 27 oseb, starih od 17 do 36 let. Testne osebe so potrdile, da nimajo težav s sluhom in vidom. Vsaka od oseb je eksperimentirala z največ tremi različnimi akustičnimi slikami, večina le z dvema ali celo z eno samo. Poskus so testne osebe izvajale samostojno in pri tem uporabljale različne računalnike. Zahtevali smo, naj poskuse izvajajo v prostorih s čim manj hrupa. 6.4.3.2 Ocenjevanje prijetnosti zvokov v akustični sliki V poskusu je sodelovalo 6 oseb, starih od 27 do 36 let. Osebe so imele predhodne izkušnje s poslušanjem prostorskih zvokov na slušalkah, potrdile so, da nimajo težav s sluhom in vidom. Poskus so testne osebe izvajale samostojno in pri tem uporabljale različne računalnike. Zahtevali smo, naj poskuse izvajajo v prostorih s čim manj hrupa. 6.4.4 Rezultati 6.4.4.1 Učenje akustične slike Sprotno preverjanje rezultatov je pokazalo, da razen v sliki, ki uporablja beli šum filtriran s pasovno zapornim filtrom, testne osebe dosegajo napredek pri učenju. Zato smo nadaljnje poskuse z omenjeno akustično sliko ustavili in izključili iz nadaljnjih analiz. Slika 6.5 prikazuje dva poteka povprečne ločljivosti v naključno izbrani seriji naključne testne osebe. Poteki ločljivosti v serijah drugih testnih oseb so precej podobni, tako da lahko rečemo, da slika 6.5 predstavlja nek tipični potek. Na sliki sta potek ločljivosti v akustični sliki z belim šumom filtriranim z nizko prepustnim filtrom in potek ločljivosti v akustični sliki z belim šumom filtriranim s pasovno zapornim filtrom. Glede na podobnost napredkov v vseh akustičnih slikah, razen v sliki z belim šumom filtriranim z nizko prepustnim filtrom, so poteki ločljivosti za preostale akustične slike (rožnati šum množen s sinusom, rožnati šum filtriran z nizko prepustnim filtrom, beli šum filtriran s pasovno prepustnim filtrom in zvok s harmoniki) podobni poteku v levem delu slike 6.5, z manjšimi razlikami v povprečni vrednosti in disperziji. Po izločitvi akustične slike z belim šumom filtriranim s pasovno zapornim filtrom, smo pri vseh testnih osebah ugotovili napredek pri učenju. Slika 6.6 prikazuje napredek v ločljivosti za posamezne akustične slike. Ločljivost je izračunana kot povprečna vrednost rezultatov vseh testnih oseb, ki so izvajale eksperiment z določeno akustično sliko. Mera 79 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE ločljivosti oz. natančnosti lokalizacije predstavlja povprečno odstopanje od prave vrednosti oz. razliko med elevacijo resničnega in izbranega izvora zvoka. Razlika se meri v številu elevacijskih stopenj (1 – 18) in ne s kotom (glej tudi tabeli 6.2 in 6.3). Slika 6.5: Tipični potek ločljivosti v seriji (tj. 10 zaporednih poskusov) z akustično sliko z belim šumom filtriranim z nizko prepustnim filtrom (levo) in belim šumom filtriranim s pasovno zapornim filtrom (desno). Slednji se je izkazal za neprimernega – napaka lokalizacije (razlika med dejansko elevacijo in elevacijo, ki jo je ugotovil poslušalec) je občutna in se s podaljševanjem učenja ne zmanjšuje kot je to opazno v levem primeru. Analizo rezultatov, tj. povprečnih vrednosti smo izvedli z ne-parametričnim testom Kruskal-Wallis [50]. Za vse analizirane akustične slike smo ugotovili, da je napredek v ločljivosti statistično značilen. Analiza je ovrgla hipotezo o statistično neznačilnih razlikah med prvo in zadnjo serijo (verjetnost, ki jo vrne Kruskal-Wallis je bila med 0.001 in 0.005), sicer pa primerjave parov zaporednih serij ne izkazujejo vedno statistično značilnih razlik, kar pomeni, da napredek ločljivosti med serijami ni bil konstanten. Na grafih v sliki 6.6 to lahko opazimo vizualno. Vidimo tudi, da je največji napredek v prvih nekaj testih, nato se napredovanje nekoliko upočasni. Za ugotavljanje razlik oz. primerjavo naborov zvokov smo primerjali povprečne ločljivosti med akustičnimi slikami v posameznih serijah. Primerjava pokaže, da lahko obravnavanih pet akustičnih slik razdelimo v dve skupini: • Skupina 1: akustične slike z belim šumom filtriranim z nizko prepustnim filtrom, belim šumom filtriranim s pasovno prepustnim filtrom, rožnatim šumom filtriranim z nizko prepustnim filtrom in zvokom s harmoniki. • Slika 2: akustična slika z rožnatim šumom množenim s sinusom. 80 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE Slika 6.6: Napredek pri učenju v akustični sliki prostora je odvisen od časa učenja in od nabora zvokov: rožnati šum množen s sinusom (levo zgoraj), rožnati šum filtriran z nizko prepustnim filtrom (desno zgoraj), beli šum filtriran s pasovno prepustnim filtrom (levo v sredini), beli šum filtriran z nizko prepustnim filtrom (desno v sredini) in zvok s harmoniki (levo spodaj). 81 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE Razlike v točnosti lokalizacije med akustičnimi slikami iz skupine 1 so statistično manj značilne kot razlika med katerokoli akustično sliko iz skupine 1 primerjano z akustično sliko iz skupine 2. Rezultat analize s Kruskal-Wallis testom v prvem primeru daje rezultate velikosti približno 0.3, v drugem primeru (tj. primerjava akustične slike iz skupine 2 s katerokoli akustično sliko iz skupine 1) pa velikosti približno 0.01. To pomeni, da je, kot lahko sklepamo tudi na podlagi grafične predstavitve rezultatov, povprečna ločljivost v akustični sliki z rožnatim šumom množenim s sinusom nekoliko slabša kot v ostalih štirih akustičnih slikah. V tabeli 6.5 so zbrani podatki o končni ločljivosti v posameznih akustičnih slikah. akustična slika oz. nabor zvokov končna ločljivost / število elevacijskih nivojev Rožnati šum množen s sinusom 1.18±0.9 Rožnati šum filtriran z nizko prepustnim filtrom 1.08±0.8 Beli šum filtriran z nizko prepustnim filtrom 0.98±0.72 Beli šum filtriran s pasovno prepustnim filtrom 0.95±0.95 Zvok s harmoniki 0.95±0.6 Tabela 6.5: Končna ločljivost, dosežena po desetih ponovitvah učenja in preverjanja naučenega. Ločljivost je podana kot razlika nivojev (s pojmom nivo so mišljene elevacije z oznako 1 – 18) izbrane in prave elevacije. 6.4.4.2 Ocenjevanje prijetnosti zvokov v akustični sliki Slika 6.7 prikazuje ocene prijetnosti naborov zvokov, ki so bili uporabljeni v akustični sliki prostora. Za analizo rezultatov smo uporabili t-test [8, 50]. Za stopnjo značilnosti (parameter ?) vzamemo vrednost 0.05 in analiza pokaže, da nabore zvokov lahko razdelimo v dve skupini, ki se statistično razlikujeta: • Skupina 1: rožnati šum filtriran z nizko prepustnim filtrom. • Skupina 2: zvok s harmoniki, beli šum filtriran s pasovno prepustnim filtrom, beli šum filtriran z nizko pasovnim filtrom in rožnati šum množen s sinusom. Pri analizi s t-testom ugotovimo še, da sta zvok s harmoniki in rožnati šum množen s sinusom na meji skupine 2 – zvok s harmoniki na zgornji (po prijetnosti se približuje rožnatemu šumu filtriranem z nizko prepustnim filtrom) in rožnati šum množen s sinusom na spodnji meji. Teza o prijetnosti zvoka z vsebnostjo harmonikov se je izkazala za ustrezno, predvidevamo pa, da bi s še natančnejšim izborom harmonikov rezultat lahko 82 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE tudi izboljšali. Hkrati lahko ugotovimo, da prijeten zvok vsebuje relativno velik del nizkih frekvenc, višje frekvence pa so nekoliko zadušene, kar se sklada z ugotovitvami v [5]. Slika 6.7: Ocena prijetnosti naborov zvokov (beli šum filtriran z nizko prepustnim filtrom, beli šum filtriran s pasovno prepustnim filtrom, rožnati šum filtriran z nizko prepustnim filtrom, rožnati šum množen s sinusom in zvok s harmoniki), ki so bili uporabljeni v akustični sliki prostora. Ocene so med 5 (najprijetnejši zvok) in 1 (najbolj moteč zvok). Ocenjevanje je bilo relativno – vsaka testna oseba je podala oceno za vsak zvok. 6.4.5 Komentar Poskus z učenjem umetno konstruirane akustične slike je dal rezultate za ovrednotenje modelov kodiranja elevacije v akustični sliki prostora. Zaradi uporabe ne-individualnih zvokov je glavno vlogo prevzelo zaznavanje na osnovi t.i. vizualne teorije [4], ki govori o povezavi med videnim in slišanim. Čeprav akustične značilnosti zvokov v tem primeru niso igrale glavne vloge pa so, kot bomo s podrobnejšo razčlembo ugotovili v nadaljevanju, prispevale pomemben delež k učenju. Ugotovili smo, da so se bile testne osebe zmožne dokaj uspešno naučiti povezav med elevacijo izvora zvoka in pripadajočimi zvoki z izjemo nabora belega šuma filtriranega s pasovno zapornim filtrom. Pri vseh ostalih izvedbah akustične slike smo zabeležili napredek v ločljivosti. 83 RAZVOJ IN OVREDNOTENJE MODELA ZA KODIRANJE ELEVACIJE Hipotezo hitrejšega napredovanja pri učenju v odvisnosti od izbire zvokov lahko potrdimo le s primerjavo neuspešnega in uspešnih naborov zvoka. Med preostalimi štirimi uspešnimi izvedbami, pa glede na omejen čas učenja oz. eksperimentiranja in količino rezultatov, ne moremo jasno potrditi ali ovreči omenjene hipoteze. Potrjena pa je predpostavka o povezavi frekvenčne vsebine zvoka in elevacije. V učljivih naborih so bile nizke elevacije kodirane z zvoki, ki vsebujejo nizke frekvence, visoke elevacije pa z zvoki, ki vsebujejo višje ali visoke frekvence (rožnati šum množen s sinusom, beli šum filtriran s pasovno prepustnim filtrom in zvok s harmoniki) oz. visoke in nizke frekvence (beli in rožnati šum filtrirana z nizko prepustnim filtrom). Z upoštevanjem povezave elevacije in frekvence si razložimo tudi neuspešnost nabora belega šuma filtriranega s pasovno zapornim filtrom – v tem naboru zvok pri nizkih elevacijah (nizka centralna frekvenca filtra) ni vseboval nizkih frekvenc, pri visokih elevacijah (visoka centralna frekvenca filtra) pa ne visokih frekvenc. 6.5 Razširitev akustične slike po azimutu V poglavju 6.1, kjer smo predstavili idejo akustične slike prostora z umetnim kodiranjem elevacije, smo napisali, da za kodiranje v horizontalni dimenziji oz. azimutu uporabimo splošne HRTF horizontalne ravnine ali zgolj upoštevamo medušesne časovne in amplitudne razlike. Ker filtriranje s splošnimi HRTF vpliva na spekter, predvidevamo da bi zgolj upoštevanje medušesnih časovnih in amplitudnih razlik utegnilo biti boljša rešitev. Spekter zvoka na lokalizacijo po azimutu namreč ne vpliva [23] oz. ta vpliv ni primerljiv z vplivom, ki ga ima spekter zvoka na lokalizacijo po elevaciji [33, 64, 65]. Rešitev z upoštevanjem medušesnih razlik lahko podpremo tudi z rezultati poskusa, kjer smo s pomočjo analize PCA (Principal Component Analysis) ugotavljali in primerjali uspešnost diferenčne ločljivosti izvorov zvokov po azimutu pri uporabi splošnih HRTF in pri uporabi le najznačilnejših komponent PCA (medušesne časovne in amplitudne razlike) [67]. 84 7 ZAKLJUČEK V pričujočem delu smo razvili več postopkov kodiranja elevacije izvorov zvoka za uporabo v akustični sliki prostora, ki jo poslušalcu predvajamo preko slušalk. Postopke, ki dajo dobre rezultate šele v kombinaciji z ustreznim zvokovnim signalom, smo s pomočjo enodimenzionalne akustične slike tudi praktično preizkusili in izvedli statistično analizo rezultatov. Postopke kodiranja smo razvili na osnovi analize HRTF in na podlagi poznavanja ostalih fizikalnih, fizioloških in psiholoških dejavnikov percepcije prostorskega zvoka pri ljudeh. Opisani postopki predstavljajo poskus v smeri uporabe ne-individualnih zvokovnih signalov v akustični sliki prostora. Glede na dejstvi, da najučinkovitejši postopek za ustvarjanje akustične slike temelji na individualnih funkcijah HRTF in da je merjenje individualnih HRTF zapleten postopek, problem s katerim smo se ukvarjali v tem delu, kljub raznovrstnim poskusom še nima končne rešitve. Kot smo ugotovili, je pri lokalizaciji ne-individualnih prostorskih zvokov problem elevacija, ki je »naravno« kodirana z odvisnostjo spektra zvoka od elevacije izvora, medtem ko kodiranje azimuta ni problematično, saj sta glavna faktorja (časovne in amplitudne medušesne razlike) dokaj dobro obvladljiva. V fazi razvoja smo prostorski zvok najprej obdelali s stališča fizikalnih zakonitosti in človekove fiziologije. Ker je zvok oz. zvočno valovanje pri potovanju od izvora (zvočnik) do ponora (poslušalec) v splošnem izpostavljeno mnogim valovnim dejavnikom, za ponovljivost merilnih rezultatov izvajamo meritve v gluhi sobi, kjer z minimalno odbojnimi stenami simuliramo neskončen, odprt prostor. Ugotovili smo, da tedaj pridejo do veljave valovni pojavi, ki jih povzroča poslušalčevo telo, pri čemer je potrebno še posebej izpostaviti uhlje, ki opravljajo funkcijo smernega filtriranja in zato igrajo ključno vlogo pri percepciji prostorskega zvoka, kar se odraža tudi v pomenu t.i. oslabitve uhlja. Filtriranje vpadnega zvočnega valovanja pri katerem ima poleg uhljev pomemben vpliv tudi zgornji del poslušalčevega telesa (glava, rame), vnaša v zvočno valovanje smerno odvisne značilnosti (amplitudne in časovne razlike med ušesoma, vpliv na spekter), ki služijo možganom za določitev izvora zvoka oz. lokalizacijo. Smerno filtriranje, ki je opisano z odzivom prenosne poti med izvorom zvoka in poslušalcem (HRIR), je ključnega pomena za iskanje značilnosti, ki omogočajo prostorsko zaznavanje zvoka. Za razvoj postopkov kodiranja v katerih ne uporabljamo individualnih zvokov, so posebnega pomena tudi psihološke zakonitosti človekove percepcije zvoka – psihoakustika. Kot smo ugotovili, te lastnosti vplivajo na izbiro in razporeditev zvokov, ki 85 ZAKLJUČEK jih uporabimo za kodiranje v akustični sliki prostora. V naših postopkih je še posebej pomembna meja minimalne zaznavne razlike v frekvenci, ki podaja minimalno razliko v spektru dveh zvokov, da ju poslušalec še loči (npr. frekvenci dveh tonov). S področja psihologije je pri uporabi ne-individualnih zvokov v akustični sliki prostora ključnega pomena učenje. Kot smo videli, se človek nauči pomena informacij, ki mu jih posredujejo čutila. S časom se tako iz kognitivnega dojemanja razvije nezavedna (podzavestna) percepcija. V primeru ne-individualnih zvokov je poslušalčeva zmožnost percepcije podobna percepciji ob rojstvu, tj. v kognitivni fazi. Bistvene razlike pri lokalizaciji individualnih in ne-individualnih izvorov zvoka smo ugotovili pri reprodukciji s slušalkami. Z ne-individualnimi zvoki ni možna absolutna lokalizacija, pa tudi diferenčna ločljivost izvorov zvoka je bistveno slabša. Pri reprodukciji zvoka v prostoru pa o ne-individualnih zvokih pravzaprav ne moremo govoriti, saj tudi v primeru ustvarjanja akustičnih iluzij prenosna pot med dejanskim izvorom zvoka in poslušalcem poskrbi za individualizacijo. Spomnimo še enkrat, da kljub mnogim poskusom individualiziranja zvoka in s tem nepotrebnost prilagajanja oz. učenja pomena zvokov v akustični sliki prostora ostaja nerešen problem, kar je navsezadnje tudi vzrok poskusov iskanja optimalnih postopkov kodiranja elevacije izvorov zvoka v akustični sliki prostora. Primeren postopek kodiranja omogoča čim boljšo ločljivost izvorov zvoka, poleg tega pa je hitro učljiv in je zgrajen iz zvokov, ki so prijetni za poslušanje. Iz rezultatov našega poskusa je razvidno, da obstajajo učljivi in ne-učljivi postopki (čeprav slednjih nismo načrtovali namenoma), ni pa bilo med učljivimi postopki statistično pomembne razlike v hitrosti učenja. Na koncu zaključimo z ugotovitvijo, da so rezultati naših poskusov vzpodbudni in dajejo motivacijo za nadaljnje raziskovanje v začrtani smeri. 86 LITERATURA [1] Algazi VR, Avendano C, Duda RO. Elevation localization and head-related transfer function analysis at low frequency. Journal of Acoustical Soc. of America, 109(3): str. 1110 – 1122, marec 2001. [2] Algazi VR, Duda RO, Thompson DM, Avedano C. The CIPIC HRTF Database. Proceedings of 2001 IEEE Workshop on Applications of Signal Processing to Audio and Electroacoustics, Mohonk Mountain House, New Paltz, ZDA, oktober 2001, str. 99 – 102. [3] Blauert J. Description of hearing experiments by means of a simple, system-theoretical model. Kybernetik, 6(2): 45 – 49, l. 1969. [4] Blauert J. Spatial Hearing, The Psychophysics of Human Sound Localization. MIT Press, tretji ponatis, 2001. [5] Bloom PJ. Creating Source Elevation Illusions by Spectral Manipulation. Journal of the Audio Engineering Society, 25(9): str. 560 – 565, september 1977. [6] Bransford JD, Brown AL, Cocking RR (uredniki): How People Learn: Brain, Mind, Experience, and School. National Academy Press, Washington D.C., 1999. [7] Bronkhorst AW. Localization of real and virtual sound sources. Journal of Acoustical Soc. of America, 98(5): str. 2542 – 2553, november 1995. [8] Bronštejn IN, Semendjajev KA, Musiol G, Muhlig H. Matematični priročnik. Tehniška založba Slovenije, 1997. [9] Brown CP, Duda RO. A Structural Model for Binaural Sound Synthesis. IEEE Trans. on Speech and Audio Processing, 6(5): str. 476 – 488, september 1998. [10] Cabrera D, Ferguson S, Tilley S. Recent studies on the effect of signal frequency on auditory vertical localization. Proceedings of ICAD-05, Limerick, Ireland, julij 2005. [11] Cheng CI, Wakefield GH. Introduction to head-related transfer functions (HRTF's): representations of HRTF's in time, frequency, and space (invited tutorial). Journal of the Audio Engineering Society, 49(4): str. 231 – 249, april 2001. [12] Cohen MM. Visual feedback, distribution of practice, and intermanual transfer of prism aftereffects. Perceptual and motor Skills, 37: str. 599 – 609, l. 1973. [13] Dizon RM, Litovsky RY. Localization dominance in the median-sagittal plane: Effect of stimulus duration. Journal of Acoustical Soc. of America, 115(6): str. 3142 – 3155, junij 2004. [14] Ebert J, Scientists with disabilities: Access all areas. Nature, 435: str. 552 – 554, junij 2005. [15] Fefer D, Jeglič A. Osnove akustike. Akademska založba, Ljubljana, 1992. [16] Fefer D, Jeglič A. Elektroakustika. Založba FER, Ljubljana , 1993. [17] Ferguson BS, Bogner RE, Warwryk S. A bottle model for Head-Related Transfer Functions. Proceedings ICASSP98, Seattle, ZDA, maj 1998, str. 3533 – 3536. 87 LITERATURA [18] Foxton JM, Brown ACB, Chambers S, Griffiths TD. Training Improves Acoustic Pattern Perception. Current Biology, 14: str. 322 – 325, l. 2004. [19] Gabriel G. Child and Brain: The Stages of Development. http://www.brainconnection.com/topics/?main=fa/child-brain, avgust 2005. [20] Gardner B, Martin K. HRTF Measurements of KEMAR Dummy-Head Microphone. MIT Media Lab Perceptual Computing – Technical Report #280, l. 1994. [21] Gilkey RH, Anderson TR (uredniki). Binaural and spatial hearing in real and virtual environments. Lawrence Erlbaum Associates, 1997. [22] González Mora JL, Rodríguez-Hernández A, Rodríguez-Ramos LF, Díaz-Saco L, Sosa N. Development of a new space perception system for blind people, based on the creation of a virtual acoustic space. Proceedings of the International Work Conference on Artificial and Natural networks, 1999, str. 321 – 330 (zvezek 2). [23] Grantham DW, Hornsby BWY, Erpenbeck EA. Auditory spatial resolution in horizontal, vertical, and diagonal planes. Journal of Acoustical Society of America; 114(2): str. 1009 – 1022, l. 2003. [24] Gupta N, Barreto A, Choudhury M. Modeling Head-Related Transfer Functions Based on Pinna Anthropometry. Proceedings of LACCET 2004, Miami, ZDA, junij 2004. [25] Hartmann WM, Rakerd B. Auditory spectral discrimination and the localization of clicks in the sagittal plane. Journal of Acoustical Soc. of America, 94(4): str. 2083 – 2092, oktober 1993. [26] Hartmann WM, Wittenberg A. On the externalization of sound images. Journal of Acoustical Soc. of America, 99(6): str. 3678 – 3688, junij 1996. [27] Hasegawa H, Kasuga M, Matsumoto S, Koike A. Simply Realization of Sound Localization Using HRTF Approximated by IIR Filter. IEICE Trans. Fundamentals, E83-A(6): str. 973 – 978, junij 2000. [28] Hasegawa-Johnson M. Audio Engineering, Lecture Notes for ECE 403. University of Illinois at Urbana-Champaign, januar 2005. [29] Held R. Plasticity in sensory-motor systems. Scientific American, 213(5): str. 84 – 94, november 1965. [30] Hofman PM, Van Opstal AJ. Bayesian reconstruction of sound localization cues from responses to random spectra. Biological Cybernetics, 84(4): str. 305 – 316, l. 1998. [31] Hofman PM, Van Opstal AJ. Spectro-temporal factors in two-dimensional human sound localization. Journal of Acoustical Soc. of America, 103(5): str. 2634 – 2648, maj 1998. [32] Hofman PM, Van Riswick JGA, Van Opstal AJ. Relearning sound localization with new ears. Nature Neuroscience, 1 (l. 1998): str. 417 – 421. [33] Jin C, Corderoy A, Carlile S, Van Schaik A. Contrasting monaural and interaural spectral cues for human sound localization. Journal of Acoustical Soc. of America, 115(6): str. 3124 – 3141, junij 2004. [34] The bat ‘K’ sonar cane: http://www.batforblind.co.nz/. [35] Kladnik R. Visokošolska fizika 3. del – valovni pojavi. DZS, Ljubljana, 1989. [36] Kuhn GF. Model for the interaural time differences in the azimuthal plane. Journal of Acoustical Soc. Of America, 62(1): str. 157 – 167, julij 1977. 88 LITERATURA [37] Kulkarni A, Colburn HS. Infinite-impulse-response models of the head-related transfer functions. Journal of Acoustical Soc. of America, 115(4): str. 1714 – 1728, april 2004. [38] Langendijk EHA, Bronkhorst AW. Fidelity of three-dimensional-sound reproduction using virtual auditory display. Journal of Acoustical Soc. of America, 107(1): str. 528 – 537, januar 2000. [39] Langendijk EHA, Bronkhorst AW. Contribution of spectral cues to human sound localization. Journal of Acoustical Soc. of America, 112(4): str. 1583 – 1595, oktober 2002. [40] Lessard N, Pare M, Lepore F, Lassonde M. Early-blind human subjects localize sound sources better than sighted subjects. Nature, 395(6699): str. 278 – 280, september 1998. [41] Levitt H. Transformed Up-Down Methods in Psychoacoustics. Journal of Acoustical Soc. of America, 49(2): str. 467 – 477, februar 1971. [42] Macpherson EA, Middlebrooks JC. Localization of brief sounds: Effects of level and background noise. Journal of Acoustical Soc. of America, 108(4): str. 2834 – 1849, oktober 2000. [43] Ewan A. Macpherson, John C. Middlebrooks. Vertical-plane sound localization probed with ripple-spectrum noise. Journal of Acoustical Soc. of America, 114(1): str. 430 – 445, julij 2003. [44] Meijer PBL. An Experimental System for Auditory Image Representations. IEEE Trans. on Biomedical Engineering, 39(2): str. 112 – 121, februar 1992. [45] Meijer PBL. Seeing with Sound for the Blind: Is it Vision. Conference on Consciousness, Tucson, ZDA, april 2002. [46] Middlebrooks JC, Green DM. Sound localization by human listeners. Annual Rev. Psychology, 42: 135 – 159, l. 1991. [47] Miller GA. Sensitivity to Changes in the Intensity of White Noise and Its Relation to Masking and Loudness. Journal of Acoustical Soc. of America, 19(4): str. 609 – 619, julij 1947. [48] Mills AW. On the minimum audible angle. Journal of Acoustical Soc. of America, 30(4): str. 237 – 246, april 1958. [49] Mlakar J. Elektromagnetno valovanje. Fakulteta za elektrotehniko, Ljubljana 2002. [50] Montgomery DC, Runger GC. Applied Statistics and Probability for Engineers. Wiley & Sons, 2003. [51] Nandy D, Ben-Arie J. An Auditory localization model based on high frequency spectral cues. Annals of Biomedical Engineering, 24(6): str. 621 – 638, l. 1996. [52] Neely ST, Allen JB. Invertibility of room impulse response. Journal of Acoustical Soc. Of America, 66(1): str. 165 – 169, julij 1979. [53] Neuhoff JG (urednik). Ecological Psychoacoustics. Elsevier Inc., 2004. [54] Nishino T, Hosoe S, Takeda K, Itakura F. Measurement of the Head Related Transfer Function using the Spark Noise. Proceedings of the 18th International Congress on Acoustics (ICA2004), Kyoto, Japonska, 2004, str.1437 – 1438 (zvezek II). [55] Pickett JM, Daly RL, Brand SL. Discrimination of spectral cutoff frequency in residual hearing and in normal hearing. Journal of the Acoustical Society of America, 38(5): str. 923(A), november 1965. [56] Rao KR, Ben-Arie J. Optimal Head Related Transfer Functions for Hearing and Monaural Localization in Elevation: A Signal Processing Design Perspective. IEEE Transactions on Biomedical Engineering, 43(11): str. 1093 – 1115, november 1996. 89 LITERATURA [57] Raykar VC, Duraiswami R, Yegnanarayana B. Extracting the frequencies of the pinna spectral notches in measured head related impulse responses. Journal of Acoustical Soc. of America, 118(1): 364 – 374, julij 2005. [58] Rodriguez SG, Ramirez MA. Extracting and modeling approximated pinna-related transfer functions from HRTF data. Proc. of ICAD 05 – Eleventh Meeting of the International Conference on Auditory Display, Limerick, Irska, 6. – 9. julij, 2005, str. 269 – 273. [59] Rogers ME, Butler RA. The linkage between stimulus frequency and covert peak areas as it relates to monaural localization. Perception and Psychophysics, 52(5): 536 – 546, november 1992. [60] Van Schaink A, Jin C, Carlile S. Human Localisation of Band-Pass Filtered Noise, Proceedings of 2nd European Workshop on Neuromorphic Systems (EWNS2), Stirling, Škotska, september 1999. [61] Shinn-Cunningham BG, Durlach NI, Held RM. Adapting to supernormal auditory localization cues. I. Bias and resolution. Journal of Acoustical Soc. of America, 103(6): str. 3656 – 3666, junij 1998. [62] Shinn-Cunningham BG, Durlach NI, Held RM. Adapting to supernormal auditory localization cues. II. Constraints on adaptation of mean response. Journal of Acoustical Soc. of America, 103(6): str. 3667 – 3676, junij 1998. [63] Sodnik J, Sušnik R, Tomažič S. Acoustic signal localization through the use of Head Related Transfer Functions. Journal of systemics, cybernetics and informatics, 2(6): str. 1 – 4, l. 2004. [64] Sodnik J, Sušnik R, Bobojević G, Tomažič S. Smerna ločljivost navideznih izvorov zvoka pri človeku. Elektroteh. vestn., 71(3): str. 121 – 127, l. 2004. [65] Sodnik J, Sušnik R, Štular M, Tomažič S. Spatial sound resolution of an interpolated HRIR library, Applied Acoustics, 66: str. 1219 – 1234, l. 2005. [66] Sodnik J, Sušnik R, Tomažič S. Merjenje individualnih prenosnih funkcij glave in ušes, Zbornik štirinajste mednarodne Elektrotehniške in računalniške konference ERK 2005, Portorož, str. 265 – 268 (zvezek B), september 2005. [67] Sodnik J, Sušnik R, Tomažič S. Principal Components of Non-Individualized Head Related Transfer Functions Significant for Azimuth Perception. Acta Acustica united with Acustica, 92(2): str. 312 – 319, marec-april 2006. [68] Sušnik R, Sodnik J, Tomažič S. Elevation coding in auditory image. Poslano v revijo Applied Acoustics, junij 2006. [69] Sušnik R, Sodnik J, Tomažič S. Sound source choice in HRTF acoustic imaging. HCI International 2003: adjunct proceedings. Heraklion, Grčija, junij 2003, str. 101 – 102. [70] Sušnik R, Sodnik J, Tomažič S. Vpliv dolžine impulza na ločljivost v akustični sliki prostora. Zbornik dvanajste mednarodne Elektrotehniške in računalniške konference ERK 2003, Ljubljana, Slovenija, september 2003, str. 91 – 94. [71] Sincaglia N, Rebaud S. Product design considerations for implementing 3D audio algorithms within existing multichannel formats. Proceedings of AES 16th Int. conference on Spatial Sound Reproduction, Rovaniemi, Finska, april 1999. [72] Tasič J. Uvod v postopke digitalne obdelave signalov. Založba FE in FRI, Ljubljana, 2001. [73] Tomažič S, Leonardis S. Digitalni signali in sistemi. Založba FE in FRI, Ljubljana, 2004. [74] Vickers DA, Faulkner A. The discrimination of the bandwidth of noises by normal-hearing and severe-to-profoundly hearing-impaired listeners. Speech Hearing and Language: work in progress, 10, l. 1997 (http://www.phon.ucl.ac.uk/home/shl10/debi/debishl.htm). 90 LITERATURA [75] Vliegen J, Van Opstal AJ. The influence of duration and level on human sound localization. Journal of Acoustical Soc. of America, 115(4): str. 1705 – 1713, april 2004. [76] Watkins AJ. Psychoacoustical aspects of synthesized vertical local cues. Journal of Acoustical Soc. of America, 63(4): str. 1152 – 1165, april 1978. [77] Wightman FL, Kistler DJ. Headphone simulation of free-field listening. I: Stimulus synthesis. Journal of Acoustical Soc. of America, 85(2): str. 858 – 867, februar 1989. [78] Wightman FL, Kistler DJ. Headphone simulation of free-field listening. II: Psychophysical validation. Journal of Acoustical Soc. of America, 85(2): str. 868 – 878, februar 1989. [79] Wightman FL. Monaural sound localization revisited. Journal of Acoustical Soc. of America, 101(2): str. 1050 – 1063, februar 1997. [80] Spletna enciklopedija Wikipedia, www.wikipedia.org. [81] Zahorik P. Direct-to-reverberant energy ratio sensitivity. Journal of Acoustical Soc. of America, 112(5): str. 2110 – 2117, november 2002. [82] Zwiers MP, Van Opstal AJ, Cruysberg JRM. Two-dimensional sound-localization behavior of early-blind humans. Experimental Brain Research, 140 (2): str. 206 – 222, september 2001. [83] Zwicker E, Flottorp G, Stevens SS. Critical bandwidth in loudness summation. Journal of Acoustical Soc. Of America, 29(5): str. 548 – 557, maj 1957. [84] Zwicker E. Subdivision of the audible frequency range into critical bands (Frequenzgruppen). Journal of Acoustical Soc. Of America, 33(2): str. 248, februar 1961. [85] Zwislocki J, Maire F, Feldman AS, Rubin H. On the Effect of Practice and Motivation on the Treshold of Audibility. Journal of Acoustical Soc. of America, 30(4): str. 254 – 262, april 1958. [86] Žiberna G, Zazula D. Računalniška tvorba 3D zvoka v virtualnih prostorih. Elektroteh. vestn., 70(3): str. 96 – 102, l. 2003. 91 LITERATURA 92 SEZNAM KRATIC OPIC HRIR HRTF IAD IEC ILD ISO ITD JND KEMAR Center for Image Processing and Integrated Computing Head Related Impulse Response Head Related Transfer Function Interaural Amplitude Difference Laboratorij (University of California Davis) katerega banka HRTF je prosto dostopna na spletu (http://www.cipic.ucdavis.edu/). Impulzni odziv glave in telesa, tj. impulzni odziv prenosne poti med izvorom zvoka in poslušalcem. Fourierov transform impulznega odziva glave in telesa (HRIR). Medušesna amplitudna razlika, tj. razlika v amplitudah zvočnega vala na zasenčenem in nezasenčenem ušesu (enako kot ILD). Mednarodno standardizacijsko telo za področje elektrotehnike (http://www.iec.ch/). Medušesna amplitudna razlika, tj. razlika v amplitudah zvočnega vala na zasenčenem in nezasenčenem ušesu (enako kot IAD). International Standards Organization Mednarodno standardizacijsko telo (http://www.iso.org/). International Electrotechnical Commission Interaural Level Difference Interaural Time Difference Just Noticeable Difference Knowles Electronic Manikin for Acoustic Research Medušesna časovna razlika, tj. zakasnitev med trenutkoma ko zvočno valovanje doseže nezasenčeno in zasenčeno uho. Minimalne zaznavne razlike (v glasnosti, frekvenci, času …). Posebna lutka, ki se uporablja predvsem za merjenje splošnih HRTF. 93 SEZNAM KRATIC MAA Minimum Audible Angle Minimalna kotna ločljivost dveh statičnih izvorov zvoka. MAMA Minimum Audible Movement Angle Minimalna kotna ločljivost dveh premikajočih se izvorov zvoka. Laboratorij katerega banka HRTF je prosto dostopna na spletu (http://www.mit.edu/). Impulzni odziv prostora. Čas v katerem pade prvotna zvočna energija na eno milijoninko začetne vrednosti (kot posledica odbojev – reverberacije v prostoru). Projekt akustične slike prostora nizozemskega fizika Petra Meijerja (http://www.seeingwithsound.com/). MIT Massachusetts Institute of Technology RIR Room Impulse Response RT60 Reverberation Time 60 dB vOICe Oh, I see. 94 IZJAVA Izjavljam, da sem doktorsko disertacijo samostojno izdelal pod vodstvom mentorja prof. dr. Saša Tomažiča, rednega profesorja na Fakulteti za elektrotehniko Univerze v Ljubljani. Izkazano pomoč drugih sodelavcev sem v celoti navedel v zahvali. Rudolf Sušnik