UDK 811.163.6'344.2:612.85 Tatjana Marvin Filozofska fakulteta Univerze v Ljubljani tatjana.marvin@guest.arnes.si Saba Battelino Medicinska fakulteta Univerze v Ljubljani saba.battelino@kclj.si Samo Beguš Fakulteta za elektrotehniko Univerze v Ljubljani samo.begus@fe.uni-lj.si Jure Derganc Medicinska fakulteta Univerze v Ljubljani jure.derganc@mf.uni-lj.si PORAZDELITEV FONEMOV V SLOVENŠČINI IN IZDELAVA MATRIČNEGA TESTA ZA GOVORNO AVDIOMETRIJO V članku je predstavljen postopek izbire besed za slovenski matrični stavčni test, ki se upo -rablja za preizkus slušnega razumevanja pri govoru. Glavni poudarek prispevka je na določitvi fonemske porazdelitve v jezikovnem gradivu za test, ki se mora čim bolj približati porazdelitvi fonemov v jeziku testa. Ker porazdelitev fonemov v slovenščini še ni raziskana, jo določimo s pomočjo črkovne porazdelitve v korpusu pisne slovenščine ccKres v kombinaciji s fonetično podatkovno bazo v Mihelič (2006) za tiste primere, kjer črkovni zapis ne ustreza fonemskemu. Na osnovi ugotovljene fonemske porazdelitve nato predlagamo besede za slovenski matrični test. Ključne besede: slovenščina, matrični stavčni test, fonem, govorna avdiometrija This paper presents a word selection process in a Slovenian matrix sentence test for speech intelligibility measurements. We focus on phonemic distribution in the test, which should be approximated as closely as possible to distribution in the language. We establish a phonemic distribution for Slovenian by combining the orthographic distribution in the corpus ccKres and the phonetic distribution in Mihelič (2006) for cases where the orthographic record does not correspond to the phonetic one. The result is a proposal of a phonemically balanced matrix test for Slovenian. Keywords: Slovenian, matrix sentence test, phoneme, speech audiometry V članku je predstavljen postopek izbire besed za slovenski matrični test, ki se bo v klinični govorni avdiometriji uporabljal za preizkus sluha. Izdelava matričnega testa je pomembna tudi z jezikoslovnega in slovenističnega vidika. Mednarodne smernice za matrični test namreč zahtevajo, da se mora porazdelitev fonemov v jezikovnem gradivu za test čim bolj približati porazdelitvi fonemov v jeziku preizkusa. Ker porazdelitev 538 Slavistična revija, letnik 67/2019, št. 4, oktober-december fonemov v slovenščini še ni raziskana, je glavni poudarek pričujočega prispevka vzpostavitev fonemske porazdelitve za slovenščino, rezultat pa doprinos h glasoslovnim raziskavam na področju slovenskega jezika. Fonemsko porazdelitev za slovenščino določimo na osnovi črkovne porazdelitve v korpusu pisne slovenščine ccKres, ki jo dopolnimo s podatki o porazdelitvi fonemov v primerih, kjer črkovni zapis ne ustreza fonemskemu. Pri tem si pomagamo s fonetično podatkovno bazo v Mihelič (2006). Na osnovi ugotovljene fonemske porazdelitve nato predlagamo besede za slovenski matrični test. V članku je najprej na kratko predstavljen koncept govorne avdiometrije (razdelek 1), splošna sestava matričnega testa (razdelek 2) in predstavitev zahtev glede priprave jezikovnega gradiva (razdelek 3). Sledi osrednji del, v katerem je opisan proces določanja pogostosti pojavljanja fonemov v slovenščini (razdelek 4). V zadnjem delu je predstavljen predlog matričnega testa za slovenščino, osnovan na splošnih navodilih za matrične teste in na glasovnih lastnostih slovenskega jezika (razdelek 5). Sledi zaključek (razdelek 6). 1 Govorna avdiometrija za slovenski jezik Govorna avdiometrija je ena izmed standardnih metod za diagnozo tipa izgube sluha in za oceno sposobnosti sporazumevanja bolnika, saj z njo testiramo nivo razumevanja slišanega in sposobnost ponovitve slišanega (Musiek idr. 2011). V ta namen je bil v slovenski jezik leta 1968 preveden in adaptiran nemški besedni test, ki ga je razvil Hahlbrock leta 1953 in 1960, znan kot Freiburški test z enozložnicami in Freiburški numerični test (Pompe 1968). Test je bil prenovljen leta 2016 (Marvin, Derganc in Battelino 2016). Poleg besednih testov poznamo v govorni avdiometriji tudi teste s povedmi; le-ti bolje odražajo vsakodnevno rabo jezika in so se tako izkazali kot koristna in natančna diagnostična orodja v več jezikih. Na splošno se uporabljata dva tipa - testi, ki vsebujejo povedi z različno skladenjsko zgradbo iz vsakodnevne komunikacije (npr. Plomp & Mimpen 1979) ter t. i. matrični testi, kjer imajo vse povedi enako skladenj sko zgradbo z nepredvidljivo kombinacijo posameznih besed ter besednih pomenov (Hagerman 1982; Wagener 1999a, b, c; Ozimek idr. 2010; Hochmuth idr. 2012; Warzybok idr. 2015). V tem prispevku predstavljamo postopek izbire besed za test z matrično strukturo, osnovan na slovenskem jeziku. Matrični test - prvi te vrste v Sloveniji - bo uporabljen za natančnejšo oceno sluha pri ljudeh z motnjo sluha, za ocenjevanje razumevanja govora pri ljudeh s centralnimi motnjami sluha in motnjami razumevanja, za ocenjevanje kognitivnih sposobnosti, za ocenjevanje izboljšanja razumevanja govora pri bolnikih z uporabo vsadkov in različnih slušnih pripomočkov in pri bolnikih s tinitusom. Pri izdelavi testa sledimo smernicam Mednarodnega kolegija za rehabilitacijsko avdiologijo (ICRA) (Akeroyd idr. 2015), ki dopolnjujejo standard ISO 8253-3: 2012 (Akustika. Avdiometrične preskusne metode - 3. del: Govorna avdiometrija) z zagotavljanjem korakov, ki so potrebni za izdelavo matričnega preskusa v posameznem jeziku. T. Marvin, S. Battelino, S. Beguš, J. Derganc: Porazdelitev fonemov v slovenščini in izdelava matričnega testa 539 2 Smernice za sestavo matričnega testa Prvi matrični test je leta 1982 sestavil Björn Hagerman (Hagerman 1982); osnovan je bil na švedskem jeziku. Nekoliko spremenjena različica (Wagener idr. 1999a, b, c) je trenutno na voljo v 14 jezikih (npr. angleščina, nizozemščina, nemščina, francoščina, turščina itd.), od katerih sta le dva slovanska (poljščina in ruščina). Test je sestavljen iz povedi, ki vsebujejo 5 besed in so skladenjske oblike Osebek - Povedek - Predmet, npr. Tone kupi pet velikih stolov. Osebek je vedno enobesedno osebno ime, povedek je enobesedna glagolska zveza, predmet pa samostalniška zveza, katere jedro je samostalnik v množini, kot leva prilastka pa se pojavita števnik ter pridevnik. Obliko povedi lahko poenostavljeno povzamemo kot Ime - Glagol - Števnik - Pridevnik - Samostalnik. Pri pripravi testa je najprej potrebno zbrati jezikovno gradivo, ki sestavlja osnovno matrico; le-ta obsega 50 besed, po 10 besed za vsako od petih pozicij v predpisani obliki povedi: 10 osebnih imen, 10 glagolov, 10 števnikov, 10 pridevnikov, 10 samostalnikov. Iz osnovne matrice je mogoče generirati skupaj 100.000 različnih povedi oblike Ime - Glagol - Števnik - Pridevnik - Samostalnik (vsako od desetih imen se kombinira z vsakim od desetih glagolov, vsaka taka kombinacija se nadalje kombinira z vsakim od desetih števnikov itd. Skupno število različnih kombinacij je 10^10-10^10-10 =100.000). Za potrebe testiranja se uporablja sezname z desetimi različnimi povedmi, v katerih se vsaka od besed pojavi samo enkrat. Naslednji korak je snemanje povedi z rojenim govorcem, rezanje povedi v posamezne besede z ohranitvijo koartikulacije ter lepljenje v naključne kombinacije oblike Ime - Glagol - Števnik - Pridevnik - Samostalnik. Povedi mora brati rojeni govorec (m/ž), za katerega ni nujno, da ima formalno izobrazbo radijskega napovedovalca. Izgovarjava mora biti knjižna z nevtralno intonacijo in enakomerno jakostjo. Ker je z enim govorcem nemogoče posneti vseh 100.000 različnih povedi, si pomagamo tako, da posnamemo le minimalno količino jezikovnega gradiva, iz katerega nato z rezanjem in lepljenjem besed generiramo vseh 100.000 kombinacij. Posneto gradivo mora vključevati vse kombinacije dveh besed, ki se lahko pojavita ena za drugo, kar ob nadaljnjem rezanju in ponovnem lepljenju zagotavlja ohranjanje koartikulacije in naravni govor. Tako minimalno jezikovno gradivo obsega le 100 različnih povedi; seznam sestavimo po metodi iz Wagener idr. (1999a). Po snemanju je potrebno posneta zaporedja razrezati v posamezne besede, pri čemer je nujno ohraniti koartikulacijo na koncu vsake izrezane besede glede na besedo, ki ji sledi. Povedi so nato (računalniško) sestavljene s kombiniranjem posnetih besed, zraven pa je lahko dodan še maskirni šum. Preden se test sprejme v klinično uporabo, je potrebno izvesti še optimizacijo, evalvacijo in validacijo posnetega gradiva. Iz posnetega gradiva lahko računalnik vsakič posebej pri testiranju generira povedi, ki jih nato uporabimo pri govorcih z motnjami sluha. Matrični test je enostaven za testiranje in je zaradi izjemnega števila možnih kombinacij besed v različne povedi koristno diagnostično orodje. Pacient si namreč povedi ne more zapomniti od enega do 540 Slavistična revija, letnik 67/2019, št. 4, oktober-december drugega testiranja, prednost matričnega testa pa je tudi v medjezikovni primerljivosti rezultatov, v kolikor je za vse jezike uporabljen enak postopek priprave. 3 Priprava jezikovnega gradiva za slovenski matrični test V pričujočem razdelku je opisan postopek zbiranja jezikovnega gradiva v osnovni matrici, ki je sestavljena iz 50 besed, tj. po 10 besed za vsako od petih pozicij besed povedi oblike Ime - Glagol - Števnik - Pridevnik - Samostalnik. Izbrano gradivo mora zadostiti različnim pogojem na pomenski, skladenjski ter glasoslovni ravnini. Pogoji glede izbora imen narekujejo, da pri tej kategoriji uporabimo 5 moških in 5 ženskih imen. Nadalje se v testu ne smejo pojavljati redke, zastarele ali čustveno zaznamovane besede, pri čemer je potrebno upoštevati, da ne smejo biti čustveno zaznamovane tudi kombinacije posameznih besed, v katerih posamezna beseda sama zase ni čustveno zaznamovana. Izogibati se je potrebno tudi ponavljajočim se kombinacijam, npr. veliko velikih kamnov, ali podobnim imenom, npr. Jana, Jasna. Vse možne kombinacije besed, tj. vse povedi, ki jih lahko sestavimo iz teh besed, morajo biti slovnično pravilne. Ta pogoj pomembno vpliva na izbor glagolskega časa ter števnikov v samostalniški zvezi, ki označuj e predmet. V matričnih testih za germanske jezike se pogosto uporablja pretekla oblika glagola, v obstoječih matričnih testih za slovanske jezike pa se uporabljata sedanjik ali prihodnjik. V slovenščini moramo v matričnem testu uporabiti sedanjo obliko glagola, npr. Jana kupi tri velike škatle. Uporaba preteklika ali prihodnjika bi namreč zahtevala dodatno mesto za pomožni glagol biti ter prispevala dodatne zaplete pri ujemanju deležnika na -l z osebkom po spolu (poleg ujemanja po številu). Pri preizkusu se v slovenščini lahko uporabljajo samo števniki od vključno 5 dalje, saj ti brez izjeme zahtevajo, da jim sledita pridevnik in samostalnik v rodilniku množine (npr. Jana kupi pet/šest/sedem/osem ... velikih škatel). Števnike od 1 do 4 nadomestimo s kvantifikacijskimi izrazi, ki podobno kot števniki od 5 dalje zahtevajo rodilnik množine, npr. malo, nekaj (npr. nekaj velikih stolov). Test mora zadostiti tudi nekaterim pogojem, ki spadajo v domeno glasoslovne ravnine. Preizkus je potrebno uravnotežiti glede na število zlogov izbranih besed in sicer tako, da je uravnotežena vsaka posamezna skupina desetih besed v osnovni matrici. Odločimo se za uporabo dvozložnih besed, izjemoma pa enozložnih in trozložnih, ko je taka raba posledica zahtevane fonemske uravnoteženosti. Matrični preizkus mora biti fonemsko uravnotežen na način, da pogostost fonemov v testu odseva pogostost fonemov v jeziku, na katerem je preizkus osnovan. Izpolnitev tega pogoja se je izkazal za najbolj zahtevnega, saj porazdelitev fonemov v slovenščini še ni raziskana. Fonemska uravnoteženost je tako postala osrednja jezikoslovna tema pričujočega raziskovalnega dela. Podrobno je obravnavana v razdelku 4. T. Marvin, S. Battelino, S. Beguš, J. Derganc: Porazdelitev fonemov v slovenščini in izdelava matričnega testa 541 4 Določanje porazdelitve fonemov V slovenski znanstveni literaturi je najti številne raziskave, katerih cilj je določitev porazdelitve črk (npr. Jakopin 1999, Suhadolc 2013, Ključevšek 2016), ne obstajajo pa izračuni porazdelitve fonemov. To je razumljivo, saj je fonem abstraktna enota in zato zahteva ugotavljanje porazdelitve fonemov tudi jezikoslovno analizo, ki za obravnavo črkovnega zapisa v korpusih ni nujno potrebna. V tem razdelku predstavimo postopek določanja fonemske porazdelitve za slovenščino na osnovi črkovne porazdelitve v korpusu pisne slovenščine ccKres (4.1), ki jo dopolnimo s podatki o porazdelitvi fonemov v primerih, kjer črkovni zapis ne ustreza fonemskemu (4.2 in 4.3). 4.1 Izbira korpusa za določitev porazdelitve fonemov Porazdelitev fonemov v slovenščini smo določili na osnovi korpusa ccKres, ki je največji žanrsko uravnotežen korpus sodobne pisne slovenščine, dostopen na spletnem repozitoriju CLARIN.SI. Vsebuje 10 milijonov besed iz različnih besedilnih zvrsti, od dnevnega časopisja, revij, knjig (leposlovje, neleposlovje, učbeniki) do spletnih strani. Ustreznost izbire smo preverili s primerjavo z dvema korpusoma govorjene slovenščine, ki sta prav tako dostopna v repozitoriju, a sta v primerjavi s korpusom ccKres bistveno manjša in nista enako uravnotežena. Korpus govorjene slovenščine GOS, tj. njegova ortografska transkripcija v knjižni slovenščini, vsebuje milijon besed. Ortografska transkripcija podatkovne zbirke SNABI, natančneje njen del Lingua, vsebuje 910 povedi iz različnih vrst besedil, kot npr. knjige ali časopisi (Kačič idr. 2002). Izbrane korpuse smo glede na pojavnost črk primerjali z meritvami iz Jakopinovega dela (Jakopin 1999), kjer je prvič analizirana porazdelitev črk v številnih leposlovnih delih v slovenskem jeziku. Izsledki so predstavljeni v Tabeli 1. Porazdelitev črk v korpusu ccKres se približno ujema tako s korpusoma govorjene slovenščine kot tudi z Jakopinovo analizo. Ob tem opazimo, da ima korpus GOS relativno visoko pojavnost črk "a", "e" in "m", kar bi lahko pripisali uporabi teh črk (oz. glasov, ki jih te črke označujejo) v mašilih v govorjeni slovenščini. 4.2 Fonem, alofon, črka v slovenščini Za določanje porazdelitve fonemov so ključni pojmi fonem, alofon in črka ter njihova medsebojna razmerja v slovenščini. Prva dva pojma sta pomembna z vidika jezikoslovne analize, zadnji pa z vidika jezikovnih orodij, ki so nam na voljo za določanje pogostosti - korpusi besedil so namreč najpogosteje zapisani s črkami, le redko z alofoni (fonetična transkripcija), s fonemi pa praktično nikoli. Pomembno je torej ugotoviti, kako črkovni in fonetični zapis pretvoriti v fonemski zapis, iz katerega bi potem lahko neposredno razbrali pogostost pojavljanja posameznih fonemov. Fonem je v jezikoslovni teoriji definiran kot najmanjša glasovna enota, ki jo lahko izluščimo iz glasovne verige in je pomensko razločevalna znotraj posameznega jezika. 542 Slavistična revija, letnik 67/2019, št. 4, oktober-december a o 3 s & 0 M 4= C« 1 § o £ si> o M O o VO \o O O O O o \o yn ' ■ ' VO O O o O co C^ o yn