Urednika: ŠPELA ARHAR HOLDT SIMON KREK RAZVOJ SLOVENŠČINE V DIGITALNEM OKOLJU Kataložni zapis o publikaciji (CIP) pripravili v Narodni in univerzitetni knjižnici v Ljubljani COBISS.SI-ID 182678275 ISBN 978-961-297-256-1 (PDF) Razvoj slovenščine v digitalnem okolju Urednika: Špela Arhar Holdt in Simon Krek Razvoj slovenščine v digitalnem okolju Zbirka: Sporazumevanje (e-ISSN 2738-4527) Urednika zbirke: Špela Arhar Holdt, Vojko Gorjanc Urednika publikacije: Špela Arhar Holdt, Simon Krek Recenzenta: Monika Kalin Golob, Simon Šuster Tehnično urejanje: Jure Preglau Prelom: Aleš Cimprič Oblikovanje naslovnice: Kofein dizajn Založila: Založba Univerze v Ljubljani Izdala: Znanstvena založba Filozofske fakultete Univerze v Ljubljani Za založbo: Gregor Majdič, rektor Univerze v Ljubljani Za izdajatelja: Mojca Schlamberger Brezar, dekanja Filozofske fakultete UL Ljubljana, 2023 Prva izdaja, e-izdaja Publikacija je brezplačna. Publikacija je dostopna na: https://ebooks.uni-lj.si/ZalozbaUL To delo je ponujeno pod licenco Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna licenca. / This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. Projekt Razvoj slovenščine v digitalnem okolju sta med leti 2020 in 2023 sofinancirali Republika Slovenija in Evropska unija iz Evropskega sklada za regionalni razvoj. Pripravo posameznih prispevkov je finančno podprla Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (ARIS) preko raziskovalnega programa P6-0411 in projektov J7-4642, J6-2581, J7-3159 in CRP V5-2297. Kazalo vsebine Uvodnik � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 11 Zbiranje gradiv za govorne korpuse med Scilo in Karibdo � � � � � � � � � � � � � � � � � � � � � � � � 15 Darinka Verdonik 1 Uvod � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 16 2 Vzorčni tuji modeli in obstoječi govorni korpusi za slovenščino � � � � � � � � � � � � � � � � � � � � � � � � � 18 2.1 Vzorčni tuji korpusi . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.2 Slovenski govorni korpusi . . . . . . . . . . . . . . . . . . . . . 21 3 Uporabniki govornih korpusov in njihove potrebe po gradivih � � � � � � � � � � � � � � � � � � � � � � � � � � � 23 3.1 Uporabniki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Potrebe uporabnikov . . . . . . . . . . . . . . . . . . . . . . . . 25 4 Prakse zbiranja gradiv za govorne korpuse � � � � � � � � � 29 5 Diskusija in zaključek � � � � � � � � � � � � � � � � � � � � � 31 Transkribiranje govora pri izdelavi govorne baze Artur: od pogovornih k standardiziranim zapisom � � � � � � � � � � � 39 Mitja Trojar, Andreja Bizjak 1 Uvod � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 40 2 Struktura govorne baze Artur in opis delotoka njene izgradnje � � � � � � � � � � � � � � � � � � � � � � � � � 41 3 Načela, uporabljena pri izdelavi pogovornih in standardiziranih zapisov � � � � � � � � � � � � � � � � � � 43 4 Težave pri izdelavi pogovornih in standardiziranih zapisov, rešitve zanje in priporočila za prihodnje projekte � � � � � 53 5 Zaključek � � � � � � � � � � � � � � � � � � � � � � � � � � � � 57 Prihodnost korpusa Šolar � � � � � � � � � � � � � � � � � � � � � 61 Špela Arhar Holdt, Eva Pori, Iztok Kosem 1 Uvod � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 62 2 Razvojni krog korpusa Šolar � � � � � � � � � � � � � � � � � � 65 3 Zbiranje korpusnega gradiva � � � � � � � � � � � � � � � � � 67 3.1 Pravne rešitve . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2 Portal za oddajo besedil . . . . . . . . . . . . . . . . . . . . . . 68 4 Priprava korpusnih besedil � � � � � � � � � � � � � � � � � � 72 4.1 Transkripcija, anonimizacija in označevanje popravkov . . . . 72 4.2 Jezikoslovno označevanje in korpusni format . . . . . . . . . . 73 5 Korpus Šolar 3.0 � � � � � � � � � � � � � � � � � � � � � � � � 75 5.1 Sestava korpusa Šolar 3.0 . . . . . . . . . . . . . . . . . . . . . 75 5.2 Metodologija označevanja jezikovnih popravkov . . . . . . . . 79 6 Dostopnost korpusa � � � � � � � � � � � � � � � � � � � � � � 81 7 Sklep in nadaljnje delo � � � � � � � � � � � � � � � � � � � � � 84 Prvi korpus slovenščine kot tujega jezika KOST 1.0 � � � � � � 93 Mojca Stritar Kučuk 1 Uvod � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 94 2 KOST 1.0 � � � � � � � � � � � � � � � � � � � � � � � � � � � � � 94 2.1 Besedila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 2.1.1 Okoliščine nastanka besedil . . . . . . . . . . . . . . . . 97 2.1.2 Vrste besedil . . . . . . . . . . . . . . . . . . . . . . . . . 99 2.1.3 Stopnja jezikovne zmožnosti . . . . . . . . . . . . . . . 100 2.2 Tvorci besedil . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 2.2.1 Prvi jezik 102 2.2.2 Varovanje osebnih podatkov 103 3 Označevanje jezikovnih napak v korpusu KOST 1.0 � � � �105 3.1 Orodje za označevanje napak . . . . . . . . . . . . . . . . . . 106 3.2 Taksonomija napak . . . . . . . . . . . . . . . . . . . . . . . . 107 3.3 Napake v korpusu KOST 1.0 . . . . . . . . . . . . . . . . . . . 109 4 Dostop do korpusa KOST 1.0 � � � � � � � � � � � � � � � � �113 5 Pogled naprej � � � � � � � � � � � � � � � � � � � � � � � � � �115 Nadgradnja učnega korpusa ssj550k v SUK 1.0 � � � � � � � � �119 Špela Arhar Holdt, Jaka Čibej, Kaja Dobrovoljc, Tomaž Erjavec, Polona Gantar, Simon Krek, Tina Munda, Nejc Robida, Luka Terčon, Slavko Žitnik 1 Uvod � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �121 2 Metodologija � � � � � � � � � � � � � � � � � � � � � � � � � �122 2.1 Povečanje korpusnega obsega . . . . . . . . . . . . . . . . . 122 2.2 Segmentacija, tokenizacija, lematizacija, oblikoskladnja MULTEXT-East . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 2.3 Oblikoslovje in skladnja po sistemu UD . . . . . . . . . . . . 128 2.4 Skladnja po sistemu JOS-SYN . . . . . . . . . . . . . . . . . . 131 2.5 Udeleženske vloge po sistemu SRL . . . . . . . . . . . . . . . 135 2.6 Imenske entitete . . . . . . . . . . . . . . . . . . . . . . . . . 139 2.7 Koreference . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 3 Kvantitativni pregled korpusa � � � � � � � � � � � � � � � �144 4 Kodiranje korpusa � � � � � � � � � � � � � � � � � � � � � � �145 5 Dostopnost korpusa � � � � � � � � � � � � � � � � � � � � � �148 6 Ocena uspešnosti označevanja in novi označevalni modeli � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �148 7 Sklep in nadaljnje delo � � � � � � � � � � � � � � � � � � � � �150 Zasnova splošnega ogrodja in podatkovnega modela za obdelavo naravnega jezika – ANGLEr � � � � � � � � � � � � �157 Slavko Žitnik 1 Uvod � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �158 2 Pregled obstoječih ogrodij � � � � � � � � � � � � � � � � � � �160 2.1 General Architecture for Text Engineering (GATE) . . . . . . 160 2.2 Unstructured Information Management Applications (UIMA). . . . . . . . . . . . . . . . . . . . . . . . 161 2.2.1 Clinical Language Annotation, Modeling, and Processing (CLAMP) 163 2.3 Orange - Data Mining Fruitful and Fun . . . . . . . . . . . . . 164 2.3.1 Vtičnik Orange text mining 165 2.3.2 Textable 166 2.4 KNIME Analytics Platform . . . . . . . . . . . . . . . . . . . . 167 2.5 Programske knjižnice za obdelavo naravnega jezika . . . . . 168 2.6 Primerjava pregledanih ogrodij . . . . . . . . . . . . . . . . . 169 3 Podatkovni modeli � � � � � � � � � � � � � � � � � � � � � � �170 3.1 Podatkovni model NLP Interchange Format (NIF) . . . . . . 171 3.2 Podatkovni model GATE . . . . . . . . . . . . . . . . . . . . . 172 3.3 Podatkovni model UIMA . . . . . . . . . . . . . . . . . . . . . 174 3.4 Podatkovni model Orange . . . . . . . . . . . . . . . . . . . . 175 3.5 Podatkovni model KNIME . . . . . . . . . . . . . . . . . . . . 175 3.6 Podatkovni model Stanza . . . . . . . . . . . . . . . . . . . . 176 3.7 Predlog podatkovnega modela ANGLEr . . . . . . . . . . . . 177 3.7.1 Verzioniranje podatkovnega modela 181 4 Predlog arhitekture ogrodja ANGLEr � � � � � � � � � � � � �181 4.1 Programski vmesnik Module API . . . . . . . . . . . . . . . . 184 4.2 Arhitektura Docker . . . . . . . . . . . . . . . . . . . . . . . . 185 5 Predlog grafičnega vmesnika ANGLEr � � � � � � � � � � � �186 6 Sklep � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �189 Slovenski meta-povzemalnik � � � � � � � � � � � � � � � � � � �195 Aleš Žagar, Marko Robnik-Šikonja 1 Uvod � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �196 2 Sorodna dela � � � � � � � � � � � � � � � � � � � � � � � � � �198 3 Učne množice � � � � � � � � � � � � � � � � � � � � � � � � � �199 4 Povzemalni modeli in meta-model � � � � � � � � � � � � � �200 4.1 Povzemalni modeli . . . . . . . . . . . . . . . . . . . . . . . . 201 4.2 Predstavitev dokumentov z modelom Doc2Vec. . . . . . . . 201 4.3 Meta-model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 5 Rezultati � � � � � � � � � � � � � � � � � � � � � � � � � � � � �203 5.1 Doc2Vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 5.2 Meta-model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 5.3 Meta-model proti ostalim . . . . . . . . . . . . . . . . . . . . 206 6 Zaključki � � � � � � � � � � � � � � � � � � � � � � � � � � � � �206 Slovenski terminološki portal – nova priložnost za urejanje slovenske terminologije � � � � � � � � � � � � � � � � � � � � � �211 Mateja Jemec Tomazin, Miro Romih 0 Uvod � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �212 1 Izhodišča � � � � � � � � � � � � � � � � � � � � � � � � � � � �213 1.1 Analizirana terminološka mesta . . . . . . . . . . . . . . . . 215 2 Terminološki portal � � � � � � � � � � � � � � � � � � � � � �217 2.1 Splošno o metajeziku terminološkega portala. . . . . . . . . 218 2.2 Oblikovanje terminološkega vira . . . . . . . . . . . . . . . . 220 2.3 Vključeni terminološki viri in varovanje avtorskih pravic . . . 220 2.4 Uporabniki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 2.5 Klasifikacije področij . . . . . . . . . . . . . . . . . . . . . . . 221 2.6 Uporabniške vloge . . . . . . . . . . . . . . . . . . . . . . . . 223 3 Iskanje � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �225 3.1 Osnovno iskanje . . . . . . . . . . . . . . . . . . . . . . . . . . 225 3.2 Napredno iskanje . . . . . . . . . . . . . . . . . . . . . . . . . 226 3.3 Prikaz in razvrščanje zadetkov. . . . . . . . . . . . . . . . . . 228 3.4 O terminu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 3.5 O slovarju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 4 Luščenje � � � � � � � � � � � � � � � � � � � � � � � � � � � � �230 4.1 Postopek luščenja. . . . . . . . . . . . . . . . . . . . . . . . . 232 4.2 Seznam luščenj . . . . . . . . . . . . . . . . . . . . . . . . . . 236 4.3 Dodajanje in urejanje luščenj . . . . . . . . . . . . . . . . . . 236 5 Urejanje � � � � � � � � � � � � � � � � � � � � � � � � � � � � �236 5.1 Struktura slovarskega sestavka . . . . . . . . . . . . . . . . . 237 5.2 Faze urejanja. . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 5.3 Nov slovar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 6 Svetovanje � � � � � � � � � � � � � � � � � � � � � � � � � � � �243 6.1 Pošiljanje vprašanj . . . . . . . . . . . . . . . . . . . . . . . . 243 6.2 Objava odgovorov . . . . . . . . . . . . . . . . . . . . . . . . . 244 7 Administracija � � � � � � � � � � � � � � � � � � � � � � � � �245 7.1 Osnovne nastavitve . . . . . . . . . . . . . . . . . . . . . . . . 245 7.2 Povezave s portali . . . . . . . . . . . . . . . . . . . . . . . . . 245 Uvodnik Strateško načrtovan in neprekinjen razvoj jezikovnih virov, tehnologij in storitev je ključnega pomena za vsak jezik oz. jezikovno skupnost – je temeljni pogoj, da se lahko posameznice in posamezniki nemoteno vključujemo v nove načine komunikacije, dela in preživ-ljanja prostega časa v sodobni družbi. Za slovenščino sta premišljenost in usklajenost še toliko pomembnejši, saj je razvojna naloga enaka, raziskovalno-razvojna skupnost, ki se ji posveča, pa manjša kot pri jezikih z več govorci. Načrtovanje digitalne infrastrukture za sodobno slovenščino v tem trenutku še ni optimalno, pozitivno pa je, da se problematiki na nacionalni ravni posveča vedno več pozornosti. Primer dobre prakse raziskovalno-razvojnega projekta, ki je povezal deležnike v slovenskem prostoru in združil znanja različnih raziskovalnih inštitucij ter jezikovnotehnoloških podjetij, je Razvoj slovenščine v digitalnem okolju (RSDO), ki sta ga med leti 2020 in 2023 financirala Ministrstvo za kulturo Republike Slovenije in Evropski sklad za regionalni razvoj. Na projektu smo odpravili nekatere pereče vrzeli na področju odprto dostopnih virov, tehnologij in storitev za sodobno slovenšči-no. Prenovili smo učne množice in postopke za strojno označevanje sodobne slovenščine, osvežili in povečali temeljne jezikovne vire in nadgradili metodologijo za njihovo bodočo gradnjo. Velik del projekta je bil posvečen razvoju govorne baze in govornih tehnologij, zlasti razpoznave govora za slovenščino, ter semantičnim virom in tehnologijam, kjer so bile aktivnosti izdelava osrednje digitalne slovarske baze, baze znanja ter virov in postopkov za različne semantične naloge. Nadgradili smo metodologijo strojnega prevajanja in zasnovali ter vzpostavili portal za urejanje slovenske terminologije. Monografija, ki je pred vami, vključuje osem poglavij, ki jih je pri-pravilo dvajset avtorjev in avtoric s petih različnih inštitucij: Univerze 11 v Ljubljani (Filozofska fakulteta in Fakulteta za računalništvo in informatiko), Univerze v Mariboru (Fakulteta za elektrotehniko, računalništvo in informatiko), ZRC SAZU (Inštitut za slovenski jezik Frana Ramovša), Inštituta »Jožef Stefan« in jezikovnotehnološkega podjetja Amebis, d. o. o., Kamnik. Prva prispevka se posvečata pripravi virov za razvoj govornih tehnologij: Darinka Verdonik se osredotoči na prihodnji razvoj govornih korpusov, zlasti z vidika njihove karseda učinkovite gradnje za različne uporabniške potrebe, Mitja Trojar in Andreja Bizjak pa predstavita načela za zapis govora in izvedbo transkribiranja pri izdelavi govorne baze Artur. Sledita poglavji, ki se ukvarjata s korpusi, ki vsebujejo jezikovne popravke in so zlasti pomembni za področje jezikovnega izobraževanja: Špela Arhar Holdt, Eva Pori in Iztok Kosem predstavijo strategijo za prihodnost korpusa Šolar, ki vsebuje besedila osnovnošolskih in srednješolskih učencev; Mojca Stritar Kučuk pa prvi korpus slovenščine kot drugega oz. tujega jezika KOST 1.0. Zadnji predstavljeni jezikovni vir je slovenski učni korpus SUK, katerega kompleksno sestavo in ročno pregledane jezikoslovne oznake predstavljajo Špela Arhar Holdt, Jaka Čibej, Kaja Dobrovoljc, Tomaž Erjavec, Polona Gantar, Simon Krek, Tina Munda, Nejc Robida, Luka Terčon in Slavko Žitnik. Slavko Žitnik je tudi avtor prvega od dveh poglavij, ki se posvečata orodjem za obdelavo naravnega jezika – predstavi ogrodje za demokratizacijo obdelave naravnega jezika ANGLEr, vključno s podatkovnim modelom, Aleš Žagar in Marko Robnik-Šikonja pa meta-povzemalnik, ki izbira med štirimi različnimi modeli povzemanja, razvitimi za sloven- ščino. Monografijo zaključita Mateja Jemec Tomazin in Miro Romih z opisom Slovenskega terminološkega portala, ki ponuja uporabniku prijazen načine za urejanje slovenske terminologije. Monografija je namenjena študentom in študentkam, predava-teljem in predavateljicam, raziskovalcem in raziskovalkam, razvijalcem in razvijalkam ter vsem, ki bi radi bolje razumeli namen, sestavo in način gradnje predstavljenih projektnih rezultatov. Pomemben doprinos dela je, da pogled usmerja v prihodnost in opredeljuje korake, ki so pred nami. Zato bo uporabno branje tudi za pripravljav-ce in pripravljavke nacionalnih razvojnih strategij in druge področne 12 odločevalce in odločevalke. Urednika se prijazno zahvaljujeva vsem sodelujočim za kakovostne prispevke, recenzentoma Moniki Kalin Golob in Simonu Šustru pa za hitro branje in konstruktivne komentarje. Lepo vabljeni k branju! Špela Arhar Holdt in Simon Krek 13 Zbiranje gradiv za govorne korpuse med Scilo in Karibdo Darinka VERDONIK Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko Povzetek Govorni korpusi niso pomembni samo za tehnološki razvoj, ampak tudi za sodobno jezikoslovje. Ker zahtevajo velik časovni vložek, mora biti njihovo načrtovanje toliko bolj premišljeno. V prispevku se osredotočamo na prihodnji razvoj govornih korpusov in iščemo odgovor na vprašanji: Kdo so uporabniki govornih korpusov in kakšne so njihove potrebe po gradivih? Katere so prakse zbiranja gradiv za govorne korpuse in kako lahko sinergič- no naslovimo čim več različnih potreb z enotnim virom? Med bolj aktivnimi uporabniki govornih korpusov so mnoge jezikoslovne discipline kot tudi govorne in semantične tehnologije. V obstoječih slovenskih govornih korpusih že obstaja večja količina gradiv za medijski, parlamentarni in akademski govor, manjka pa avtentičnih vsakdanjih govornih interakcij, kjer bi bila potrebna bolj podrobna regionalna pokritost, visoka kvaliteta posnetkov in zajem videa, kjer je mogoče. V Sloveniji je problem nekontinuirano snemanje v izredno kratkih časovnih obdobjih, pri čemer se veliko sredstev izgublja za koordiniranje množice sodelavcev ter ni časa za podrobno načrtovanje in pripravo orodij za bolj učinkovito delo. Ključne besede: govorni viri, razpoznavanje govora, snemanje, uporabniki Abstract Speech corpora are important for technological development and for modern linguistics. They require a large investment of time, therefore their planning must be all the more thoughtful. In this paper, we focus on the future development of Slovenian speech corpora and seek answers to the following questions: Who are the users of speech corpora and what are their needs for data? What are the practices of collecting data for speech 15 corpora and how can we synergistically address as many different needs as possible with a single source? Among the more active users of speech corpora are many linguistic disciplines as well as speech and semantic technologies. In the existing Slovenian speech corpora, there is already a large amount of media, parliamentary and academic speech. There is a lack of authentic everyday speech interactions, which would require more detailed regional coverage, high quality recordings and video capture where possible. In Slovenia, the problem is non-continuous recording in extreme-ly short periods of time where a lot of resources are wasted on coordinating a multitude of collaborators while there is no time for detailed planning and preparation of tools for more efficient work. Keywords: speech resources, speech recognition, recording, users 1 Uvod Slovenščina se po jezikovnotehnološki podprtosti uvršča na rep dr- žav s fragmentarno tehnološko podporo. Z vidika pripravljenosti na digitalno prihodnost je primerljiva z bolgarskim, slovaškim, hrva- škim, baskovskim, velškim, galicijskim in islandskim jezikom (Giagkou idr., 2023: 81). Na tehnološko podprtost jezikov seveda vplivajo razni socioekonomski in politični dejavniki in razumljivo je, da se po podprtosti tehnologij slovenski jezik nikoli ne bo mogel primerjati z nemškim, francoskim ali španskim jezikom, da angleškega ne omenjamo; vsekakor pa je treba ohranjati prizadevanja, da postane naš jezik digitalno podprt vsaj primerljivo zahodnoslovanskim in skandinavskim jezikom. Tehnološka oziroma digitalna podprtost jezika vključuje širok spekter jezikovnih tehnologij in virov, od katerih so bili mnogi podprti v projektu Razvoj slovenščine v digitalnem okolju.1 V tem prispevku se osredotočamo samo na področje govornih virov, natančneje govornih korpusov oz. govornih baz. Za slovenščino sta na tem področju potekali do zdaj dve večji kampanji, obe zelo kratkoročni. V okviru projekta Sporazumevanje v slovenskem jeziku, ki ga je v obdobju 2008–2013 omogočilo Ministrstvo 1 https://slovenscina.eu 16 za izobraževanje, znanost in šport ob podpori sredstev iz Evropskega socialnega sklada, je v letih 2009–2010 nastal referenčni govorni korpus Gos (Verdonik idr., 2013) v obsegu 112 ur/1 mio. besed. Sledilo je desetletno zatišno obdobje z minimalnimi vlaganji v govorno infrastrukturo do leta 2020, ko je Ministrstvo za kulturo s pomočjo sredstev iz Evropskega sklada za regionalni razvoj spodbudilo projekt Razvoj slovenščine v digitalnem okolju, v katerem je v dveh letih in pol nastala govorna baza in korpus Artur v obsegu 1000 ur, kjer pa ne gre več samo za korpusne podatke, ampak je polovica gradiva po pisni predlogi govorjen in posnet govor, slabih dvesto ur pa ostaja brez transkripcij, samo s posnetki. S pomočjo gradiv iz Arturja je v okviru projekta Razvoj slovenščine v digitalnem okolju tudi referenč- ni govorni korpus Gos zrasel za več kot dvakrat, na 300 ur oz. 2,4 mio. besed. Govorni viri niso pomembni samo za tehnološko podprtost jezika (predvsem avtomatsko razpoznavanje govora), čeprav je ta danes v središču pozornosti in nas upravičeno skrbi. Enako pomembni so za sodobno jezikoslovno znanost. Spoznavanje svojega jezika, instru-menta, prek katerega komuniciramo in se povezujemo v skupnost(i), je eden temeljnih humanističnih postulatov. Čeprav ne prinaša nepo-srednih ekonomskih učinkov, pomeni opazovanje jezika, človeške komunikacije in interakcije preusmeritev pozornosti nazaj k človeku in k temu, kar nas povezuje. Pomeni vrnitev znanosti nazaj k njenim pri-marnim izhodiščem, stran od prevladujoče kapitalistične ideologije, v kateri tudi znanost vse bolj pristaja v vlogo orodja za dodatno gospo-darsko rast, ki dolgoročno izčrpava tako planet kot človeka. Najlažje, najbolj zanesljivo in najbolj široko dostopno lahko jezik in komunikacijo opazujemo prav v govornih virih, skozi posnetke govora v številnih vsakdanjih situacijah, ki smo jim izpostavljeni ali v njih aktivno sodelujemo. Korpusno jezikoslovje že več desetletij aktivno uporablja korpusne podatke v slovaropisju in slovnici (Adolphs in Carter, 2013). Tudi dialektologija v svojih raziskavah vse pogosteje posega po korpusnih podatkih (Goláňová idr., 2013; Šumenjak, 2012). Jezikoslovne discipline, ki so bolj povezane s sociološkimi (sociolingvistika, etnografija komunikacije, konverzacijska analiza) ali kognitivnimi 17 disciplinami (pragmatično jezikoslovje), prav tako temeljijo vedno več svojih raziskav na korpusnih podatkih (Aijmer in Rühlemann, 2015; govorni viri v okviru TalkBanka2), enako številne discipline, povezane z različnimi zdravstvenimi stanji ali razvojem jezika (CHILDES3, Phon-Bank4) (MacWhinney, 2018). Podobno velja za uporabno jezikoslovje oz. bolj specifično za učenje jezika (CLARIN L2 Learner Corpora5). Korpusni podatki so lahko v pomoč tudi fonetičnim/fonološkim disciplinam, vključno s pravorečjem (Verdonik, 2021). Nadaljnji razvoj govornih korpusov za slovenščino je torej klju- čen tako za razvoj njene tehnološke podprtosti kot tudi za razvoj slovenskega jezikoslovja. Prvi naslednji mejniki so 5 in 10 mio. besed v referenčnem govornem korpusu slovenščine ter dodatni področno specializirani in na višjih jezikovnih ravneh označeni (manjši) govorni korpusi. Ker pa govorimo o virih, ki zahtevajo velik časovni vložek, je toliko večja potreba po natančnem premisleku o njihovih poten-cialnih uporabnikih, njihovih potrebah, najbolj učinkovitih načinih zbiranja gradiv in ovirah pri tem, da lahko poteka razvoj v smeri, ki je najbolj smiselna in združuje čim več zaželenih učinkov. Zato sta vprašanji, ki ju naslavljamo v tem prispevku: Kdo so uporabniki govornih korpusov in kakšne so njihove potrebe po gradivih? Katere so prakse zbiranja gradiv za govorne korpuse in kako lahko sinergično naslovimo čim več različnih potreb z enotnim virom? 2 Vzorčni tuji modeli in obstoječi govorni korpusi za slovenščino Govorni korpusi obstajajo za večino evropskih jezikov. Vse bolj intenzivno se govorni viri (ne samo korpusni, ampak tudi kot baze govora s posnetki po pisnih predlogah) razvijajo tudi za druge jezike s premalo jezikovnimi viri, t. i. »under-resourced languages« (npr. cen-tralni kurdski jezik – Veisi idr., 2022; lugandski jezik – Mukiibi idr., 2022; švicarska nemška narečja – Plüss idr., 2022). Po drugi strani 2 https://www.talkbank.org 3 https://childes.talkbank.org 4 https://phon.talkbank.org 5 https://www.clarin.eu/resource-families/L2-corpora 18 so jeziki velikih jezikovnih skupnosti, kot so v Evropi angleška, nem- ška, francoska ali španska, tisti, ki pogosto služijo kot zgled za ostale jezike. V tem razdelku bomo podrobneje pogledali angleški govorni korpus, kjer je govorna komponenta British National Corpusa že od začetkov korpusnega jezikoslovja pogost referenčni vir za ostale jezike. Tehnološko dokaj zadovoljivo je med evropskimi jeziki podprta še nemščina, kjer je med govornimi korpusi najbolj prepoznaven korpus FOLK. Kot tretji primer bomo izbrali korpus, ki je slovenščini primerljiv po socio-ekonomskem statusu države, po številu govorcev in je prav tako slovanski jezik, to je slovaški govorni korpus. 2.1 Vzorčni tuji korpusi British National Corpus (BNC) je bil pionir ne samo kot pisni, ampak tudi kot govorni korpus, saj je že tri desetletja nazaj, 1994, izdal govorno komponento v obsegu 4,2 milijona besed – t. i. BNC1994. Takrat je bil to eden prvih javno dostopnih korpusov svoje vrste. BNC1994 vključuje demografsko uravnotežen in besedilnovrstno uravnotežen del ter skuša biti reprezentativen za govorjeno britansko angleščino. Predstavljal je pomemben vir za raziskave v različnih jezikoslovnih disciplinah, od slovnice (Rühlemann, 2006; Smith, 2014) do sociolingvistike (McEnery, 2005; Säily, 2011; Xiao in Tao, 2007), konverzacijske analize (Rühlemann in Gries, 2015) in prag matike (Wang, 2005; Capelle idr., 2015; Hatice, 2015), pa tudi za raziskave učenja jezika (Alderson, 2007; Flowerdew, 2009) in drugo. Love idr. (2017) navajajo kot razloge za njegovo popular-nost, da obsega ortografsko zapisane podatke v velikem obsegu, da gre za splošen, reprezentativen vzorec govorjenih besedil in predvsem da je javno dostopen. Skozi čas pa je postajalo vedno bolj problematično, da se za raziskave današnje govorjene angleščine uporablja več kot dve desetletji staro gradivo. V obdobju od 2012 do 2016 je bil zato govorni del BNC nadgrajen s Spoken BNC2014, ki pa vsebuje samo demografsko uravnotežen del s posnetki v nefor-malnih kontekstih, ne pa tudi besedilnovrstno uravnoteženega dela. Kot razlog za to navajajo avtorji (Love idr., 2017), da po njihovem 19 opažanju obstaja večja potreba in zahteva po gradivu iz konverzaci-je in da imajo raziskovalci, ki želijo raziskovati britansko angleščino v specifičnih kontekstih, svoje lastne, specializirane korpuse oz. so takšni korpusi javno izdani (npr. BASE – korpus britanske govorjene akademske angleščine). Spoken BNC2014 obsega 11,5 milijona besed, 1251 posnetkov in sodelujočih 668 govorcev. Gre za vsakdanji neformalni govor, govorci pa so uravnoteženi glede na spol, starost, socio-ekonomski status in regijo. Za uporabnike je na voljo prek konkordančnika Sketch Engine. Nemški govorni korpus FOLK (Schmidt, 2014) podobno kot angleški BNC izhaja iz potrebe po odprto dostopnih virih, ki so bili v času zasnove korpusa za nemščino redki in omejeni na specifične situacije, ne pa reprezentativni. Namenjen je tako za raziskovalne potrebe kot tudi za uporabo v šolskem okolju (Schmidt, 2016). Sledi ciljem, da pokrije širok nabor govornih interakcij v zasebnih, institucionalnih (predvsem interakcije v izobraževanju ter v delovnem okolju) in javnih situacijah (mediji). Kontrolirati skušajo tudi demografske kriterije, kot so regija, spol in starost govorcev. Da dokumentirajo komunikacijske prakse, vedno posnamejo in vključijo celotno inte-rakcijo, ne samo izbranih segmentov. Ker so vidne oblike komunikacije pogosto enako pomembne kot slišne, skušajo v zadnjem času vedno, kjer je mogoče, zajeti tudi video posnetek, ne samo avdio. Projekt se je začel leta 2008 (Schmidt, 2016). V prvi izdaji je korpus obsegal 1 mio. besed (Schmidt, 2014), ker pa gre za dolgoročni na- črt, se korpus ves čas dograjuje. Julija 2022 (verzija 2.18) je korpus FOLK obsegal 3,2 milijona pojavnic oz. 336 ur posnetkov, od tega 151 ur z videom (Schmidt, 2023). Korpus FOLK je za uporabnike dostopen prek konkordančnikov DGD (Datenbank für Gesprochenes Deutsch).6 Tudi korpus govorjene slovaščine s-hovor sodi v sklop t. i. velikih reprezentativnih govornih korpusov (Garabík, 2023). Prvič je bil izdan decembra 2008 in se od takrat ves čas nadgrajuje. Trenutna različica s-hovor-7.0 obsega 851 ur posnetkov oziroma 7,8 mio. 6 https://dgd.ids-mannheim.de/DGD2Web/jsp/Welcome.jsp 20 pojavnic.7 Približno tretjino posnetkov za korpus je prispeval slova- ški Nacionalni institut spomina (Nation‘s Memory Institute – UPN). 4,2 mio. pojavnic so posnetki iz drugih virov, poleg medijev in parlamenta je zelo veliko tudi terenskih posnetkov, pri čemer upoštevajo osrednje demografske kriterije (spol, starost, izobrazbo, regijo izvora in skladnost s standardnim jezikom), pa tudi vrsto diskurza (Garabík in Rusko, 2007). Korpus je osredotočen na splošni govorjeni jezik in ne vključuje dialektalnega govora. Za uporabnike je dostopen prek konkordančnika Sketch Engine. 2.2 Slovenski govorni korpusi Slovenci smo potrebe po reprezentativnih govornih korpusih hitro zaznali (Stabej in Vitez, 2000), do prve izvedbe pa je prišlo desetletje kasneje (Verdonik idr., 2013). V letu 2023 je bil izdan še en pomemben govorni vir: govorna baza in korpus Artur (Verdonik idr., 2023a; Verdonik idr., 2023b), katerega cilj je bil zagotoviti gradiva za razvoj avtomatskega razpoznavanja govora za slovenščino. Gradiva iz Arturja so bila uporabljena tudi za nadgradnjo referenčnega govornega korpusa Gos v različico 2.x (Verdonik idr., 2023c), kjer so bili združeni obstoječi viri z namenom zagotavljanja nadgradnje reprezentativnega korpusa za jezikoslovne raziskave. Izdelan je bil tudi prenovljen uporabniško prijazen konkordančnik,8 ki omogoča uporabo korpusa tudi v šoli oz. nasploh zunaj raziskovalne sfere. V Tabeli 1 so predstavljene osnovne informacije o govorni bazi in korpusu Artur. Kot vidimo iz nje, približno polovica baze vključuje posnetke branja povedi po pisnih predlogah. Čeprav gre za demografsko uravnotežen nabor velikega števila govorcev, pa besedila izhajajo iz pisnih virov (Žganec Gros idr., 2022). Od preostale polovice precejšen delež nima transkripcij, ampak samo posnetke. Največji del na novo zbranih posnetkov z ročno narejenimi kvalitetnimi zapisi govora tako obsega gradivo iz Državnega zbora Republike Slovenije, torej parlamentarni govor. Preostanek se deli dokaj enakomerno na 7 https://korpus.sk/en/corpora-and-databases/snc-corpora/publicly-available-snc-corpora/corpus-of-spoken-slovak/ 8 https://viri.cjvt.si/gos/ 21 javni govor in nejavni govor, pri čemer nejavni govor v veliko primerih ni interakcija, ampak razlaganje ali opisovanje po vnaprej določenih vsebinskih iztočnicah. Poleg teh večjih sklopov vključuje Artur še nekaj manjših, prilagojenih potrebam razvoja tehnologij. Na novo pridobljeno gradivo je torej z vidika potreb jezikoslovja zelo omejeno, njegova bistvena prednost v primerjavi s posnetki iz prvega vala snemanja v letu 2010 pa so kvalitetni avdio posnetki, ki omogočajo raziskave in razvoj na podlagi analize ali procesiranja avdio signala. Tabela 1: Osnovni podatki o govorni bazi in korpusu Artur. Št. govorcev Št. posnetkov Trajanje v urah Brane povedi 884 257.942 485 Črkovanje 345 676 10,5 Studijski posnetki za sintezo 1 10.109 27 Pogovori/opisovanje 263 (181 trans.) 301 (210 trans.) 94 (61 trans.) Pametni dom (za avtomatsko 148 (148 trans.) 195 (189 trans.) 7,5 (7 trans.) razpoznavanje govora) Opis obraza (za avtomatsko 125 (86 trans.) 125 (86 trans.) 10 (6 trans.) razpoznavanje govora) Mediji, javni dogodki 811 (240 trans.) 400 (100 trans.) 207 (62 trans.) Parlament 158 2799 201 (vse trans.) Skupaj 2222 (1586 trans.) 286�064 1067 (884 trans.) V letu 2023 je bila izdana tudi nadgrajena različica korpusa Gos, ki vključuje zbir vsega, kar je bilo od njegove prve izdaje na voljo pod ustrezno licenco in je bilo mogoče smiselno vključiti v reprezentativni govorni korpus, ne da se pretirano poruši uravnoteženost gradiv. Korpus Gos 2.x tako obsega sledeče vire in vsebine: • Gos 1.1: 1 mio. besed/112 ur; avtentični posnetki, izogibanje branemu govoru, vsebuje besedilnovrstno in demografsko uravnotežen del po vzoru BNC; posnetki so pogosto slabše kvalitete, v zasebnem delu je izredno veliko segmentov s prekrivanjem govora dveh ali več govorcev; • GosVL: 180.000 besed/22 ur; 55 predavanj ali delov predavanj, izbranih s portala Videolectures.net z upoštevanjem 22 uravnoteženosti po vedah in demografskih značilnosti govorcev, kolikor je bilo o njih mogoče sklepati iz posnetkov in na spletu dostopnih podatkov; • Artur (1,2 mio. besed/185 ur): - javni govor, 422.000 besed/62 ur, - nejavni govor, 324.000 besed/61 ur, - parlamentarni govor, 450.000 besed/62 ur. 3 Uporabniki govornih korpusov in njihove potrebe po gradivih V tem razdelku skušamo odgovoriti na vprašanje, kdo so uporabniki govornih korpusov in kakšne so njihove potrebe po gradivih. S pomočjo pregleda literature v mednarodnem prostoru in posebej tudi v slovenskem prostoru bomo ugotavljali, v katerih disciplinah pogosto posegajo po korpusnih podatkih, analizirali gradiva obstoječega referenčnega govornega korpusa Gos 2.x in ugotavljali, kje so pomanjkljivosti, ki jih je treba nasloviti ob prihodnjih nadgradnjah korpusa. 3.1 Uporabniki Love idr. (2017) navajajo kot pomembne uporabnike govornega korpusa BNC slovnico, sociolingvistiko, konverzacijsko analizo, pragmatiko in učenje jezika kot drugega jezika. Schmidt (2016) posveti posebno pozornost šolskemu okolju in izobraževanju kot sicer ne-raziskovalnemu, a enako zainteresiranemu uporabniku govornih korpusov. Večinoma specializirani govorni korpusi v okviru projekta TalkBank opozorijo na uporabnike iz psihologije (razvoj govora) in medicine (npr. raziskave govora pri osebah z demenco, poškodbami desne hemisfere, travmatološkimi poškodbami možganov, afazijo, logopedskimi težavami). Tudi za potrebe dialektologije se večinoma razvijajo specializirani korpusi (Goláňová idr., 2013; Šumenjak, 2012). Fonetika in fonologija sta precej specifičen uporabnik, ki bolj kot same korpuse potrebujeta določene jezikovnotehnološke servi-se za avtomatsko predpripravo korpusnih podatkov za analizo, kot 23 jih ponuja na primer WebMAUS.9 Na drugi strani so velik in zelo ak-tiven uporabnik govornih korpusov tehnologije: avtomatsko razpoznavanje govora (Gril idr., 2021), klasifikacija (Vlaj in Žgank, 2023) in prepoznavanje govorcev (Ljubešić in Rupnik, 2022), procesiranje govorjenega jezika (Lee idr., 2021), govorjeni sistemi dialoga (Chen idr., 2021) itd. Med razpoložljivimi govornimi korpusi je poleg referenčnih kar nekaj korpusov specializiranih, pri čemer prevladujejo korpusi parlamentarnega govora (Ogrodniczuk idr., 2020) in govor v akadem-skem okolju (Verdonik, 2018; korpus MICASE10), verjetno predvsem zaradi lahke dostopnosti tovrstnih podatkov v primerjavi z drugimi področji. Mednarodno eden najbolj pogosto procesiranih govornih korpusov je Switchboard (Godfrey in Hollimann, 1993)11, ki vsebuje nekoliko specifično izzvane interakcije med dvema neznancema na eno od tem, ki so bile pripravljene vnaprej, torej delno simulirano, in ne avtentično govorno situacijo. V slovenskem okolju je tradicija raziskovanja govorne interakcije v jezikoslovju šibka in raziskave v primerjavi s pisnim jezikom redke. Tehnološki uporabniki so v slovenskem prostoru morda nekoliko bolj aktivni uporabniki govornih korpusov in baz kot jezikoslovci. V letu 2023 je bila konferenca Slavistični znanstveni premisleki, ki jo organizira Oddelek za slovanske jezike in književnosti Univerze v Mariboru, posvečena tematiki infrastrukture za raziskave govora. Raziskovalci iz slovenskega prostora, ki so se odzvali, so naslavljali vprašanja govorne infrastrukture z vidika sociolingvistike, leksike, skladnje, jezikovnih tehnologij, dialektologije, pragmatike in učenja drugega jezika, med specializiranimi področji pa so med drugim iz-stopali parlamentarni govor, govorjeni jezik v literaturi, v gledališču, na radiu in televiziji (Krajnc Ivič, 2023). V primerjavi z mednarodnim prostorom v slovenskem ni zaznati uporabnikov specializiranih korpusov s področja razvoja govora, čeprav je to raziskovalno področje aktivno (Marjanovič Umek idr., 2006), in ne iz logopedije in drugih 9 https://clarin.phonetik.uni-muenchen.de/BASWebServices/interface/WebMAUSBasic 10 https://quod.lib.umich.edu/cgi/c/corpus/corpus?page=home;c=micase;cc=micase 11 https://catalog.ldc.upenn.edu/LDC97S62 24 disciplin, povezanih z medicino. O uporabi korpusov v šolstvu in splošni javnosti je po drugi strani kar nekaj razmislekov (Logar idr., 2023), kar se kaže tudi skozi tovrstni javnosti prilagojene konkordančnike, tudi za korpus Gos.12 3.2 Potrebe uporabnikov Potrebe uporabnikov so tukaj obravnavane z vidika, da skušamo z enim osrednjim referenčnim korpusom zadovoljiti potrebe čim več različnih disciplin. Čeprav so potrebe včasih kontradiktorne, je v primeru manjših skupnosti to edini način, da se zagotovi gradivo za različne uporabnike, saj je razpoložljivih finančnih sredstev malo, potreben finančni in časovni vložek pa velik. Potrebe uporabnikov v zvezi z govornim korpusom lahko razde-limo v več ravni. Prva se nanaša na vrste situacij, ki so zajete v govorni korpus. V ta namen lahko ločujemo specializirane in referenčne korpuse. Specializirani govorni korpusi za slovenščino zelo dobro pokrivajo parlamentarni govor (Pančur idr., 2020), deloma akademski govor (Verdonik, 2018), ostalih vrst govora pa tako rekoč ne, z izjemo majhnega, 1 uro trajajočega korpusa govora Koprive na Krasu (Šumenjak, 2012) kot do zdaj edinega primera dialektološkega korpusa za slovenščino. Znotraj referenčnega korpusa Gos je sicer še dokaj obsežno zastopan tudi akademski govor, vendar samo v javnih situacijah. Tudi medijski govor je široko zastopan v referenčnem korpusu Gos, pa tudi s specializiranimi viri (npr. BNSI Broadcast News, Žgank idr., 2005). Pomemben potencialni uporabnik govornih virov v slovenskem prostoru je dialektologija. V referenčnem govornem korpusu Gos ločevanje med dialektološkim in nedialektološkim gradivom ni vzpostavljeno. Ne v prvem ne v drugem snemalnem valu na terenu snemanje ni bilo osredotočeno samo na urbana središča, ampak je potekalo mešano po vaseh in mestih v vseh slovenskih regijah. Tudi sicer ni jasnih podatkov, kakšne so v manjših urbanih središčih razlike v govoru med mestom in okoliškimi vasmi. V referenčnem korpusu Gos najdemo tako posamezne primere zelo 12 https://viri.cjvt.si/gos/ 25 narečnega govora (tudi iz zamejstva v vseh treh sosednih državah), vendar so to samo posamični naključno vključeni narečni govori. Kriteriji za zajem gradiv so se namreč v prvem snemalnem valu ravnali po registrskih enotah, v drugem pa po statističnih regijah. Čeprav je podobna praksa običajna (Love idr., 2017), bi jo bilo v prihodnje smiselno ponovno premisliti tudi z dialektološkega vidika. Kot vidimo na primeru Spoken BNC2014, je ključen segment govornih korpusov za mnoge jezikoslovne discipline vsakdanja govorna interakcija v zasebnih situacijah. Za slovenščino je lahko ta segment še dodatno pomemben zaradi velike dialektalne razpr- šenosti. Te vsebine so bile v slovenskem govornem korpusu Gos kvalitetno pokrite v prvem valu snemanja, v drugem pa veliko manj zaradi zahtev tehnologij po visoko kakovostnih posnetkih brez pre-krivanja govora. V drugem valu snemanja je tako veliko vsebin celo kar monoloških in niso primerne za raziskave interakcije. Po drugem valu snemanj torej beležimo v referenčnem govornem korpusu slovenščine pomanjkanje posnetkov avtentičnih vsakdanjih nejavnih in institucionalnih govornih interakcij. Razmisliti je treba tudi o morebitni vključitvi govornih situacij, ki do zdaj niso bile zajete v korpus Gos, najdemo pa zainteresirane raziskovalce (npr. gledali- ški govor, dramatika), ter posebno pozornost posvetiti vprašanjem otroškega in mladostniškega govora ter govora neprvih govorcev slovenščine. Naslednje vprašanje zajemanja gradiv je odločitev o tem, kje se vključeni posnetek začne in konča. Kot vidimo pri Schmidtu (2023), obstajajo argumenti, da se vključijo posnetki celotne interakcije od začetka do konca. V prvi izdaji korpusa Gos ta praksa ni bila dosledno upoštevana, veliko bolj v drugem valu zbiranja gradiv. To je mogoče v primeru javne in institucionalne komunikacije, kjer imajo dogodki jasne začetke in konce. V vsakdanji zasebni komunikaciji pa začet-ki in konci niso nujno jasni, predvsem pa so ob snemanju začetki lahko obremenjeni z razlaganjem namena snemanja, nameščanjem naprav, podpisovanjem strinjanja in uvodno nervozo govorcev zaradi snemanja. Družabni dogodki lahko potekajo tudi več ur, z vmesnimi premori, spremembami prisotnih govorcev ipd. V primeru nejavnih 26 terenskih posnetkov odgovor, kaj šteje kot celotna interakcija, tako ni vedno enoumen. Tretji vidik potreb uporabnikov glede gradiv se nanaša na mo-dalnosti zajema in tehnično kvaliteto gradiv. V prvem valu snemanja za korpus Gos je bila tehnična kvaliteta v terenskih posnetkih pogosto nizka, prednost se je dajalo avtentičnosti situacije, čim manjši invazivnosti snemalnih naprav in preprostosti njihove uporabe. Ta-kšni posnetki ne zadoščajo potrebam disciplin, kjer se procesira ali analizira avdio signal, zato je zahteva po višji kvaliteti posnetkov tako rekoč nujna. Posebej težavno je vprašanje hkratnega govora, ki je v vsakdanji interakciji široko prisoten, po drugi strani pa so segmenti s hkratnim govorom neprimerni za avdio procesiranje. V drugem valu snemanja je bil tako isti terenski pogovor ločen v dva posnetka, za vsakega govorca en. Slabosti takega načina sta pogosto prisoten presluh in fizična ločenost transkripcij. Na ta način gradiva niso primerno pripravljena za pragmatične, diskurzne in sociolingvistične analize. Pri snemalni tehnologiji je nadalje treba nasloviti tudi vpra- šanje video zajema. Mnogi govornokorpusni centri (prim. Schmidt, 2023) že nekaj časa zajemajo tudi video, ne samo avdia. Govorna komunikacija ni samo slušna, ampak v večini primerov tudi vidna in ob odsotnosti vizualnega dela ne moremo celostno analizirati govora, hkrati pa je za vizualne podatke vedno bolj zainteresirana tudi tehnologija (npr. za razvoj pogovornih agentov z vizualnim vmesnikom). Četrti vidik se nanaša na vprašanja metapodatkov o govorcih in posnetih situacijah. Ta vprašanja so že bila podrobno obravnavana v Verdonik (2022). Vsekakor je treba upoštevati, da imajo discipline, kot so sociolingvistika, pragmatika, analiza diskurza, tudi dialektologija, potrebo po čim bolj natančnem opisu konteksta, zato je lahko možnost, da se kontekst vsakega posnetka opiše v nekaj stavkih, zelo dobrodošel dodaten podatek, čeprav ni strukturiran. Podobni opisi bi se lahko dodajali tudi za govorca, saj imajo discipline, kot je dialektologija ali sociolingvistika, potrebo po čim bolj natančni predstavitvi govorca in njegove podvrženosti različnim jezikovnim vplivom. Metapodatke o govorcih in posnetkih, ki jih popišemo, moramo pri tem ločevati od kategorij, ki jih postavimo kot kriterije za 27 zajem. Medtem ko so popisani podatki idealno čim bolj podrobni, so kriteriji za zajem v demografsko uravnoteženem delu korpusa praviloma: spol, starost, izobrazba, regija, prvi jezik. V angleškem Spoken BNC2014 najdemo kot kriterij še socio-ekonomski status, kar v slovenskem okolju že ob začetkih govornega korpusnega jezikoslovja ni bilo prepoznano kot primeren kriterij za naše okolje. Pač pa bi bilo glede na široko narečno razpršenost smiselno razmisliti o tem, ali je treba pri kriterijih za zajem določiti regijo govorcev bolj podrobno kot samo na ravni statističnih regij. Nazadnje je vprašanje tudi, kakšne so potrebe glede zapisa govora. V slovenskih govornih korpusih je vzpostavljena praksa dvojnega ortografskega zapisa, pogovornega in standardiziranega, primerljivo kot v nemškem (Schmidt, 2023) ali slovaškem korpusu (Garabík, 2023). Vprašanja smotrnosti takšnega zapisovanja so na-slovljena v Verdonik (v tisku) in končno priporočilo je, da se s tem nadaljuje. Nekatere discipline imajo potrebo po bolj natančnih, fo-nemskih ali fonetičnih zapisih, zlasti dialektologija, slovaropisje, fonetika in fonologija. Na tak način je seveda mogoče zapisati le manjši del gradiv, na primer učni korpus, kar bi bil smiseln korak v prihodnosti zlasti z namenom, da se vzpostavi servis za avtomatsko pretvorbo ortografskega v fonetični zapis, kot jo omogoča na primer WebMAUS. V zapisih se ves čas ohranjajo tudi zabeležke o nekaterih osnovnih neverbalnih dogodkih med govorom, kot so daljši premori, smeh, nerazumljiv govor, govor v tujem jeziku ipd. Iz zgornjega pregleda je vidno, da so potrebe nekaterih uporabnikov govornih korpusov do določene mere nasprotne ena drugi. Največja težava je po eni strani potreba po kvalitetnem zvoku in vi-deu z malo ali nič hkratnega govora, po drugi pa potreba po posnetkih avtentičnih govornih dogodkov. Z namestitvijo govorcev v studio, snemanjem na ločene kanale, govorjenjem »na ukaz« zagotovimo visoko kvaliteto posnetkov, a postavimo govorce v stresno in nena-ravno situacijo, za katero ne moremo trditi, da so se govorci obnašali v njej enako, kot bi se v avtentičnem okolju. Avtentično okolje pa je lahko polno hrupov in šumov, govorci se vmes premikajo po prostoru, namestitev snemalne opreme v domače okolje govorcev je hkrati 28 tudi veliko večji vdor v zasebno življenje govorcev kot snemanje v studiu. Za doseganje kompromisa je zato potreben zelo premišljen izbor vsake snemalne situacije in govorcev, to pa ob intenzivnih snemalnih kampanjah, omejenih s kratkimi časovnimi roki, ni mogoče. 4 Prakse zbiranja gradiv za govorne korpuse Na podlagi pregleda tuje literature o govornih korpusih ter informacij in izkušenj pri projektih, v katerih so se snemala gradiva za slovenske govorne vire, v tem razdelku predstavljamo možne načine pridobivanja gradiv in probleme, ki jih imamo pri tem v Sloveniji. Gradiva za govorne korpuse prihajajo iz dveh bistveno različnih virov: prvi so že obstoječi, večinoma javno tako ali drugače predvaja-ni ali dostopni posnetki, kot so posnetki medijskih hiš, na internetu, v parlamentu, v okviru različnih javnih dogodkov ipd. Za te posnetke je treba doseči dogovore z nosilci avtorskih pravic, ki so lahko institucije (npr. državna RTV, državni zbor, Arnes), podjetja (komercialne radijske in TV-postaje), posamezniki (medijski posnetki, če govorci niso prenesli pravic na medij, predvsem pa različni javni dogodki) ali tudi mednarodne korporacije (npr. Youtubova licenca). Če posamezen akter ne vidi jasnega lastnega interesa za sodelovanje, je velika možnost, da dogovarjanje ni uspešno. Za gradiva, ki jih uspemo pridobiti in skleniti dogovor z nosilci avtorskih pravic, je treba za vsak posamezen vir izvesti test zakonitega interesa. Govor sam po sebi je namreč bibliometrični podatek (Data Protection Working Party, 2003), in tudi če govorci v njem ne navajajo osebnih podatkov, kot sta ime in priimek, je treba zagotoviti ravnanje z gradivi skladno z zakonodajo. Drugi sklop posnetkov so terenski posnetki vsakdanjih govornih interakcij. Kot smo videli v Razdelku 3.2, je za te posnetke interes zelo velik. Tradicionalno to poteka tako, da se angažirajo študenti, ki vsak prek svoje lastne socialne mreže nagovorijo govorce, da jih smejo posneti, in vsak govorec podpiše v ta namen pripravljeno izjavo, s katero se zagotovijo vse potrebne pravice za nadaljnje deljenje posnetkov (to vključuje dovoljenje za snemanje in uporabo 29 posnetka, privolitev v obdelavo osebnih podatkov z informacijami o obdelavi osebnih podatkov ter dovoljenje za uporabo avtorskih pravic). V drugem snemalnem valu v Sloveniji sta večji del terenskega snemanja prevzela najeta zunanja izvajalca, saj samo s pomočjo študentov v takšnem obsegu in kratkem časovnem roku ni bilo izvedljivo. Zunanji izvajalci so na primer podjetja, ki se ukvarjajo z avdio in/ali video produkcijo in pogosto tudi že imajo lastne sezname kon-taktov ljudi, ki jih angažirajo kot govorce. Tretji način snemanja je, da povabimo govorce v studio in se tam pogovarjajo. Takim načinom se izogibamo, saj težko pridobimo ljudi iz oddaljenih krajev in bi bila potrebna večja finančna nagrada govorcem, kot jo običajno omogoča-jo razpoložljiva sredstva. Zanimiva alternativna možnost je mobilni studio, na primer ustrezno preurejen in opremljen kombi – tak način se je med drugim uporabljal pri snemanju branega govora za bazo Artur. V prihodnje bi bilo smiselno raziskati še tehnološko podprte pristope prek spletnih platform. Za množičenje v Sloveniji sicer ne obstaja že vzpostavljena skupnost, na katero bi se lahko obrnili, in dosedanji poskusi množičenja niso dali spodbudnih rezultatov (npr. na platformi Mozzilla CommonVoice so do julija 2023 zbrali samo 14 ur slovenskega govora, čeprav je bila platforma postavljena že leta 2017). Je pa vsekakor dandanes možnost, da govorci uporabijo lastne snemalne naprave (npr. pametne telefone), veliko bolj dostopna kot včasih in je lahko pridobivanje posnetkov na način, da jih govorci sami oddajo na neko spletno mesto, zanimiva rešitev. Tako v primeru množičenja kot v primeru snemanja v studiu je ključna teža-va motiviranje govorcev. Plačevanje honorarja govorcem za vsak oddan posnetek pomeni velik finančni vložek, ki lahko prestavlja tudi izredno obsežno administrativno delo in velike stroške oglaševanja, če gre za kratkoročno, intenzivno snemalno kampanjo. Primerjava z vzorčnimi tujimi govornimi korpusi (gl. Razdelek 2.1) pokaže bistveno razliko s slovensko prakso: pri vseh navedenih tujih govornih korpusih gre za dolgoročne projekte, medtem ko smo v Sloveniji vse dosedanje gradivo v govornih korpusih posneli skupaj v dobrih treh letih, v dveh izredno intenzivnih snemalnih valih z dolgim vmesnim obdobjem brez financiranja in brez kakršnega koli 30 signala, kdaj se bo financiranje ponovno nadaljevalo. Na tak način v delo ni mogoče učinkovito vključevati študentov, kar je škoda med drugim za študijski proces na vsebinsko povezanih študijskih sme-reh. Finančni stroški so znatno višji zaradi izredno zahtevnega koor-diniranja. Časa za podrobno načrtovanje snemanja in transkribiranja ter preučitev in pripravo podpornih orodij in okolij, ki bi lahko pohi-trili delo in zmanjšali potreben čas za izvedbo posameznih korakov izdelave govornega korpusa, pa je premalo. 5 Diskusija in zaključek V prispevku smo izhajali iz stališča, da je nadaljnji razvoj govornih korpusov za slovenščino ključen tako za razvoj njene tehnološke podprtosti kot tudi za razvoj slovenskega jezikoslovja. Zastavili smo si vprašanji, kdo so uporabniki govornih korpusov in kakšne so njihove potrebe glede gradiv ter katere so prakse zbiranja gradiv za govorne korpuse in kako lahko sinergično naslovimo čim več različnih potreb z enotnim virom. Kot bolj aktivne uporabnike govornih korpusov smo prepoznali jezikoslovne discipline leksikologijo, slovnico, sociolingvistiko, dialektologijo, konverzacijsko analizo, pragmatiko, uporabno jezikoslovje (učenje jezika kot tujega jezika); med tehnološkimi vedami predvsem govorne in semantične tehnologije; posamično so uporabniki tudi nekatere družboslovne (npr. razvojna psihologija) in naravoslovne discipline (logopedija ipd.); in šolstvo ter drugi neakademski uporabniki. Nekatere od navedenih disciplin potrebujejo specializirane korpusne vire, kljub temu pa smo skozi prispevek iskali možnosti pokrivanja potreb čim več disciplin skozi enoten, skupen govorni korpus, ki se lahko po potrebi deli na specializirane podenote. Ugotavljali smo, da v obstoječih slovenskih govornih korpusih že obstaja večja količina gradiv za medijski, parlamentarni in akademski govor. V prihodnje smo priporočali preusmeritev v terenski zajem avtentičnih vsakdanjih govorjenih situacij, kjer bi bilo smiselno zagotavljati bolj podrobno zastavljeno regional-no pokritost posnetkov, višjo kvaliteto posnetkov, kot je bila v prvem snemalnem valu, in vključen zajem videa, kjer koli bo mogoče. Pri 31 praksah zbiranja gradiv smo ugotavljali kot ključni problem nekontinuirano delo oz. snemanje v izredno kratkih časovnih obdobjih ter opozorili, da se tako veliko sredstev izgublja za koordiniranje mno- žice sodelavcev in da ni zadosti časa za podrobno načrtovanje in pripravo orodij, s katerimi bi lahko bilo delo bolj učinkovito in bolj kvalitetno. V naslovu smo nakazali, da vidimo snemanje gradiv za govorne korpuse v Sloveniji kot plutje med Scilo in Karibdo. Med obe-ma grozečima skalama barka slovenskih govornih korpusov pluje večkrat: prvič, ko je ujeta v kratke roke in omejena finančna sredstva, za katere so pričakovanja po končnem obsegu gradiv izredno visoka; drugič, ko skuša ustreči včasih tudi precej nasprotujočim si željam različnih uporabnikov; tretjič, ko se sooča z nedostopno-stjo in omejitvami že obstoječih posnetkov v različnih institucijah. Upajmo, da je barka svoje Scile in Karibde srečno preplula in da jo v prihodnje čakajo mirnejše vode v obliki dolgoročnega, stabilnega načrtovanja, kjer bo mogoče kontinuirano in premišljeno nadgraje-vati govorne korpuse ter tako za ista ali celo manjša sredstva do-seči več in boljše. Zahvala Prispevek je nastal v okviru raziskovalnega projekta ARRS Temeljne raziskave za razvoj govornih virov in tehnologij za slovenski jezik (J7-4642). Literatura Adolphs, S., Carter, R. (2013). Spoken Corpus Linguistics: From Monomodal to Multimodal. Routledge. Aijmer, K., Rühlemann, C. (ur.) (2015). Corpus Pragmatics: A Handbook. Cambridge University Press. https://doi.org/10.1017/ CBO9781139057493 Alderson, C. J. (2007). Judging the frequency of English words. Applied Linguistics, 28(3), 383–409. https://doi.org/10.1093/applin/amm024 Cappelle, B., Dugas, E., Tobin, V. (2015). An afterthought on let alone. Journal of Pragmatics, 80, 70–85. https://doi.org/10.1016/j. pragma.2015.02.005 32 Chen, N., You, C., Zou, Y. (2021). Self-Supervised Dialogue Learning for Spoken Conversational Question Answering. Proceedings of the Interspeech 2021, 231–235. https://doi.org/10.21437/Interspeech.2021-120 Data Protection Working Party. (2003). Working document on biometrics. Article 29 of Directive 95/46/EC. https://www.google.com/url?sa=t& rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwjn_Km6kcCAAx-UhS_EDHTOCAggQFnoECB0QAQ&url=https%3A%2F%2Fec.europa. eu%2Fjustice%2Farticle-29%2Fdocumentation%2Fopinion-recommendation%2Ffiles%2F2003%2Fwp80_en.pdf&usg=AOvVaw0NtFl7 DWh5OLKSW3ZrVQik&opi=89978449 Flowerdew, J. (2009). Corpora in language teaching. V M. H. Long, C. J. Doughty (Eds.), The Handbook of Language Teaching (pp. 327–350). Wiley-Blackwell. https://doi.org/10.1002/9781444315783.ch19 Garabík, R. (2023). Corpus of Spoken Slovak. V M. Krajnc Ivič (ur.), Infrastruktura za raziskave govora v humanistiki in jezikovnih tehnologijah: zbornik povzetkov (pp. 5–6) 6. mednarodna znanstvena konferenca Slavistični znanstveni premisleki , Maribor, Slovenija. Univerza v Mariboru, Univerzitetna založba. https://doi.org/10.18690/ um.ff.5.2023 Garabík, R., Rusko, M. (2007). Corpus of Spoken Slovak Language. V J. Lev-ická, R. Garabík (ur.), Computer Treatment of Slavic and East European Languages, Zbornik konference Slovko 2007 (pp. 222–236). Brno: Tribun. Giagkou, M., Lynn, T., Dunne, J., Piperidis, S., Rehm, G. (2023). European Language Technology in 2022/2023. V G. Rehm, A. Way (ur.), European language Equality: A Strategic Agenda for Digital Language Equality. Springer. https://doi.org/10.1007/978-3-031-28819-7 Godfrey, J. J., Holliman, E. (1993). Switchboard-1 Release 2 LDC97S62. Web Download. Linguistic Data Consortium. https://doi.org/10.35111/ sw3h-rw02 Goláňová, H., Waclawičová, M., Komrsková, Z., Lukeš, D., Kopřivová, M., Poukarová, P. (2017). DIALEKT: nářeční korpus, verze 1 z 2. 6. 2017. Praha: ÚČNK FF UK. http://www.korpus.cz Gril, L., Sepesy Maučec, M., Donaj, G., Žgank, A. (2021). Avtomatsko razpoznavanje slovenskega govora za dnevnoinformativne oddaje. Slovenščina 2.0, 9(1), 60–89. https://revije.ff.uni-lj.si/slovenscina2/ article/view/9899/9554 33 Hatice, C. (2015). Impoliteness in Corpora: A Comparative Analysis of British English and Spoken Turkish. Sheffield: Equinox. Krajnc Ivič, M. (ur.). (2023, 18. in 19. maj). Infrastruktura za raziskave govora v humanistiki in jezikovnih tehnologijah: zbornik povzetkov. 6. mednarodna znanstvena konferenca Slavistični znanstveni premisleki , Maribor, Slovenija. Univerza v Mariboru, Univerzitetna založba. https:// doi.org/10.18690/um.ff.5.2023 Lee, H., Yun, J., Choi, H., Joe, S., Gwon, Y.L. (2021). Enhancing Semantic Understanding with Self-Supervised Methods for Abstractive Dialogue Summarization. Proceedings of the Interspeech 2021. 796–800, doi: 10.21437/Interspeech.2021-1270 Ljubešić, N., Rupnik, P. (2022). The ParlaSpeech-HR benchmark for speaker profiling in Croatian. V D. Fišer, T. Erjavec (ur.), Jezikovne tehnologije in digitalna humanistika: zbornik konference, 117–123 Inštitut za novejšo zgodovino. https://nl.ijs.si/jtdh22/pdf/JTDH2022_Proceed-ings.pdf Logar, N., Gorjanc, V., Arhar Holdt, Š. (2023). Korpus Gigafida 2.0: mnenje uporabnikov. Jezik in slovstvo 68(2), 75–91. https://doi.org/10.4312/ jis.68.2.75-91 Love, R., Dembry, C., Hardie, A., Brezina, V., McEnery, T. (2017). The Spoken BNC2014: Designing and building a spoken corpus of everyday conversations. International Journal of Corpus Linguistics, 22(3), 319-344. https://doi.org/10.1075/ijcl.22.3.02lov MacWhinney, B. (2019). Understanding spoken language through TalkBank. Behavior Research Methods, 51, 1919–1927. https://doi. org/10.3758/s13428-018-1174-9 Marjanovič Umek, L., Kranjc, S., Fekonja, U., Saksida, I. (ur.). (2006). Otroški govor: razvoj in učenje. Izolit. McEnery, T. (2005). Swearing in English: Bad Language, Purity and Power from 1586 to the Present. New York, NY: Routledge. Mukiibi, J., Katumba, A., Nakatumba-Nabende, J., Hussein, A., Meyer, J. (2022). The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic Speech Recognition. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, (pp. 1945–1954). Marseille, France: European Language Resources Association. Ogrodniczuk, M., Osenova, P., Erjavec, T., Fišer, D., Ljubešić, N., Çöltekin, Ç., Kopp, M., Meden, K. (2022). ParlaMint II: the show must go on. V 34 D. Fišer idr. (ur.), Proceedings of the ParlaCLARIN III, 1–6 http://www. lrec-conf.org/proceedings/lrec2022/workshops/ParlaCLARINIII/ pdf/2022.parlaclariniii-1.1.pdf Pančur, A. Erjavec, T., Ojsteršek, M., Šorn, M., Blaj Hribar, N. (2020). Slovenian parliamentary corpus (1990-2018) siParl 2.0. Slovenian language resource repository CLARIN.SI. http://hdl.handle.net/11356/1300 Plüss, M., Hürlimann, M., Cuny, M., Stöckli, A., Kapotis, N., Hartmann, J., Ulasik, M. A., Scheller, C., Schraner, Y., Jain, A., Deriu, J., Cieliebak, M., Vogel, M. (2022). SDS-200: A Swiss German Speech to Standard German Text Corpus. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, (pp. 3250–3256). Marseille, France: European Language Resources Association. Rühlemann, C. (2006). Coming to terms with conversational grammar: 'Dislocation' and 'dysfluency'. International Journal of Corpus Linguistics, 11(4), 385–409. https://doi.org/10.1075/ijcl.11.4.03ruh Rühlemann, C., Gries, S. (2015). Turn order and turn distribution in multi-party storytelling. Journal of Pragmatics, 87, 171–191. https://doi. org/10.1016/j.pragma.2015.08.003 Säily, T. (2011). Variation in morphological productivity in the BNC: Sociolinguistic and methodological considerations. Corpus Linguistics and Linguistic Theory, 7(1), 119–141. https://doi.org/10.1515/cllt.2011.006 Schmidt, T. (2014). The Research and Teaching Corpus of Spoken German — FOLK. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), 383–387, Reykjavik, Iceland. European Language Resources Association (ELRA). Schmidt, T. (2016). Construction and Dissemination of a Corpus of Spoken Interaction – Tools and Workflows in the FOLK project. Journal for Language Technology and Computational Linguistics, 31(1), 127–154. Schmidt, T. (2023). FOLK – Das Forschungs- und Lehrkorpus für Gesprochenes Deutsch. Korpora Deutsch als Fremdsprache, 3(1), 166–169. https://doi.org/10.48694/kordaf.3737 Smith, A. (2014). Newly emerging subordinators in spoken/written English. Australian Journal of Linguistics, 34(1), 118–138. https://doi.org/10.1 080/07268602.2014.875458 Stabej, M., Vitez, P. (2000). KGB (korpus govorjenih besedil) v slovenščini. V T. Erjavec, J. Gros (ur.), Informacijska družba IS’2000, Jezikovne tehnologije (pp. 79–81). Inštitut Jožef Stefan. 35 Šumenjak, K. (2012). Zasnova dialektološkega korpusa na primeru govora Koprive na Krasu. V B. Krakar Vogel (ur.), Slavistika v regijah – Koper (pp. 73–78). Zbornik 23. Slovenskega slavističnega kongresa, Zveza društev Slavistično društvo Slovenije. Verdonik, D. (2018). Korpus in baza Gos Videolectures. V D. Fišer, A. Pančur (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika, 265–268 Znanstvena založba Filozofske fakultete. http://www. sdjt.si/wp/wp-content/uploads/2018/09/JTDH-2018_Verdonik_Kor-pus-in-baza-Gos-Videolectures.pdf Verdonik, D. (2021). Govorni viri za pravorečje. V T. Mirtič, M. Snoj (ur.), 1 slovenski pravorečni posvet (pp. 120–132). Slovenska akademija znanosti in umetnosti. https://www.sazu.si/uploads/files/publikacije21/ Rared2RAZPRAVE.pdf Verdonik, D., Kosem, I., Zwitter Vitez, A., Krek, S., Stabej, M. (2013). Compilation, transcription and usage of a reference speech corpus: the case of the Slovene corpus GOS. Language Resources and Evaluation, 47(4), 1031–1048. Verdonik, D., Bizjak, A., Žgank, A., Bernjak, M., Antloga, Š., Majhenič, S., Čakš, P., Pucer, M., Cvetko, M., Zelenik, M., Pavlič, J., Dobrišek, S., Križaj, J., Strle, G., Ivanovska, M., Grm, K., Bajec, M., Lebar Bajec, I., Jelovšek, T., Lokovšek, J., Longyka, J., Trojar, M., Žganec Gros, J., Mihelič, A., Vesnicer, B., Dretnik, N., Bordon, D. (2023a). ASR database ARTUR 1.0 (audio). Slovenian language resource repository CLARIN. SI. http://hdl.handle.net/11356/1776 Verdonik, D., Bizjak, A., Žgank, A., Bernjak, M., Antloga, Š., Majhenič, S., Čakš, P., Pucer, M., Cvetko, M., Zelenik, M., Pavlič, J., Dobrišek, S., Križaj, J., Strle, G., Ivanovska, M., Grm, K., Bajec, M., Lebar Bajec, I., Jelovšek, T., Lokovšek, J., Longyka, J., Trojar, M., Žganec Gros, J., Mihelič, A., Vesnicer, B., Dretnik, N., Bordon, D. (2023b). ASR database ARTUR 1.0 (transcriptions). Slovenian language resource repository CLARIN.SI. http://hdl.handle.net/11356/1772 Verdonik, D., Zwitter Vitez, A., Zemljarič Miklavčič, J., Krek, S., Stabej, M., Erjavec, T., Verdonik, D., Potočnik, T., Sepesy Maučec, M., Majhenič, S., Žgank, A., Bizjak, A., Gril, L., Dobrišek, S., Križaj, J., Bajec, M., Lebar Bajec, I., Jelovšek, T., Trojar, M., Bernjak, M., Dretnik, N., Strle, G., Dobrovoljc, K., Ljubešić, N., Rupnik, P. (2023c). Spoken corpus Gos 2.0 (transcriptions). Slovenian language resource repository CLARIN.SI. http://hdl.handle.net/11356/1771 36 Vlaj, D., Žgank, A. (2023). Acoustic Gender and Age Classification as an Aid to Human–Computer Interaction in a Smart Home Environment. Mathematics, 11(1). https://doi.org/10.3390/math11010169 Žganec Gros, J., Vesnicer, B., Dobrišek, S. (2022). A method for selection of phonetically balanced sentences in read speech corpus design. Proceedings of the 30th European Signal Processing Conference (EUSIPCO 2022) (pp. 1136-1139). Belgrade, Serbia: EURASIP. https://eurasip. org/Proceedings/Eusipco/Eusipco2022/pdfs/0001136.pdf Žgank, A., Verdonik, D., Zögling Markuš, A., Kačič, Z. (2005). BNSI Slovenian broadcast news database - speech and text corpus. Interspeech Lisboa 2005: proceedings of the 9th European conference on speech communication and technology (pp. 1537-1540). Bonn: Universität, Institut für Kommunikationsforschung und Phonetik. Wang, S. (2005). Corpus-based approaches and discourse analysis in relation to reduplication and repetition. Journal of Pragmatics, 34(4), 505–540. https://doi.org/10.1016/j.pragma.2004.08.002 Xiao, R., Tao, H. (2007). A corpus-based sociolinguistic study of amplifiers in British English. Sociolinguistic Studies, 1(2), 231–273. https://doi. org/10.1558/sols.v1i2.241 37 Transkribiranje govora pri izdelavi govorne baze Artur: od pogovornih k standardiziranim zapisom Mitja TROJAR ZRC SAZU, Inštitut za slovenski jezik Frana Ramovša Andreja BIZJAK Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko Povzetek Prispevek predstavlja načela za zapis govora pri izdelavi govorne baze Artur in opis izvedbe transkribiranja govora v projektu RSDO. Opisana so načela za zapis govora za pripravo pogovornih zapisov in praktični vidiki njihove priprave. Sledi opis priprave standardiziranih zapisov, ki so bili pripravljeni z ročnim popravljanjem avtomatskih pretvorb pogovornih zapisov. Prispevek zaokrožuje opis izzivov pri izdelavi pogovornih in standardiziranih zapisov ter priporočila za podobne projekte v prihodnosti. Ključne besede: govorjeni jezik, transkripcije, pogovorni zapisi, standardizirani zapisi, govorna baza Artur Abstract This chapter presents principles of transcribing speech in the making of the Artur speech database and a description of speech transcription in the project Development of Slovene in a Digital Environment. It includes a description of principles used in the creation of orthographic transcriptions as well as its practical aspects, which is followed by an account of the making of standardised transcriptions, which were created by making manual corrections to automatic conversions of orthographic transcriptions. The chapter concludes with a presentation of challenges encountered in 39 the making of orthographic and standardised transcriptions and with recommendations for similar future projects. Keywords: spoken language, transcriptions, orthographic transcriptions, standardised transcriptions, Artur speech database 1 Uvod Delovni sklop 2 projekta RSDO1 je bil namenjen razvoju govornih tehnologij za slovenščino, pri čemer je bil osnovni cilj projekta izdelava razpoznavalnika za slovenščino.2 Za razvoj strojnega razpoznavanja govora je bilo treba zagotoviti dovolj veliko bazo transkribiranih posnetkov avtentičnega govora v raznolikih komunikacijskih okoliščinah. V ta namen je bila ustvarjena govorna baza Artur (Avtomatsko razpoznavanje govora Razvoj slovenščine v digitalnem okolju), ki skupaj vsebuje 1094 ur posnetega govora. Visoko kakovost transkripcij smo v projektu RSDO poskušali zagotoviti z dvotirnim na- činom transkribiranja: najprej so bili izdelani t. i. pogovorni zapisi, ki so bili nato pretvorjeni v t. i. standardizirane zapise. Odločitev za dvotirni način transkribiranja govora je bila sprejeta iz dveh razlogov. Prvi je ta, da je bil dvotirni način uporabljen že pri izdelavi govornega korpusa Gos (Verdonik in Zwitter Vitez, 2011). Primerljiva metodologija transkribiranja je omogočila razširitev korpusa Gos z izborom posnetkov in transkripcij, ki so nastali v projektu RSDO (gl. Gos 2.0).3 Drugi razlog je ocena, da bi izdelava samo standardiziranih zapisov preveč obremenila transkriptorje, kar bi po predvidevanjih precej 1 Projekt Razvoj slovenščine v digitalnem okolju sta med leti 2020 in 2023 sofinancirali Republika Slovenija in Evropska unija iz Evropskega sklada za regionalni razvoj (operacija se je izvajala v okviru Operativnega programa za izvajanje evropske kohezijske politike v obdobju 2014–2020). 2 Aktivnosti izdelave govorne baze je koordinirala Darinka Verdonik (Fakulteta za elektrotehniko, računalništvo in informatiko Univerze v Mariboru), v projektnem sklopu pa so so-delovale še 3 partnerske ustanove iz znanstvenoraziskovalnega okolja (Univerza v Ljubljani, Institut »Jožef Stefan« in ZRC SAZU), 2 partnerja iz gospodarstva (Slovenska tiskovna agencija, d. o. o., Alpineon, d. o. o.), zunanji izvajalci (Fixmedia, d. o. o., Kreativist, d. o. o., Akademija INT, d. o. o., TAIA, d. o. o.) ter študentke in študenti Univerze v Ljubljani in Univerze v Mariboru. 3 https://viri.cjvt.si/gos/ 40 povečalo število napak v transkripcijah (gl. Verdonik, Trojar in Bizjak, 2023a). V prispevku je najprej predstavljena struktura baze Artur, opis delotoka, opis načel, po katerih so bili pripravljeni pogovorni in standardizirani zapisi, nakazane pa so tudi težave, s katerimi smo se srečali pri gradnji baze, ter priporočila za gradnjo primerljivih baz v prihodnosti. 2 Struktura govorne baze Artur in opis delotoka njene izgradnje Govorna baza Artur je sestavljena iz 4 sklopov:4 1. Brani govor (573 ur posnetkov): posnetki prebranih povedi, za-jetih iz dela korpusa Gigafida 2.0, ki je dostopen pod ustrezno licenco (CC BY); povedi je bralo pribl. 1000 govorcev (pribl. 30 minut govora na posameznega govorca), ki so ustrezali vnaprej določenim demografskim kriterijem (uravnoteženost govorcev po spolu, starosti, statistični regiji stalnega bivališča in prvem jeziku);5 za ta sklop baze Artur transkripcije niso bile izdelane, ker so funkcijo transkripcij (standardiziranega zapisa) opravljale povedi iz pisnega korpusa.6 2. Javni govor (208 ur posnetkov): posnetki javnih dogodkov, ki vključujejo novinarske konference, okrogle mize, intervjuje, na-govore, predavanja, seminarje, posvete in moderirane pogovore, ki so v času pandemije covida-19 večinoma potekali prek spleta. Transkripcije (pogovorni in standardizirani zapisi) so bile pripravljene za 62 ur posnetkov. 4 Spodaj navedeni podatki o bazi Artur in opis njene strukture so povzeti po Verdonik, Bizjak in Dobrišek (2023). 5 Poleg opisanega branja povedi sklop branega govora vsebuje še posnetke govora enega samega (izšolanega profesionalnega) govorca v obsegu 50 ur (za razvoj avtomatske sinte-ze govora) in posnetke črkovanj (v obsegu 10 ur). 6 Povedi so bile izbrane tako, da izbor povedi odraža dejansko distribucijo trifonov v slovenskih povedih, dobljeni nabor povedi pa je bil v nadaljevanju avtomatsko in ročno prefiltri-ran tako, da so bile izločene povedi, ki so vsebovale besede, katerih zapis se bistveno razlikuje od zapisa po slovenskem črkopisu (zlasti citatne besede, npr. pole position), kratice, jezikovne napake, ali pa so bile povedi kako drugače neustrezne (žaljiv govor, nepopolne povedi ipd.). Za podrobnejši opis izbora povedi gl. Žganec Gros in Vesnicer (2021) in Žganec Gros idr. (2023). 41 3. Nejavni govor (112 ur posnetkov): posnetki govora v nejavnih govornih položajih, in sicer gre za tri tipe govornih dogodkov: proste dialoge med sogovornikoma, proste monologe ter razlaganje in opisovanje. Govorci so bili izbrani po istih demografskih kriterijih kot v sklopu branega govora. V nejavni govor so vključeni tudi posnetki, namenjeni razvoju dveh specializiranih razpoznavalnikov govora, ki vključujejo naslednje govorne dogodke: opis obraza ter brane in spontane ukaze za upravljanje pamet nega doma. Transkripcije (pogovorni in standardizirani zapisi) so bile pripravljene za 74 ur posnetkov. 4. Parlamentarni govor (201 ura posnetkov): posnetki javnih sej Državnega zbora Republike Slovenije iz dveh sklicev med letoma 2010 in 2018. Vsaka datoteka vsebuje govor enega samega govorca. Govor posameznega govorca je lahko zajet na več posnetkih, vendar v celoti ne presega 3,5 ure. Za pripravo pogovornih zapisov so bili uporabljeni zapisi sej, ki jih pripravljajo v Državnem zboru. Študentke in študenti so zapise sej uredili in popravili tako, da so ustrezali standardom za pogovorni zapis (gl. spodaj). Transkripcije (pogovorni in standardizirani zapisi) so bile pripravljene za 201 uro posnetkov. Transkripcije (pogovorni in standardizirani zapisi) so bile pripravljene za javni, nejavni in parlamentarni govor oziroma za skupno 337 ur posnetega govora. S pogovornimi in standardiziranimi zapisi je torej opremljena pribl. tretjina posnetkov v govorni bazi Artur, s čimer so bili projektni cilji doseženi in celo preseženi. Časovno najzahtevnejši fazi delotoka sta bili priprava pogovornih in standardiziranih zapisov. Delotok je bil razdeljen v več faz, ki so se pri javnem, nejavnem in parlamentarnem govoru zvrstile v po-dobnem zaporedju: oddaja izvornih avdio posnetkov, pridobljenih od različnih virov ali posnetih na terenu, validacija posnetkov in odobritev ustrez nih posnetkov glede na tehnično kakovost in vsebinsko ustreznost (npr. odsotnost sovražnega govora), oddaja soglasij govorcev in dokumentacije z metapodatki o posnetkih in govorcih, ročna priprava pogovornih zapisov, validacija pogovornih zapisov, avtomatska 42 pretvorba standardiziranih zapisov iz pogovornih zapisov, pregled in ročno popravljanje avtomatsko tvorjenih standardiziranih zapisov. Ročnemu pregledu so sledili še avtomatski pregledi, napake, ki so bile z njimi odkrite, pa so bile popravljene ročno ali avtomatsko (z izdelavo ustreznih skriptov). Na osnovi tako pridobljenih standardiziranih zapisov in avdio posnetkov je bil razvit splošni razpoznavalnik govora za slovenščino ter dva domensko specifična razpoznavalnika. Pri načrtovanju delovnega procesa je pomembno zagotoviti transparentnost in sledljivost posameznih korakov, kar sodelujočim omogoča, da so seznanjeni, kateri posnetki ali zapisi posnetkov so že validirani, kateri so odobreni, zavrnjeni ali trenutno še v obdelavi. Delotok je bil zasnovan v vseh fazah priprave dvonivojsko (vsaka mapa je imela svojo kopijo kot varnostni arhiv z omejenimi poobla-stili za spreminjanje njene vsebine). Tovrstna sledljivost je namreč ključnega pomena pri morebitnem kasnejšem iskanju izvora ali tipa napak, hkrati pa prepreči izgubo datotek. Zasnova delotoka mora biti tudi dovolj fleksibilna, da omogoča naknadno dodajanje novih faz, če se zanje kadar koli med pripravo baze pojavi potreba, kot se je izkazalo pri Arturju (npr. naknadno dodana faza prenosa ločil in velikih začetnic iz standardiziranih v pogovorne zapise). Pri izdelavi govorne baze Artur je bila za obdelavo in shranjevanje datotek uporabljena oblačna platforma Nextcloud. 3 Načela, uporabljena pri izdelavi pogovornih in standardiziranih zapisov Cilj pogovornega zapisa je, da »čim bolj olajša avtomatsko fonem-sko-grafemsko pretvorbo in silabizacijo. V kombinaciji s standardiziranim zapisom je zasnovan tako, da omogoča čim boljšo ekstrakcijo novih kandidatov za oblikoslovno-fonetični leksikon, ki tako ali drugače odstopajo od normirane rabe.«7 (Verdonik in Bizjak, 2023) 7 Opozoriti velja, da je v projektu RSDO pogovorni zapis služil le kot sredstvo za doseganje vmesnega cilja, tj. izdelave standardiziranega zapisa. Pri izdelavi razpoznavalnika, ki je bil končni cilj projekta, je bil namreč uporabljen samo standardizirani zapis. Pogovorni zapis je torej imel izrazito pomožno vlogo in ni nadomestek za (znanstveno/jezikoslovno) fonetično transkripcijo govora. 43 Govor je zapisan v slovenskem črkopisu v skladu z veljavnimi načeli, po katerih se glasovi zapisujejo s črkami. Pri tem se upoštevajo omejitve, ki izhajajo predvsem iz omejenega nabora črk, da bi karseda natančno predstavili glasovno podobo govora (Verdonik in Bizjak, 2023). Novost v pogovornem zapisu je npr. poseben znak za polglasnik (@), ki ga do Arturja v govornih korpusih za slovenščino ni bilo. Pogovorni zapis poleg zapisa govora vključuje še segmentacijo govora, označevanje menjavanja govorcev, označevanje akustičnega ozadja (npr. prisotnost šuma ali glasbe), akustičnih dogodkov (npr. nenadni krajši zvoki, kašljanje, glasni vdihi) ter osnovnih neverbalnih značilnosti (npr. smeh ali premor). Pri izdelavi baze Artur so ga v orodju Transcriber 1.5.1. ročno pripravili zunanji izvajalci in študenti, koordinator transkribiranja pa je naključne dele pogovornih zapisov validiral in po potrebi popravil. Glede na izkušnje z Arturjem se je izkazalo, da je za 1 uro posnetka govora potrebnih okrog 20 ur dela za zapis, segmentiranje in označevanje govora (prim. Verdonik, Trojar in Bizjak, 2023a). Povedano še drugače, za pripravo pogovornega zapisa 2 oz. 3 minut govora je v povprečju potrebna ena ura dela. Eden od prvih korakov pri izdelavi pogovornega zapisa je segmentiranje govora, ki je bilo pri pripravi govorne baze Artur delno prilagojeno za potrebe razvoja splošnega razpoznavalnika govora. Glede na to naj segmenti ne bi bili (pre)dolgi, tj. trajajoči več kot 10 sekund. Poleg tega smo upoštevali, da lahko mejo segmenta dolo- čimo le tam, kjer je v govoru dovolj premora, tj. vsaj 0,2 sekunde, ne da bi odrezali del predhodnega ali del naslednjega fonema. Glavni usmeritvi pri postavljanju meja med segmenti sta bila (1) kratek premor v govoru in (2) dolžina segmenta, ki ne sme biti predolga (Verdonik in Bizjak, 2023). Pri tako prilagojenem načinu segmentiranja označeni segmenti ne sovpadajo vedno s stavki oz. izjava-mi kot semantično in skladenjsko zaključenimi enotami, kar je bilo identificirano kot težava na višjih ravneh označevanja. Navodilo za daljše premore, trajajoče več kot 1,5 sekunde, govor v tujem jeziku in nerazumljiv govor je, da se jih označi kot prazen segment ali izjavo brez govorca. Če je nerazumljiva zgolj posamezna beseda ali kratka fraza, se vstavi oznako neraz. Hkratni govor, ki se 44 pojavi v začetku ali ob koncu segmenta, ko govorca govorita hkrati, se ustrezno označi in se ga, če je razumljiv, tudi zapiše. Ob vsaki menjavi govorcev je treba paziti, da se menjava ustrezno označi. Akustično ozadje se označi, kadar se v ozadju govora nenadoma pojavijo dalj časa trajajoči zvoki (najmanj 3 sekunde), ter določi, ali je šum v ozadju govor, glasba ali kaj drugega (npr. aplavz, zvonjenje telefona, prometni hrup). Kadar pa se med govorom pojavijo krajši zvoki (pribl. do ene besede), se vstavijo kot akustični dogodek (npr. zehanje, kihanje, vdih, izdih). Besedni fragmenti (prekinjene besede, samopopravki) so ozna- čeni s praznim oklepajem stično za besedo, npr. dru(). Če se v govoru pojavijo osebni podatki o govorcih, ki niso javne osebnosti (npr. ime in priimek), se jih s piskom anonimizira. Številke (tudi vrstilni števniki) se izpišejo z besedo znotraj oglatih oklepajev, npr. [tretje]. Datumi se zapisujejo znotraj zavitih oklepajev, npr. {peti osmi dva tisoč devet}. Novost v jezikovni bazi Artur v primerjavi s preteklimi govornimi korpusi pri nas je uvedba nekaterih dodatnih znakov za foneme, od katerih po pogostosti izstopa @ za polglasnik, omenimo pa še $g za zveneči h in $r za mehkonebni r. Nova je tudi vpeljava ločil in velikih začetnic v pogovorni in standardizirani zapis. Redukcije glasov so v pogovornih zapisih upoštevane, saj se ne-izgovorjeni glasovi ne zapisujejo, npr. tud (Verdonik in Bizjak, 2023), premene po zvenečnosti pa se niso zapisovale, saj smo predvidevali, da bi bili najeti zunanji izvajalci ali študenti pri njihovem zapisu preveč nedosledni. Drugače je pri parlamentarnem govoru, saj je bil ta zapisan še pred uvedbo skupnih smernic za govorno bazo Artur. Premene po zvenečnosti so v parlamentarnem govoru zapisane, čeprav ne dosledno, npr. gdo, različen pa je tudi zapis dvoustničnega u̯, ki je praviloma zapisan s črko u, npr. obraunavau, in zapis kratic, ki so mestoma zapisane z veliki črkami, npr. ZOFI. S ciljem čim bolj poenotenega zapisa neverbalnih in polverbalnih izrazov (npr. eee, hm, uh, ššš) so bile dopolnjene smernice za njihov zapis in razširjen seznam identificiranih neverbalnih in polverbalnih izrazov. Določili smo, da jih prednostno zapisujemo z največ 45 eno besedo, in če le gre, s tremi črkami, zelo podoben izraz pa zapi- šemo vedno na isti način, brez variacij (Verdonik, Bizjak 2023). Na začetku vedno dodamo znak #, npr. #eem. V spodnji tabeli je navedenih nekaj smernic za izdelavo pogovornega in standardiziranega zapisa, pripravljenih za izgradnjo govorne baze Artur (Verdonik in Bizjak, 2023), skupaj s konkretnimi primeri iz iste baze. Tabela 1: Smernice za pripravo pogovornega in standardiziranega zapisa po posameznih pro-blemskih sklopih. Sklop Pogovorni zapis Primer Standardizirani zapis Primer Glasov, ki niso izgovorjeni, mamo, tko Uporabljamo nereducirane imamo, ne zapisujemo. oblike, skladno s pravopisno tako normo. Redukcijo pomožnega ne b Standardizirane oblike ne bi glagola bi v b zapisujemo navm zanikanega pomožnega ne+bom kot samostojno besedo, glagola, ki so v pogovornem redukcije in premene oblik zapisu zapisane kot ena Redukcije za prihodnjik pa kot: čev ( če beseda, npr. navm pišemo z bo), navm ( ne bom), nav znakom + in stično: ne+bom. ( ne bo). Polglasnik vedno misl@m, Posebnega znaka za mislim, zapisujemo z znakom @. fil@m, z@, polglasnik ne uporabljamo. film, z, @ldje, j@t, Polglasnik se zapisuje ljudje, iti, p@r skladno s pravopisno normo. pri Premen po zvenečnosti, tud, fizka, j@z Premene po zvenečnosti se tudi, fizika, Premene po razen pri predlogih načeloma ne upoštevajo oz. jaz zvenečnosti s/z in k/h, v pisavi ne zapis besed sledi pravopisni upoštevamo. normi. Dvoustnični u̯, ki ni nosilec šov, prov šel, prav zloga, v neknjižnih oblikah zapisujemo s črko v. Dvoustnični u̯ se zapisuje skladno s pravopisno normo, Če dvoustnični u̯ nastopi bil, gledal bil, gledal tj. s črkama v in l. v knjižni besedni obliki, Dvoustnični izgovorjeni skladno s u̯ Zapis se ravna po pravopisni standardom, ohranimo in normi, reducirane oblike knjižni zapis. samoglasnik deležnikov na -il, -al, -el se u Če je glas u samoglasniški, odloču, padu, pišejo s samoglasnikom. odločil, tj. je nosilec zloga, ga izpelu padel, pišemo s črko u. izpeljal Enako velja za predlog u sobi Predlog v se zapisuje v sobi v, izgovorjen kot skladno s pravopisno normo, samoglasniški u. tj. vedno s črko v. 46 Sklop Pogovorni zapis Primer Standardizirani zapis Primer Diftonge in druge pokra- guvurim, tku, Oblike besed s pokrajinsko govorim, jinsko specifične foneme, gučali, fseh, specifičnimi variantami tako, ki jih v knjižnem jeziku ni, fsekakor fonemov oz. fonemi se gučali, pišemo z najbližjimi nadomeščajo z ustreznimi vseh, ustreznimi črkami. knjižnimi oblikami besed. vsekakor Narečno Zveneči primorski h lahko knji$g Narečnim oblikam, ki knjig specifični zapišemo tudi z znakom $g, nimajo ustreznih oblik v glasovi mehkonebni koroški r pa z knjižnem jeziku, se priredi znakom $r. standardizirana oblika, ki sledi pravilom slovenskega črkopisa. Pri standardizaciji se prednostno uporablja standardizirane oblike iz narečnih slovarjev. Domača lastna imena Avstro-Ogrske, Domača lastna imena Avstro- zapisujemo skladno s R@dovlci zapisujemo skladno s Ogrske, pravopisom, tuja lastna pravopisom. Tuja lastna Radovljici imena pa tako, kot so imena se prav tako izgovorjena. Mark Kjub@n, zapisujejo v skladu s Mark Zum, Heri pravopisom, tj. bodisi Cuban, Poter podomačeno bodisi citatno Zoom, (če konkretno lastno Harry ime še ni podomačeno v Potter Lastna pravopisnih priročnikih, imena, se prednostno uporabi citatne in citatno obliko tujega tuje besede lastnega imena). Citatne besede in besede fen, pojnt, Citatne besede in besede oz. fan, point, oz. kratke fraze v tujem trejler kratke fraze v tujem jeziku trailer jeziku se pišejo, tako kot so komon sens, se praviloma pišejo citatno, common izgovorjene. riz@ning, lahko pa tudi podomačeno, sense, Vourld of če je podomačeni zapis že reasoning, Vorkreft uveljavljen oz. registriran World of v korpusih in slovarjih Warcraft slovenskega jezika. Ločila uporabljamo v pisiar-testi Ločila uporabljamo v PCR-testi Ločila njihovi skladenjski rabi njihovi skladenjski rabi Pisanje in skladno s pravopisom. in skladno s pravopisom. skupaj, Tako zapisujemo tudi Tako zapisujemo tudi narazen ali z besede skupaj, narazen ali besede skupaj, narazen ali z vezajem z vezajem. vezajem. Izjema so določni člen tamali Določni člen ta pišemo z ta+mali ta, ki ga pišemo stično, tapravi znakom + in stično. ta+pravi in kratice, ki jih pišemo tako, kot so izgovorjene, z A@g@r@f@t@ Kratice se pišejo skladno s AGRFT Člen ta malimi črkami in skupaj. c@p@p@-ja pravopisom, tj. z vezajem CPP-ja Kratice Če je kratica lastno ime, jo med osnovo in končnico. pišemo z veliko začetnico. ajti-podjetjem Tvorjenke s kraticami se IT- Okrajšav ne uporabljamo. Estea-jem pišejo skladno s pravopisom. podjetjem STA-jem 47 Tabela 1 nakazuje razmerje med pogovornimi in standardiziranimi zapisi: standardizirani zapis je zapis govora, pri katerem se govorjeni jezik zapiše tako, kot bi bil zapisan v pisnem knjižnem jeziku. Standardizirani zapis lahko nastane na podlagi predhodnega zapisa govora,8 ki se ga prilagodi (spremeni) tako, da nastali zapis (z možnimi predvidenimi odstopanji) ustreza pravilom slovenskega pravopisa, ki veljajo za pisni knjižni jezik. V standardiziranem zapisu oblike besed, značilne za govorjeni jezik, nastopajo v obliki, določeni za pisni knjižni jezik, besedilo je smiselno členjeno na povedi, stavke in besede (npr. besede v naslonskem nizu so ločene s presledki kot v knjižnem jeziku), uporabljena so ustrezna ločila.9 Besedam, ki (še) niso registrirane v jezikovnih priročnikih za pisni knjižni jezik (zlasti Slovenski pravopis, SSKJ2, eSSKJ)10 oz. niso zastopane v pisnih korpusih slovenskega jezika (predvsem Gigafida 2.0),11 se priredi oblika, ki bi jo besede pričakovano imele, če bi se uporabljale v pisnem knjižnem jeziku.12 Končni validaciji pogovornih zapisov je v projektu RSDO sledila faza avtomatske pretvorbe pogovornih zapisov v standardizirane. Roč- no preverjanje in popravljanje tako tvorjenih standardiziranih zapisov je v primeru zahtevnejših in nejasnih delov zahtevalo poslušanje posnetka in primerjavo z ustreznim segmentom v pogovornem zapisu.13 8 V projektu RSDO je standardizirani zapis nastal na podlagi pogovornega zapisa, načeloma pa bi lahko nastal tudi na podlagi npr. (dialektološke) fonetične transkripcije govora. Mo- žno je seveda tudi, da bi standardizirani zapis nastal kot prvi zapis govora (tj. brez predhodnega pogovornega zapisa ali fonetične transkripcije). 9 Največja odstopanja od pravil in konvencij knjižnega jezika se pojavljajo na ravni bese-dnega reda (ta se ni popravljal, ker se za razvoj razpoznavalnika zahteva, da so besede v transkripciji sinhronizirane z ustreznimi signali na posnetku) in zgradbe besed in povedi (ponavljanja besed, nedokončane besede in povedi, očitni lapsusi in drugi pojavi, značilni za govorjeni jezik (npr. nedoločni členi), niso bili izločeni), predvsem pa zaradi doslednega beleženja neverbalnih in polverbalnih glasov ter akustičnega ozadja in akustičnih dogodkov (smeh, vzdihi, hrup itd.). Ena od maloštevilnih izjem od pravopisnih pravil pri zapisovanju leksemov je zapis reducirane oblike veznikov k@ (standardizirano v: ke), ki ji v knjižnem jeziku ustreza več veznikov, npr. ker, ko, ki. Za takšna odstopanja smo se odločili, ker smo poskušali zagotoviti, da bi bila pretvorba pogovornih zapisov v standardizirane čim manj odvisna od subjektivne interpretacije pripravljavca. 10 https://fran.si/ 11 https://viri.cjvt.si/gigafida/ 12 Oziroma se uporabi že standardizirano obliko, če gre npr. za narečne besede, ki so že registrirane v narečnih in/ali zgodovinskih slovarjih. 13 V idealnem primeru bi pregledovalec avtomatskih pretvorb v standardizirani zapis ob validaciji vsake transkripcije poslušal celotni avdio posnetek govora. V praksi bi to še precej bolj obremenilo pregledovalca in znatno podaljšalo pregledovanje standardiziranih zapisov. 48 Avtomatska pretvorba je bila sestavljena iz petih korakov: tokenizacije, pretvorbe v slovarske začetnice (ang. truecasing), prevoda, pretvorbe v besedilne začetnice (ang. detruecasing) in detokeniza-cije. Prevod je bil izveden z uporabo prevajalskega in jezikovnega modela, naučenega na bazi Gos VideoLectures 4.2 (Verdonik et al., 2021). Avtomatske pretvorbe v standardizirane zapise so vsebovale napake, ki so bile ob pregledu odstranjene. V Tabeli 2 spodaj so vzporedno prikazani pogovorni zapisi, avtomatske pretvorbe v standardizirane zapise in ročno popravljeni standardizirani zapisi. Tabela 2: Primerjava pogovornih zapisov, avtomatskih pretvorb v standardizirane zapise in ročno popravljenih standardiziranih zapisov. Pogovorni zapis Avtomatska pretvorba v Ročno popravljeni standardizirani zapis standardizirani zapis 1. Čeprav jo bol uporablajo Čeprav jo bolj uporabljajo Čeprav jo bolj uporabljajo v@ ljudskem zdravilstvu, v ljudskem zdravilstvu, se v ljudskem zdravilstvu, se se danes spet več danes spet več uporablja danes spet več uporablja uporablja kot fčasih. kot včasih. kot včasih. 2. Uporablamo tuji za astmo, Uporabljamo tudi za Uporabljamo tudi za plučni katar ... astmo, plučni katar astmo, pljučni katar ... 3. Kakš@n nevljud@n? Kakšen nevljudn? Kakšen nevljuden? 4. Če misl@n, da mi je tu Če mislim, da mi je to Če mislim, da mi je tu nekaj stoplo v glavo, nekaj stoplo v glavo, nekaj stopilo v glavo, nekšne, nekšna ... črna nekakšne, neka ...črna nekšne, nekšna ... črna energija. energija energija. 5. To jaz bi rejs reko, to ne To jaz bi res rekel, to To jaz bi res rekel, to vem, kak so to bli vzgojeni, ne vem kako so to bili ne vem, kako so to bili doma, f šoli, kje drugje, to vzgojeni, doma, v šoli, kje vzgojeni, doma, v šoli, kje so ... #puf. drugje, to so ...puf drugje, to so ... #puf. Zgledi v zgornji tabeli kažejo, da je bila avtomatska pretvorba v splošnem koristna in je pregledovalcu olajšala delo: pogosto nadaljnji popravki povedi niso bili potrebni (gl. zgled 1). Zgleda 2 in 3 kažeta, da so bile avtomatske pretvorbe v povedih včasih samo deloma ustrezne (zlasti znak @ za polglasnik je bil v pretvorbah pogosto samo izpuščen, ne pa tudi nadomeščen z ustrezno črko, tj. e). Zgled 4 kaže, da je bil leksem nekšen (po SSKJ2 narečno ‘nekak, 49 nekakšen’) pretvorjen v leksem nekakšen, ki je bil nato ročno popravljen nazaj v nekšen. Pogosto je avtomatska pretvorba povzročala napake tako, da so bila določena ločila izbrisana (zlasti tri pike, gl. zgleda 2 in 5) in/ali premeščena na drugo mesto. Tovrstne napake je bilo treba odpraviti ročno. Pomembno je poudariti tudi to, da avtomatska pretvorba načeloma ni prizadela stave ločil in velikih za- četnic (razen v zgoraj opisanih primerih, ko so bila ločila izbrisana), zato je bilo treba napačno rabljena ločila in velike začetnice (tj. napake transkriptorjev, ki so pripravljali pogovorne zapise) popravljati vzporedno v pogovornih in standardiziranih zapisih. Osnovno načelo pri popravljanju avtomatskih pretvorb je bilo, da se segmentov govora v transkripcijah ne spreminja, segmenti v pogovornih in standardiziranih zapisih se morajo torej natančno ujemati. Prav tako pripravljavec standardiziranih zapisov načeloma ni spreminjal akustičnega ozadja in akustičnih dogodkov (smeh, odkašljanje, vdih, izdih, drugi zvoki), je pa lahko opozoril na napake pri njihovem označevanju v pogovornih zapisih. V pogovornih in standardiziranih je bilo dovoljeno uporabljati omejen nabor ločil: piko, vejico, klicaj, vpra- šaj, podpičje, opuščaj (kot del besede, pisan stično z besedo ali sredi besede), znak za in ( & ), narekovaje, dvopičje, tri pike, vezaj.14 Ločila, uporabljena v določenem segmentu pogovornega zapisa, so morala biti uporabljena tudi v ustreznem segmentu standardiziranega zapisa. Oznake besednih fragmentov so v standardiziranem zapisu ohranjene takšne, kot se pojavijo v pogovornem zapisu (se jih torej ne spreminja). Prav tako se pri pripravi standardiziranih zapisov ne spreminjajo oznake anonimiziranih osebnih podatkov in oznaka za nerazumljiv govor ( neraz). Tudi številke in datumi so načeloma ohranjeni tako, kot so bili zapisani v pogovornem zapisu, torej številke znotraj oglatih oklepajev in datumi znotraj zavitih oklepajev. V Tabeli 3 so prikazani zgledi pogovornih in ustreznih standardiziranih zapisov iz vseh treh sklopov baze Artur, za katere so bili pripravljeni tako pogovorni kot standardizirani zapisi. 14 Pri vezaju je prišlo do odstopanja od pravopisne norme, ker program Transcriber 1.5.1 ne omogoča razlikovanja med vezajem in pomišljajem, zato je bil vezaj uporabljen tudi namesto pomišljaja. 50 Tabela 3: Primerjava pogovornih zapisov in ročno popravljenih standardiziranih zapisov (primeri iz javnega, nejavnega in parlamentarnega govora). Sklop baze Pogovorni zapis Ročno popravljeni stand. zapis Artur Javni govor Nekoč je bil člov@k navaj@n na trpljenje Nekoč je bil človek navajen na trpljenje in je z večjo lahkoto šel skozi življenje. in je z večjo lahkoto šel skozi življenje. Sodob@n člov@k veliko hitreje podleže Sodoben človek veliko hitreje podleže težavam, ker nanje ni pripravlj@n. težavam, ker nanje ni pripravljen. Javni govor Če gledamo starostno st@nd@rdizirano Če gledamo starostno standardizirano stopnjo, s k@tero mi primerjamo stopnjo, s katero mi primerjamo bremena bremena med državami, je to okol med državami, je to okoli [dvajset] na [dvejs@t] na [sto tisoč]. S tako stopnjo [sto tisoč]. S tako stopnjo smo mi začeli smo mi začel v@ začetku [še@s@tih] let v začetku [šestdesetih] let prejšnjega prejšnj@ga stoletja. In zakaj so p@ršli stoletja. In zakaj so prišli k nam? h n@m? Nejavni govor #Eee, mogoče na konci pri@m na isti #Eee, mogoče na koncu pridem na isti nivo sposobnosti oziroma še na večji nivo sposobnosti oziroma še na večji nivo, zato k@r bon se mogo san navučiti nivo, zato ker bom se mogel sam naučiti uravnavate moč, #e, k@r mi ne dobena uravnavati moč, #e, ker mi ne nobena elektronika pomagala, al pa kupiš novejši elektronika pomagala, ali pa kupiš motor, novejši motor, Nejavni govor Ge sem se včakala, ja, jaz s@m šla Ge sem se včakala, ja, jaz sem šla f penzijo. #Eee, s@m tudi v Muri v penzijo. #Eee, sem tudi v Muri napredovala potem, sledi s@m šla f napredovala potem, sledi sem šla v kontorlo, s@m f kontroli delala, takrat se kontrolo, sem v kontroli delala, takrat se mi je to, tudi lepo bilo, ne. #Eee v@ ... Pri mi je to, tudi lepo bilo, ne. #Eee v ... Pri plači se mi je poznalo pa še ovačik, s@m plači se mi je poznalo pa še ovačik, sem z z veseljem to delo delala pa opravljala ga, veseljem to delo delala pa opravljala ga, s@m kontrolirala izdelke. sem kontrolirala izdelke. Parlamentarni torej u bistvu fsa kritika ki je bla danes torej v bistvu vsa kritika, ki je bila danes govor usmerjena u predlok poslanske skupine usmerjena v predlog poslanske skupine SDS je na nek način usmerjena v DESUS SDS, je na neki način usmerjena v Desus, @k tuki jz z DESUSA opozarjam da so u ker tukaj jaz iz Desusa opozarjam, da so v tej koaliciji torej to kr vi zagovarjate to tej koaliciji, torej to, kar vi zagovarjate, to, kr vi zagovarjate kje() kar je eden vaših kar vi zagovarjate, kje() kar je ena vaših temelnih točk programa kot stranke u temeljnih točk programa kot stranke, v bistvu rezon detre DESUSA bistvu raison d’être Desusa, Parlamentarni Js bi reku seveda potem ko je bilo Jaz bi rekel, seveda, potem ko je bilo govor potrebno dobiti soglasje za poroštvo tm potrebno dobiti soglasje za poroštvo, se je pa pol krepko upela politika pa da tam se je pa pol krepko vpela politika, ne rečem konkretno tudi nas držauni pa da ne rečem konkretno tudi nas, zbor. Ampak poglejte tudi u takrat naprej državni zbor. Ampak poglejte, tudi od ko je biu dejansko #eee poroštveni zakon takrat naprej, ko je bil dejansko, #eee, poroštveni zakon 51 V splošnem je mogoče reči, da je bil z vidika priprave standardiziranih zapisov pričakovano najmanj problematičen oz. zahteven javni govor (gl. prva dva primera v Tabeli 3). V njem se je namreč pojavljalo zelo malo narečnih in pogovornih besed (oz. besed, ki niso zajete v splošnih slovarjih slovenskega jezika). Večji izziv je predstavljal nejavni govor, v katerem smo identificirali večjo pojavnost narečnih besed, ki se praviloma uvrščajo med težavnejše primere standardizacije.15 Parlamentarni govor ni bil problematičen v smislu zahtevnosti standardizacije, saj gre za govor v javnem formalnem govornem položaju, za katerega izrazito narečna leksika ni značilna. Parlamentarni govor je bil najzahtevnejši v smislu vloženega časa zaradi nihajoče kakovosti pogovornih zapisov (gl. razdelek 4). Težavnejše primere standardizacije besed je pripravljavec standardiziranega zapisa sproti beležil in oblikoval predloge za standardizirani zapis (včasih po posvetu s kolegi dialektologi). Te je pregledala in potrdila skupina treh strokovno usposobljenih projektnih sodelavcev. V spodnji Tabeli 4 so navedeni izbrani primeri s Seznama te- žavnejših primerov standardiziranega zapisa v bazi Artur (Verdonik, Trojar in Bizjak, 2023b: 14–24). Tabela 4: Izbor primerov s Seznama težavnejših primerov standardiziranega zapisa v bazi Artur. Primer Predlog za standardizirani zapis ajnfah, ajnfoh ajnfah bohlonaj, boglonaj, bohloni boglonaj cajt, cet cajt dugi (‘dolg’) dugi fancy, fensi fensi gniliti (‘gniti’, narečno) gniliti jajčka (‘jajce’), ž. sp. jajčka 15 Pri težavnejših primerih se je pripravljavec standardiziranega zapisa posvetoval s kolegi dialektologi. Prim. npr. besedo ovačik v 2. primeru nejavnega govora v Tabeli 3, ki se ne pojavi v nobenem slovarju na portalu Fran (se pa v Pleteršnikovem slovarju pojavita besedi ovače in ovači, slednja pa je zabeležena tudi v Slovarju stare knjižne prekmurščine). 52 Primer Predlog za standardizirani zapis kejpop K-pop mezmes (‘vmes’) mezmes obično obično parajt, berajt (‘pripravljen’) berajt ušeta (‘ušesa’) ušeta vjutro vjutro V grobem je mogoče težavnejše primere standardiziranega zapisa razdeliti v tri skupine, in sicer na narečne besede (npr. mezmes), pogovorne besede, ki niso vezane na eno narečje ali manjšo skupino narečij (npr. pokrajinskopogovorne in tudi splošnoslovenske pogovorne besede, npr. ajnfah, cajt), in prevzete besede (npr. K-pop). 4 Težave pri izdelavi pogovornih in standardiziranih zapisov, rešitve zanje in priporočila za prihodnje projekte Najprej velja opozoriti, da je govorna baza Artur nastajala v času pandemije covida-19, ko so bili medosebni stiki in javni dogodki močno omejeni ali celo prepovedani. Omejitev gibanja znotraj ob- činskih meja je pomenila dodatno oviro pri snemanju in vključevanju govorcev iz različnih regij, na samo kakovost govora pa je vplivalo tudi nošenje obraznih mask. Količino takšnih posnetkov smo zato močno omejili, metapodatek o nošenju mask pa sproti beležili. Pri izdelavi tako obsežne govorne baze je ključno, da koordiniranje aktivnosti poteka ažurno, da je komuniciranje med deležniki periodično in da se sproti iščejo rešitve za morebitne probleme. S tem se optimizira čas v zaključnih fazah priprave govorne baze, ko se ponovno izvedejo avtomatske validacije podatkov in na njihovi osnovi časovno zelo potratni ročni popravki identificiranih napak. Pri pripravi pogovornih zapisov za govorno bazo Artur je bilo zelo problematično pogosto menjavanje transkriptorjev in njihovo časovno zamudno uvajanje. Vsak izmed njih je namreč tvoril drug tip napak, kar je bilo treba vsakič znova identificirati. Iskanje in uvajanje 53 zanesljivega transkriptorja tako ostaja ena od zahtevnejših nalog, ki jo je zaradi neželene fluktuacije sodelavcev pri zapisovanju govora treba večkrat ponoviti. V nadaljevanju so navedene in opisane nekatere najpogostejše napake, identificirane pri pripravi pogovornih zapisov. Zaradi hitre-ga in močno strnjenega govora posameznih moderatorjev so meje segmentov transkriptorji postavili preblizu predhodnih fonemov ali tistih, ki so jim sledili. Ko je moderator govoril neprekinjeno več kot 10 sekund, je bilo treba mejo postaviti v tistem delu signala, ko je zajel sapo. Posamezne posnetke radijskega govora smo prejeli že obrezane in v njih ob menjavi govorcev ni bilo vidnih premorov, kar je dodatno otežilo proces segmentiranja. Zaradi prilagoditve segmentacije tehničnim zahtevam za razvoj razpoznavalnika transkriptorji meja segmentov pogosto niso postavili glede na semantično-skladenjski vidik, temveč glede na premore kot prozodično značilnost. Segmenti pri hkratnem govoru so bili včasih predolgi, zapisi pa nenatančni. V tem smislu smo zaznali nedosleden zapis opornih si-gnalov, kot sta ja in mhm, saj je njihov natančen zapis pri hkratnem govoru časovno zelo zamuden. Precej popravkov je bilo potrebnih tudi zaradi napačnih označevanj menjav govorcev. Mestoma zvočna ozadja in zvočni dogodki niso bili označeni ali pa so bili neustrezno označeni zgolj kot deli segmenta in ne segmenti kot celota. Daljši premori so bili pogosto izpuščeni. Posamezne besede, ki so bile izgovorjene, niso bile zapisane ali pa so bile zapisane napačno. Gre za tip napake, ki ga je izjemno tež- ko odkriti z avtomatskimi preverjanji in ki zahteva veliko dodatnega časa za ročno preverjanje. Če želimo v prihodnje doseči čim višjo kakovost zapisa izrazito narečnega govora, kar zahteva dodatno natančnost pri poslušanju, ga mora zapisati ustrezno usposobljen dialektolog. Ugotovili smo, da je v tako obsežni bazi, kot je Artur, dosledno zapisovanje polglasnikov (z znakom @) skoraj nemogoče doseči, poleg tega je precej primerov, pri katerih različni transkriptorji različno interpretirajo slišani glas. Podobno je pri fonemu v, katerega zapis 54 je lahko nedosleden, npr. vprašal namesto fprašal. Dodatno smo v pogovornih zapisih zaznali rabo neustreznih črk, ki niso del slovenskega črkopisa, npr. q in y. Izkazalo se je, da je težko ohranjati doslednost pri zapisu neverbalnih in polverbalnih glasov. Pojavili so se neenotni zapisi z eno, dvema ali tremi črkami; včasih so transkriptorji pred ali za njimi vsta-vili vejico, drugič ne; pogosto na začetku segmenta niso zapisali velike začetnice ali pa so pri označevanju izpustili znak #. Zaradi prevelikega števila napak pri vstavljanju oklepajev so bili ti pred javno objavo govorne baze iz nje odstranjeni. V oglatih oklepajih so se poleg števnikov pojavljali tudi samostalniki (npr. tretjina), pridevniki (npr. drugi ljudje) in nedoločni členi (npr. en lep dan). Mestoma so bili datumi namesto v zavitih oklepajih zapisani v oglatih. Zaradi pomanjkljive jezikoslovne izobrazbe transkriptorjev in njihove pogoste fluktuacije so se v zapisih pojavljale različne pravopisne napake, zlasti pri veliki začetnici, zapisu skupaj ali narazen in ločilih, najpogosteje pri vejici in vezaju. Kot posebno problematičen se je tu izkazal parlamentarni govor: na osnovi transkripcij, ki jih izdelujejo v Državnem zboru RS, so pogovorne zapise namreč priprav ljali (popravljali) študentje nejezikoslovnih smeri. To je praviloma vodilo do zelo velikega števila napak v pogovornih zapisih (gl. zgleda iz parlamentarnega govora v Tabeli 3, v katerih manjka veči-na ločil). Slednje pomeni izjemno povečano obremenitev za pripravljavca standardiziranega zapisa, ker mora večino popravkov vnašati dvakrat, tj. hkrati v standardizirani in pogovorni zapis. Težava je bila razrešena tako, da so bila ločila in velike začetnice pri parlamentarnem govoru naknadno avtomatsko (s posebnim skriptom) prenese-na iz standardiziranih v pogovorne zapise. Ključno je spoznanje, da je nadzor nad kakovostjo pogovornih zapisov bistvenega pomena; če so namreč pogovorni zapisi kakovostni, pomeni to precej manj oz. hitrejše delo za pripravljavca standardiziranega zapisa.16 Ker se z vstavljanjem ločil govor dodatno interpretira, je neizbežno, da ločila 16 Pogovorni zapisi, ki so jih pripravljali zunanji izvajalci (podjetja), so se praviloma izkazali za precej kakovostnejše od tistih, ki so jih pripravljali študentje. Za prihodnje projekte se zato priporoča najemanje zunanjih izvajalcev. 55 skladno s pravopisno normo vstavljajo ustrezno usposobljeni strokovnjaki z jezikoslovno izobrazbo. Med težavami pri pripravi pogovornih zapisov za bazo Artur je bil tudi zapis dialogov, ki so bili pri nejavnem govoru z namenom zagotavljanja višje kakovosti zvoka posneti 2-kanalno preko dveh mikrofonov. Isti dialog je bilo tako treba zapisati dvakrat, vsakič za drugega govorca, kar pomeni višje finančne stroške. Nastopi pa lahko še dodatna težava, ko se pri hkratnem govoru v ozadju sliši govor drugega govorca. Dodatni časovno zahteven izziv je bil velik obseg zelo kratkih posnetkov, trajajočih tudi manj kot eno minuto, in zapisov zanje, ki jih je bilo treba vsakič znova prenesti, preimenovati, obdelati in shraniti. Po pripravi standardiziranih zapisov je bilo sprva načrtovano preverjanje konsistentnosti popravkov (npr. konsistentnosti uporabe izbranih rešitev na Seznamu težavnejših primerov standardiziranega zapisa v bazi Artur, gl. Tabelo 4). Za tovrstno preverjanje in popravljanje napak je zmanjkalo časa, bi se pa mu bilo smiselno posvetiti v prihodnje, saj v standardiziranih zapisih prihaja do nedoslednosti. Pri izdelavi baze je bil za transkribiranje uporabljen program Transcriber 1.5.1. Njegova odlika je izjemna stabilnost, je pa roko-vanje z njim časovno zelo zamudno. Gre za to, da je treba pogovorni zapis in ustrezni standardizirani zapis odpreti vsakega v svojem oknu, nato pa še posebej odpreti zvočno datoteko s posnetkom govora ter ročno vsakič posebej nastaviti kodiranje (na UTF-8) in morebitne dodatne nastavitve.17 To se je v projektu RSDO izkazalo za večjo pomanjkljivost. Pri pripravi standardiziranega zapisa je bilo namreč pregledanih 2871 parov datotek parlamentarnega govora, 17 Pri programu Transcriber 1.5.1 je zelo moteče in zamudno tudi to, da program pri uporabi smernih tipk na tipkovnici ne omogoča prehajanja kurzorja s sredine izbranega segmenta na sredino segmenta, ki leži tik nad ali tik pod njim. Pri uporabi smernih tipk ↑ in ↓ je prehod med segmenti namreč mogoč le na konec višje ali nižje ležečega segmenta, pri uporabi smernih tipk ← in → pa mora kurzor prepotovati celotno pot do začetka ali konca trenutno izbranega segmenta in šele nato do želenega mesta sredi višje/nižje ležečega segmenta. V praksi to največkrat pomeni veliko zamudnega klikanja z miško za postavljanje kurzorja na ustrezno mesto oz. za premikanje med segmenti. Delo s Transcriberjem je zamudno tudi zato, ker morata biti pogovorni in ustrezni standardizirani zapis odprta vsak v svojem oknu (ker gre za dve ločeni datoteki), pri čemer je treba vsakemu segmentu v pogovornem zapisu ročno poiskati ustrezni vzporedni segment v standardiziranem zapisu. 56 100 parov datotek javnega govora in 375 parov nejavnega govora (skupno 3346 parov datotek oz. 6692 datotek s standardiziranimi in pogovornimi zapisi). Ob predpostavki, da priprava delovnega okolja za 1 par datotek vzame 2 minuti (tj. odpiranje Transcriberja, odpiranje pogovornega in standardiziranega zapisa, odpiranje avdio datoteke, nastavljanje ustreznih nastavitev in vpisovanje podatkov v evidenco, ker se evidenca o opravljenem delu ni vodila avtomatsko), je bilo zgolj za pripravo na delo (!) potrebnih 111,53 ure ali 14,87 delovnega dne (po 7,5 ure). Ta čas ne vključuje dejanskega popravljanja transkripcij, poleg tega sem ni vključeno še naknadno popravljanje datotek (npr. po pregledu ujemanja v številu pojavnic). 5 Zaključek Na osnovi izkušenj pri pripravi govorne baze Artur za prihodnje projekte priporočamo prehod na orodje OrthoNormal18 ali kako drugo primerljivo orodje za transkribiranje, ki omogoča več fleksi-bilnosti pri delu (podpora za transkribiranje velikega števila kratkih posnetkov, hitro in avtomatsko prehajanje med njimi, avtomatski vzporedni prikaz segmentov v pogovornem in standardiziranem zapisu itd.). Idealno bi bilo vzpostaviti lastno spletno okolje z vgra-jenimi rešitvami za obdelavo zvočnih posnetkov, ročno transkribiranje, avtomatsko razpoznavanje govora (avtomatsko generirane transkripcije), projektno vodenje in s črkovalnikom (ki bi preverjal konsistentnost popravkov) ipd. Takšno spletno okolje bi na enem mestu podpiralo izdelavo govornih baz, vanj pa bi integrirali tudi rezultate projekta RSDO: avtomatski razpoznavalnik bi transkrip-torju predpripravil transkripcije (npr. pogovorne in/ali standardizirane zapise), ki bi bile že ustrezno segmentirane, transkriptor pa bi jih po potrebi le popravil v skladu s strokovnimi oz. projektnimi zahtevami. Okolje bi samodejno beležilo spremembe in vodilo evidence o opravljenem delu, kar bi bistveno povečalo informiranost vodje projekta in sodelavcem olajšalo vodenje evidenc v projektu. Zasnova in realizacija tovrstnega spletnega okolja bi seveda 18 https://exmaralda.org/de/orthonormal-de/ 57 zahtevali stabilno financiranje, ki bi segalo onkraj sporadičnih tri-letnih projektov. Šele tako široko zastavljeno dolgoročno zbiranje posnetkov govora bi omogočilo tudi kakovostnejše slovnične in leksikalne opise govorjenega slovenskega jezika, ki je bil v doseda-njih raziskavah izrazito prešibko zastopan. Projekt RSDO je kot primer dobre prakse omogočil spoznanje in utemeljil zavedanje o tem, da je v slovenskem prostoru na področju procesiranja govora in jezikovnih tehnologij nujno tudi interdiscipli-narno povezovanje čim več institucij tako iz akademsko-raziskovalnega okolja kot tudi iz gospodarstva. Literatura Verdonik, D., & Bizjak, A. (2023). Pogovorni zapis in označevanje govora v govorni bazi Artur projekta RSDO. https://dk.um.si/Dokument. php?lang=slv&id=170009&dn Verdonik, D., Trojar, M., & Bizjak, A. (2023a). Prednosti in slabosti dvotir-nega zapisovanja govora v slovenskih govornih virih = Advantages and Disadvantages of Two-level Speech Transcription in the Slovenian Speech Resources. Infrastruktura za raziskave govora v humanistiki in jezikovnih tehnologijah: zbornik povzetkov, 111-114. https://press. um.si/index.php/ump/catalog/book/774 Verdonik, D., Trojar, M., & Bizjak, A. (2023b). Standardizirani zapis v govorni bazi Artur projekta RSDO. Univerza v Mariboru. https://dk.um.si/Dokument.php?id=170007&lang=slv Verdonik, D., Bizjak, A., & Dobrišek, S. (2023). Opis govorne baze Artur projekta RSDO. Univerza v Mariboru. https://dk.um.si/IzpisGradiva. php?id=85199 Verdonik, D., Potočnik, T., Sepesy Maučec, M., Erjavec, T., Majhenič, S., & Žgank, A. (2021). Spoken corpus Gos VideoLectures 4.2 (transcription). Slovenian language resource repository CLARIN.SI. http://hdl.handle. net/11356/1444 Verdonik, D., & Zwitter Vitez, A. (2011). Slovenski govorni korpus Gos. Trojina, zavod za uporabno slovenistiko. Žganec Gros, J., & Vesnicer, B., (2021). Izbor fonetično uravnoteženih besedilnih predlog za bazo branega govora. V T. Mirtič in M. Snoj (ur.), 1. slovenski pravorečni posvet (pp. 111–119). Slovenska akademija 58 znanosti in umetnosti. https://www.sazu.si/uploads/files/publikacije21/Rared2RAZPRAVE.pdf Žganec Gros, J., Vesnicer, B., Mihelič, A., Trojar, M., Dobrišek, S., Bizjak, A., & Verdonik, D. (2023). Izbor povedi za govorno bazo Artur v projektu Razvoj slovenščine v digitalnem okolju. Projektno poročilo DS2-2.1.1. https://dk.um.si/IzpisGradiva.php?id=85200 59 Prihodnost korpusa Šolar Špela ARHAR HOLDT Univerza v Ljubljani, Filozofska fakulteta Univerza v Ljubljani, Fakulteta za računalništvo in informatiko Eva PORI Univerza v Ljubljani, Filozofska fakulteta Iztok KOSEM Univerza v Ljubljani, Filozofska fakulteta Univerza v Ljubljani, Fakulteta za računalništvo in informatiko Institut »Jožef Stefan« Povzetek Razvojni korpusi so skrbno oblikovane digitalne zbirke avtentičnih besedil, ki omogočajo vpogled v jezikovni razvoj mlajših naravnih govorcev določenega jezika. Pisni razvojni korpusi, kakršen je za slovenščino korpus Šolar, vključujejo primere pisanja osnovnošolskih in srednješolskih učencev, pogosto skupaj s popravki jezikovnih težav, in kot taki predstavljajo empirično osnovo za raziskave s področja jezikovnega usvajanja in didaktike, za pripravo učnih gradiv, vaj, testov, učnih množic za strojno procesiranje naravnega jezika in razvoj orodij, ki opismenjevanje in pismenost podpirajo. Prispevek predstavlja značilnosti slovenskega razvojnega korpusa v primerjavi s podobnimi viri za druge jezike, njegov razvojni krog in številne novosti, ki jih je k metodologiji gradnje prispevalo delo na projektu Razvoj slovenščine v digitalnem okolju. Glavne novosti so izbolj- šana pravna podlaga za zbiranje besedil, uporabniško prijazen portal za oddajo besedil, orodje CJVT Svala za transkripcijo, anonimizacijo in ozna- čevanje popravkov ter izboljšani korpusni format. Ob pojavu generativne umetne inteligence in jezikovnih orodij, ki uporabnicam in uporabnikom pomagajo pri pisanju in komuniciranju izpostavimo spremljanje razvoja (in morebitnega upada) jezikovnih kompetenc kot ključno za nadaljnje 61 delo in ponudimo strategijo prihodnjega razvoja korpusa Šolar in sorodnih podatkovnih virov. Ključne besede: razvojni korpus, Šolar 3.0, metodologija korpusne gradnje, CJVT Svala, portal za zbiranje besedil Abstract Developmental corpora are carefully designed digital collections of authentic texts that provide insights into the development of younger native speakers’ language skills. Written developmental corpora, such as the Šolar corpus for Slovene, include examples of writing by primary and secondary school students, often accompanied by language corrections, and as such, provide an empirical basis for research in the fields of language acquisition and didactics, for the development of teaching materials, exercises, tests, training sets for natural language processing, and for the development of tools that support and develop literacy. The paper presents the character-istics of the Slovene developmental corpus compared to similar resources for other languages, its development cycle and the many innovations of the corpus-building methodology developed under the umbrella of the Development in the Digital Environment project: an improved legal basis and a user-friendly portal for text collection, the CJVT Svala tool for transcription, anonymisation and annotation of corrections, and an enhanced corpus format. With the emergence of generative artificial intelligence and language tools that help users write and communicate, we highlight the monitoring of linguistic competencies’ development (and possible decline) as crucial to future work and offer a strategy for the further development of the Šolar corpus and related data resources. Keywords: developmental corpus, Šolar 3.0, corpus building methodology, CJVT Svala, portal for text collection 1 Uvod Razvojni korpusi (ang. developmental corpora, Leech, 1997:19) so premišljeno grajene digitalne zbirke avtentičnih besedil, ki ponujajo vpogled v razvoj jezikovnih kompetenc pri mlajših naravnih govorcih 62 in govorkah določenega jezika.1 V prispevku se osredotočamo na pisne razvoje korpuse, ki tipično zajemajo primere osnovnošolskega in srednješolskega pisanja, pogosto pa tudi oznake jezikovnih te- žav, ki se v teh besedilih pojavijo. Ti korpusi predstavljajo empirično osnovo za raziskave s področja jezikovnega usvajanja in didaktike, za pripravo učnih gradiv, vaj, testov, učnih množic za strojno procesiranje naravnega jezika in razvoj orodij, ki opismenjevanje in pismenost podpirajo. Zaradi vsega naštetega so razvojni korpusi med pomembnejši-mi specializiranimi jezikovnimi viri in del temeljne jezikovne infrastrukture. Mogoče pa je predvideti, da bo zanimanje za tovrstne vire in metodologijo njihove priprave v prihodnje še naraščalo, kot posledica napredka na področju generativne umetne inteligence in raznovrstnih jezikovnih orodij, ki uporabnicam in uporabnikom pomagajo pri pisanju in komuniciranju. Po pojavu tehnologij, ki ustvarjajo besedila skupaj s piscem ali namesto njega, namreč postaja vprašanje spremljanja razvoja (in morebitnega upada) človeških jezikovnih kompetenc še bolj pereče in temeljno kot v preteklosti. V evropskem prostoru je mogoče najti kar nekaj primerov razvojnih korpusov, ki vsebujejo pisna besedila osnovnošolcev in/ali dijakov, ne gre pa prezreti, da je takšnih virov bistveno manj od korpusov z besedili govorcev, ki se določenega jezika učijo kot drugega/tujega (ang. learner corpora). Za angleščino so na voljo korpusi LUCY (Sampson, 2003), LOCNESS (Granger, 1998) in obsežna zbirka novozelandskih esejev, ki jih je zbrala Parr (2010). Za nemščino so za osnovnošolsko pisanje na voljo korpusi H1, H2, E2, ERK1 (Berkling, 2016; 2018) in Litkey (Laarman-Quante idr., 2019), za srednješolsko pisanje pa korpus KoKo (Abel idr., 2014). Za italijanščino so na voljo korpus CItA (Barbagli idr., 2016), trojezični LEONIDE (Glaznieks idr., 2022) in korpusi esejev, ki so jih zbrali Marconi idr. (1993) za osnovnošolsko in Borghi (2013) za srednješolsko raven. Številni razvojni korpusi za 1 Definicija je nekoliko poenostavljena, saj vemo, da razvoj jezikovnih kompetenc poteka skozi celo življenje (ni prisoten le pri mlajših govorcih in govorkah), prav tako ni povsem natančno govoriti (le) o naravnih govorcih, saj so v osnovnih in srednjih šolah, kjer se besedila za razvojne korpuse tipično zbirajo, tudi avtorice in avtorji, ki jim jezik okolja ni nujno prvi ali edini. 63 francoščino so na voljo prek portala È:CALM (Ho-Dac idr., 2020). Med novejšimi je mogoče omeniti tudi zbirke besedil za islandščino (Arnardóttir idr., 2021, Ingason idr., 2021) in DOESTE (Martins idr., 2020), ki vsebuje besedila v evropski in brazilski portugalščini. Razen zadnjih dveh in LUCY, ki so po obsegu nekoliko manjši, ter korpusa Parr, ki prinaša skoraj 21.000 esejev, zajemajo navedeni viri nekje med 2.500 in 5.000 besedil oziroma med 100.000 in 1.000.000 pojavnic. Veliko jih vsebuje tudi jezikovne oznake na osnovnih nivojih (tokenizacija, lematizacija, oblikoskladnja) ter popravke, ki so jih vnesli raziskovalci, ki so korpus gradili. Šolar, razvojni korpus za slovenščino, je v veliki meri primerljiv, mestoma presega prakse iz tujine, mestoma pa se jim tudi odmika. Največja konceptualna razlika je v odločitvi, da se v korpus vključijo avtentični učiteljski popravki, s pomočjo katerih je mogoče opazo-vati podajanje povratne informacije neposredno v kontekstu razvoja pisnih kompetenc. Od tujih primerov avtentične popravke učiteljev oz. profesorjev vključuje korpus Chyby (Pala idr., 2003), ki pa se za razliko od Šolarja posveča pisanju na univerzitetni ravni. Korpus Šolar, ki nastaja in se razvija že od leta 2012 (Kosem idr., 2012; 2016), je svojo zadnjo nadgradnjo doživel leta 2023. Prenovljena različica 3.0 je izšla pod okriljem projekta Razvoj slovenščine v digitalnem okolju,2 kjer so bili zasnovani in evalvirani postopki ter orodja za kontinuiran razvoj korpusa Šolar, posredno pa tudi drugih korpusov, ki vsebujejo jezikovne popravke.3 Nekatere novosti, ki so nastale na projektu Razvoj slovenščine v digitalnem okolju, so bile omenjene v prispevkih Arhar Holdt idr. (2022a) ter Arhar Holdt in Kosem (2023), vključene so tudi v projektno poročilo (Arhar Holdt idr., 2023). Vendar rezultati do sedaj še niso bili celovito in pregledno predstavljeni z vidika prispevka za raziskovalno skupnost, razvoja discipline in samega korpusa. V tem prispevku najprej predstavimo razvojni krog korpusa Šolar, sledi popis 2 Cilj projekta je bil zadovoljiti potrebe po računalniških izdelkih in storitvah s področja jezikovnih tehnologij za slovenski jezik za raziskovalne organizacije, podjetja in širšo javnost. Spletna stran projekta z dostopom do rezultatov: https://slovenscina.eu/. 3 V našem prostoru gre omeniti še korpus slovenščine kot tujega jezika KOST (Stritar Kučuk, 2022) in korpus lektorskih popravkov Lektor (Popič, 2014). 64 postopkov in orodij za nadaljnje zbiranje, kratka predstavitev Šolarja 3.0 in njegove dostopnosti, zaključujemo pa z naborom prioritet za nadaljnje delo in strategijo za prihodnji razvoj korpusa. 2 Razvojni krog korpusa Šolar Gradnja korpusa Šolar poteka primerljivo z drugimi korpusnimi viri, določene specifike kaže Slika 1. Zbiranje besedil poteka s pomo- čjo učiteljske skupnosti, besedilodajalci so učenci oz. dijaki, zato je pomemben del gradnje vzpostavitev mreže in motivacija za sodelovanje učiteljske skupnosti. Učitelji oz. učiteljice morajo urediti pogodbo s šolo, ki dovoljuje zbiranje gradiva, prav tako pa zbrati so-glasja avtorjev in avtoric oz. njihovih zakonitih zastopnikov. Poskr-bijo tudi za oddajo besedil in vseh želenih metainformacij o njih. Ko je gradivo zbrano, ga pretvorimo v korpusna besedila, kar vključuje Slika 1: Razvojni krog korpusa Šolar. 65 transkripcijo (kadar so izvorna besedila napisana na roko, kar trenutno velja za večino primerov), anonimizacijo osebnih podatkov, ki se lahko v besedilih pojavljajo, vnos in označevanje jezikovnih popravkov, jezikoslovno označevanje in izdelavo korpusne baze v končnem formatu oz. formatih. Baza mora biti umestljiva v orodja za analizo, med katerimi so zlasti konkordančniki in druga orodja za vizualizacijo ter ekstrakcijo korpusnih podatkov. Za vse sinhrone jezikovne vire je ključno kontinuirano nadgrajevanje in posodabljanje gradiva; za razvojne korpuse, kjer so longitudinalne raziskave posebej zaželene, pa to velja še toliko bolj. Zasnova projektne nadgradnje ponuja tudi priložnost za oceno uporabljenih postopkov in popis želenih izboljšav. Kot je popisano v Arhar Holdt idr. (2022a), so bile pri gradnji korpusa Šolar 1.0 in 2.0 na številnih mestih prisotne težave. Pri zbiranju besedil za prvo različico so učitelji in učiteljice pošiljali fizične kopije besedil učencev, njihova kakovost pa se je razlikovala glede na uporabljeni kopirni stroj. Kopirani dokumenti so bili pogosto čr-no-beli, kar je oteževalo razlikovanje med popravki, ki jih je opravil učitelj, in tistimi, ki je zabeležil učenec sam. Za drugo različico korpusa smo prešli na zbiranje skeniranih besedil, po možnosti barvnih, in s tem na posredovanje PDF-datotek prek spleta, še vedno pa je bilo zamudno zbiranje metapodatkov in spremljanje procesa sodelovanja učiteljskih ekip. Izjemno zamudna je bila tudi priprava korpusnih dokumentov. Zapisovalci in zapisovalke so jezikovne popravke v besedila vpisovali s pomočjo XML-oznak, kar je bilo zahtevno, nepregledno in je vodilo v številne napake. Vsebinsko kategorizacijo jezikovnih popravkov smo pri verziji 2.0 opravljali v za naše namene prilagojenem orodju Sketch Engine (Kilgarriff idr., 2004). Korpus smo morali najprej pretvoriti v format VERT za uvoz v Sketch Engine; tam smo po vsebinskih sklopih opravili revizijo oznak. Med delom smo izvažali korpusne datoteke in jih pretvarjali v format XML, da smo lahko novooznačene kategorije zapisali v korpusne datoteke, spet opravili pretvorbo in korpus uvozili nazaj v Sketch Engine. Zaradi načina dela označevalci in označevalke niso imeli pregleda nad širšim kontekstom označevanega besedila, niso mogli spreminjati 66 segmentacije popravkov in odpravljati težav, ki niso bile vezane na točno tisto oznako, ki so jo v določenem koraku imeli v analizi. Po koncu projekta Razvoj slovenščine v digitalnem okolju so koraki korpusne gradnje temeljito nadgrajeni. Na voljo je spletno mesto z informacijami, prenovljenimi pogodbami in repozitorijem za oddajo besedil in metapodatkov, kar učiteljski skupnosti olajša zbiranje in posredovanje gradiva (Razdelek 3). Bistvene izboljšave so na ravni metodologije priprave korpusnih besedil (Razdelek 4): za slovenščino smo lokalizirali in nadgradili uporabniku prijazno in zmogljivo orodje Svala, ki omogoča transkripcijo besedil, označevanje jezikovnih popravkov in pregledno sočasno anonimizacijo potencialno občutljivih osebnih informacij, ki se lahko pojavljajo v besedilih. Šolar 3.0 (Razdelek 5) je na voljo z bogatejšimi jezikoslovnimi oznakami, od katerih so zlasti dragocene skladenjske, ter v novem formatu, ki je v celoti kompatibilen z ostalimi slovenskimi korpusi. 3 Zbiranje korpusnega gradiva 3.1 Pravne rešitve Po odločitvi učiteljev za sodelovanje pri zbiranju besedil in še pred uporabo portala sledi najprej pravna ureditev sodelovanja, in sicer med raziskovalno ustanovo na eni strani ter šolo in učenci na drugi. S šolo se sklene pogodba o sodelovanju, z učenci oz. njihovimi zastopniki pa pogodba o prenosu ustreznih avtorskih pravic. Podpisane pogodbe (dva izvoda pogodbe s šolo in dva izvoda pogodbe z vsakim avtorjem oz. avtorico šolskih besedil oz. njegovim zakonitim zastopnikom) učitelj oz. učiteljica pred pričetkom sodelovanja pri zbiranju pošlje raziskovalni enoti, ki gradi korpus, kjer jih podpiše še druga stranka in po en izvod vrne na šolo.4 Na ta način je zbiranje besedil pravno urejeno, saj brez tega zbrano gradivo ne more biti odprto dostopno za nadaljnjo rabo. Za vsa vključena besedila tako obstaja pogodba, ki opredeljuje prenos avtorskih pravic ter načine 4 Izkušnje projektnega sodelovanja s šolami so namreč pokazale, da šolski sistem pre-ferira fizično podpisovanje, da trenutno še ni opremljen ali pa pripravljen na digitalno podpisovanje dokumentov. 67 hranjenja in procesiranja besedil. Pomembno pri tem pa je, da se pravne rešitve ne osredotočajo le na obdobje trajanja specifičnega projekta, npr. točno določeno šolsko leto, ker to ovira in onemogoča kontinuirano in širše zbiranje besedil. Trenutne pogodbe so na voljo kot Priloge 2–4 v (Arhar Holdt idr., 2023). 3.2 Portal za oddajo besedil Pravni ureditvi sodelovanja sledi delo s portalom,5 ki je razvit je z namenom, da bi oddajanje besedil – in vse korake, potrebne za sodelovanje – olajšali tako skupnosti sodelujočih učiteljev kot raziskovalcem, ki besedila za korpus pripravljajo. Pri razvoju portala je bila v ospredju želja, da bo njegova uporaba enostavna in intuitivna, hkrati pa bo vsebovala vse uporabne funkcionalnosti. Uporabniku prijazen vmesnik je osnovni pogoj za sodelovanje čim večjega števila učiteljev, katerih veščina dela z računalnikom in s tem odnos do njega se lahko močno razlikuje. Portal vzpodbuja tudi vzpostavljanje skupnosti sodelujočih besedilodajalcev; saj lahko ekipa učiteljev z iste šole s pomočjo statistik spremlja svoj napredek pri zbiranju besedil, tudi primerjalno glede na druge šole v regiji.6 Na vstopni strani portala je na voljo povezava na spletno mesto,7 kjer je predstavitev korpusa Šolar in pregledna navodila za sodelovanje pri njegovi gradnji. Pri prvi uporabi portala za zbiranje besedil se mora uporabnik registrirati, pri čemer posreduje svoje ime in priimek, naziv institucije, na kateri je zaposlen, e-naslov, določi pa še geslo za vstop v portal in svojo vlogo pri zbiranju: vlogo Mentor/-ica izbere, kdor bo zbiral in oddajal šolska besedila, vlogo Koordinator/-ica pa tisti, ki bo poleg zbiranja in oddajanja skrbel še za komuniciranje z vodstvom šole in znotraj skupine mentorjev, če je sodelujočih učiteljev z iste šole več. Na izbiro je še Druga vloga, ki pokriva opazovalce ali stranske deležnike. 5 Portal je na voljo na spletni strani https://zbiranje.cjvt.si/solar/login/. 6 Učiteljsko skupnost motivira tudi pridobitev točk za napredovanje v nazive, za kar se pripravi potrdilo o sodelovanju pri projektu, ki se na osnovi Pravilnika o napredovanju za-poslenih na področju vzgoje in izobraževanja v nazive (Uradni list RS, št. 54/02, 123/08, 44/09, 18/10, 113/20 http://www.pisrs.si/Pis.web/pregledPredpisa?id=PRAV4272) vrednoti na Ministrstvu za izobraževanje, znanost in šport. 7 Dostopno na https://rsdo.slovenscina.eu/zbiranje-besedil-za-korpus-solar. 68 Po uspešni prijavi v portal se uporabnik znajde na strani z osre-dnjo funkcionalnostjo – oddajo besedil (Slika 2). S pomočjo spustnih seznamov določi vse metapodatke, ki jih potrebujemo za pripravo korpusnih besedil: regijo, v katero se uvršča šola sodelujočega učen-ca; šolski program (npr. osnovnošolski; splošna in strokovna gimna-zija; srednje poklicno izobraževanje); predmet, pri katerem so besedila nastala; razred oz. letnik, v katerem so besedila nastala; vrsto besedila (npr. esej ali spis; praktično besedilo, napisano za oceno; šolski test); šolsko leto, in informacijo, ali besedilo vsebuje jezikovne popravke ter ali sodelujoči učitelj dovoljuje njihovo vključitev v korpus. Sledi oddaja besedil, ki ustrezajo vnesenim metapodatkom, in so lahko v formatih txt, csv, pdf, doc, docx, xls, xlsx, ppt, pptx, jpg, jpeg ali png. Pred oddajo je naložene datoteke mogoče še enkrat pregledati in jih odstraniti ali zamenjati z drugimi. Po potrditvi oddaje se izpiše obvestilo o uspešni oddaji in številu oddanih datotek. Slika 2: Metapodatki za naložena besedila in okno za oddajo datotek v Zavihku ‘Oddaja besedil’. Na naslednji strani portala – v zavihku ‘Zgodovina sodelovanja’ se beležijo naložene in oddane datoteke uporabnika. Vidne so vse osnovne informacije o oddaji, npr. datum oddaje, ime šole, predmet ter podrobnejše informacije in pogled na naložene datoteke, katerih 69 imena so tvorjena iz kod vseh izbranih metapodatkov o besedilih (Slika 3). Slika 3: Razširjen pogled na paket oddanih besedil v zavihku ‘Zgodovina sodelovanja’. V zavihku ‘Ekipa’ (Slika 4) so shranjeni podatki o sodelujočih članih ekipe. Na levi strani zaslona so izpisana njihova imena skupaj z vlogo, pod tem pa beležena zgodovina sprememb (npr. vlog učiteljev). Desna stran zaslona prikazuje graf s podatki o številu oddanih datotek vsakega člana ekipe in graf, ki izrisuje število vseh oddaj po regijah in vrsti šole. Podatki v obeh grafih se sproti osvežujejo. Slika 4: Podatki o sodelujočih članih ekipe v ‘Zavihku Ekipa’. 70 V vmesniku se nahaja še meni za upravljanje z ekipo. Učitelj z vlogo koordinatorja tu najde podatke o članih ekipe v določeni insti-tuciji, omogočeno mu je tudi ročno dodajanje novih članov. Več ad-ministratorskih možnosti imajo raziskovalci, ki koordinirajo korpusno gradnjo. Ti lahko potrjujejo in odstranjujejo uporabnike, urejajo imena sodelujočih inštitucij, posodabljajo metapodatke že oddanih vnosov in podobno. Portal za oddajo besedil je evalviralo 16 učiteljic in učiteljev s 13 šol. Celoten vprašalnik z vsemi odgovori je na voljo kot Priloga 1 v (Arhar Holdt idr., 2023), kjer je tudi opredeljeno, katere identificirane težave so že bile odpravljene in katere čakajo na prihodnji razvoj. Ocena posameznih strukturnih elementov portala je vključevala vrednotenje funkcionalnosti spletnega mesta z osnovnimi informacijami o sodelovanju, registraciji in prijavi v portal, vno-su podatkov o besedilih, (ne)praktičnosti načina oddaje besedil, strukture portala oz. (ne)funkcionalnosti osrednjih zavihkov. Pri podajanju splošne ocene so se evalvatorji lahko opredelili še do vizualne podobe, delovanja (odzivnosti, hitrosti) portala in moti-vacijskih elementov za sodelovanje. Na splošno so bili sodelujoči z zasnovo portala zadovoljni, kot kaže Slika 5, za prihodnje delo pa bodo dobrodošli zlasti razmisleki o elementih, ki spodbujajo k dolgoročnejšemu sodelovanju. Slika 5: Učiteljska ocena funkcionalnosti na portalu za oddajo besedil. 71 4 Priprava korpusnih besedil 4.1 Transkripcija, anonimizacija in označevanje popravkov Orodje CJVT Svala8 je lokalizirana in adaptirana različica odprtodo-stopnega orodja Svala, ki je nastalo za pripravo korpusa švedščine kot drugega/tujega jezika (Wirén, 2019). Največja prednost orodja Svala je, da združuje več korakov priprave korpusnih besedil, in sicer transkripcijo, anonimizacijo in označevanje jezikovnih popravkov v besedilih.9 CJVT Svala 1.0 omogoča označevanje popravkov po dveh sistemih, in sicer po sistemu označevanja korpusa Šolar (Arhar Holdt idr., 2022b) in po sistemu označevanja korpusa KOST (Stritar Kučuk, 2023). Orodje je zasnovano tako, da je mogoče dodati tudi nove označevalne sisteme. Slika 6: Primer izvornega in popravljenega besedila v vmesniku CJVT Svala 1.0 s sistemom oznak za Šolar. 8 Orodje je prosto dostopno na https://orodja.cjvt.si/svala/, koda je na voljo na repozitoriju GitHub: https://github.com/clarinsi/swell-editor. 9 Portal SweLL, v katerega je izvorno orodje Svala vključeno (Volodina idr., 2019), skrbi še za vodenje delotokov za urejanje korpusnega gradiva, česar pa za slovenščino trenutno nismo aplicirali. 72 Način dela z novim orodjem prikazuje Slika 6. Na sliki v gornjem okencu ( izvorno besedilo) vidimo odstavek avtentičnega besedila iz korpusa Šolar, pod katerim je različica z vpisanimi učiteljskimi popravki. Pod besediloma je t. i. graf povezav, kjer so pojavnice izvornega in popravljenega besedila medsebojno povezane. S klikom na povezavo je mogoče dodati vsebinsko kategorijo jezikovnega popravka, pri čemer se do želene oznake lahko preklikamo s pomočjo menija oznak na levi strani zaslona ali s pomočjo iskalnega okenca nad tem menijem. Primer na sliki kaže popravek besede gdor – kdor in pripis oznake črkovanja, specifično za problem menjave med kon-zonanti k, g in h. V pomoč pri označevanju so tudi barve – napaka v izvornem besedilu je obarvana rdeče, popravek pa zeleno – in gumbi z ukazi za premik na prejšnjo/naslednjo povezavo, prejšnjo/naslednjo spremembo in za ročno povezavo ali razvezavo neustrezno povezanih pojavnic. Med urejanjem besedila je mogoče enostavno poskrbeti tudi za anonimizacijo, za kar je v sistemu Šolar predvidena posebna oznaka. Anonimizirati je mogoče s pomočjo kod, npr. Mirko – XImeX, ali z uporabo nadomestnih pojavnic, pri čemer je mogoče reproducirati in označiti tudi morebitne jezikovne popravke (npr. z Mirkotom – z Markom). 4.2 Jezikoslovno označevanje in korpusni format Želja in potreba raziskovalne skupnosti je zagotoviti primerljivo jezikoslovno označevanje in standardizirani format temeljnih jezikovnih virov. Za specializirane korpuse, kakršen je Šolar, je ključna metodološko ustrezna povezljivost z referenčnim korpusom, pa tudi drugimi viri iz družine pedagoških korpusov, kamor sodita denimo korpus šolskih učbenikov (Kosem idr., 2022) in mladinske književnosti (Verdonik idr., 2022). Če so korpusni podatki različno označeni in v različnih formatih, so primerjave težje in manj natančne. Treba je torej načrtno skrbeti, da razvojni korpus na ravni jezikovnih oznak in formata sledi standardom, ki se vzpostavljajo v raziskovalnem prostoru, ter da se v primeru novosti tudi ustrezno posodablja. 73 Slika 7: Cevovod priprave korpusnih besedil za korpuse z označenimi jezikovnimi napakami. Slika 7 prikazuje trenutni cevovod priprave korpusa Šolar in širše korpusov, ki vsebujejo jezikovne popravke. Proces se prične z besedilom, ki je bodisi ročno napisano ali natipkano. S programom CJVT Svala besedilo uredimo v dve različici, izvorno in popravljeno, ter dodamo oznake popravkov. Tako strukturirani podatki se izvozijo v formatu JSON. Naslednji korak je jezikoslovno označevanje. Trenutno najsodobnejši in najzmogljivejši označevalnik za slovenščino je Classla-Stanza (Terčon & Ljubešić 2023), ki omogoča pripis oznak na številnih nivojih. Po označevanju so datoteke na voljo v formatu CONLLU. Sledi pretvorba v XML TEI, pripravljen posebej za korpuse z jezikovnimi popravki, kjer so korpusna besedila opremljena z oznakami in metapodatki o vrsti in izvoru besedila. Skladno s praksami priprave jezikovnih virov, ki so dostopni prek repozitorija CLARIN.SI, se iz tega formata pripravi različica VERT za vključitev v konkordanč- nike noSketchEngine in KonText. Za format TEI10 smo se odločili že pri pripravi korpusa Šolar 2.0, ki je bil na voljo v različici brez vpisanih popravkov (v celoti 10 Spletna stran iniciative: https://tei-c.org/. 74 kompatibilen s TEI) in s popravki (prilagojeni TEI). Format, ki je na voljo od korpusa Šolar 3.0 naprej, sledi ločitvi korpusa na tri dele: (jezikoslovno označeno) izvorno besedilo, (jezikoslovno označeno) popravljeno besedilo ter oznake popravkov na spremenjenih delih posameznih povedi. Pri urejanju formata so bile odpravljene teža-ve s segmentacijo napak, ki je predhodno dovoljevala t. i. gnezdene popravke: primere, kjer je bila poleg oznake popravka na določenem segmentu besedila prisotna dodatna oznaka popravka, ki je veljala le za manjši vsebovani del tega segmenta. Gnezdenja popravkov program Svala ne dovoljuje, zato jih tudi novi format ne predvideva. Tovrstne primere, ki so se v različici 2.0 pojavljali v približno 350 odstavkih, smo za Šolar 3.0 ročno popravili in odpravili. 5 Korpus Šolar 3.0 5.1 Sestava korpusa Šolar 3.0 Na projektu je bila pripravljena različica 3.0 korpusa Šolar,11 ki v vseh pogledih, z izjemo vsebine, prinaša nadgradnjo v primerjavi s prejšnjimi verzijami. Korpus sestavlja 5.485 pisnih izdelkov, ki so jih pri pouku samostojno tvorili učenci slovenskih osnovnih in srednjih šol. Večinoma gre za besedila učencev 7.–9. razreda osnovne šole – vključen pa je tudi manjši vzorec besedil iz 6. razreda – in dijakov vseh letnikov srednje šole. S korpusom torej opazujemo pisno kom-petenco šolajoče se populacije starosti 12–18 let. Vsako besedilo je opremljeno z metapodatki, in sicer: vrsta šole (osnovna ali srednja), predmet, pri katerem je bilo besedilo tvorjeno, razred oz. letnik tvorca besedila, regija, v katero je šola umeščena, in datum nastanka besedila. Del korpusa (2.094 besedil) je označen z učiteljskimi popravki po sistemu oznak, ki ga podrobneje opisujemo v nadaljevanju tega razdelka. Popravki učiteljev so del izvornih pisnih izdelkov učencev, kar pomeni, da odsevajo realno sliko popravljanja šolskih spisov v izobraževalnem procesu. V Tabelah 1, 2, 3 in 4 predstavljamo vsebino korpusa, pri čemer je vsaka tabela razdeljena v dva dela: v levem, belem delu so 11 Dostopno na http://hdl.handle.net/11356/1589. 75 predstavljeni podatki za celoten korpus, v desnem, osivenem delu pa podatki samo za besedila z učiteljskimi popravki. Števila in od-stotki so vedno podani glede na določeno kategorijo. Tabela 1 prikazuje razporeditev korpusnih besedil oz. števila besed glede na slovenske regije. Besedila iz severovzhodnih regij (Celje, Maribor, Murska Sobota, Slovenj Gradec) predstavljajo 23,9 % vseh besedil, besedila iz jugozahodnih regij (Gorica, Koper, Kranj, Krško, Ljubljana, Novo mesto, Postojna) pa 76,1 %. Od vseh regij ima ljubljanska regija tako največje število besedil (1495 oz. 27,3 %) kot besed (453,030 oz. 27,7 %). Najslabše zastopani regiji sta murskosoboška z 0,3 % besed in postojnska z 1,7 % besed. Tabela 1: Število in odstotek besedil ter besed glede na regije v korpusu Šolar 3.0. Regija Št. Odst. Št. besed Odst. Št. pop- Odst. Št. besed Odst. besedil besedil besed ravljenih poprav- v poprav. besed v besedil ljenih besedilih poprav. besedil besedilih Celje 623 11,4 % 177644 10,9 % 32 0,6 % 11084 0,7 % Maribor 271 4,9 % 71258 4,4 % 92 1,7 % 27097 1,7 % Murska 43 0,8 % 4733 0,3 % 22 0,4 % 3223 0,2 % Sobota Slovenj 372 6,8 % 97966 6,0 % 102 1,9 % 22313 1,4 % Gradec Gorica 521 9,5 % 263852 16,1 % 321 5,9 % 205477 12,6 % Koper 111 2,0 % 32898 2,0 % 74 1,3 % 21420 1,3 % Kranj 380 6,9 % 75524 4,6 % 10 0,2 % 501 0,0 % Krško 656 12,0 % 205366 12,6 % 147 2,7 % 40637 2,5 % Ljubljana 1495 27,3 % 453030 27,7 % 467 8,5 % 166221 10,2 % Novo 924 16,8 % 224862 13,7 % 249 4,5 % 83798 5,1 % mesto Postojna 89 1,6 % 28274 1,7 % 0 0 % 0 0 % Skupaj 5485 100 % 1635407 1907562 1516 27,6 % 581771 35,6 % Tabela 2 prikazuje razporeditev korpusnih besedil in števila besed glede na vrsto šole. Večina besedil prihaja iz različnih vrst srednjih šol, medtem ko osnovnošolska besedila predstavljajo 19,7 % vseh korpusnih besedil oz. 16,3 % besed. Najbolj izstopajo visoki 76 deželi strokovnih šol in gimnazij, ki predstavljajo 41,2 % besedil in 37,5 % besed oz. 28,2 % besedil in 37,6 % besed. Delež besedil iz poklicnih šol je 9,8 % in predstavljajo 7,2 % besed. Tabela 2: Število in odstotek besedil ter besed glede na vrsto šole v korpusu Šolar 3.0. Vrsta šole Št. Odst. Št. besed Odst. Št. pop- Odst. Št. besed Odst. besedil besedil besed ravljenih poprav- v poprav. besed v besedil ljenih besedilih poprav. besedil besedilih Osnovna 1081 19,7 % 267146 16,3 % 395 7,2 % 110932 6,8 % šola Strokovna 2262 41,2 % 613483 37,5 % 574 10,5 % 186809 11,4 % šola Poklicna 540 9,8 % 117886 7,2 % 143 2,6 % 44878 2,7 % šola Gimnazija 1549 28,2 % 615067 37,6 % 404 7,4 % 239152 14,6 % Neznano 53 1,0 % 21825 1,3 % 0 0 % 0 0 % Skupaj 5485 100 % 1635407 100 % 1516 27,6 % 581771 35,6 % Pregled razporeditve besedil in števila besed glede na razred osnovne šole oz. letnik srednje šole, ki ga najdemo v Tabeli 3, prikazuje dokaj uravnoteženo zastopanost. Najbolj izstopa 4. letnik s 25 % besedil oz. 27,9 % besed, kar pa je v skladu s pisno produkcijo, saj je te največ ravno v 4. letniku, ko so tudi besedila daljša. Nižjo zastopanost besedil iz 5. letnika in maturitetnega tečaja lahko poja-snimo s tem, da sta redkeje obiskana. 77 Tabela 3: Število in odstotek besedil ter besed glede na letnik/razred v korpusu Šolar 3.0. razred / Št. Odst. Št. besed Odst. Št. pop- Odst. Št. besed Odst. letnik besedil besedil besed ravljenih poprav- v poprav. besed v besedil ljenih besedilih poprav. besedil besedilih 6. razred 208 3,8 % 45305 2,8 % 23 0,4 % 7685 0,5 % 7. razred 229 4,2 % 54433 3,3 % 92 1,7 % 22949 1,4 % 8. razred 325 5,9 % 93628 5,7 % 132 2,4 % 43505 2,7 % 9. razred 319 5,8 % 73780 4,5 % 148 2,7 % 36793 2,2 % 1. letnik 1024 18,7 % 317130 19,4 % 427 7,8 % 163610 10,0 % 2. letnik 1018 18,6 % 252775 15,5 % 236 4,3 % 108411 6,6 % 3. letnik 870 15,9 % 308496 18,9 % 252 4,6 % 99299 6,1 % 4. letnik 1373 25,0 % 456196 27,9 % 181 3,3 % 92522 5,7 % 5. letnik 86 1,6 % 21510 1,3 % 25 0,5 % 6997 0,4 % Maturitetni 33 0,6 % 12154 0,7 % 0 0 % 0 0 % tečaj Skupaj 5485 100 % 1635407 100 % 1516 27,6 % 581771 35,6 % Tabela 4 predstavlja razporeditev korpusnih besedil oz. besed glede na tip besedila. Kot lahko vidimo, prevladujejo eseji (58,7 % besedil oz. 77,6 % besed), sledijo pisni izdelki, ustvarjeni pri pouku (15,0 % besedil oz. 6,9 % besed), testi (13,7 % besedil oz. 11,1 % besed) in praktična besedila, napisana za oceno (12,6 % besedil oz. 4,4 % besed). Tabela 4: Število in odstotek besedil ter besed glede na tip besedila v korpusu Šolar 3.0. Tip Št. Odst. Št. besed Odst. Št. pop- Odst. Št. besed Odst. besedila besedil besedil besed ravljenih poprav- v poprav. besed v besedil ljenih besedilih poprav. besedil besedilih Pisni 823 15,0 % 112107 6,9 % 201 3,7 % 31988 2,0 % izdelek Esej 3218 58,7 % 1269793 77,6 % 1280 23,3 % 547169 33,5 % Praktično 691 12,6 % 71455 4,4 % 0 0 % 0 0 % besedilo Test 753 13,7 % 182052 11,1 % 35 0,6 % 2614 0,2 % Skupaj 5485 100 % 1635407 100 % 1516 27,6 % 581771 35,6 % 78 Korpus je bil jezikoslovno označen s cevovodom CLASSLA v1.1.112 na ravneh tokenizacije, stavčne segmentacije, lematizacije, oblikoskladenjskih oznak po sistemu MULTEXT-East v6,13 odvisnostne skladnje po sistemu JOS-SYN14 in imenskih entitet.15 Oznake na nivoju odvisnostne skladnje in imenskih entitet predstavljajo novost v primerjavi z različico 2.0, izboljšana pa je tudi natančnost oznak na ostalih nivojih, saj so bile pripisane z izboljšanim označevalnim orodjem. 5.2 Metodologija označevanja jezikovnih popravkov Pri procesu odločanja, v katero kategorijo popravkov spada določe-na težava, so nepogrešljive jasne smernice. Za korpus Šolar 3.0 smo uporabili sistem oznak, ki je bil razvit v različici korpusa 2.0, a smo ga dodatno uredili in nadgradili (Arhar Holdt idr., 2022b). V nadaljevanju predstavljamo osnovno kategorizacijo oznak za jezikovne popravke. Glavnih kategorij je sedem, te pa se hierarhično delijo na podkategorije. Črkovanje: na to raven uvrščamo učiteljske popravke, ki se na-našajo na zapis glasu ali glasovnega sklopa v besedi. Lahko gre za odvečne, izpuščene ali zamenjane črke ( polen* [laži] namesto poln [laži]; [je] vrjel* namesto [je] verjel; vstrajen* namesto vztrajen) ali črkovne sklope ( zberejejo* namesto zberejo; sprej* namesto sprejel; zastojn* namesto zastonj), vzglasje besed na u- oz. v- ( Vsedla* namesto Usedla; uzamejo* namesto vzamejo) in variantne predloge ( k* [koncu] namesto h). Oblika: na ravni oblike označujemo (a) težave na ravni izbire sklona, števila, spola, recimo [o dekletu, ki je] zanosila* namesto zanosilo, in kategorij drugih besednih vrst, (b) popravke besednih oblik, ki niso del standardnih paradigem, recimo poprimiti* namesto poprijeti in (c) dodatne oznake, ki jih pripisujemo le v primeru, da osnovna vsebinska oznaka popravka že obstaja, dodatna oznaka pa 12 https://github.com/clarinsi/classla/ 13 https://wiki.cjvt.si/books/04-oblikoskladnja-multext-east 14 https://wiki.cjvt.si/books/06-odvisnostna-skladnja-jos-syn 15 https://wiki.cjvt.si/books/08-imenske-entitete 79 omogoča združevanje podatkov po drugem kriteriju ali pripis dodatne (poljubne) informacije. Tukaj je denimo informacija o variantnosti besedne oblike, recimo obliki grada in gradu, ki sta glede na trenutno normo obe legitimni, a je ena nevtralnejša, na kar želi učitelj učenca opozoriti. Besedišče: na to raven umeščamo popravke besedišča, kar vključuje menjavo ene besede z drugo, pri čemer se lahko besedna vrsta in/ali besednozvezna struktura ohrani ali spremeni. Podkategorije so razdeljene na probleme po besednih vrstah, npr. pri samo-stalniku ena izmed oznak obeležuje napačno lastno ime ( Lovrenc* namesto Lovro [ Kuhar]), pri glagolu menjavo glagolov moči-morati ( [ne bi] moral* [opisati] namesto mogel) ipd. Ločeni so primeri podkategorij z menjavo prek meja besedne vrste (npr. polnopomenske besede v zaimek ali obratno: Hamlet – on), zadnja skupina pa prina- ša dodatne oznake za zaznamovanost besede, recimo faks* namesto fakulteta. Skladnja: na tej ravni označujemo popravke, ki posegajo na raven besednozvezne, stavčne in povedne sklanje, npr. popravke be-sednega reda ( [prepričan je da] generalove ukaze je potrebno* [upo- števati] namesto je generalove ukaze potrebno), skladenjskih struktur ( truplo matere* namesto materino truplo), medstavčnih razmerij ( Herod je nekega dne priredil slavje. Salomi slavje* ni bilo preveč po godu. namesto Herod je nekega dne priredil slavje, ki Salomi ni bilo preveč po godu. ) itd. Podkategorija dodatne oznake tukaj zaobjema pleonazme, recimo [Ko se je] vrnila nazaj* namesto [Ko se je] vrnila, odvečne, pomensko prazne ali vsebinsko napačne dele. Zapis: na ravni zapisa označujemo predvsem popravke začetnic ( [v] Nemškem* [jeziku] namesto nemškem) in pisanja skupaj ali narazen ( Nažalost* namesto Na žalost). V korpusu so označena tudi mesta napačne stave ločil, kjer prevladuje raba vejice. Skupina ločil je edina, ki ni bila v celoti ročno pregledana in kategorizirana, in sicer zaradi razširjenosti pojava. Povezani popravki: v to kategorijo uvrščamo vse primere, ki niso samostojen popravek, ampak so posledica primarnega jezikovnega popravka, recimo popravek besedne oblike, ki je le posledica 80 menjave pred njo stoječega predloga. Da lahko označene podatke ustrezno statistično interpretiramo, je pomembno, da so tovrstni posegi v besedilo ločeni od primarnih popravkov učenčevih jezikovnih izbir. Povezani popravki v osnovi sledijo obstoječi tipologiji, le da del oznake ponazarja, da gre za povezan popravek. Nečitljivi in sumljivi primeri: posebej so označeni primeri, kjer se v učenčevem besedilu ali učiteljskem popravku pojavlja nečitljiv besedilni fragment, ki ga pri transkripciji ni bilo mogoče interpreti-rati, recimo §§§mor§§§; in primeri, kjer so popravki nenavadni, kjer recimo sumimo, da je prišlo do napake pri transkripciji ali je popravek enak napaki – tem pripišemo oznako za preverbo, ki je začasna in se v končni različici korpusa ne pojavlja. 6 Dostopnost korpusa Skladno z dobrimi praksami odprtega dostopa do jezikovnih podatkov je korpus Šolar 3.0 kot baza na voljo pod odprto licenco (CC BY-NC- -SA 4.0) na repozitoriju CLARIN.SI (Arhar Holdt idr., 2022c). Vključen je tudi v konkordančnike, ki so del infrastrukture CLARIN.SI: KonText, NoSketch Engine Bonito in NoSketch Engine Crystal. Ti konkordančni-ki omogočajo ločen uvoz (pod)korpusov z izvornimi (‘korpus učenci’) in popravljenimi besedili (‘korpus učitelji’), nato pa v vsaki od različic napredno iskanje, prikaz in izvoz korpusnih podatkov. • Šolar 3.0 kot baza: http://hdl.handle.net/11356/1589 • KonText: • korpus učenci: https://www.clarin.si/kontext/query?corpname=solar30_orig • korpus učitelji: https://www.clarin.si/kontext/query?corpname=solar30_corr • NoSketch Engine Bonito: • korpus učenci: https://www.clarin.si/noske/sl.cgi/first?corpname=solar30_ orig&reload=1&iquery= • korpus učitelji: https://www.clarin.si/noske/sl.cgi/first?corpname=solar30_ corr&reload=1&iquery= 81 • NoSketch Engine Crystal: • korpus učenci: https://www.clarin.si/ske/#dashboard?corpname=solar30_orig • korpus učitelji: https://www.clarin.si/ske/#dashboard?corpname=solar30_corr Optimalen in za bodoče delo zaželen bi bil konkordančnik, ki omogoča pregleden skupen prikaz obeh korpusnih različic, vendar že ločena umestitev v zgoraj naštete konkordančnike omogoča številne načine napredne rabe korpusnih podatkov. Osnovna zmoglji-vost je izdelava konkordančnega niza, pri čemer je mogoče kot parametre iskanja uporabiti raznovrstne v korpusu pripisane oznake. Na Slikah 8 in 9 je za primer prikazan vmesnik NoSketchEngine Bonito, in sicer rezultati iskanja s pomočjo oznake jezikovnega popravka, ki združuje črkovalne težave sklopa nj. Kot kaže slika, konkordančnik omogoča enostavno kopiranje zgledov, kar je koristno za pripravo učnih gradiv in vaj. Izvažati je mogoče konkordance, kolokacije, sezname pojavnic in oznak, pri katerih je zlasti ključna možnost primerjave podatkov z drugimi korpusi, ki so vključeni v orodje; kot je bilo omenjeno v Razdelku 4.2, je za korpus Šolar dragocena zlasti možnost primerjave z referenčnim korpusom pisne slovenščine, ki je trenutno Gigafida 2.0 (Krek idr., 2020). Dodatne možnosti iskanja po jezikovnih oznakah in vizualizacija drevesnic, pripravljenih po sistemu odvisnostne skladnje JOS-SYN, ponuja prostodostopni program Q-CAT. Slika 10 prikazuje iskanje glagolskih oblik, ki so skladenjsko povezane (kot del povedka) z lemo "se". V izbrani povedi so z zeleno prikazana mesta, ki jih je označevalnik prepoznal kot imenske entitete, pod pojavnico so nani-zane leme in oznake MSD, z rumenimi povezavami so povezani deli povedka, z zeleno deli besednih zvez (v podrednem in prirednem razmerju), z rdečo pa stavčni členi, pri čemer ena grobo ustreza jezikoslovni kategoriji osebka, dve predmeta, tri določil, ki opredeljujejo lastnosti, in štiri ostalih določil, npr. kraja in časa.16 16 Označevalne smernice in predstavitev oznak: https://wiki.cjvt.si/books/06-odvisnostna-skladnja-jos-syn. 82 Slika 8: Prikaz Šolarja 3.0 – učenci v konkordančniku NoSketchEngine Bonito. Slika 9: Prikaz Šolarja 3.0 – učitelji v konkordančniku NoSketchEngine Bonito. 83 Slika 10: Iskanje po skladenjskih oznakah in prikaz označene povedi v programu Q-CAT. 7 Sklep in nadaljnje delo V prispevku smo predstavili namen in način gradnje razvojnega korpusa za slovenščino. Da bi s pripravo tovrstnih korpusov lahko učinkovito nadaljevali, smo vzpostavili protokole za kontinuirano zbiranje in procesiranje korpusnega gradiva, razvili pa smo tudi nova orodja za ročno označevanje in kategoriziranje jezikovnih popravkov. Nova orodja so odprto dostopna za nadaljnjo rabo, že med projektom pa smo jih uporabili za izboljšavo in dopolnitev obstoječega korpusa. Prva prioriteta za nadaljnji razvoj korpusa je njegova vsebinska nadgradnja. Poskrbeti je treba za povečanje njegovega obsega in reprezentativnosti po regijah, vrsti šole, razredu/letniku avtorja in predmetu, pri katerem je besedilo nastalo. Komplementarno zasnovi korpusa Šolar je treba dodati zbiranje v smer širjenja korpusne vsebine na eni strani proti pisni tvorbi v nižjih razredih in na drugi proti študentskemu pisanju (slednje je že vključeno v raziskovalni 84 projekt ARIS J7-3159,17 vendar le na ravni razvoja metodologije). Želja je zagotoviti redno korpusno posodabljanje, kar pomeni zbiranje, vzorčenje in transkribiranje vsako tretje šolsko leto. Da bi slednje lahko uspelo, je treba dvigniti ozaveščenost in spodbujati šole k rednemu sodelovanju. Zahtevane kadrovske kapacitete za takšen kontinuiran razvoj so 1 FTE, ki si ga na letni ravni delita jezikoslovec, ki skrbi za zbiranje in pripravo gradiva, ter tehnični sodelavec, ki skrbi za korpusni format in dostopnost v vseh želenih orodjih. Druga prioriteta, ki je bila vključena v projekt Nadgradnja korpusov za slovenščino kot drugi in tuji jezik KOST in KUUS,18 je izboljšati dostopnost in povečati izrabo korpusnih podatkov. Za osnovne korpusne analize je vključitev v konkordančnike CLARIN.SI izrednega pomena, vendar obstoječa orodja ne omogočajo polne izrabe bogato označenega gradiva, ki ga prinaša korpus Šolar. V nadaljevanju je treba razviti specializirani konkordančnik, ki bo uporaben za vse korpuse z jezikovnimi popravki. Novi konkordančnik mora biti po zasnovi primerljiv z obstoječim, da se omogoči uporabniški prenos znanja, obenem pa mora imeti dodatne možnosti za izrabo metapodatkov, s pomočjo katerih bi lahko natančneje interpretirali posamezne rezultate iskanj po korpusu. Še bolj nujna je možnost preglednega pri-kazovanja jezikovnih napak skupaj s popravki, zmogljivo iskanje po izvornih in popravljenih oblikah ter klikljive statistike najpogostejših jezikovnih popravkov. Z razvojem specializiranega konkordančnika bo Šolar postal širše uporaben jezikovni vir, zanimiv za pisce učnih gradiv, oblikovalce kurikulov, učitelje ali tiste, ki jih zanima jezik na splošno. Omogočal bo prepoznavo najpogostejših jezikovnih napak, značilnih za govorce določenih prvih jezikov, in s tem pripravo bolj osredotočenih učnih gradiv, pa tudi ustreznejše poudarke v samem pedagoškem procesu. Za najširšo možno rabo je treba zagotoviti tudi izobraževanja učiteljev o rabi novega korpusa in o izrabi jezikovnotehnoloških virov pri pouku slovenščine (in širše). Tretja prioriteta je nadaljnji razvoj metodologije zbiranja. Velik časovni prihranek bi ponudila dopolnitev delotokov z optičnim 17 Spletna stan projekta: https://www.cjvt.si/prop/. 18 Spletna stran projekta: https://www.cjvt.si/korpus-kost/projekti/. 85 branjem ročno napisanih besedil, pri čemer bodo potrebne adap-tacije za šolsko rabo (kjer so v besedilih prisotne črkovalne napake in druge značilnosti pisanja, ki se razvija) ter natančno pregledovanje ter popravljanje optično prebranih rokopisov. Druga možnost za pohitritev dela je strojno podprta identifikacija, vpis in kategorizacija učiteljskih jezikovnih popravkov v ročno napisanih ali digitalnih besedilih – učiteljski popravki so v določeni meri predvidljivi in ponavljajoči se, kar bi bilo mogoče izkoristiti. Tretja možnost za pohitritev postopka je vključitev množičenja z didaktično perspek-tivo v proces korpusnega grajenja. Pri tem bi bilo mogoče sodelovati s predavatelji, ki poučujejo jezikovno didaktiko in sorodne predmete na terciarni stopnji in bi v transkribiranje ter označevanje popravkov vključili študente in študentke, ki se pripravljajo na podajanje jezikovne povratne informacije učencem in dijakom. Množičenje je mogoče organizirati tudi za širšo populacijo, pri čemer pa je treba zagotoviti ustrezno kontrolo kvalitete in motivacijo za sodelovanje. V projektu smo ugotovili, da je v nadaljevanju treba nekoliko bolje urediti pretvorbo besedil iz formata JSON, ki ga uporablja program Svala, ter končnim želenim XML TEI. Izziv je zlasti zapisovanje ločil, ki se za označevanje v Svali ločijo od besednih pojavnic, za končni format pa jih je treba ustrezno stično oz. nestično spet urediti v izvorno obliko, ki je v šolskih besedilih lahko tudi neskla-dna s trenutnimi jezikovnimi pravili. Nenazadnje, evalvirati je treba, v kolikšni meri jezikovne napake v korpusnih besedilih vplivajo na natančnost strojnega jezikovnega označevanja na posameznih označevalnih ravninah, in zagotoviti ustrezne metodološke nadgradnje ali opozorila. Predvsem pri ciljih, ki se vežejo na metodologijo, je treba slediti mednarodnim iniciativam, rešitvam in dobrim praksam, ne le na področju razvojnih korpusov, ampak širše na področju digitalne humanistike, npr. za metodologijo optičnega branja, transkribiranja itd. Stremeti je treba tudi k oblikovanju mednarodnih standardov za gradnjo korpusov z jezikovnimi popravki, saj bi to izboljšalo njihovo primerljivost in olajšalo samo uporabo, lažji bi bil tudi prenos znanja in rešitev. Nenazadnje, zagotoviti je treba raziskave, ki bodo 86 omogočile sintetične analize in podatke za pripravo pedagoških učnih gradiv, jezikovnih priročnikov in orodij. Velik potencial predstavlja primerjava podatkov iz korpusa Šolar (šolska produkcija) s podatki, ki reprezentirajo šolsko recepcijo (npr. učbeniki, mladinska književnost, uporabniško generirane spletne vsebine), na drugi strani pa primerjava šolskega pisanja v kontekstih, kjer se slovenščina poučuje kot prvi jezik v primerjavi s poučevanjem slovenščine kot drugega/tujega jezika. Kot smo izpostavili v uvodu, bo pojav postopkov in orodij generativne umetne inteligence brez dvoma prinesel tudi nove, še nepredvidene izzive in rešitve, zato je toliko bolj ključ- no, da tudi za slovenščino novim možnostim in spoznanjem karseda hitro sledimo. Zahvala Projekt Razvoj slovenščine v digitalnem okolju sta med leti 2020 in 2023 sofinancirali Republika Slovenija in Evropska unija iz Evropskega sklada za regionalni razvoj (Operacija se je izvajala v okviru Operativnega programa za izvajanje evropske kohezijske politike v obdobju 2014–2020). Projekt Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti (J7-3159) in program Jezikovni viri in tehnologije za slovenski jezik (P6-0411) sofinancira Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije iz državnega proračuna. Literatura Abel, A., Glaznieks, A., Nicolas, L., & Stemle, E. (2014). KoKo: An L1 Learner Corpus for German. In Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014), Reykjavik, Iceland (pp. 2414–2421). European Language Resource Association (ELRA). Arhar Holdt, Š., Kosem, I., & Stritar Kučuk, M. (2022a). Metode in orodja za lažjo pripravo korpusov usvajanja jezika. In N. Pirih Svetina & I. Ferbežar (ur.), Na stičišču svetov: slovenščina kot drugi in tuji jezik, Obdobja 41 (pp. 23–30). Ljubljana: Založba Univerze v Ljubljani. https:// doi.org/10.4312/Obdobja.41.2784-7152 87 Arhar Holdt, Š., Lavrič, P., Roblek, R., & Goli, T. (2022b). Kategorizacija učiteljskih popravkov: Smernice za označevanje korpusa Šolar. Različica 1.1. Rezultat projekta Razvoj slovenščine v digitalnem okolju. https://wiki. cjvt.si/books/11-jezikovni-popravki-solar/page/oznacevalne-smernice Arhar Holdt, Š., Rozman, T., Stritar Kučuk, M., Krek, S., Krapš Vodopivec, I., Stabej, M., Pori, E., Goli, T., Lavrič, P., Laskowski, C., Kocjančič, P., Klemenc, B., Krsnik, L., & Kosem, I. (2022c). Developmental corpus Šolar 3.0. Slovenian language resource repository CLARIN.SI. http:// hdl.handle.net/11356/1589 Arhar Holdt, Š., & Kosem, I. (2023). Šolar, the developmental corpus of Slovene. PREPRINT (Version 1) available at Research Square. doi: 10.21203/rs.3.rs-3274669/v1 Arhar Holdt, Š., Kosem, I., Pori, E., Munda, T., Stritar Kučuk, M., Voršič, I., Petek, T., Šek, P., & Krsnik, L. (2023). Šolar 3.0: korpus šolskih pisnih besedil: poročilo projekta Razvoj slovenščine v digitalnem okolju: aktivnost DS1.6. Ljubljana: Univerza v Ljubljani, Center za jezikovne vire in tehnologije, 2023. https://www.cjvt.si/rsdo/wp-content/uploads/ sites/18/2023/06/RSDO_Kazalnik_Solar_v2.pdf Arnardóttir, Þ., Xu, X., Guðmundsdóttir, D., Stefánsdóttir, L. B., & Ingason, A. K. (2021). Creating an error corpus: Annotation and applicability. In M. Monachini & M. Eskevich (Eds.), CLARIN Annual Conference Proceedings (pp. 59–63). Virtual Edition. Barbagli, A., Lucisano, P., Dell’Orletta, F., Montemagni, S., & Venturi, G. (2016). CItA: An L1 Italian learners corpus to study the development of writing competence. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia (pp. 88–95). European Language Resources Association (ELRA). Berkling, K. (2016). Corpus for children’s writing with enhanced output for specific spelling patterns (2nd and 3rd grade). In N. Calzolari idr. (Eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, Slovenia (pp. 3200–3206). European Language Resources Association (ELRA). Berkling, K. (2018). A 2nd Longitudinal Corpus for Children’s Writing with Enhanced Output for Specific Spelling Patterns and Evaluation In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan (pp. 2262– 2268). European Language Resources Association (ELRA). 88 Borghi, C. C. (2013). Analisi di produzioni scritte. Valutazioni e misure au-tomatizzate di elaborati scolastici. Tesi di dottorato in pedagogia speri-mentale. Università di Roma. Glaznieks, A., Frey, J. C., Stopfner, M., Zanasi, L., & Nicolas, L. (2022). LEONIDE: A longitudinal trilingual corpus of young learners of Italian, German and English. International Journal of Learner Corpus Research, 8(1), 97–120. Granger, S. (1998). The computer learner corpus: A versatile new source of data for SLA research. In S. Granger (Ed.), Learner English on Computer (pp. 3–18). Addison Wesley Longman. Ho-Dac, L. M., Fleury, S., & Ponton, C. (2020). É:calm resource: a resource for studying texts produced by French pupils and students. In Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), Marseille, France (pp. 4327–4332). European Language Resources Association (ELRA). Ingason, A. K., Arnardóttir, Þ., Stefánsdóttir, L. B., & Xu, X. (2021). The Ice-landic Child Language Error Corpus (IceCLEC) Version 1.1, CLARIN-IS, http://hdl.handle.net/20.500.12537/133 Kilgarriff, A., Rychlý, P., Smrz, P., & Tugwell, D. (2004). The Sketch Engine. In G. Williams, & S. Vessier (Eds.), Proceedings of the Eleventh EURALEX International Congress, Lorient, France (pp. 105–116). Universite de Bretagne-sud. Kosem, I., Stritar Kučuk, M., Može, S., Zwitter Vitez, A., Holdt, A., Š., & Rozman, T. (2012). Analiza jezikovnih težav učencev: korpusni pristop. Trojina, zavod za uporabno slovenistiko. Kosem, I., Rozman, T., Arhar Holdt, Š., Kocjančič, P., & Laskowski, C. A. (2016). Šolar 2.0: nadgradnja korpusa šolskih pisnih izdelkov. In T. Erjavec & D. Fišer (Eds.), Proceedings of the Conference on Language Technologies & Digital Humanities, September 29th – October 1st, 2016 Faculty of Arts, University of Ljubljana, Ljubljana, Slovenia (pp. 95–100). Ljubljana University Press, Faculty of Arts. http://www.sdjt. si/wp/wp-content/uploads/2016/09/JTDH-2016_Kosem-et-al_So-lar-2-0-nadgradnja-korpusa-solskih-pisnih-izdelkov.pdf Kosem, I., Pori, E., Žagar, A., & Arhar Holdt, Š. (2022). Corpus of Slovenian textbooks ccUčbeniki 1.0, Slovenian language resource repository CLARIN.SI. http://hdl.handle.net/11356/1693 Krek, S., Arhar Holdt, Š., Erjavec, T., Čibej, J., Repar, A., Gantar, P., Ljubešić, N., Kosem, & I., Dobrovoljc, K. (2020). Gigafida 2.0: the reference 89 corpus of written standard Slovene. In N. Calzolari (Ed.), LREC 2020, Twelfth International Conference on Language Resources and Evaluation, May 11– 16, 2020, Palais du Pharo, Marseille, France: conference proceedings (pp. 3340–3345). Paris: ELRA. http://www.lrec-conf.org/ proceedings/lrec2020/LREC-2020.pdf Laarmann-Quante, R., Dipper, S., & Belke, E. (2019). The making of the Litkey Corpus, a richly annotated longitudinal corpus of German texts written by primary school children. In Proceedings of the 13th Linguistic Annotation Workshop, Florence, Italy (pp. 43–55). Association for Computational Linguistics. Leech, G. (1997). Teaching and language corpora: A convergence. In A. Wichmann, S. Fliegelstone, T. McEnery, & G. Knowles (Eds.), Teaching and language corpora (pp. 1–23). Routledge. Ljubešić, N., & Dobrovoljc, K. (2019). What does Neural Bring? Analysing Improvements in Morphosyntactic Annotation and Lemmatisation of Slovenian, Croatian and Serbian. In Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing, Florence, Italy (pp. 29– 34). Association for Computational Linguistics. Marconi, L., Ott, M., Pesenti, E., Ratti, D., & Tavella, M. (1993). Lessico ele-mentare: dati statistici sull’italiano scritto e letto dai bambini delle ele-mentari. Zanichelli. Martins, M., Janssen, M., Santos, T., Lopes, R., & Souza, T. (2020). DOESTE v0.5. LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11234/1-3262 Pala, K., Rychlý, P., & Smrž, P. (2003). Text Corpus with Errors. In V. Matoušek, & P. Mautner (Eds.), Text, Speech and Dialogue (TSD 2003) Lecture Notes in Computer Science (2807 vol., pp. 90–97). Springer. Parr, J. M. (2010). A dual purpose database for research and diagnos-tic assessment of student writing. Journal of Writing Research, 2(2), 129–150. Popič, D. (2014). Revising translation revision in Slovenia. In T. Mikolič Južnič, K. Koskinen, & N. Kocijančič Pokorn (Eds.), New Horizons in Translation Research and Education 2 (pp. 72–89). University of Eastern Finland. https://erepo.uef.fi/handle/123456789/14340 Sampson, G. (2003). The LUCY Corpus: Documentation. University of Sus-sex. Retrieved August 15, 2023, from https://www.grsampson.net/ LucyDoc.html 90 Stritar Kučuk, M. (2022). KOST med korpusi usvajanja tujega jezika. V N. Pirih Svetina & I. Ferbežar (ur.), Na stičišču svetov: slovenščina kot drugi in tuji jezik, Obdobja 41 (str. 323–334). Ljubljana: Založba Univerze v Ljubljani. https://centerslo.si/wp-content/uploads/2022/11/Stritar-Kucuk_Obdobja-41.pdf Stritar Kučuk, M. (2023). KOST 1.0: Priročnik za označevanje napak, delovna verzija. https://www.cjvt.si/korpus-kost/wp-content/uploads/sites/24/2022/04/Prirocnik-za-oznacevanje-napak-v-KOST-u-2022-04-13.pdf Terčon, L., & Ljubešić, N. (2023). CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic Languages. arXiv. doi: 10.48550/ arXiv.2308.04255 Verdonik, D., Majninger, S., Dobrovoljc, K., Antloga, Š., Zögling Markuš, A., Voršič, I., Zemljak Jontes, M., Koletnik, M., Valh Lopert, A., Šek Martük, P., Kosem, I., Majhenič, S., Ferme, M., Žagar, A., Arhar Holdt, Š. (2022). Corpus of Slovenian texts for pedagogical purposes ccMAKS 1.0, Slovenian language resource repository CLARIN.SI. http://hdl.handle. net/11356/1692 Volodina, E., Granstedt, L., Matsson, A., Megyesi, B., Pilán, I., Prentice, J., Rosén, D., Rudebeck, L., Schenström, C. J., Sundberg, G., & Wirén, M. (2019). The SweLL Language Learner Corpus: From Design to Annotation. Northern European Journal of Language Technology, 6, 67–104. Wirén, M., Matsson, A., Rosén, D., & Volodina, E. (2019). SVALA: Annotation of Second-Language Learner Text Based on Mostly Automatic Alignment of Parallel Corpora. In I. Skadina, & M. Eskevich (Eds.), Selected papers from the CLARIN Annual Conference 2018 (pp. 227–239). Linköping University Electronic Press. 91 Prvi korpus slovenščine kot tujega jezika KOST 1.0 Mojca STRITAR KUČUK Univerza v Ljubljani, Filozofska fakulteta Povzetek Prispevek predstavlja prvi korpus slovenščine kot drugega oz. tujega jezika KOST 1.0. Gre za približno milijonski pisni korpus besedil neprvih govorcev slovenščine, ki se slovensko učijo v različnih programih Univerze v Ljubljani. Vključena besedila so v glavnem različni spisi oz. eseji, ki so bili večinoma napisani kot domača naloga, manjši del besedil pa je nastal v iz-pitnih okoliščinah, torej pod strožjim nadzorom. Tvorci besedil, ki so v korpusu anonimni, so večinoma naravni govorci katerega od južnoslovanskih jezikov. Posebnost korpusov usvajanja jezika so oznake jezikovnih napak. V KOST-u so te razvrščene v 23 kategorij v skladu z vnaprej določeno taksonomijo. Oznake napak in popravkov so bile v korpusna besedila dodane ročno v posebej za to razviti aplikaciji Svala. KOST 1.0 je dostopen kot baza v repozitoriju Clarin, pa tudi v konkordančnikih NoSketchEngine in KonText, podatki iz njega pa so bili že uporabljeni pri pripravi sodobnih učnih gradiv za slovenščino kot drugi jezik. Ključne besede: korpus usvajanja tujega jezika, slovenščina kot drugi jezik, zbiranje korpusnih besedil, označevanje jezikovnih napak Abstract This paper presents the first learner corpus of Slovene as a second or foreign language KOST 1.0, a written corpus with approximately one million tokens. The texts were written by non-native speakers of Slovene studying Slovene in various programmes at the University of Ljubljana. The texts are mainly essays written as homework, while a smaller part of the texts were written under exam conditions, i.e. under stricter supervision. The authors of the texts, anonymised in the corpus, are mostly native speakers of a South Slavic 93 language. A special feature of learner corpora is the language error annotation. In KOST, these errors are classified into 23 categories according to a predefined taxonomy. The error tags and the normalised version of the texts were added manually in a specially developed application Svala. KOST 1.0 is available as a database in the Clarin repository, as well as in the NoSketchEngine and KonText concordancers. Its data have already been used in the preparation of modern teaching materials for Slovene as a second language. Keywords: learner corpus, Slovene as a second language, collection of corpus texts, error annotation 1 Uvod Korpusi usvajanja tujega jezika (angl. learner corpora) so v dobi di-gitalnega jezikoslovja ključen jezikovni vir za raziskovalce, učitelje in vse ostale, ki jih zanima določen jezik kot neprvi jezik. Do nedavnega za slovenščino tovrstnih korpusov usvajanja ni bilo razen nekaj manj- ših poskusov bolj pilotne narave (prim. poskusni korpus PiKUST, Stritar, 2012). V okviru projekta Razvoj slovenščine v digitalnem okolju pa je bil v začetku leta 2023 objavljen prvi korpus slovenščine kot tujega jezika, KOST 1.0. Gre za digitalno zbirko pisnih besedil odra-slih govorcev, za katere slovenščina ni prvi jezik. Ime KOST (= korpus slovenščine kot tujega jezika) ni popolnoma terminološko ustrezno, saj je za tvorce večjega dela vključenih besedil slovenščina drugi in ne tuji jezik (Pirih Svetina, 2005), vendar je bilo izbrano zaradi večje ekonomičnosti in lažje zapomnljivosti. V tem prispevku bodo predstavljeni zasnova korpusa in osnovni podatki o njem, opisala pa bom tudi potek označevanja napak, ki so jih pri pisanju korpusnih besedil naredili njihovi tvorci. Prav to je namreč tisti element, po katerem se korpusi usvajanja najbolj ločijo od splošnih korpusnih virov, zato mu je bilo med procesom gradnje korpusa posvečene veliko pozornosti. 2 KOST 1.0 V zadnjem desetletju so korpusi usvajanja tujega jezika dožive-li razmah. Njihovo število je glede na seznam obstoječih korpusov 94 (Centre for English Corpus Linguistics, 2023) poskočilo s 73 korpusov leta 2012 na 191 korpusov leta 2022 (Stritar Kučuk, 2022). Največ, 121, je bilo pisnih korpusov, za katere je tudi najlažje pri-dobivati besedila, sledili so jim govorni korpusi (44), 24 pa je bilo pisnih in govornih korpusov. Večina teh korpusov ima en ciljni jezik, torej jezik, ki se ga »nekdo uči z namenom, da bi ga obvladal bodisi kot svoj prvi, drugi ali tuji jezik« (Pirih Svetina, 2005). Dobra dese-tina pa vključuje več ciljnih jezikov. Angleščina je ciljni jezik v dobri polovici korpusov, med ostalimi jeziki pa so še arabščina, češčina, estonščina, finščina, francoščina, gelščina, hrvaščina, islandščina, italijanščina, katalonščina, kitajščina, korejščina, latvijščina, litovšči-na, madžarščina, nemščina, nizozemščina, norveščina, perzijščina, poljščina, portugalščina, romunščina, ruščina, španščina in švedšči-na. Vsi ti korpusi za slovenske razmere seveda niso relevantni. Za nas je bolj zanimiv vpogled v zasnovo korpusov slovanskih jezikov, npr. hrvaškega CroLTeC (Mikelić Preradović, 2020), češkega CzeSL (Rosen, 2017), rus kega RLC (Rakhilina idr., 2016), korpuse skandi-navskih jezikov, npr. švedskega SweLL (Volodina idr., 2019), in korpuse baltskih jezikov, npr. latvijskega LAVA (Darģis idr., 2020). Groba analiza teh korpusov pokaže, da je zlata mera za obstoječe korpuse usvajanja jezikov, ki so v približno primerljivem sociolingvističnem položaju kot slovenščina, pisni korpus z milijonom besed, različnimi prvimi jeziki tvorcev ter dodanimi oblikoskladenjskimi oznakami in oznakami napak (Stritar Kučuk, 2022). Kot bo razvidno iz nadaljeva-nja, KOST 1.0 tem standardom ustreza tako po velikosti kot po tipu besedil in raznovrstnosti njihovih tvorcev. 2.1 Besedila KOST 1.0 obsega 6311 besedil oz. 1.032.012 besed. Zbiranje besedil se je začelo v okviru modula Leto plus,1 ki ga Univerza v Ljubljani izvaja kot enega od ukrepov internacionalizacije. Ta modul tujim študentom, redno vpisanim v študijske programe Univerze v Ljubljani, omogoča brezplačno učenje slovenščine. Tako imamo torej dostop 1 https://www.uni-lj.si/studij/leto-plus/ 95 do večjega števila govorcev slovenščine kot drugega jezika in njihovih besedil, ki jih pišejo kot domače naloge ipd. na lektoratih. Zbiranje teh besedil za KOST se je pričelo v študijskem letu 2018/19, kot prikazuje Grafikon 1, pa je bilo nato vsako leto zbranih več besedil.2 Grafikon 1: Količina zbranih besedil po študijskih letih. Zbiranje besedil se je iz modula Leto plus, iz katerega je bilo do sedaj pridobljenih več kot 75 % vseh besedil, razširilo še na različne programe Centra za slovenščino kot drugi in tuji jezik (Grafikon 2): lektorate slovenščine v okviru programa Slovenščina na tujih univerzah,3 tečaje slovenščine za odrasle4 in otroke oz. mladostnike5 ter Seminar slovenskega jezika, literature in kulture.6 Pri celotnem pridobivanju besedil je sodelovalo več kot 24 učiteljev, lektorjev in drugih sodelavcev teh programov. 2 Prikazani so samo podatki do vključno študijskega leta 2021/22, saj je bil KOST 1.0 zaključen s temi besedili. Zbiranje besedil intenzivno poteka tudi v nadaljnjih študijskih letih. 3 https://centerslo.si/na-tujih-univerzah/ 4 https://centerslo.si/tecaji-za-odrasle/ 5 https://centerslo.si/za-otroke/ 6 https://centerslo.si/seminar-sjlk/ 96 Grafikon 2: Deleži vključenih besedil glede na program, v okviru katerega so nastala. Vsako besedilo, vključeno v KOST, je poimenovano s kodo, ki izurjenemu uporabniku korpusa da nekaj osnovnih podatkov: koda L3-2122-121 denimo pomeni, da gre za besedilo, ki je nastalo pri učitelju s kodo L3 v okviru programa Leto plus v študijskem letu 2021/22, besedilo pa ima zaporedno številko 121. Poleg tega je vsako besedilo opremljeno z bogatimi metajezikovni podatki o njihovih tvorcih, okoliščinah nastanka in podobno. Zbrani so v posebni Excelovi tabeli, ki je kasneje pretvorjena v ustreznejše korpusne formate. 2.1.1 Okoliščine nastanka besedil Velika večina vključenih besedil, skoraj 84 %, je bila napisana na računalnik. Kovidno obdobje od pomladi 2020 naprej je bilo glede dostopa do takih besedil zelo produktivno, saj se je zaradi pandemije celotno poučevanje preselilo v digitalno okolje in se je občutno povečal dotok digitalno napisanih domačih nalog. Vendar je pri tovrstnih besedilih zaradi lahkega dostopa do strojnih prevajalnikov 97 in drugih jezikovnih pripomočkov na spletu več dvomov glede tega, kako verodostojno odražajo jezikovno zmožnost tvorcev. S tega vidika so zanesljivejša – pa četudi do neke mere manj avtentična – besedila, ki nastajajo na izpitih ali med poukom v razredu in so napisana na roko. Ta besedila je za korpus treba pretipkati, kar so v skladu s svojimi časovnimi zmožnostmi opravili učitelji ali strokovni delavci na programih. Besedila tvorci pišejo v različnih situacijah in o različnih temah, za KOST pa je najpomembnejše razlikovanje med okoliščinami njihovega nastanka – ali gre za pisanje s časovno omejitvijo in nadzorom učitelja glede rabe različnih jezikovnih pripomočkov ali ne (Grafikon 3). Največ je domačih nalog, ki so jih tvorci napisali doma, brez nadzora učitelja. Sledijo jim besedila z izpitov, ki so nastala v kontro-liranih okoliščinah; v tem primeru gre izključno za interne izpite na tečajih ali lektoratih slovenščine. Nekaj besedil pa je bilo napisanih v razredu, v okviru različnih dejavnosti med poukom. Tudi ta besedila so večinoma bila napisana na roko, vendar z manj strogim nadzorom glede rabe pripomočkov in časovne omejitve. Grafikon 3: Okoliščine nastanka besedil, vključenih v KOST. 98 2.1.2 Vrste besedil V KOST so vključene različne vrste besedil. Največ je esejev oz. spisov (npr. o družini, prehrani, zdravju) in poročil o različnih dejavno-stih (npr. o ogledu filma, obisku muzeja, izletu po Sloveniji). Če so tvorci pred pisanjem dobili natančnejša navodila za pisanje, so ta zabeležena med metapodatki, saj tvorci nemalokrat dobesedno ponavljajo celotne fraze ali besedne zveze iz njih, s tem pa lahko navodila vplivajo na frekvenco določenih pojavnic v korpusu. Kot primer si poglejmo naslov Moje Leto plus, ki ga študenti Leta plus večkrat dobijo v pisnem izpitu ob zaključku drugega semestra. Spremlja ga podrobno navodilo, ki med drugim vključuje: V besedilu komentirajte: • lektorat slovenščine, • dodatne dejavnosti (kaj se vam je zdelo najbolj zanimivo; kaj koristnega ste dobili od vsake dejavnosti, kaj bi v zvezi s tem priporočili generacijam, ki pridejo za vami), • svoje učenje slovenščine (ali ste zadovoljni s svojim napred-kom, kaj vam je najbolj pomagalo pri učenju, kaj bi priporočili generacijam, ki pridejo za vami), [podčrtala M. S. K.] • svoj študij (kaj ste pričakovali pred prihodom, kako ste zadovoljni), • svoje življenje v Ljubljani (kakšne težave ste imeli, kako se po- čutite kot študent). V KOST 1.0 je vključenih 229 besedil s tem naslovom, zato ni presenetljivo, da najdemo 60 konkordanc za iskanje generacijam, ki vključujejo različne izpeljave zgoraj podčrtane fraze (Slika 1). Brez tega navodila je manj verjetno, da bi se ta fraza tako pogosto pojav-ljala v slovenščini kot neprvem jeziku. Načeloma se v KOST-u izogibamo praktičnim besedilom, kakr- šna sta življenjepis ali prošnja za delo, saj vključujejo veliko osebnih podatkov, ki jih s pravnega vidika ne smemo prikazovati in jih moramo zakriti s kodami, kar pa precej zmanjša berljivost. Vprašljiv je tudi jezikovni vidik teh besedil, saj gre v njih pretežno za pona-vljanje ustaljenih sporazumevalnih vzorcev, manj pa je dejansko 99 Slika 1: Konkordance za iskanje generacijam v korpusu KOST 1.0. samostojne uporabe jezika. Od praktičnih besedil je zato v KOST vključenih še največ različnih e-pisem, ki so sicer napisana po navodilih, a gre vendarle za več samostojnega pisanja. Takšno navodilo je lahko na primer: Napišite e-pošto profesorju ali profesorici. Napišite mu/ji 2–3 vpra- šanji v zvezi s predavanji, izpiti, gradivom … Vprašanja naj bodo povezana, besedilo naj bo logično. Besedilo ustrezno začnite in zaključite. 2.1.3 Stopnja jezikovne zmožnosti Besedila, vključena v KOST, so označena s štirimi stopnjami, ki odsli-kavajo trenutno jezikovno zmožnost njihovih tvorcev (Grafikon 4). Ta ni zanesljivo določena po vnaprej opredeljenih lestvicah, kakršna je lestvica SEJO (Kovačič idr., 2011). Gre zgolj za pragmatično oceno, namenjeno okvirni orientaciji med besedili, ki jo največkrat poda tvorčev trenutni učitelj. Po tej lestvici je v KOST-u največ besedil Južnih Slova-nov začetnikov, se pravi govorcev katerega od osrednjejužnoslovanskih 100 jezikov (bosanščine, črnogorščine, hrvaščine, srbščine) ali makedon- ščine, ki so se slovensko šele začeli učiti pred največ dvema semestro-ma. Njihov napredek je zaradi sorodnosti izhodiščnega in ciljnega jezika običajno hiter. Kot nadaljevalci so označeni tisti, ki so se slovensko že učili pred udeležbo v programu, v okviru katerega je nastalo v korpus vključeno besedilo, zato že tvorijo kompleksnejša besedila. Med njimi so lahko velike razlike (npr. med slovanskimi in neslovanskimi nadaljevalci). Manj je besedil izpopolnjevalcev, ki so ponavadi daljša, kompleksnejša in z manj napakami. Najmanj pa je besedil začetnikov, torej govorcev slovenščini nesorodnih jezikov v začetnih fazah učenja. Njihova besedila so tudi relativno najkrajša. Grafikon 4: Štiri stopnje ocenjene jezikovne zmožnosti tvorcev besedil v slovenščini v KOST 1.0. 2.2 Tvorci besedil V KOST 1.0 so vključena besedila več kot 950 tvorcev, od tega je slabih 34 % moških in 66 % žensk. V korpusu so anonimni. Njihova imena so nadomeščena s kodami; koda L-hr-m-0006 denimo pomeni, da gre za tvorca moškega spola s prvim jezikom hrvaščino, ki je dobil zaporedno številko 6. 101 2.2.1 Prvi jezik Tvorci besedil, vključenih v KOST, govorijo 30 različnih prvih jezikov. Najpogostejši med njimi so prikazani na Grafikonu 5. V skladu s populacijo na modulu Leto plus (Stritar Kučuk, 2020) dobre tri četrtine vseh tvorcev predstavljajo govorci osrednjejužnoslovanskih jezikov (bosanščine, črnogorščine, hrvaščine in srbščine) in makedonščine. Nekoliko več je še govorcev ruščine in španščine. Med jeziki, ki so v KOST-u zastopani z manj tvorci, pa so albanščina, angleščina, francoščina, grščina, hebrejščina, italijanščina, japonščina, kirgiščina, kitajščina, korejščina, madžarščina, nemščina, nizozemščina, polj- ščina, romunščina, slovaščina, slovenščina7 in ukrajinščina. Pri be-leženju podatkov o metajeziku tvorca sledimo temu, kar je kot svoj prvi oz. materni jezik navedel sam tvorec. Zato imamo med prvimi jeziki denimo tudi srbohrvaščino. Grafikon 5: Prvi jeziki tvorcev besedil, vključenih v KOST 1.0, glede na število tvorcev. 7 Gre za tvorce iz slovenskega zamejstva, pri katerih se srečujemo tudi z vprašanjem, ali naj jih sploh upoštevamo kot govorce slovenščine kot neprvega jezika. Odločitev je vsakokrat individualna. 102 2.2.2 Varovanje osebnih podatkov Ker sta ureditev pravic za uporabo podatkov in varovanje osebnih podatkov ključnega pomena, vsi tvorci, katerih besedila so vklju- čena v KOST, podpišejo izjavo, s katero dovoljujejo vključitev svojih besedil. V izjavi dobimo tudi osebne podatke, ki so nujni za analizo korpusnega gradiva: spol, starost, fakulteta, letnik in stopnja študija, izobrazba, prvi jezik in ostali jeziki, ki jih znajo govorci, ter podatki o morebitnem predhodnem učenju slovenščine ali bivanju v Sloveniji. Vse to je v KOST-u zabeleženo kot metapodatek. Izjavo, ki so jo pravno preverili na Oddelku za upravljanje s tve-ganji in varstvo osebnih podatkov na Univerzi v Ljubljani, sodelujo- čim v podpis ponudijo njihovi učitelji. Pred podpisom jim natančno razložijo o projektu in pogojih sodelovanja. Razveseljivo je, da izjavo podpiše velika večina vseh, ki jim je bila ponujena. Vse izjave so shranjene v digitalni in, če so bile podpisane na papirju, tudi tiskani obliki. Če se v besedilih pojavijo osebni podatki, so nadomeščeni s kodami v oglatih oklepajih. Osebna imena so denimo nadomeščena s kodo [XImeX], krajevna pa z [XKrajX]. S tem zadostimo zahtevam po varovanju osebnih podatkov, a izgubimo jezikovne informacije o pregibanju teh imen, saj je koda enaka za vse sklonske oblike (Slika 2). Primanjkljaj vendarle ni prevelik, saj so lastna imena v besedilih ohranjena, kadar gre za pisanje o znanih osebnostih ali fantazijskih osebah. Na Sliki 3 so prikazane konkordance za lemo Špela. Pri tem gre v veliki večini primerov za enega od likov iz filma Kajmak in marmelada, ki je pogosta tema pisanja študentov v modulu Leto plus. 103 Slika 2: Prikaz zakritih osebnih imen v korpusu KOST 1.0. Slika 3: Prikaz iskanja za lemo Špela v korpusu KOST 1.0. 104 3 Označevanje jezikovnih napak v korpusu KOST 1.0 Besedila so v KOST vključena taka, kot so jih napisali tvorci. To je samoumevno izhodišče, ki se ga držijo v vseh korpusih usvajanja. Nekateri gredo pri tem še korak dlje: v hrvaškem korpusu CroLTec označujejo naknadne popravke, ki so jih v svojih besedilih naredili tvorci, npr. ko so prečrtali del besedila ali pa ga naknadno dodali (Mikelić Preradović, 2020). Tega v KOST-u ne označujemo, ampak ohranjamo besedila v izvirnem digitalnem čistopisu. Vse jezikovne popravke, ki jih naredimo, označimo s posebnimi oznakami za jezikovne napake – z eno izjemo, ki se nanaša na nekatera pravopisna oz. tehnična vprašanja. V besedilih namreč popravimo stičnost ločil in odstranimo dvojne presledke. To je po eni strani povezano s postopkom tokenizacije korpusnih besedil v aplikaciji Svala (prim. razdelek 3.2), ki zaradi zahtev same aplikacije poteka tako, da bi se vse morebitne posebnosti pri stičnosti ločil v vsakem primeru izgubile, po drugi strani pa zapisovanje ločil niti ni v ospredju raziskav pri slovenščini kot neprvem jeziku. Čeprav imajo tvorci v KOST vključenih besedil dejansko nemalokrat težave pri zapisovanju ločil, kar naj bi bila posledica njihove navajenosti na elektronsko komunikacijo (Poteko, 2023), izguba tega podatka vendarle nima večjega vpliva na uporabnost podatkov iz KOST-a. Najbolj se uporabnost korpusov usvajanja torej poveča, če so v njih označene jezikovne napake, ki jih pri tvorjenju v ciljnem jeziku delajo tvorci. Označene so v večini obstoječih korpusov, ki presegajo zgolj pilotske poskuse oz. manjše priložnostne raziskave. Zato smo kmalu po začetku gradnje korpusa KOST v njem začeli označevati jezikovne napake. Natančno opredeljevanje, kaj je napaka, je za namen tega prispevka nerelevantno, v grobem naj zadostuje, da so napake pojavitve v besedilu, ki so nenamerno odklonske in jih njihovi tvorci sami ne morejo popraviti (James, 1998). V vseh obstoječih korpusih usvajanja označevanje napak poteka ročno, kar pomeni, da je relativno zamudno in počasno. Napake so potemtakem redko označene na celotnem korpusnem gradivu. V KOST-u 1.0 so označene na 10 % vseh besedil, kar je ustaljen delež tudi v drugih korpusih, denimo v češkem CzeSL (Rosen, 2017). 105 3.1 Orodje za označevanje napak V okviru projekta Razvoj slovenščine v digitalnem okolju smo za roč- no označevanje korpusov z označenimi jezikovnimi napakami oz. popravki razvili oz. prilagodili novo računalniško orodje. Lokalizirali smo odprto dostopni švedski program Svala (Wirén idr., 2019) in ga prilagodili, da vsebuje predpripravljene nabore kategorij oznak za korpusa KOST in Šolar (več o aplikaciji Svala je objavljeno v prispevku Arhar Holdt, Kosem, Pori v tej publikaciji). Z označevanjem gradiva za korpus KOST 1.0 smo orodje Svala8 uspešno evalvirali. Večino označevanja napak za KOST 1.0 sem opravila sama kot urednica korpusa. Poseben preizkus uporabnosti Svale pa je bilo delo s skupino polprofesionalnih uporabnikov, študentov 3. letnika 1. stopnje slovenistike na Filozofski fakulteti Univerze v Ljubljani, ki so besedila tujih govorcev za KOST označevali pri izbirnem predmetu Slovenščina kot drugi in kot tuji jezik v zimskem semestru študijskega leta 2021/22 in v zimskem semestru študijskega leta 2022/23. V prvem letu je sodelovalo 19, v drugem pa 20 študentov. Označili so 172 besedil. Pred tem smo načrtno izvedli le krajše usposabljanje oz. prikaz dela s Svalo, saj smo želeli preizkusiti, kako dobro se znaj-dejo brez podrobnejših navodil. Besedila, ki so jih označili, sem nato pregledala, študenti pa so svoje delo predstavili v okviru seminarja pri predmetu Slovenščina kot tuji jezik. S študentskega gledišča so bili rezultati pozitivni: tovrstno delo so v anonimni anketi ocenili kot zanimivo, strokovno precej, tehnično pa manj zahtevno, razmeroma zamudno, a koristno zanje in za širšo skupnost. Izrazili so zadovolj-stvo z možnostjo praktičnega, tehnično nezahtevnega dela, pri katerem so morali dejansko uporabiti tudi jezikoslovno znanje, pridobljeno pri študiju. Manj zadovoljujoči so bili rezultati za sam korpus. V povprečju je bilo v besedilih študentov 35 % neustreznih oznak, ki so bile v največji meri posledica površnega dela, slabega znanja pravopisa in oblikoslovja ter pretiranega popravljanja besedil (Stritar Kučuk, 2023b). 8 https://orodja.cjvt.si/svala/ 106 3.2 Taksonomija napak V Svali je vsako besedilo popravljeno oz. normalizirano, vsaka napaka pa dobi oznako glede na taksonomijo napak (gl. Tabelo 1). Ta temelji na klasifikaciji, ki je bila preizkušena za poskusni korpus slovenščine kot tujega jezika PiKUST (Stritar, 2012), prilagojena prvi verziji korpusa usvajanja slovenščine kot prvega jezika Šolar (Kosem idr., 2012) in prilagojena tudi zahtevam označevalnega orodja Svala (Arhar Holdt idr., 2022). Tabela 1: Kategorije napak v korpusu KOST 1.0. Krovna kategorija Kategorija napake Oznaka Napake zapisa Ločilo Z-LOC Črkovanje Z-CRK Skupaj/narazen Z-SN Mala/velika začetnica Z-MV Krajšave Z-KR Napake besedišča Samostalnik B-SAM Glagol B-GLAG Pridevnik B-PRID Zaimek B-ZAIM Prislov B-PRISL Predlog B-PRED Veznik B-VEZ Ostalo B-OST Napake oblike Samostalnik O-SAM Glagol O-GLAG Pridevnik O-PRID Zaimek O-ZAIM Prislov O-PRISL Ostalo O-OST Napake skladnje Struktura S-STR Besedni red S-BR Izpuščeni jezikovni elementi S-IZP Odvečni jezikovni elementi S-ODV Dodatna oznaka: Povezani popravek POV 107 Orodje Svala je dovolj fleksibilno, da omogoča različne kombinacije: oznake napak se lahko nanašajo na eno besedo ali na večji del besedila, eno oznako je mogoče pripisati tudi več delom besedila, ki ne stojijo skupaj. Napačna pojavitev v korpusu lahko dobi več hkra-tnih oznak napak. Oznako napake pa lahko pripišemo tudi pojavitvi, ki je v normaliziranem besedilu ni mogoče navesti, kot je v primeru odvečnega dela besedila (Slika 4, primeri S-ODV). Slika 4: Primer izvornega in popravljenega besedila iz KOST-a z označenimi različnimi tipi napak. Natančna navodila za označevanje napak so na voljo v stalno dopolnjujočem se priročniku za označevanje napak (Stritar Kučuk, 2023a). Z označevanjem dodatnega gradiva se namreč pojavljajo nove dileme, ki jih razrešujemo sproti. V priročniku so posebej izpostavljeni primeri, ki bi jih lahko umestili v več kategorij, in primeri, ki jih označevalci napak večkrat neustrezno označijo. Načeloma pa je osnovno vodilo označevanja, da s popravki čim manj posegamo v besedilo in ravnamo po načelu minimalnega popravka (Volodina idr., 2019): besedilo spremenimo, čim manj je mogoče, in popravimo kar najmanj napak, da bo normalizirano besedilo slovnično ustrezno, razumljivo in sprejemljivo za domačega govorca slovenščine. Popravljamo predvsem zapis, besedišče in obliko besed, v skladnjo skušamo posegati čim manj, predvsem pa se izogibamo stilističnim popravkom. Uporabniki KOST-a pa se morajo zavedati, da so oznake napak do neke mere vedno subjektivne. Zato kakršna koli pogloblje-na analiza napak zahteva tudi temeljit ročni pregled zadetkov. 108 Kadar napačni obliki ne znamo pripisati popravljene oz. bi to zahtevalo preveč označevalčeve interpretacije, to označimo s [???] (Slika 5). Takih primerov je razmeroma malo, v KOST-u 1.0 84. Slika 5: Primer oznake za izpuščeni del besedila, ki ga v KOST-u ne znamo ustrezno popraviti. 3.3 Napake v korpusu KOST 1.0 Čeprav je bilo v označevanje napak v korpusnih besedilih že od za- četka vloženega veliko dela, pa KOST 1.0 zaradi tehničnih omejitev obstoječih konkordančnikov ni dostopen v obliki, ki bi omogočala širšo uporabnost teh oznak. Zato je tukaj vsaj osnovna statistika pogostnosti oznak po kategorijah napak. Štiri osnovne kategorije napak so med seboj približno uravnotežene (Grafikon 6). Prednjačijo napake zapisa, najmanj pa je napak Grafikon 6: Pogostnost osnovnih tipov napak v korpusu KOST 1.0. 109 skladnje. Pri tem je treba upoštevati, da se napake zapisa praviloma nanašajo samo na eno besedo, napake skladnje pa na več besed, kar verjetno vpliva na to, da je njihovih pojavitev manj. Vpogled v kategorije napak na drugi ravni pokaže, da je pri napakah zapisa (Grafikon 7) največ napak ločil (npr. Všeč mi je ker je hiša > Všeč mi je, ker je hiša), kar je tudi daleč najpogostejša med vsemi kategorijami napak. V veliki meri gre za postavljanje vejic. Veliko je tudi napak črkovanja oz. neustrezne pisne realizacije fonemov (npr. v autobusu > v avtobusu), sledita jim napačna raba male oz. velike začetnice (npr. praznujemo Božič > praznujemo božič) in pisanje skupaj oz. narazen (npr. naj bolj > najbolj), medtem ko je kategorija napak krajšav (npr. in dr. > idr. ) skrajno redka. Grafikon 7: Podtipi napak zapisa po pogostnosti v korpusu KOST 1.0. Napake besedišča (Grafikon 8), pri katerih gre za neustrezno le-ksikalno izbiro, so najpogostejše pri glagolih (npr. sem se zelo težko naučila na mir > sem se zelo težko navadila na mir). Sledijo jim samostalniki (npr. kadiranje > kajenje). Napake besedišča pri pridevnikih (npr. družbena oseba > družabna oseba), zaimkih (npr. pri enem prijatelju > pri nekem prijatelju), prislovih (npr. grem doma > grem 110 domov), predlogih (npr. sa enom prijateljicom > z eno prijateljico), veznikih (npr. od kdaj sem > odkar sem) in ostalih besednih vrstah (npr. petindvajest > petindvajset) pa so po pogostnosti bolj ali manj izenačene. Grafikon 8: Podtipi napak besedišča po pogostnosti v korpusu KOST 1.0. Pri napakah oblike (Grafikon 9), ki se nanašajo na pregibanje besed, je največ napak samostalnika (npr. v Sloveniju > v Slovenijo), kar je druga najpogostejša med vsemi kategorijami napak. Sledijo jim glagoli (npr. neuporaba dvojine pri povedku v primeru sestra in jaz delamo > sestra in jaz delava), pridevniki (npr. v zelo dobremu stanju > v zelo dobrem stanju) in zaimki (npr. sem ih spoznal > sem jih spoznal). Nekaj je tudi oblikoslovnih napak prislovov (npr. hitrije > hitreje) in števnikov (npr. štirje predavanja > štiri predavanja). 111 Grafikon 9: Podtipi napak oblike po pogostnosti v korpusu KOST 1.0. Pri napakah skladnje (Grafikon 10) je izrazito največ napak be-sednega reda (npr. zdi mi se > zdi se mi), ki je tretja najpogostejša kategorija napak. Napak strukture je razmeroma malo (npr. rada bi da živim > rada bi živela), zanimivo pa je, da je izpuščenih jezikovnih elementov (npr. zaradi uporabe brezpredložnega orodnika v primeru grem avtobusom > grem z avtobusom) nekoliko več kot odvečnih delov besedila (npr. upam se da bom uspel > upam, da bom uspel). Kategorija povezanih popravkov se v KOST-u 1.0 pojavi 747-krat. V resnici še vedno ne vemo, ali se bo ta kategorija izkazala za uporabno pri analizi ali ne. O tem se bomo lahko odločili šele, ko bomo označeno gradivo začeli zares analizirati. 112 Grafikon 10: Podtipi napak skladnje po pogostnosti v korpusu KOST 1.0. 4 Dostop do korpusa KOST 1.0 Korpus KOST 1.0 je kot baza dostopen na repozitoriju Clarin.si9 pod pogoji licence CC BY-SA 4.0. Izključno v izobraževalne in raziskovalne namene ga lahko uporabljajo učitelji, študenti, raziskovalci in drugi, ki jih zanima slovenščina kot tuji jezik. Na voljo je tudi v bolj robustnih formatih CoNLL-U in JSON ter VERT. V projektu RSDO je bil razvit format korpusov z jezikovnimi popravki, ki je skladen z ostalimi slovenskimi korpusi in povezljiv s formatom orodja Svala. Tri izhodne datoteke JSON – nepopravlje-na in popravljena besedila ter datoteka s povezavami med vsako pojavnico iz nepopravljene in popravljene verzije datoteke, skupaj z oznakami za jezikovne popravke – so pretvorjene v XML in združene v eno datoteko XML, ki je skladna s shemo TEI.10 KOST 1.0 je torej vključen tudi v konkordančnika NoSketchEngine11 in KonText,12 ki 9 http://hdl.handle.net/11356/1753 10 https://tei-c.org 11 https://www.clarin.si/noske/run.cgi/corp_info?corpname=kost10_orig&struct_attr_ stats=1 12 https://www.clarin.si/kontext/query?corpname=kost10_orig 113 sta del infrastrukture CLARIN. Za vsak korpus sta datoteki z izvornimi in s popravljenimi besedili uvoženi ločeno (Slika 6, Slika 7). To je seveda le začasna rešitev za pregledovanje podatkov, ki pa je vendarle že omogočila prve jezikoslovne analize. Med drugim je bilo gradivo iz KOST-a uporabljeno pri pripravi učbenika za slovenščino kot drugi jezik za južnoslovanske govorce, v katerem je poudarjen kontrastivni vidik poučevanja (Stritar Kučuk in Šter, 2021, Stritar Kučuk idr., 2023). Slika 6: Prikaz izvornega besedila v konkordančniku NoSketchEngine. Slika 7: Prikaz popravljenega besedila v konkordančniku NoSketchEngine. 114 5 Pogled naprej Kot je bilo že omenjeno, brskanje po oznakah napak v KOST-u za povprečnega uporabnika še ni mogoče, saj konkordančniki, v katere je vključen, tega ne dovoljujejo. Zato je prvi naslednji korak razvoj specializiranega konkordančnika, ki bo omogočal polno izrabo bogato označenega korpusnega gradiva, vključno z iskanjem po posameznih kategorijah napak ter možnostmi izrabe metapodatkov in sočasne vizualizacije izvornega ter popravljenega besedila. Poleg tega želimo KOST povečati, predvsem na račun nejužnoslovanskih jezikov, in vzpostaviti redno pridobivanje besedil še iz drugih virov, denimo z izpitov slovenščine v izvedbi Izpitnega centra CSDTJ.13 Z besedili, ki jih napišejo kandidati na izpitih predvsem na vstopni in osnovni ravni, bomo dobili vpogled v slovensko pisno produkcijo niž- je izobraženih govorcev, med katerimi se mnogi slovenščine načrtno ne učijo, temveč jo zgolj usvajajo iz okolja. Najpomembnejši prihodnji cilj v zvezi s korpusom KOST pa je povečati delež besedil, na katerih so označene jezikovne napake, in čim bolj uravnotežiti ozna- čene deleže med različnimi prvimi jeziki tvorcev. S takim razvojem bo KOST postal širše uporaben jezikovni vir, zanimiv za vse, ki raziskujejo slovenščino kot drugi oz. tuji jezik. Omogočal bo prepoznavo najpogostejših jezikovnih napak, značilnih za govorce določenih prvih jezikov, in pripravo bolj osredotočenih učnih gradiv, pa tudi ustreznejše poudarke v samem pedagoškem procesu. Zahvala Projekt Razvoj slovenščine v digitalnem okolju, ki je podprl razvoj korpusa KOST, sta med leti 2020 in 2023 sofinancirali Republika Slovenija in Evropska unija iz Evropskega sklada za regionalni razvoj (Operacija se je izvajala v okviru Operativnega programa za izvajanje evropske kohezijske politike v obdobju 2014–2020). 13 https://centerslo.si/izpiti/ 115 Literatura Arhar Holdt, Š., Kosem, I., & Stritar Kučuk, M. (2022). Metode in orodja za lažjo pripravo korpusov usvajanja jezika. V Pirih Svetina, N., Ferbe- žar, I. (ur.), Simpozij Obdobja 41: Na stičišču svetov: Slovenščina kot drugi in tuji jezik (str. 23–30). Založba Univerze v Ljubljani. https://doi. org/10.4312/Obdobja.41.2784-7152 Centre for English Corpus Linguistics. (2023). Learner Corpora around the World. https://uclouvain.be/en/research-institutes/ilc/cecl/learner- -corpora-around-the-world.html Darģis, R,, Auziņa, I., Levāne-Petrova, K., & Kaija, I. (2020). Quality Focused Approach to a Learner Corpus Development. V Calzorali, N., idr. (ur.), Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC) (str. 392–396). http://lava.korpuss. lv/publicatoins/LREC2020-Dargis.pdf Granger, S. (2008). Learner corpora. V Ludeling A., Kyto, M. (ur.), Corpus Linguistics. An International Handbook (str. 259–275). Mouton de Gruyter. James, C. (1998). Errors in Language Learning and Use: Exploring Error Analysis. Longman. https://doi.org/10.4324/9781315842912 Kosem, I., Stritar, M., Može, S., Zwitter Vitez, A., Arhar Holdt, Š., & Rozman, T. (2012). Analiza jezikovnih težav učencev: Korpusni pristop. Trojina, zavod za uporabno slovenistiko. Kovačič, I., idr. (2011). Skupni evropski jezikovni okvir: učenje, poučevanje, ocenjevanje. Ministrstvo RS za šolstvo in šport, Urad za razvoj šolstva. Mikelić Preradović, N. (2020). Označavanje pogrešaka u CroLTeC-u (raču-nalnom učeničkom korpusu hrvatskog kao stranog jezika). Rasprave Instituta za hrvatski jezik i jezikoslovlje 46(2), 899–920. Pirih Svetina, N. (2005). Slovenščina kot tuji jezik. Izolit. Poteko, I. (2023). Sporazumevalne navade in jezikovne izbire študentk in študentov v sms-ih in sporočilih iz mobilnih aplikacij. V Vogel, J. (ur.), 59. seminar slovenskega jezika, literature in kulture: Slovenski jezik, li-teratura, kultura in digitalni svet(ovi) (str. 105–114). Založba Univerze v Ljubljani. Rakhilina, E., idr. (2016). Building a learner corpus for Russian. Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition. SLTC. 116 Rosen, A. (2017). Introducing a corpus of non-native Czech with automatic annotation. Language, Corpora and Cognition. Peter Lang. Stritar, M. (2012). Korpusi usvajanja tujega jezika. Zveza društev Slavistično društvo Slovenije. Stritar Kučuk, M. (2020). Modul Leto plus – prvi korak do korpusa sloven- ščine kot tujega jezika. V Fišer, D., Erjavec, T. (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika 2020 (str. 131–135). http://nl.ijs.si/jtdh20/pdf/JT-DH_2020_StritarKucuk_Modul-Leto- -plus%e2%80%93prvi-korak-do-korpusa-slovenscine-kot-tujega-jezika.pdf. Stritar Kučuk, M. (2022). KOST med korpusi usvajanja tujega jezika. V Pirih Svetina, N., Ferbežar, I. (ur.), Simpozij Obdobja 41: Na stičišču svetov: Slovenščina kot drugi in tuji jezik (str. 23–30). Založba Univerze v Ljubljani. https://doi.org/10.4312/Obdobja.41.2784-7152 Stritar Kučuk, M. (2023a). Priročnik za označevanje napak. https://www. cjvt.si/korpus-kost/wp-content/uploads/sites/24/2022/04/Prirocnik- -za-oznacevanje-napak-v-KOST-u-2022-04-13.pdf Stritar Kučuk, M. (2023b). Error annotation in Slovene learner corpus KOST – why L1 students can(not) do the job. V CLARC 2023: Jezik i jezični podaci: Knjižica sažetaka. https://uniri-my.sharepoint.com/:w:/g/per-sonal/bperak_uniri_hr/EdBOkvsg4vJOrVeHTkQw3uYB16acgdyFh2g5 S5fpdXqhYA?rtime=RLP28Kne20g Stritar Kučuk, M., & Šter, H. (2021). Slovenščina 1+: Slovnične tabele in vaje za južnoslovanske govorce slovenščine kot drugega jezika. Znanstvena založba Filozofske fakultete. Stritar Kučuk, M., Pisek, S., & Šter, H. (2023). Slovenščina 1+: Besedila in besedišče za južnoslovanske govorce slovenščine kot drugega jezika 1 1. Založba Univerze. Volodina, E., Granstedt, L., Matsson, A., Megyesi, B., Pilán, I., Prentice, J., Rosén, D., Rudebeck, L., Schenström, C., Sundberg, G., & Wirén, M. (2019). The SweLL Language Learner Corpus: From Design to Annotation. Northern European Journal of Language Technology 6, 67–104. Wirén, M., Matsson, A., Rosén, D., & Volodina, E., (2018). SVALA: Annotation of Second-Language Learner Text Based on Mostly Automatic Alignment of Parallel Corpora. V Selected papers from the CLARIN Annual Conference 2018. Linköping Electronic Conference Proceedings 159 (str. 227–239). 117 Nadgradnja učnega korpusa ssj550k v SUK 1.0 Špela ARHAR HOLDT Univerza v Ljubljani, Fakulteta za računalništvo in informatiko Univerza v Ljubljani, Filozofska fakulteta Jaka ČIBEJ Univerza v Ljubljani, Filozofska fakulteta Kaja DOBROVOLJC Univerza v Ljubljani, Fakulteta za računalništvo in informatiko Institut »Jožef Stefan« Tomaž ERJAVEC Institut »Jožef Stefan« Polona GANTAR Univerza v Ljubljani, Filozofska fakulteta Simon KREK Univerza v Ljubljani, Filozofska fakulteta Institut »Jožef Stefan« Tina MUNDA Univerza v Ljubljani, Fakulteta za računalništvo in informatiko Institut »Jožef Stefan« Nejc ROBIDA Univerza v Ljubljani, Filozofska fakulteta Univerza v Ljubljani, Fakulteta za računalništvo in informatiko Luka TERČON Univerza v Ljubljani, Filozofska fakulteta Slavko ŽITNIK Univerza v Ljubljani, Fakulteta za računalništvo in informatiko 119 Povzetek V prispevku predstavljamo nadgradnjo učnega korpusa, ki je namenjen učenju strojnih postopkov za jezikoslovno označevanje besedil v sodobni standardni slovenščini. Nova različica korpusa ssj500k, ki smo ga preimenovali v SUK ( slovenski učni korpus), prinaša nova besedila in nove roč- no pregledane jezikoslovne oznake različnih vrst. Korpus smo povečali s petsto tisoč na več kot milijon pojavnic z vključitvijo treh odprto dostopnih jezikovnih virov, ki vsak na svoj način odpravljajo predhodno identificirane pomanjkljivosti ssj500k: SentiCoref 1.0, ELEXIS-WSD za slovenščino in iz korpusa Gigafida 2.0 pripravljena množica Ambiga. Pregledovanje jezikoslovnih oznak opišemo po ravneh: tokenizacija, stavčna segmentacija, lematizacija, oblikoskladnja MULTEXT-East, oblikoslovje ter skladnja Universal Dependencies, skladnja JOS-SYN, udeleženske vloge, imenske entitete in koreference. Za vse ravni smo posodobili označevalne smernice, ki so pregledno zbrane in na voljo za nadaljnje delo. Na podatkih korpusa SUK smo naučili novo različico strojnega označevalnika CLASSLA-Stanza, ki dosega presežne vrednosti za vse evalvirane ravni. Z bogatim naborom ročno pregledanih jezikoslovnih oznak predstavlja učni korpus SUK enega temeljnih jezikovnih virov za sodobno slovenščino, zato zahteva nepresta-no posodabljanje in nadgrajevanje, kar predstavimo v zaključnem poglavju s smernicami za nadaljnji razvoj. Ključne besede: učni korpus, ssj500k, SUK, jezikoslovno označevanje, označevalne smernice Abstract In this paper, we present an upgrade to the training corpus for linguistic annotation of modern standard Slovene. The new version of the ssj500k corpus, renamed to SUK, introduces both new texts and new manually reviewed linguistic tags of various types. The corpus has been expanded from 500,000 to over a million tokens by incorporating three openly accessible language resources, each addressing the previously identified shortcomings of ssj500k: SentiCoref 1.0, ELEXIS-WSD for Slovene, and a dataset prepared from the Gigafida 2.0 corpus called Ambiga. We describe the linguistic annotation process at various levels: tokenization, segmenta-tion, lemmatization, MULTEXT-East morphology, Universal Dependencies 120 syntax, JOS-SYN syntax, semantic role labelling, named entity recognition, and coreference resolution. We have updated annotation guidelines, which are systematically compiled and available for further work. Using the SUK corpus data, we trained a new version of the automatic tagger CLASSLA-Stanza, which achieves outstanding results for all evaluated levels. With its manually-reviewed linguistic tags, the SUK corpus is foundational for modern Slovene, requiring ongoing improvements, which we detail in the final section with future development guidelines. Keywords: training corpus, ssj500k, SUK, linguistic annotation, annotation guidelines 1 Uvod Učni korpusi (ang. training corpora) so premišljeno grajene besedilne množice z zanesljivimi (tipično ročno pripisanimi ali pregle-danimi) dodatnimi informacijami, ki se uporabljajo pri nadzorova-nem strojnem učenju postopkov za obdelavo naravnega jezika. Ti postopki so lahko različni, med najbolj ključnimi za nadaljnje delo z jezikovnimi podatki pa je jezikoslovno označevanje: delitev besedila na gradnike (besede oz. pojavnice, večbesedne enote, povedi) in pripis jezikoslovnih informacij tem gradnikom. Učni korpusi za jezikoslovno označevanje zato spadajo v temeljno digitalno infrastrukturo določenega jezika in kot taki zahtevajo kontinuiran razvoj in nadgrajevanje. Za nadzorovano učenje strojnega jezikoslovnega označevanja besedil v sodobni standardni slovenščini1 se v našem prostoru že več kot desetletje razvija učni korpus, ki je bil do nedavnega poimenovan ssj500k (Krek idr., 2020a). Ta je vseboval 27.829 povedi (oz. približno 500.000 pojavnic, ki so korpusu dale ime), označenih na različnih jezikovnih ravneh, od segmentacije, tokenizacije, lematizacije, oblikoslovja in oblikoskladnje prek odvisnostne skladnje, 1 Za označevanje nestandardne slovenščine so na voljo učni korpusi iz zbirke Janes (Čibej idr., 2018); nedavna nadgradnja množic Janes-Tag in Janes-Norm je predstavljena v poročilu Arhar Holdt idr. (2023). Za označevanje starejše slovenščine pa je na voljo učni korpus goo300k (Erjavec, 2015). 121 imenskih entitet in večbesednih enot do udeleženskih vlog. Pod okriljem projekta Razvoj slovenščine v digitalnem okolju (RSDO)2 je bil učni korpus nadgrajen z novimi besedili in oznakami, zaradi spremembe obsega pa smo ga preimenovali v SUK, slovenski učni korpus. Nadgradnja korpusa predstavlja pomemben razvojni korak ne le v smislu prenove jezikovnega vira, pač pa tudi z vidika metodologije označevanja. Za vse ravni jezikovnih oznak, ki smo jih pripisovali in pregledovali, so bile posodobljene označevalne smernice, ki so po koncu projekta urejeno zbrane ter objavljene in tako na voljo za nadaljnje nadgradnje.3 SUK 1.0, ki je pod odprto licenco na voljo na repozitoriju CLARIN.SI (Arhar Holdt idr., 2022), je bil že pod okriljem projekta uporabljen za izboljšavo strojnega označevalnika za slovenščino. Pripravo korpusa smo z vidika projektnih ciljev predstavili v po-ročilu (Arhar Holdt idr., 2023), dela na posameznih označevalnih ravninah se dotikajo tudi nekateri prispevki, ki jih navajamo v nadaljevanju. V tem prispevku želimo raziskovalno-razvojni skupnosti jedrnato in celovito predstaviti nadgradnjo učnega korpusa ssj500k v SUK in s tem omogočiti njegovo usklajeno nadaljnje nadgrajevanje. Najprej predstavimo nabor besedilnih množic, s katerimi smo korpus nadgradili, sledi opis ročnega označevanja oz. pregledovanja oznak po jezikovnih ravninah in primerjava predhodne korpusne sestave z novo. Prispevek zaključimo s podatki o izboljšavah strojnega označevalnika, ki služijo kot ocena korpusne nadgradnje, ter smernicami za nadaljnje delo. 2 Metodologija 2.1 Povečanje korpusnega obsega Korpus ssj500k (v različici 2.3: Krek idr., 2021) obsega 27.829 povedi in je v celoti ročno pregledan na ravni tokenizacije, stavčne segmentacije, oblikoskladenjskih oznak in lem. Večbesedne enote so 2 Spletna stran projekta z dostopom do rezultatov: https://slovenscina.eu/. 3 Smernice so dostopne na https://wiki.cjvt.si/shelves/jezikoslovno-oznacevanje-korpusov. 122 označene in pregledane pri 13.511 povedih, skladnja JOS-SYN pri 11.411 povedih, imenske entitete pri 9.488 povedih, skladnja UD pri 8.000 povedih in udeleženske vloge (SRL) pri 5.501 povedi (Krek idr., 2020a, Tabela 1). Ena od prioritet nadaljnjega razvoja je bilo pove- čanje razpoložljivega gradiva za višje označevalne ravni, v analizah korpusne sestave pa sta bili identificirani tudi potreba po povečanju s korpusnimi besedili, ki omogočajo označevanje prek meja povedi, ter dopolnitvi korpusa za boljšo zastopanost oblikoskladenjskih oznak in dvoumnih besednih oblik (Arhar Holdt in Čibej, 2021, 49–50). Z upoštevanjem identificiranih potreb in v želji po učinkoviti izrabi že obstoječega gradiva smo za povečanje korpusa izbrali tri odprto dostopne jezikovne vire: (a) SentiCoref 1.0 (Žitnik idr., 2022) je korpus besedil s slovenskih novičarskih portalov, ki je za namene analize sentimenta opremljen z oznakami imenskih entitet in koreferenc. Korpus odgovarja na potrebe po vključitvi gradiva za ozna- čevanje prek meja povedi, prinaša pa tudi vključitev novega ozna- čevalnega nivoja, ki spada na področje semantike – koreferenc. (b) ELEXIS-WSD za slovenščino (Martelli idr., 2021) je slovenski del 10-jezičnega vzporednega korpusa, ki vsebuje 2.024 povedi iz Wi-kipedijinih člankov. Korpus vsebuje ročno pripisane oznake za razdvoumljanje pomenov (ang. word-sense disambiguation) in kot tak ob korpusu SentiCoref predstavlja drugo izhodišče za strojno učenje na semantični ravni. (c) Iz korpusa Gigafida 2.0 (Krek idr., 2020b) je bila pripravljena množica Ambiga, nabor 603 povedi, ki vsebujejo v predhodnem učnem korpusu nezastopane oblikoskladenjske oznake in pojavnice, identificirane kot problematične za strojno označevanje, npr. enakopisne zaimke, redke dvojinske oblike in podobno. Novi učni korpus SUK tako sestavljajo množice ssj500k 2.3 (586.187 pojavnic oz. 57,2 %), SentiCoref 1.0 (391.962 pojavnic oz. 38,2 %), ELEXIS-WSD (31.233 pojavnic oz. 3 %) in Ambiga (16.257 pojavnic oz. 1,6 %), kot predstavlja Graf 1. Ko so bile množice za povečanje korpusnega obsega določene, je sledil strojni pripis jezikovnih oznak in njihov celoviti ročni pregled na ravni tokenizacije, stavčne segmentacije, lem in oblikoskladenjskih oznak, za izbrane dele korpusa pa še pripis in urejanje oznak na višjih označevalnih 123 ravneh. V nadaljevanju predstavljamo delo z oznakami, in sicer loče-no po označevalnih ravninah. ϯϴ͕Ϯ ϱϳ͕Ϯ ϯ͕Ϭ ϭ͕ϲ ƐƐũϱϬϬŬ ŵďŝŐĂ >y/^Ͳt^ ^ĞŶƚŝŽƌĞĨ Graf 1: Besedilna sestava učnega korpusa SUK 1.0. 2.2 Segmentacija, tokenizacija, lematizacija, oblikoskladnja MULTEXT-East Osnovni nivoji korpusnega označevanja: segmentacija, tokenizacija, lematizacija in oblikoskladnja po sistemu MULTEXT-East (žargonsko tudi MSD; ang. morpho-syntactic description) so bili ročno pregledani na celotnem gradivu, ki predstavlja nadgradnjo učnega korpusa (512.588 besednih pojavnic). SentiCoref 1.0, največja izmed novih množic nadgrajenega uč- nega korpusa, je bil označen po fazah: (a) tokenizacija, lematizacija in segmentacija na povedi z orodjem CLASSLA-Stanza4 (verzija 0.0.11), (b) ročni pregled teh treh ravni, (c) strojno oblikoskladenjsko označevanje po sistemu MULTEXT-East v6 z istim orodjem, (č) ročni pregled oblikoskladenjskih oznak. Ročni pregled je temeljil na uveljavljenih smernicah5 in je potekal v spletnem okolju Google Preglednice (ang. Google Sheets). Tokenizacijo, lematizacijo in 4 https://github.com/clarinsi/classla 5 https://wiki.cjvt.si/books/04-oblikoskladnja-multext-east/page/oznacevalne-smernice, gl. Različica 1.0. 124 segmentacijo je pregledovalo 9 študentov, medtem ko je pri ročnem pregledu MSD-oznak sodelovalo 24 študentov jezikoslovnih smeri v razponu približno štirih mesecev, kar predstavlja eno najobširnej- ših tovrstnih označevalnih akcij v našem prostoru. Pregledovanje je potekalo po principu trojnega ujemanja: vsako pojavnico so neodvisno drug od drugega pregledali 3 študenti – oznake, ki so jih enotno izbrali vsi trije označevalci, so bile sprejete, oznake, pri katerih je prišlo do neujemanja, pa so bile znova pregledane v fazi kuracije (za natančnejši popis metodologije gl. Pori idr., 2022). Pri pregledu MSD-jev se je množica ELEXIS-WSD pridružila SentiCorefu (ostale ravni so bile pregledane predhodno), pri Ambigi pa je označevanje vseh štirih ravni zaradi omejenega obsega poteklo v enem koraku. V nadaljevanju predstavljamo izzive, ki smo jih identificirali v označevalni kampanji, in rešitve, ki so vključene v nadgrajene smernice.6 Gre za težje in mejne primere, ki so bili v predhodnih ozna- čevalnih smernicah slabše zastopani ali pa sploh niso bili, ali pa je pri pregledovanju teh pogosto prišlo do neupoštevanja smernic in s tem nedoslednosti. Dileme smo analizirali, tudi s pomočjo že ozna- čenih podatkov v ssj500k, in jih po kuraciji, kolikor je bilo mogoče, uskladili. Prekrivnost samostalnikov v slovenskih stvarnih lastnih imenih z občnoimenskimi: Pravilo, da samostalnikom, ki so del stvarnih lastnih imen in so prekrivni z občnoimenskimi samostalniki, pripi- šemo občnoimenskost in jih lematiziramo z malo začetnico, je bilo v obstoječih smernicah sicer obravnavano, a označevalcem ni bilo intuitivno. Gre za primere tipa podjetje Iskra (lema: iskra, MSD: Sozei), časnik Delo (lema: delo, MSD: Sosei). Vendar to pravilo velja le za samostalnike, ne pa tudi za druge besedne vrste in ne za primere, kjer nesamostalniška besedna vrsta nastopa kot samostalnik, npr. stranka Zares (MSD: Slzei, lema: Zares). Pridevniki iz osebnih in zemljepisnih lastnih imen: Pri izlastnoimenskih svojilnih pridevnikih, ki zaznamujejo vrsto in ne prave svojine ter tudi že prehajajo v zapis z malo začetnico, se je pri določanju leme 6 https://wiki.cjvt.si/books/04-oblikoskladnja-multext-east/page/oznacevalne-smernice, gl. Različica 2.0. 125 izkazala za težjo odločitev med malo in veliko začetnico. V obstoječih smernicah ni bilo jasnega razlikovanja med to kategorijo pridevnikov in pravimi svojilnimi pridevniki. Tako smo v nadgrajenih smernicah dodatno pojasnili obravnavo izlastnoimenskih pridevnikov: (a) pri pridevnikih iz osebnih lastnih imen imamo poleg teh, ki izražajo pravo svojino ( Pahorjeva (lema: Pahorjev, MSD: Psnzei) [mlada struja]) še tiste, ki zaznamujejo vrsto in jih v rabi pogosto najdemo zapisane z malo začetnico; te primere lematiziramo z malo začetnico ( [zdravlje-nje] parkinsonove (lema: parkinsonov) [bolezni]); (b) pri pridevnikih iz stvarnih lastnih imen ( Magov [novinar], Delova [dopisnica]) smo opredelili načelo lematizacije, in sicer z malo začetnico lematiziramo tiste, ki v referenčnem korpusu Gigafida 2.0 izkazujejo svojilno rabo ( Magov [novinar]; lema: magov (prek mag = čarovnik), medtem ko primere, kjer je svojina konceptualno sicer možna, vendar v rabi ni izkazana, lematiziramo z veliko začetnico ( Delova [dopisnica]; lema: Delov). Tuja stvarna lastna imena: Tu so izziv predstavljali primeri dveh tipov: (a) tuja stvarna lastna imena iz slovenščini sorodnih jezikov, ki se v slovenskih besedilih zaradi morfološke podobnosti pregibajo po slovenskih vzorcih (npr. hrvaška imena: Zagrebačka banka, Večernji list) in (b) deli tujih stvarnih lastnih imen, ki so prevzeti v sloven- ščino in so pomensko prekrivni z izvorno tujo besedo (npr. leasing, holding) ali pa so oblikovno prekrivni s slovenskimi samostalniki, a si s tujo besedo ne delijo pomena, pa tudi besedni vrsti v obeh jezikih nista nujno isti (npr. trans, global). Odločili smo se, da bomo tako v primerih tipa (a) kot (b) upoštevali prekrivnost s slovenskim občnim samostalnikom, če je zadovoljeno vsaj enemu izmed dveh meril: 1) potencialno prekriven samostalnik kot del tujega lastnega imena se v rabi pregiba; 2) tuj samostalnik je prevzet, kar potrjujejo referenčni priročniki za slovenščino (npr. [Hypo] Leasing; lema: leasing, MSD: Somei; [Infond] Holding; lema: holding, MSD: Somei). Pomenska prekrivnost besede v enem in drugem jeziku ni bila nujen pogoj za uvrstitev tovrstnih primerov med občnoimenske samostalnike ( [ Trade] Trans [Invest]; lema: trans, MSD: Somei; [Prevent] Global; lema: global, MSD: Somei). Kot velja pri obravnavi (delov) stvarnih imen, ki jih sestavljajo neizpodbitno slovenske besede, tudi 126 v tujih stvarnih lastnih imenih prekrivnost iščemo le pri samostalni-kih. To velja posebej izpostaviti, saj so v jezikih, sorodnih slovenščini, lahko tudi nesamostalniške besedne vrste oblikovno podobne slovenskim in se kot take lahko tudi pregibajo. Pri teh besedah je lema enaka obliki, MSD-oznaka pa ‘neuvrščeno’ ( Večernji (lema: Večernji, MSD: Nj) list (lema: list, MSD: Somei), Zagrebačka (lema: Zagrebač- ka, MSD: Nj) banka (lema: banka, MSD: Sozei). Ločevanje pridevnikov od prislovov: Obravnavali smo vprašanje, kateri besedni vrsti pripada oblika besede, ki je enaka prislo-vu in pridevniku, ko je ta beseda (a) v vlogi povedkovega določila (npr. [… bi bilo] smotrno, [da bi …]) ali (b) v strukturi z nedoločnikom (npr. [O tem ni] mogoče [sklepati.]). Predhodne smernice tega niso obravnavale, kar se je odražalo tudi v korpusu ssj500k, kjer tovrstni primeri niso bili enotno označeni. Po pregledu in analizi pojavitev tovrstnih primerov v korpusu SentiCoref smo oblikovali pravilo, da besedi v obeh naštetih skladenjskih vlogah pripišemo pridevniško lemo in MSD-oznako, če v stavku ni izpustljiva (je obvezna, da je stavek koherenten), in nasprotno – prislovno lemo in oznako, če je stavek koherenten tudi brez nje (npr. [O tem ni] mogoče (lema: mo-goče, MSD: Ppnsei) [sklepati.] > O tem ni sklepati.*; Mogoče (lema: mogoče, MSD: Rsn) [ste ga vznemirili.] > Vznemirili ste ga. ). Predložne prislovne zveze: Podobno kot pri prejšnji dilemi je bila težava pri razlikovanju med pridevnikom in prislovom v prislovnih zvezah s predlogom (npr. na novo, v živo). Tudi tovrstni primeri so bili v korpusu ssj500k označeni neenotno in po analizi smo do-ločili, da nepredložnemu delu v predložnih prislovnih zvezah pripi- šemo pridevniško lemo in MSD-oznako ( [na] novo (lema: nov, MSD: Ppnset)). Nesklonljivi prilastki: V obstoječih smernicah je bilo pravilo, da nesklonljive prilastke (npr. solo, neto, bruto) označimo kot samostalnike, kadar so sklonljivi, in kot pridevnike, kadar niso, vendar kriterij sklonljivosti ni bil jasno opredeljen. Tako smo oblikovali pravilo, da določen primer označimo kot samostalnik, če v referenčnem korpusu najdemo potrditev, da se lahko pregiba kot samostalnik (npr. pop, elektro), in kot pridevnik, če te potrditve ni (npr. neto, repro). 127 2.3 Oblikoslovje in skladnja po sistemu UD Universal Dependencies (UD) je označevalna shema, ki si prizadeva za mednarodno oz. medjezično usklajeno slovnično označevanje besedil na oblikoslovni in skladenjski ravni, da bi pospešila razvoj večjezičnih jezikovnih tehnologij na eni strani in kontrastivnih jezikoslovnih analiz na drugi (de Marneffe idr., 2021). V zbirko več sto korpusov, označenih s to shemo, je bila leta 2015 priključena tudi univerzalna odvisnostna drevesnica za pisno slovenščino, drevesnica SSJ (Dobrovoljc idr., 2017), ki je ob prvi objavi vsebovala 8.000 razčlenjenih povedi korpusa ssj500k (primer na Sliki 1), v projektu RSDO pa smo jo bistveno nadgradili tako z vidika obsega kot z vidika dokumentiranosti smernic in infrastrukturne podpore za njeno nadaljnjo analizo (Dobrovoljc in Ljubešić, 2022; Dobrovoljc idr., 2023). Jedrne smernice sheme UD, kakršne so dokumentirane na uradni spletni strani projekta,7 za vsako izmed predlaganih »univerzalnih« oznak (17 besednih vrst, 24 oblikoskladenjskih lastnosti, 37 odvisnostnih skladenjskih relacij) podajajo razmeroma splošno opredelitev s ponazoritvami na nekaj izbranih primerih v različnih jezikih, način prenosa teh smernic na svoje konkretne jezikovne podatke pa je prepuščen avtorjem drevesnic za posamezne jezike. Ker za slovenščino ob nastanku prvotne drevesnice SSJ te smernice niso bile sistematično dokumentirane, je bil prvi korak znotraj projekta RSDO zato namenjen izčrpnemu popisu smernic UD za slovenščino, tako na spletni strani projekta (v angleščini) kot v obliki samostojnega priročnika v slovenščini.8 Slednji poleg velikega števila ponazoritev prototipičnih in mejnih primerov vsake oznake vsebuje tudi ločeno poglavje s smernicami za označevanje kompleksnejših skladenjskih struktur (npr. elipse, primerjave, po-udarjalni členki, besedilni povezovalci …). Pri tem smo poleg opisa prvotnih smernic uvedli tudi nekaj manjših izboljšav na mestih, kjer je bila prvotna označenost korpusa SSJ-UD nedosledna ali 7 https://universaldependencies.org/ 8 https://wiki.cjvt.si/books/07-universal-dependencies/page/oznacevalne-smernice, gl. Različica 1.0. 128 neustrezna glede na splošne, jezikovno univerzalne smernice. To pa ne velja za vse identificirane neskladnosti, saj nekatere predstavljajo precejšen odmik od doslej uveljavljenih označevalnih praks v slovenskem prostoru in bi jih bilo zato smiselno najprej nasloviti s širšo strokovno diskusijo. Tovrstna mesta smo popisali v ločeni prilogi9 h krovnim smernicam. Ker sta si označevalna sistema JOS in UD na ravni pripisovanja besednih vrst in drugih oblikoslovnih lastnosti precej podobna, so bila že ob nastanku prvotne odvisnostne drevesnice UD za sloven- ščino izdelana podrobna pravila za preslikavo oblikoskladenjskih oznak JOS v besedne vrste in oblikoskladenjske lastnosti sistema UD,10 s katerimi je bil v celoti pretvorjen tudi učni korpus ssj500k. Na enak način smo z avtomatsko pretvorbo v univerzalne oblikoslovne oznake (besedne vrste in druge oblikoskladenjske lastnosti) pretvo-rili tudi novi učni korpus SUK z ročno pripisanimi oblikoskladenjskimi oznakami JOS. Ker se pretvorbena pravila v času od nastanka prejšnjih različic korpusov niso spremenila, smo v okviru projekta RSDO pretvorbo opravili zgolj na novo dodanih besedilih korpusa SUK in opravili ustaljeni ročni pregled povedi z glagolom biti za razdvoumljanje med pojavitvami pomožnega in glavnega glagola (po en označevalec na primer). Poleg zgoraj opisanega označevanja celotnega korpusa SUK na oblikoslovni ravni smo prvotni korpus ssj500k oz. SSJ v obsegu 8.000 povedi dodatno povečali še za 5.435 novih ročno razčlenjenih povedi v obliki dvofazne označevalne kampanje. V prvi fazi razširitve so označevalci ročno pregledali 3.411 polpretvorjenih povedi korpusa ssj500k, ki zaradi omejene natančnosti pretvorbenih pravil v času nastanka prvotnega korpusa SSJ-UD niso bile javno objavljene, pri čemer so se označevalci osredotočili predvsem na pripisovanje novih oz. manjkajočih povezav (22.377 oz. 23,5 % vseh pojavnic). V drugi fazi širitve je bil skladenjsko razčlenjen še podkorpus ELEXIS-WSD, ki vsebuje 2.024 povedi, in sicer z ročnim pregledom vseh strojno 9 https://wiki.cjvt.si/books/07-universal-dependencies/page/oznacevalne-smernice, gl. Različica 1.0 – Priloga. 10 https://github.com/clarinsi/jos2ud 129 pripisanih razčlemb orodja CLASSLA-Stanza. V obeh fazah so vsako poved pregledali 2–3 neodvisni označevalci in končni kurator, pri čemer smo za označevanje uporabili orodje Q-CAT (Brank, 2022), ki odslej podpira tudi uvoz datotek v formatu CoNLL-U, za kuracijo pa spletno platformo WebAnno, ki jo vzdržuje CLARIN.SI. Pred objavo je bila glede na nekoliko spremenjene izhodiščne smernice in druge identificirane nedoslednosti s hevrističnimi poizvedbami izboljšana tudi označenost prvotne drevesnice SSJ. Rezultati vseh zgoraj opisanih aktivnosti so objavljeni kot del novega referenčnega učnega korpusa za slovenščino SUK 1.0, s čimer se je količina učnih podatkov tako na oblikoslovni kot skladenjski ravni skoraj podvojila (gl. Tabelo 1). Univerzalno skladenjsko razčlenjeni del korpusa SUK je bil po standardni delitvi na učno, validacijsko in testno množico obenem objavljen tudi kot del skupne mednarodne zbirke drevesnic UD v2.10 – kot nova, razširjena in izboljšana različica drevesnice SSJ. Nova različica SSJ v primerjavi s prvotno vsebuje skoraj enkrat večje število pojavnic (126.427, +89,9 %), s čimer se korpus SSJ po številu pojavnic danes umešča v zgornjo osmino vseh drevesnic UD po svetu. Z razširitvijo je drevesnica SSJ postala tudi bolj raznolika, saj se vsi trije podkorpusi (izvorne povedi iz ssj500k, nove povedi iz ssj500k, nove povedi iz ELEXIS-WSD) med seboj razlikujejo tako z vidika vrste vsebovanih besedil kot njihove skladenjske kompleksnosti. Drevesnica SSJ, tj. univerzalno oblikoskladenjsko razčlenjeni podkorpus korpusa SUK, je bila kot samostojna podatkovna mno- žica že integrirana v številna orodja in spletne portale po svetu,11 po njej pa je mogoče brskati tudi s pomočjo lokalno razvitega orodja Q-CAT (Slika 1) in spletnega vmesnika Drevesnik, ki sicer trenutno omogočata zgolj prikaz univerzalnih besednih vrst in odvisnostnih skladenjskih relacij, ne pa oblikoslovnih lastnosti tipa Case=Nom.12 11 https://universaldependencies.org/tools.html 12 https://orodja.cjvt.si/drevesnik/ 130 Slika 1: Primer označene povedi po shemi Universal Dependencies v orodju Q-CAT. 2.4 Skladnja po sistemu JOS-SYN Sistem JOS-SYN, ki je bil zasnovan v projektu Jezikoslovno ozna- čevanje slovenščine (Erjavec idr., 2010), sledi spoznanjem slovenskega jezikoslovja (zlasti slovnici Toporišič, 2004), obenem pa temeljnim idejam, ki jih zarisujejo obstoječi uveljavljeni sistemi odvisnostnega označevanja. Ključna lastnost sistema je, da upošteva informacije, ki jih prinašajo oblikoskladenjske oznake JOS oz. njihova sodobna različica MULTEXT-East v6 (Erjavec, 2012). Na skladenjski ravni tako dodajamo samo informacije, ki jih še ni pokrila oblikoskladnja, kar omogoči robusten, intuitiven in hitro razložljiv označevalni sistem.13 Skladenjska raven JOS-SYN je bila dobro zastopana že v prej- šnji različici učnega korpusa: v ssj500k je bilo s tem sistemom ozna- čenih 11.411 povedi v 617 besedilih s skupnim obsegom 235.864 pojavnic (Krek idr., 2020a, 25–26). Na teh podatkih je že bil naučen skladenjski razčlenjevalnik za slovenščino, ki je dosegal 90,43 % za pravilno določeno mesto povezave oz. 87,52 % za pravilno določena mesto in tip povezave (Dobrovoljc idr., 2012). Cilj nove označevalne kampanje je bil označiti 2.024 novih povedi ELEXIS-WSD, s tem povečati obseg učnega gradiva, pri tem pa natančneje oceniti ter nadgraditi označevalne smernice.14 Kampanja je trajala približno šti-13 Sistem oznak je predstavljen na strani https://wiki.cjvt.si/books/06-odvisnostna-skladnja-jos-syn/page/predstavitev-oznak. 14 https://wiki.cjvt.si/books/06-odvisnostna-skladnja-jos-syn/page/oznacevalne-smernice, gl. Različica 1.0. 131 ri mesece, dva meseca za intenzivno označevanje in dva meseca za pripravo analiz in nadgradnjo smernic. Povedi ELEXIS-WSD, v katerih je že bila ročno popravljena tokenizacija, segmentacija, lematizacija ter oblikoskladnja MULTEXT-East, smo najprej strojno skladenjsko označili z orodjem CLASSLA-Stanza (verzija 1.1.0), nato pa sta dva jezikoslovca s pomočjo orodja Q-CAT (Brank, 2022) ročno pregledala vsako od povedi in popravila strojno pripisane skladenjske oznake (Slika 2). Nejasnosti in neskladja v označevalnih rešitvah smo beležili in naslavljali sproti ob delu. Težja mesta označevanja, ki so izvirala iz nejasnosti označevalnih smernic ali novoodkritih označevalnih zadreg, smo jezikoslovno analizirali, poiskali rešitve in posodobili smernice. Poleg vrzeli v smernicah smo med delom identificirali tudi mesta, kjer so podatki v ssj500k označeni neskladno. Za določene vrste težav, ki jih navajamo v nadaljevanju, smo skladenjske oznake v podatkih ssj500k posodobili, nekaj usklajevanja bo treba še opraviti v prihodnje, nekatere težave pa se propagirajo z nižjih ravni, čemur se bo treba posvetiti v nadaljnjih projektih. Slika 2: Označevanje odvisnostne skladnje JOS-SYN v programu Q-CAT. Da bi označevalne smernice postale preproste za nadaljnje nadgrajevanje in uporabo, smo jih oblikovno in vsebinsko poenostavili, strukturo nadgradili in zagotovili dodatne zglede označevanja (več o tem v Arhar Holdt idr., 2023). V smernice smo dodali nova poglavja, 132 ki natančneje pojasnjujejo označevanje izbranih pojavov. Nova je denimo obravnava simbolov in ločil, ki nadomeščajo besede (npr. % ° $ za besede odstotek, stopinja, dolar), znake + & / - v pomenu veznikov ‘in’, ‘ali’ (npr. srčno-žilna bolezen), znak / v pomenu ‘na’ ( 6 mg/kg), znaka - in – v pomenu ‘od’–‘do’, ‘proti’ ( v sezoni 2006– 07) ter znak - pri povezovanju kratic in števil v podredne zveze ( 16-ton-ski). Ti elementi pri predhodnem označevanju niso bili vpeti v besednozvezno skladnjo, zaradi česar je razpadla drevesnica vseh povedi, ki so jih vsebovale. Nove smernice, ki ločujejo besednozvezno povezljive znake od nepovezljivih, za povezljive pa jasno prikažejo načine povezovanja, so skladnejše s primerljivimi sistemi, tudi UD za slovenščino. Ker gre za večjo spremembo sistema označevanja, smo pregledali in uskladili obravnavo tovrstnih elementov tudi v ssj500k. Obširnejša dopolnitev smernic je bila pripravljena tudi za obravnavo lastnih imen in tujejezičnih elementov. Problematiko smo strukturirali na ožje vsebinske sklope, za vsakega pripravili opis, temelječ na analizah predhodnega označevanja, pa tudi posebna opozorila, kjer je v preteklosti prihajalo do zmede. Navodila za ozna- čevanje lastnih imen so bila predhodno precej skopa, posledično pa je v ssj500k opaziti velike neskladnosti označevanja, tako pri dolo- čanju, ali zvezo obravnavati kot slovensko ali kot fragment v tujem jeziku (glede na smernice se fragmenti v tujem jeziku tipično ne povezujejo v drevesnico), kot tudi odločanje, kaj je jedro pri zvezah, ki prihajajo iz tujega jezika. Precej nedoslednosti je najti pri povezovanju tujejezičnih členov tipa de, la, the, za katera velja posebna obravnava, vendar jih označevalci težko prepoznavajo, kadar gre za manj znane tuje jezike. Najtrši oreh pri označevanju pa so tujejezič- na stvarna lastna imena, kjer naj bi označevanje sledilo odločitvam na ravni oblikoskladnje, vendar tudi tam smernice niso optimalne (Pori idr., 2022). Od sprememb je možno izpostaviti še nekaj takšnih, ki so vezane na označevanje specifičnih struktur (za referenco gl. nove smer-nice15). V poglavje, ki se posveča označevanju struktur tipa nujno je, 15 https://wiki.cjvt.si/books/06-odvisnostna-skladnja-jos-syn/page/oznacevalne-smernice, gl. Različica 2.0 133 smo dodali obravnavo struktur treba je, saj je za označevalce koristno na enem mestu videti, da so pridevniki v takšnih primerih z glagola biti vezani s povezavo DOL, prislovi pa s TRI. Na podoben način smo v poglavje Polstavčni desni prilastki, ki se je predhodno osredotočalo na pridevniške, deležniške in nedoločniške polstavke (povezava DOL), dodali še primer obravnave deležijskih desnih prilastkov (povezava TRI). Nadgradili smo poglavje o prilastkovih odvisnikih, ki zdaj vsebuje tudi navodila za označevanje t. i. nepravih odvisnikov, prilastkovih odvisnikov v povedih s pristavki ter primerov tipa dovolj star, da. Nenazadnje, pojasnili smo navodila za označevanje osebka pri pasivnih strukturah s se (npr. v hudih primerih se daje adrenalin) Posodobili smo dve mesti smernic, kjer se nahajajo vnaprej pripravljeni (zaključeni) seznami besed, ki jih označujemo po določenih pravilih, in sicer informativni seznam zvez, ki jih povezujemo s povezavo SKUP,16 ter seznam členkov, ki jih povezujemo v besedne zveze kot določujoči element Oba seznama smo posodobili na osnovi analiz predhodnega označevanja in pojavnosti obravnavanih jezikovnih elementov v referenčnem korpusu, upoštevali pa smo tudi označevalne prakse pri skladenjskem sistemu UD za slovenščino. Pri preverbah že označenega gradiva smo identificirali tudi nedoslednosti, ki ne izvirajo nujno iz nejasnosti smernic in bi jih bilo treba v nadaljnjih projektih sistematično nasloviti in odpraviti. Poleg že omenjene težave z označevanjem (zlasti tujejezičnih stvarnih) lastnih imen so se kazala neujemanja pri povezovanju členkov in prislovov (npr. vsaj, izključno) in slovničnih besed, ki lahko nastopajo kot različne besedne vrste (npr. niti, razen), povezovanju pridevnikov, kadar modificirajo števnike (npr. dodatnih 400 milijonov), označevanju pridevniške in samostalniške vezljivosti, latinskih poimenovanj, citatov in drugih fragmentov (npr. pri zvezah s pa tudi), ločevanjem med osebkom in povedkovim določilom; predmetom in prislovnim določilom; oznakami TRI in ŠTIRI ter prilastkovimi in drugimi odvisniki (npr. v stavkih s ko, preden, dokler). Za urejanje doslednosti so ključni zlasti problemi, ki se lahko propagirajo na višje 16 Besede, ki imajo variantni zapis skupaj ali narazen, večbesedne veznike in podobne večbesedne enote. 134 ravni (udeleženske vloge) ali so posledica nerešenih vprašanj na niž- jih ravneh (oblikoskladnja). 2.5 Udeleženske vloge po sistemu SRL Označevanje korpusa s semantičnimi kategorijami izhaja iz potrebe po strojnem procesiranju jezikovnih podatkov, ki so semantične narave, in zadeva različne možnosti njihove uporabe, kot je razvoj sistemov za luščenje informacij, sistemov za odgovarjanje na vpra- šanja, izboljšava delovanja skladenjskih razčlenjevalnikov, strojnih prevajalnikov ipd. Celotni del semantično označenega korpusa SUK predstavlja podkorpus SRL, ki vsebuje dva dela. Korpus SRL-ssj500k vsebuje 9.724 ročno označenih povedi iz priprave predhodne različice uč- nega korpusa (ssj500k 2.3) in povedi, ki so bile v ssj500k 2.3 ozna- čene na morfološki in skladenjski ravni, niso pa bile označene na semantični ravni. SRL-WSD predstavlja korpus ELEXIS-WSD, ki vsebuje 2.024 povedi. Razen že predhodno ročno pregledanih povedi sta bila korpusa najprej avtomatsko označena na semantični ravni s pomočjo SRL parserja (Björkelund idr., 2009), korpus SRL-WSD pa tudi na morfološki in skladenjski ravni z orodjem CLASSLA-Stanza po sistemu JOS in UD. V označevalno kampanjo na semantični ravni je bilo skupaj vključenih 11.748 povedi, od tega je bilo 5.501 povedi ponovno pregledanih, 6.247 povedi pa je bilo najprej avtomatsko označenih, nato pa ročno pregledanih. Odločitve so bile na koncu usklajene v celotnem podkorpusu SRL učnega korpusa SUK. Pri snovanju slovenskega modela za semantično označevanje (Krek idr., 2016) smo se glede na analizo označevalnih sistemov od-ločili, da bomo izhajali iz funkcijskega generativnega pristopa Praške odvisnostne drevesnice (ang. Prague Dependency Treebank, PDT; Mikulová idr., 2006).17 Z vidika optimizacije pomenske razdroblje-nosti, upoštevanja slovenskih specifik in prekrivnosti oznak med posameznimi sistemi smo nabor ustrezno zreducirali, kot je opisano v 17 Strnjen pregled vseh semantičnih oznak, njihov opis in zgledi je na voljo na tej povezavi: https://wiki.cjvt.si/books/10-udelezenske-vloge-srl/page/predstavitev-oznak. 135 Arhar Holdt idr. (2023). Podroben opis semantičnih oznak in pravila za njihovo uporabo vsebujejo Smernice za semantično označevanje učnega korpusa,18 ki so bile v okviru projekta RSDO nadgrajene in posodobljene glede na vsebinske analize. Vse povedi v na novo označenem in popravljenem predhodno že označenem korpusu je označila podiplomska študentka slovenistike na podlagi prve različice smernic in na podlagi sprotnih konzultacij in navodil. Celoten na novo označen korpus je nato pregledala soav-torica tega prispevka s pomočjo sistematičnih in ciljnih preverjanj. Za označevanje je bilo uporabljeno orodje Q-CAT (Brank, 2022), kot prikazuje Slika 3. Slika 3: Prikaz semantične označevalne ravni v orodju Q-CAT. Izhodišče semantičnega označevanja je predstavljal posamezni glagol v vseh svojih pojavitvah znotraj vnaprej določenih pomenskih skupin, npr. glagoli govorjenja, premikanja, kognitivnih procesov ipd., kar je omogočilo prepoznavanje tipičnih udeleženskih vlog, ki se povezujejo s posameznimi pomeni glagolov znotraj skupnega pomenskega polja. Z označevanjem smo začeli pri pogostejših glagolih ( biti, imeti, morati, iti, začeti, vedeti) ter nadaljevali z upoštevanjem sorodnih pomenskih skupin, npr. glagolov rekanja ( povedati, reči, praviti, govoriti). Na koncu smo označili glagole z zgolj eno pojavitvi-jo v povedi (pribl. 1200). Na ta način smo v največji možni meri zajeli povedi, za katere je bilo mogoče izpeljati čim bolj sistematične in usklajene jezikovne rešitve. 18 https://wiki.cjvt.si/books/10-udelezenske-vloge-srl/page/oznacevalne-smernice, gl. Različica 1.0. 136 V procesu označevanja je bil korpus nadgrajen tudi z vsebin-skega vidika, pri čemer dodana vrednost temelji na jezikoslovnem premisleku že obstoječih odločitev v skladu z novimi spoznanji pri izdelavi semantičnih virov, analize vezljivostnih vzorcev pri izdelavi Vezljivostnega leksikona (Gantar, 2021; Gantar, 2023) in na upošte-vanju potreb jezikovnotehnološke skupnosti. V približno 75 % korpusa so popravljena in poenotena razmerja med udeleženci pri glagolih rekanja po načelu: REC = naslovnik glagolskega dejanja, RESLT = konkretni končni rezultat ali "izdelek" glagolskega dejanja (npr. izjava sama, ki jo največkrat uvaja odvisni stavek), PAT = vsebina ali tema glagolskega dejanja. Druge pomembne vsebinske izboljšave korpusa temeljijo na analizi nekaterih problematičnih skladenjskih struktur in poenotenju odločitev v povezavi z označevanjem skladenjskega nivoja. Sem sodi poenotenje in uskladitev opredeljevanja razmerja med udeleženci v skladenjsko enakovrednih povedih tipa: kdo ali kaj je kdo ali kaj. Na podlagi smernic predhodnega semantičnega ozna- čevanja učnega korpusa ssj500k smo z udeležensko vlogo ACT, ki v splošnem zajema vršilce in pobudnike dejanja, označevali samostalnike v imenovalniku, ki nastopajo kot osebki glagola biti; samostalniška povedkova določila ob glagolu biti pa kot prizadeto (PAT): območje medenice(ACT) je središče telesa (PAT); problem begunc ev (ACT) je stvar države (PAT). Glede na omenjena izhodi- šča smo že na ravni prvotnega označevanja tu predvidevali največ neenotnosti na pomenskem nivoju in odstopanja med skladenjskim in pomenskim nivojem, predvsem zaradi težav pri odločanju o izhodišču in določilu stavka na pomenski ravni in o polno- oz. nepolnopomenski vlogi glagola biti, ki odloča med osebkovo in povedkovodoločilno vlogo na skladenjski ravni. V zvezi s tem smo pri nadgradnji korpusa sprejeli odločitev, da v skladenjsko enakovrednih povedih pomenska interpretacija sledi pravilu: kar izvem novega = prizadeti (PAT) udeleženec, o komer ali čemer izvem kaj novega = nosilni udeleženec (ACT). To v veliki meri ustreza ozna- čevanju na skladenjski ravni, kjer se temu, kar je na pomenski ravni aktant, pripisuje odvisni del povedka (povezava dol), temu, kar na 137 pomenskem nivoju opredeljujemo kot prizadeto, pa je na skladenjski ravni tipično pripisan osebek (povezava ena): Dogodek v Ankaranu(dol-ACT) je bila dramatična nesreča(ena-PAT). Gostja večera(dol-ACT) bo Desa Muck(ena-PAT). Večina potnikov(dol-ACT) so bile ženske(ena-PAT). Označevanje je v skladu z zgornjimi odločitvami dosledno izpe-ljano na pribl. 90 % povedi združenega korpusa SRL, medtem ko je smiselnost poenotenja z razmerij na skladenjski ravni (tj. ena-ACT; dva-PAT) eden od jezikoslovnih premislekov, ki terjajo širši jezikovni konsenz. Z omenjeno vsebinsko nadgradnjo so povezane tudi odločitve pri drugih udeleženskih vlogah glagola biti po sistemu: biti + samostalnik = PAT: dogodek(ACT) je bil nesreča(PAT); biti + pridevnik = RESLT: je osamljena(RESLT); biti + prislov = MANN: bo toplo(MANN). Popravki so bili izvedeni tudi na predhodno ročno že označenih povedih, s čimer smo želeli doseči enotnost označevanja pri nekaterih najpogostejših semantičnih vzorcih. Prav tako so bile deloma poenotene odločitve, aplicirane na korpusne povedi v približno 80 %, pri razumevanju agentnih in deagentnih rab. Pri označevanju smo sledili pomenski interpretaciji izhodiščnega udeleženca kot vršilca dejanja (ACT), ki mu praviloma ni mogoče dodati še enega vršilca, ne da bi se pri tem spremenil pomen: dogodki(ACT) so se odvijali bistveno drugače – *ACT je odvijal dogodke …, in pravilu, da morajo ostati udeleženske vloge v agentnih in deagentnih strukturah nespremenjene, kjer prihaja do dis-krepance med skladenjskim in pomenskim nivojem: stvar(PAT-ena) je malce bolj zapletena – zgodbo(PAT-dve) sta sami(ACT-tri) zapletli. Pri nadaljnji nadgradnji učnega korpusa bi bilo smiselno upoštevati tudi neenotnosti v pomenski interpretaciji, ki niso bile sistematično odpravljene, npr. med njimi so se širile govorice(ACT) : potem je za- čela širiti govorice(PAT). Nadaljnje izboljšave korpusa vidimo na več ravneh: z aktualiza-cijo semantičnih oznak glede na označevalni sistem PDT (opisano v 138 Arhar Holdt idr. (2023, 44–45)); z nadgradnjo korpusa z naborom semantičnih oznak glede na jezikoslovne analize, ki zahtevajo konsenz tudi na drugih označevalnih ravneh; ter z nadgradnjo korpusa s semantičnimi kategorijami, ki se oblikujejo znotraj pobud za povezovanje konceptov na medjezikovni ravni (npr. UniDive,19 ELEXIS20). 2.6 Imenske entitete Imenske entitete (ang. named entities; NE) so samostalniki in samostalniške besedne zveze, ki identificirajo neko osebo (oznaka PER), lokacijo (oznaka LOC), organizacijo (oznaka ORG) ali drug edinstven objekt v realnem prostoru in času (oznaka MISC). Tem standardnim oznakam se pridružuje še kategorija svojilnih pridevnikov, izpeljanih iz osebnega lastnega imena (oznaka DERIV-PER), npr. [ Obamova] DERIV-PER izvolitev), ki se je kot odgovor na potrebo po celovitejši anonimizaciji osebnih podatkov pokazala kot nepogrešljiva. Imenske entitete so na ortografski ravni pogosto izražene z veliko začetnico (npr. Slovenska tiskovna agencija) ali kratico (npr. STA), vendar pa velika začetnica in kratica ne označujeta samo imenskih entitet (npr. BDP). Identifikacija imenskih entitet v besedilu je pomembna za odkrivanje koreferenčnosti, analiziranje sentimenta, ekstrakcijo informacij, povezav in dogodkov ter druge naloge, povezane s pro-cesiranjem naravnega jezika. V projektu RSDO so bile imenske entitete ročno pregledane v korpusih SentiCoref 1.0 in ELEXIS-WSD, tj. v 20.166 povedih oz. 96,31 % novega gradiva. SentiCoref je že vseboval strojno pripisane oznake, entitete, ki se pojavljajo v koreferenčnih verigah, pa so bile tudi ročno pregledane, medtem ko je bil ELEXIS-WSD predo-značen v projektu, z orodjem CLASSLA-Stanza. Pri ročnem pregledu obeh korpusov smo sledili predhodno uveljavljenim označevalnim smernicam.21 Kampanja pregledovanja je potekala v spletnem orodju INCEpTION (Klie idr., 2018), ki je preprosto za uporabo in nudi 19 https://www.cost.eu/actions/CA21167/ 20 https://elex.is/ 21 https://wiki.cjvt.si/books/08-imenske-entitete/page/oznacevalne-smernice, gl. Različica 1.1. 139 dober pregled nad že opravljenim delom. Gradivo so pod vodstvom koordinatorja pregledovale tri študentke jezikoslovnih smeri. Vsako poved so pregledale vse tri študentke, neujemanja med pripisanimi oznakami pa je v fazi kuracije posebej obravnaval koordinator in tem primerom tudi pripisal končne oznake (Slika 4). Pri označevanju se je pojavil pomislek glede obravnave ženskih oblik priimkov, ki so tvorjeni iz moških priimkov in so z oblikovnega vidika svojilni pridevniki (npr. Kresalova). Po tem kriteriju bi jim morali prisoditi oznako DERIV-PER, a smo tovrstnim primerom pripisali oznaka PER, saj pomensko delujejo kot osebno lastno ime, poleg tega pa so oblikoskladenjske lastnosti zabeležene na nivoju oblikoskladnje. Kot problematično se je izkazalo tudi določanje začetka imenske entitete v primerih, ko je prvi del uradnega imena organizacije zapisan z malo začetnico, ker ga pisec besedila dojema kot vrstno poimenovanje (npr. občina Gornja Radgona). Obveljalo je splošno pravilo, po katerem je glavni kazalnik, da celotno enoto označimo kot imensko entiteto, velika začetnica ([ Občina Gornja Radgona] ORG). V določenih primerih pa lahko kot imensko entiteto obrav-navamo tudi primere, ki so zapisani z malo začetnico, a vsebujejo vse sestavine uradnega imena te institucije. Tak primer je [ ameriška centralna banka]ORG, uradno slovensko poimenovanje pa je Ameri- ška centralna banka. Če je institucija zapisana kot parafraza uradnega imena, ne glede na to, ali je zapisana z malo ali veliko začetnico, je ne označimo kot imensko entiteto, npr. Karavanški predor, saj je uradno ime predor Karavanke. Posebna problematika označevalnega sistema je predvsem predpostavka, da avtorji besedil vedno upoštevajo pravopisna pravila in se tudi pozanimajo o uradni obliki imena določene institucije. Pri obravnavi dilem se je tudi izkazalo, da bi poleg obstoječih oznak potrebovali še oznako za pridevnike iz stvarnih lastnih imen (npr. Mercatorjev), za katere bi po vzoru DERIV-PER lahko uvedli oznako DERIV-ORG. Enako velja za svojilne pridevnike iz entitet z oznako LOC (npr. Lunin), ki bi jim lahko pripisali oznako DERIV-LOC. Uvedba novih kategorij bi bil radikalnejši poseg v obstoječe smernice, kar bi bilo v prihodnje smiselno temeljiteje premisliti. 140 Slika 4: Prikaz faze kuracije v orodju INCEpTION: v spodnjih treh vrsticah vidimo odločitve pregledovalk, v zgornji vrstici pa je prikazana končna odločitev kuratorja. 2.7 Koreference »Odkrivanje koreferenčnosti je ena izmed treh ključnih nalog ekstrakcije informacij iz besedil, kamor spadata še prepoznavanje imenskih entitet in ekstrakcija povezav« (Žitnik in Bajec, 2018). V okviru projekta RSDO smo jo iskali v 837 besedilih korpusa SentiCoref 1.0. Besedila so obsegala 18.142 povedi oz. 391.962 pojavnic. Za iskanje koreferenc so najprimernejša krajša zaključena besedila, zato smo za to nalogo izbrali množico SentiCoref, drugo gradivo v uč- nem korpusu je namreč razdeljeno na odstavke ali še krajše enote. V izbranih besedilih so predhodno že označili koreference (Žitnik in Bajec, 2018), vendar se je izkazala potreba po nadgradnji ozna- čevalnega sistema za slovanske jezike, saj ti referenčnost pogosto izražajo tudi morfemsko. Kot osnovo novega označevalnega sistema smo uporabili označevalne smernice ReLDI: Uputstvo za anotiranje koreferenci (interni dokument za projektno rabo), ki so v sklopu iniciative ReLDI 2008 nastale za potrebe srbskega jezika. Smernice smo prevedli v slovenščino, jih uredili in prilagodili, pri čemer je bila najpomembnejša odločitev označevalcev, da za razliko od srbske kampanje na ravni koreferenc ne označujemo skladenjskih značilnosti – za 141 slovenščino so te v korpusu SUK namreč dosledneje in celoviteje do-ločene pri oblikoskladenjskih in skladenjskih oznakah. Smernice smo skupno pripravljali in dopolnjevali v spletnem urejevalniku Google Dokumenti, končna različica pa je na voljo na portalu Wiki CJVT.22 Kampanja označevanja koreferenčnosti je bila, kot kampanja označevanja imenskih entitet, opravljena na platformi INCEpTION (Slika 5). Gradivo sta pregledala dva raziskovalca, eden pa je kampanjo tudi koordiniral. Osnovne dileme so bile večinoma razreše-ne v uvajalni fazi, nekatere tudi pozneje med sprotno komunikacijo ob problemih pri označevanju samih besedil. Pomemben del uva-jalne faze je bilo na primer poenotenje in določitev jasnejše terminologije v smernicah. Določili smo razmerja med termini entiteta, koreferenčnost, koreferenca in omenitev. Prav tako smo iz izvornih smernic odstranili del gradiva, ki je primerjalo označevalni sistem z alternativnimi pogledi na koreferenčnost, in poskrbeli za natančno členjenost poglavij ter pravilno označenost zgledov. Poenostavljene in eksplicitne smernice so izboljšale komunikacijo med označeval-cema in sam označevalni sistem. Slika 5: Označevanje koreferenc v orodju INCEpTION. 22 https://wiki.cjvt.si/books/09-odkrivanje-koreferencnosti/page/oznacevalne-smernice, gl. Različica 1.6. 142 Ob nadaljnjem označevanju se je v praksi izrazila pomembna konceptualna dilema označevanja koreferenčnosti, kadar so povezave med posameznimi omenitvami v besedilu zanikane ali pa je o povezavi posamezne omenitve z antecendentom pisec besedila izrazil dvom. Take primere najdemo predvsem pri novinarskih prispevkih, katerih temelj je naklonski členek naj, saj s pogojnikom (kondicionalom) izražajo konstanten dvom o resničnosti povezave med vršilcem dejanja in samim dejanjem. Pravilo, da se koreferenčnosti ob dvomu o povezavi znotraj samega besedila ali njenem zanikanju ne označuje, se je izkazalo za neizvedljivo in je posledič- no povzročalo precej težav. Pri nadaljnjem razvoju označevalnega sistema bo ta izziv treba upoštevati in sprejeti drugačne smernice ali pa te natančneje določiti s primeri konkretnih besedil, ne samo posameznih povedi. Nekaj težav je povzročal tudi vrstni red označevanja posameznih omenitev, saj je lahko v enem stavku samo ena koreferenca na posameznega referenta, zato smo določili, da imajo samostalniki prednost pred na primer zaimki. Pri veriženju vseh izpeljanih pridevnikov in lastnoimenskih samostalnikov pa je prihajalo do obsežnega kopičenja koreferenčnih povezav in s tem drobljenja, ki bi lahko povzročilo poznejšo slabšo ekstrakcijo informacij naučenih modelov. Dele izvornih smernic, ki za slovenščino niso bili relevantni, smo umestili na konec dokumenta in zapisali posebno opozorilo, da v naši označevalni kampanji niso bili upoštevani. Ta del navodil smo v dokumentu vseeno ohranili, saj je v njih mnogo primerov povedi, označenih s koreferencami. V nadaljnjih kampanjah bi bilo smiselno evalvirati uspešnost in ustreznost posameznih označevalnih odločitev in smernice še enkrat posodobiti. Trenutne zglede v smernicah je treba nadomestiti in dopolniti z realnimi zgledi iz korpusnih besedil, saj označevalna praksa razkrije številne izzive, na katere teoretične smernice ne da-jejo natančnih odgovorov. 143 3 Kvantitativni pregled korpusa Vseh 1.025.639 pojavnic novega učnega korpusa SUK je označenega in ročno pregledanega na ravni stavčne segmentacije, tokenizacije, lematizacije in oblikoskladenjskih oznak. Skoraj dve tretjini korpusa vsebujeta oznake imenskih entitet, dobrih 38 % celotnega korpusa pa je označenega na nivoju koreferenc. Približno četrtina korpusa vsebuje oznake odvisnostne skladnje po sistemih JOS-SYN in UD, približno petina pa oznake udeleženskih vlog SRL. Z oznakami glagolskih večbesednih enot je označenih 27 % gradiva, vse še iz ssj500k. Natančni podatki po označevalnih nivojih so prikazani v Tabeli 1. Tabela 1: Količina pregledanega gradiva v SUK po označevalnih nivojih. Označevalni nivo Pojavnice Povedi Besedila % celotnega SUK Segmentacija 1.025.639 48.594 2.908 100 Lematizacija/tokenizacija 1.025.639 48.594 2.908 100 Oblikoskladnja MULTEXT-East v6 1.025.639 48.594 2.908 100 Oblikoslovje UD 1.025.639 48.594 2.908 100 Imenske entitete 617.832 29.654 1.336 60,24 Koreferenčne verige 391.962 18.142 837 38,22 Odvisnostna skladnja JOS-SYN 267.097 13.435 618 26,04 Odvisnostna skladnja UD 267.097 13.435 618 26,04 Udeleženske vloge SRL 219.216 11.748 598 21,37 Glagolske večbesedne enote 280.522 13.511 754 27,35 Označenost SUK-a v primerjavi s ssj500k je predstavljena v Grafu 2. 144 ϭϮϬϬϬϬϬ ϭϬϬϬϬϬϬ ϴϬϬϬϬϬ avnic ϲϬϬϬϬϬ oj št. p ϰϬϬϬϬϬ ϮϬϬϬϬϬ Ϭ ^h< ƐƐũϱϬϬŬ Graf 2: Primerjava označenega gradiva v ssj500k in SUK po označevalnih nivojih. 4 Kodiranje korpusa Tako kot ssj500k je tudi SUK kodiran v formatu XML s shemo, ki sledi priporočilom TEI,23 vendar po nadgrajeni kodirni shemi, ki jo priporoča CLARIN.SI.24 Ker je SUK sestavljen iz več podkorpusov, ki imajo različne metapodatke o besedilih in ravni označevanja, je korpus oblikovan kot krovna datoteka TEI s kolofonom in povezavami na posamezne datoteke podkorpusov. Vsak podkorpus nato vsebuje razdelke z označenimi besedili. Slika 6 prikazuje začetek podkorpusa SentiCoref, kjer vrhnji