123Jezikoslovni zapiski 28  2022  1 nina ledinek – MateJa JeMeC toMazin – MitJa troJar – andreJ perdih – Janoš JeŽovnik – Miro roMih – TomaŽ erJaveC koRpus šolskih besedil slovenskega jezika: zasnova in gRadnja Cobiss: 1.01 V prispevku je predstavljen Korpus šolskih besedil slovenskega jezika, specializirani pi- sni korpus slovenščine v obsegu približno 1,8 milijona pojavnic. Korpus je bil zasnovan v okviru projekta Franček, Jezikovna svetovalnica za učitelje slovenščine in Šolski slo- var slovenskega jezika, in sicer kot gradivska osnova za oblikovanje Šolskega slovarja slovenskega jezika, prvega znanstveno utemeljenega pedagoškega slovarja za slovenski jezik. Prispevek obravnava besedilnotipsko sestavo in obseg korpusa, osvetljuje tehnične postopke predpriprave besedil in njihovega jezikoslovnega označevanja ter predstavlja nabor korpusnih metapodatkov, hkrati pa pojasnjuje, v katerih formatih in pod katerimi licencami je Korpus šolskih besedil slovenskega jezika na voljo. Članek opozarja tudi na pravne vidike pridobivanja besedil. Ključne besede: korpus šolskih besedil, šolski slovar, TEI, odprti dostop, urejanje avtor- skih pravic The Corpus of Slovenian School Texts: Design and Creation This article presents the Corpus of Slovenian School Texts, which is a specialized corpus of written Slovenian containing around 1.8 million tokens. It was designed within the scope of the project Franček, Language Advising Service for Teachers of Slovenian and the Slovenian School Dictionary, and it was intended to provide language material for compilation of Šolski slovar slovenskega jezika (Slovenian School Dictionary), the first research-based school dictionary of Slovenian. The article discusses the text type com- position and size of the corpus, sheds light on technical procedures in text preprocessing and corpus annotation, and presents the set of corpus metadata. It also explains in which formats and under what licenses the Corpus of Slovenian School Texts has been made available, and also draws attention to legal aspects of obtaining texts. Keywords: school text corpus, school dictionary, TEI, open access, copyright uvod V prispevku je predstavljen Korpus šolskih besedil slovenskega jezika, pisni korpus slovenščine, ki služi kot gradivska osnova za pripravo Šolskega slovarja slovenske- ga jezika. Slovenski jezikoslovci so že večkrat izrazili potrebo po kakovostnem šol- skem slovarju slovenskega jezika (Weiss 1994: 350; 2001; Stabej idr. 2008; Rozman 2010; 2012; Čebulj 2013; Godec Soršak 2015; 2019; Rozman idr. 2015), na opisano vrzel v slovenskem jezikovnem opisu pa opozarja tudi Resolucija o nacionalnem 1 Prispevek je nastal v okviru projekta Portal Franček, Jezikovna svetovalnica za učitelje sloven- ščine in Šolski slovar slovenskega jezika, ki sta ga sofinancirala Republika Slovenija in Evropski socialni sklad, v okviru raziskovalnih programov P6-0038 in P5-0408, ki ju financira ARRS, ter v okviru raziskovalne infrastrukture CLARIN.SI. https://doi.org/10.3986/Jz.28.1.07 124 Nina Ledinek idr.  Korpus šolsKih besedil slovensKega jeziKa programu za jezikovno politiko 2021–2025. Že pred dvema desetletjema so sicer nastali štirje slovarji za različne starostne stopnje šolarjev, tj. Moj mali slovar (MMS 1996), Moj slovar (MS 2000), Moj prvi slovar (MPS 2002) in Besede nagajivke (BN 2002), ki pa zlasti zaradi skromnega obsega (največ slovarskih sestavkov, 1.021, vsebuje MMS) ter premajhne leksikografske doslednosti in premišljenosti (Godec Soršak 2015; 2019: 280) niso povsem izpolnjevali zastavljenih ciljev. Da bi zapolnili to vrzel v naboru slovenskih slovarjev, je na Inštitutu za slo- venski jezik Frana Ramovša ZRC SAZU v okviru projekta Spletni portal Franček, Jezikovna svetovalnica za učitelje slovenščine in Šolski slovar slovenskega jezi- ka (v nadaljevanju: projekt Franček) po začetnih konceptualnih pripravah (Go- dec Soršak 2019) na osnovi izvirnega koncepta (Petric Žižić 2020) začel nastajati Šolski slovar slovenskega jezika. Gre za prvi znanstveno utemeljeni pedagoški slovar za slovenski jezik, njegovi ciljni uporabniki pa so učenci od 1. do 5. razreda osnovne šole. V prvo različico slovarja je vključenih približno 2000 slovarskih sestavkov, v prihodnje pa se bo dopolnjeval z novimi sestavki. Slovar je od sep- tembra 2021 objavljen na prosto dostopnem portalu Franček (www.franček.si), prvem interaktivnem pedagoškem spletnem slovarsko-slovničnem portalu za slo- venščino,1 namenjenem osnovno- in srednješolcem (Ahačič idr. 2021b; Perdih idr. 2021; Ježovnik – Kenda-Jež – Škofic 2020; Perdih 2021). Šolski slovar slovenskega jezika gradivsko temelji na specializiranem pisnem korpusu slovenščine, poimenovanem Korpus šolskih besedil slovenskega jezika in namensko zgrajenem v okviru projekta Franček. V korpusu so zbrana besedila, ki v največji meri odslikavajo jezikovno realnost, relevantno za šolski pomenski opis. Vključuje sodobna besedila treh tipov: besedila šolskih učbenikov, izvirno leposlovje za otroke in šolska besedila, ki so jih oblikovali učenci. Za slovenščino sicer že obstaja korpus Šolar (Kosem – Rozman – Stritar 2011; Kosem idr. 2016), ki prav tako vključuje besedila šolarjev, vendar je prvenstveno namenjen odkrivanju tipičnih napak, ki jih v knjižnem jeziku delajo šolajoči se, in težavnih mest v slovnici. Korpus šolskih besedil slovenskega jezika je v nasprotju s tem oblikovan za leksikografske potrebe. Od referenčnih korpusov Gigafida 1.0 in 2.0 (Logar Berginc idr. 2020; Krek idr. 2020) se razlikuje v tem, da vključu- je besedila, ki nagovarjajo ciljno skupino uporabnikov šolskega slovarja, zato so v njem v večjem deležu zastopane besedilne enote, ki izkazujejo zlasti pomene, relevantne za učence. Obenem je v korpusu veliko laže najti razumljive, nazorne 1 Slovenski osnovno- in srednješolci so do objave portala Franček lahko uporabljali zlasti slo- varje, primarno namenjene odraslim rojenim govorcem jezika. Do njih so v zadnjih letih do- stopali predvsem prek najpomembnejšega slovenskega slovarskega portala Fran (www.fran.si; Ahačič – Ledinek – Perdih 2015), ki ga omenja večina novejših šolskih učbenikov za slovenski jezik, njegovo rabo pa spodbuja tudi Zavod za šolstvo RS. Ker številne raziskave ugotavljajo, da je neprilagojenost jezikovnih virov mladim uporabnikom ena temeljnih ovir za njihovo zgodnjo rabo pri šolskem pouku (Kosem idr. 2012; Rozman idr. 2020), je bila glavna motivacija za obli- kovanje portala Franček ravno želja po prilagoditvi obstoječih slovarskih in drugih virov šolski populaciji. 125Jezikoslovni zapiski 28  2022  1 in z didaktičnega vidika ustrezne zglede rabe, ki lahko služijo kot ponazarjalno gradivo za šolski slovar. V nadaljevanju prispevka sta podrobneje opisana zasnova in nastajanje Kor- pusa šolskih besedil slovenskega jezika. Predstavljena sta besedilnotipska sestava in obseg korpusa, opisani so tehnični postopki predpriprave besedil za korpus in njegovo jezikoslovno označevanje ter nabor korpusnih metapodatkov. Opozarja- mo tudi na nekatere pravne vidike pridobivanja besedil za korpus. o koRpusu šolskih besedil slovenskega jezika Korpus šolskih besedil slovenskega jezika je specializirani pisni korpus sloven- skega jezika, primarno oblikovan za potrebe pedagoške leksikografije. Vključuje besedila, ki so izhodiščno namenjena učencem nižjih razredov osnovnih šol ali pa so jih napisali učenci, ki obiskujejo 1. do 5. razred osnovne šole. Sestava, zapis in dostopnost korpusa V korpus so uvrščena sodobna slovenska besedila treh tipov, in sicer: 1. šolski učbeniki za predmete, ki se poučujejo od 1. do 6. razreda osnovne šole, 2. izvirno slovensko leposlovje za otroke, 3. šolska besedila učencev in dijakov vzgojno-izobraževalnih zavodov, vključe- nih v projekt Franček. Izmed učbeniških besedil so bila uporabljena le tista, ki ustrezajo veljavnim učnim načrtom. Besedila učencev so nastala v obdobju trajanja projekta Franček, torej med letoma 2017 in 2021, večina med letoma 2018 in 2020. Leposlovje za otroke vklju- čuje sodobna izvirna slovenska otroška in mladinska literarna dela uveljavljenih avtorjev; od del, ki so nastala že v preteklih desetletjih, so bila v korpus vključena tista, ki sodijo med klasiko slovenske otroške in mladinske literature. Takih del je v korpusu malo, gre pa za pravljice ali zbirke (ljudskih) pravljic, kot so Babica pri- poveduje, Dvanajst ujcev, Hvaležni medved, ali avtorska dela kot Šivilja in škarjice, Kdo je napravil Vidku srajčico ipd. Načrtovano je bilo, da bi korpus vseboval tudi otroško periodiko (otroške in mladinske revije, kot so Ciciban, Pil, Moj planet), ven- dar zaradi avtorskopravnih omejitev vključitev teh besedil ni bila mogoča. Korpus je zapisan v dveh formatih, in sicer v označevalnem jeziku XML v skladu s smernicami iniciative TEI (TEI Consortium 20172), poleg tega pa tudi v t. i. vertikalni obliki, primerni za vključitev v konkordančnike, kot sta (No)SketchEn- gine (Rychlý 2007; Kilgarriff idr. 2014) ali KonText (Machálek 2020). Obe razli- čici se zaradi avtorskopravnih omejitev razlikujeta ne le v zapisu, ampak tudi po vsebinski plati. Kot odprto dostopna podatkovna zbirka, zapisana v označevalnem jeziku XML TEI, je na voljo manjši del celotnega korpusa. Sestavlja ga 428 be- 2 https://github.com/clarinsi/TEI-schema 2.1 2 126 Nina Ledinek idr.  Korpus šolsKih besedil slovensKega jeziKa sedil (96.257 pojavnic, 7161 povedi), ki so jih oblikovali učenci in dijaki vzgoj- no-izobraževalnih zavodov. Na voljo je na repozitoriju raziskovalne infrastrukture CLARIN.SI pod licenco CC-BY 4.0 (Ahačič idr. 2021a).3 Celoten Korpus šolskih besedil slovenskega jezika, ki obsega 557 besedil (1.836.810 pojavnic, 191.779 povedi), je zapisan v vertikalni obliki. Uporabnikom je na voljo za iskanje prek konkordančnikov NoSketch Engine in KonText v okvi- ru raziskovalne infrastrukture CLARIN.SI,4 in sicer pod oznako SBSJ. Najobsež- nejši del korpusa predstavljajo leposlovna besedila za otroke (83 besedil, 931.147 pojavnic, 72.090 povedi), sledijo učbeniška besedila, ki obsegajo 46 učbenikov (809.406 pojavnic, 112.528 povedi), najmanj obsežen del korpusa pa predstavlja že omenjenih 428 besedil šolarjev vzgojno-izobraževalnih zavodov, vključenih v projekt Franček. Razmerja v obsegu posameznih tipov besedil v Korpusu šolskih besedil slovenskega jezika so prikazana v spodnjih grafih in preglednicah, in si- cer obseg posameznega podkorpusa glede na število vključenih besedilnih enot, število pojavnic in število povedi (graf 1), delež vključenih enot in pojavnic glede na tip besedila in njegove podzvrsti (graf 2) ter absolutna in relativna frekvenca pojavnic glede na oznake besednih vrst v celotnem korpusu ter znotraj posameznih podkorpusov (preglednica 1 oz. graf 3). Graf 1: Velikost posameznega podkorpusa (metapodatek tip besedila)5 glede na število vključenih besedilnih enot, število pojavnic in število označenih povedi 3 http://hdl.handle.net/11356/1413 4 https://www.clarin.si/info/konkordance/ 5 Za pregled metapodatkov prim. 2.2.2. 127Jezikoslovni zapiski 28  2022  1 Graf 3: Relativna frekvenca pojavnic glede na besedno vrsto (brez ločil (U)) Graf 2: Delež pojavnic in besedilnih enot glede na tip besedila in njegove (pod)zvrsti 128 Nina Ledinek idr.  Korpus šolsKih besedil slovensKega jeziKa 2.2 Preglednica 1: Absolutna in relativna frekvenca pojavnic v celotnem korpusu ter znotraj posameznega podkorpusa (metapodatek tip besedila) (frekvenca ločil (U) ni upoštevana)6 Absolutna in relativna frekvenca Besedna vrsta Oznaka Celoten korpus Besedila šolarjev Učbeniška besedila Literatura za otroke samostalnik S 383.781 25,87 % 17.636 21,96 % 148.196 33,40 % 217.949 19,74 % glagol G 340.967 22,98 % 22.401 27,89 % 208.343 16,89 % 110.223 27,75 % zaimek Z 147.681 9,95 % 8.752 10,90 % 94.475 6,81 % 44.454 12,58 % predlog D 132.530 8,93 % 7.193 8,95 % 63.245 9,52 % 62.092 8,42 % veznik V 131.037 8,83 % 8.121 10,11 % 75.890 7,21 % 47.026 10,11 % prislov R 112.292 7,57 % 7.159 8,91 % 70.606 5,29 % 34.527 9,40 % pridevnik P 109.774 7,40 % 5.058 6,30 % 46.293 8,95 % 58.423 6,17 % števnik K 70.141 4,73 % 1.427 1,78 % 6.687 9,51 % 62.027 0,89 % členek L 48.999 3,30 % 2.471 3,08 % 35.126 1,75 % 11.402 4,68 % okrajšava O 2.603 0,18 % 40 0,05 % 242 0,36 % 2.321 0,03 % neuvrščeno N 2.233 0,15 % 29 0,04 % 529 0,26 % 1.675 0,07 % medmet M 1.570 0,11% 38 0,05 % 1.185 0,05 % 347 0,16 % Skupaj 1.483.608 80.325 750.817 652.466 Predpriprava in normalizacija besedil ter jezikoslovno označevanje korpusa Zbiranje besedil za Korpus šolskih besedil slovenskega jezika je potekalo v več fazah. Učbeniška besedila in literarna besedila, namenjena otrokom, smo pridobili od založb, besedila učencev in dijakov pa smo zbirali preko namensko oblikova- nega spletnega vmesnika (postopek zbiranja in pretvorbe je natančneje opisan v razdelku 3.2), zato so bila zapisana v različnih izhodiščnih formatih (.pdf, .docx in .indd). Postopek pretvorbe besedil je bilo treba v prvi fazi oblikovanja korpusa prilagoditi njihovemu izhodiščnemu zapisu. Besedila, pridobljena od založb, so bila najprej ročno pregledana, pri čemer smo določili njihove strukturne dele (kolofoni, seznami uporabljene strokovne li- 6 Absolutna frekvenca pojavnic, označenih z oznako U (ločila), je sicer 353.202 v celotnem kor- pusu ter 15.932, 180.330, 156.940 znotraj posameznih podkorpusov, kot si sledijo v preglednici. 129Jezikoslovni zapiski 28  2022  1 terature, seznami uporabljenih kratic in krajšav, seznami naslovov slik in grafov, paginacija, glave in noge besedil, daljši tujejezični deli besedil ipd.), ki so bili v nadaljnjih fazah pretvorbe iz korpusa sistematično izločeni. S tem smo želeli zmanjšati možnost, da bi bile v korpusu kot visoko frekventne zastopane besede oz. leme, ki v besedilih za otroke vsebinsko niso relevantne (npr. založba, kolofon, foto, Rokus ipd.). Besedila različnih formatov so bila pretvorjena v enotni golo- besedilni format s kodiranjem UTF-8. Pri strojni pretvorbi je (lahko) prihajalo do napak: zaradi likovnih in grafičnih elementov, ki pogosto dopolnjujejo otroška in mladinska besedila, je bilo takih napak več kot pri pretvorbi besedil za odra- sle. Besedila so bila zaradi tega pred jezikoslovnim označevanjem korpusa ročno pregledana in popravljena. Do napak, ki bi lahko pomembno vplivale na uspeš- nost strojnega oblikoskladenjskega označevanja in lematizacije, je prihajalo zlasti zaradi napačne segmentacije besedila na povedi in odstavke. Ročno so bile npr. popravljene napake v strojni pretvorbi v primerih, ko je bila ena poved razdelje- na v dva različna odstavka, zaradi česar statistični označevalnik analiziranih enot najverjetneje ne bi ustrezno prepoznal in bi lahko prihajalo do napak pri pripisu oblikoskladenjske oznake in leme. Pri pregledu so bili, če tak postopek pri strojni pretvorbi ni bil uspešen, iz besedil ročno odstranjeni kolofoni, odvečna paginacija, glave in noge besedil ipd. Pri pretvorbi leposlovja za otroke v golobesedilni format so bili praviloma izgubljeni deli besedil, ki so predstavljali sestavne dele grafičnih elementov (ilustracij, fotografij, stripovskih elementov). Grafični elementi se v procesu optične razpoznave znakov (OCR) namreč niso pretvorili v besedilo. Le manjši del slikovnega gradiva, ki je vsebovalo tudi besedilo (npr. slike grafitov), je bil ročno prepisan. Nekaj literarnih besedil se v korpusu pojavi več kot enkrat (npr. ista pesem je lahko vključena v več različnih zbirk ali učbenikov), ker pa je delež takih enot zelo majhen, se za postopek deduplikacije korpusa nismo odločili. Vsa besedila za Korpus šolskih besedil slovenskega jezika so bila po pre- tvorbi v golobesedilni format avtomatsko tokenizirana, lematizirana in obli- koskladenjsko označena po označevalnem modelu JOS7 (Erjavec – Krek 2008; Erjavec idr. 2010), in sicer z označevalnikom Obeliks8 (Grčar – Krek – Dobro- voljc 2012). Za označevanje s tem označevalnikom smo se odločili, da bi zaradi načrtovanih primerjalnih analiz dosegli čim večjo kompatibilnost oznak nasta- jajočega korpusa s korpusom Gigafida 1.0, torej z najaktualnejšim referenčnim korpusom, ki je bil za slovenščino na voljo v času zasnove Korpusa šolskih besedil slovenskega jezika.9 7 http://nl.ijs.si/jos/josMSD-sl.html. 8 http://razclenjevalnik.slovenscina.eu/Programska_oprema.aspx. 9 Korpus Gigafida 2.0, danes največji in najnovejši referenčni korpus za slovenščino, je bil javnosti predstavljen sredi leta 2019. 130 Nina Ledinek idr.  Korpus šolsKih besedil slovensKega jeziKa 2.3 Izbira metapodatkov za korpus V korpus vključena besedila so dokumentirana z naslednjimi metapodatki: 1. avtor besedila (pri besedilih šolarjev ima atribut vrednost »ni podatka«), 2. naslov besedila, 3. leto objave besedila,10 4. založnik besedila (pri besedilih šolarjev ima atribut vrednost »ni podat- ka«), 5. tip besedila – možne vrednosti so: »besedila šolarjev«, »učbeniška bese- dila«, »literatura za otroke«, 6. zvrst besedila – možni vrednosti sta: »umetnostna besedila«, »neumetno- stna besedila«; glede na izbrano vrednost atributa je mogoče izbrati še vrednosti atributa podzvrst besedila:11  pri umetnostnih besedilih so možne vrednosti: »poezija«, »proza«, »dramatika«,  pri neumetnostnih besedilih so možne vrednosti: »strokovna besedila«, »nestrokovna besedila«, 7. razred12 – npr. »1. razred«, »2. razred« ipd. (pri literaturi za otroke ima atribut vrednost »ni podatka«), 8. šolski predmet – npr. »matematika«, »slovenščina«, »zgodovina«, »geogra- fija« ipd. (pri literaturi za otroke ima atribut vrednost »ni podatka«), 9. spol avtorja besedila – možne vrednosti atributa so: »ženski«, »moški«, »drugo« (pri literaturi za otroke in pri učbeniških besedilih ima atribut vrednost »ni podatka«). Besedila, vključena v korpus, so besedilnotipsko raznolika. V vertikalni različici korpusa je zato dodan atribut oznaka, ki je dejansko sestavljen iz dveh ali treh raz- ličnih že vključenih metapodatkov. Atribut je zamišljen kot privzeti atribut za pri- kaz podatkov o besedilu pri prikazu konkordance v konkordančniku (No)Sketch Engine. Atribut oznaka sestavljajo naslednji tipi metapodatkov: 1. pri učbeniških besedilih: tip besedila, razred in šolski predmet, 2. pri literaturi za otroke: naslov besedila in leto njegove objave, 3. pri besedilih šolarjev: tip besedila, razred in šolski predmet. 10 Gre za leto objave konkretne izdaje besedila, ne pa za podatek o prvi objavi besedila sploh. 11 Učbeniška besedila imajo vedno atribut neumetnostna, in sicer strokovna; literatura za otroke je vedno označena z atributom umetnostna (v korpusnem gradivu se pri tem tipu besedila pojav- ljajo le tista z atributoma pesniška in prozna). 12 Atributa razred in šolski predmet pri besedilih, označenih z atributom besedila šolarjev, pome- nita razred oz. šolski predmet, pri katerih je besedilo nastalo, pri besedilih, označenih z atribu- tom učbeniška besedila, pa razred in šolski predmet, pri katerih se učbenik uporablja pri pouku. Podatek je zanimiv zlasti z vidika učbeniških besedil, saj lahko z iskanjem po učbeniških be- sedilih za posamezni razred npr. spremljamo, katera strokovna poimenovanja se v besedilih za posamezni razred pojavljajo. 131Jezikoslovni zapiski 28  2022  1 3.1 3 Ob gradnji korpusa oz. njegovih različic smo zgolj za tehnične namene uporab- ljali še interne metapodatke, npr. identifikacijsko številko posameznega besedila, različico korpusa (v skladu s projektno prijavo so nastale štiri vmesne različice korpusa, ena za vsako koledarsko leto trajanja projekta Franček) in dostopnost (odprti dostop : prosti dostop), ki pa zaradi nerelevantnosti v končno različico kor- pusa niso vključeni. Z vidika jezikoslovnih raziskav besedil bi bil zanimiv še kak dodaten metapodatek, npr. o tem, v katerem delu Slovenije živi (oz. od kod izvira) in koliko je star šolar, ki je avtor besedila, vendar pa vseh tovrstnih podatkov v korpus ne moremo vključiti hkrati, saj bi bili posamezniki lahko prepoznani, ščiti- jo pa jih zakonski predpisi o varovanju zasebnosti mladoletnih oseb. Metapodatke za posamezna pridobljena besedila smo v podatkovno zbirko v tabelaričnem formatu vnašali ročno, le metapodatki besedil šolarjev so bili v podatkovno zbirko vneseni avtomatsko (gl. razdelek 3.2). pRidobivanje besedil Besedila smo pridobili na dva načina. Učbeniška besedila in izvirno leposlovje za otroke smo prejeli od večjih slovenskih založnikov (zlasti Mladinske knjige in založbe Rokus Klett), besedila šolarjev smo zbirali s pomočjo učiteljev v vzgojno- -izobraževalnih zavodih, sodelujočih v projektu Franček. Pridobivanje gradiva pri založbah Pri oblikovanju strategije pridobivanja učbeniških in leposlovnih besedil smo mo- rali izhodiščno odgovoriti na vprašanje, od koga bomo besedila poskusili pridobi- ti: ali jih bomo iskali pri avtorjih, ki jih omenjajo učni načrti, šolski bralni sezna- mi (npr. za bralno značko) in druge bralne spodbude, ali pri založbah, ki s svojo uredniško politiko pomembno vplivajo na slovensko mladinsko literaturo. Zaradi učinkovitejše organizacije dela smo za besedila najprej zaprosili založbe. Te so bile pripravljene sodelovati, vendar smo morali za leposlovje za otroke sami prido- biti vsa potrebna dovoljenja avtorjev, saj založbe v pogodbah z avtorji praviloma ne urejajo prenosa materialnih avtorskih pravic na tretje osebe. Veljavni zakon o zaščiti avtorske in sorodnih pravic (ZASP, Ur. l. RS 16/07, 68/08, 110/13, 56/15, 63/16 in 59/19)13 namreč omejuje razpolaganje založb s pravicami avtorjev tudi tako, da je treba natančno zapisati, katere pravice se v kolikšnem obsegu, za kateri namen in na kakšen način prenašajo na založbo.14 To pomeni, da založbe uredijo prenose za svoje potrebe, torej za objavo v reviji ali učbeniku oziroma za izdajo knjige, ne smejo pa besedil brez novega dovoljenja avtorjev odstopiti tretjim osebam, torej niti raziskovalnim ustanovam. To je od 13 Povezava na čistopis iz leta 2007: http://pisrs.si/Pis.web/pregledPredpisa?id=ZAKO403. 14 Pred leti se je v tovrstnih besedilih pogosto pojavila dikcija: »[...] vse pravice enkrat za vselej prenaša [...]« 132 Nina Ledinek idr.  Korpus šolsKih besedil slovensKega jeziKa 3.2 sodelavcev projekta Franček terjalo pridobivanje soglasij posameznih avtorjev, dedičev ali njihovih zakonitih zastopnikov, le manjši del besedil je že bil v javni lasti.15 Nekateri avtorji so svoja dela izdali v samozaložbi in smo lahko vse pravice uredili neposredno z njimi. Pridobivanje soglasij je trajalo približno tri mesece. V tem času smo imeli s posameznimi avtorji več usklajevalnih sestankov. Mnogo avtorjev se je na dopis, ali dovolijo uporabo besedil, odzvalo z naklonjenostjo, manjši del av- torjev pa je kljub pojasnilom dovoljenje za vključitev besedil v korpus odklo- nil. Pogodbe o odstopu pravic so pripravili pravniki, specializirani za avtorsko pravo, poleg tega pa so sodelovali še pravniki, ki so pripravljali dokumente o varovanju osebnih podatkov in politiko zasebnosti. Čeprav si raziskovalne infrastrukture, kot je CLARIN.SI ali na evropski ravni CLARIN ERIC, priza- devajo za odprtost raziskovalnih podatkov tudi s pripravo standardiziranih po- godb in dogovorov za odstop pravic v raziskovalne namene, je bila za pripravo dokumentov pri konkretnem projektu vseeno potrebna pomoč zunanjih pravnih svetovalcev. Razpisni pogoji projekta Franček so zahtevali, da so vsi viri, ki nastanejo v času projekta, dostopni pod licenco CC BY 4.0, ki omogoča nadaljnjo uporabo in predelavo ob priznanju avtorstva. Izjemo predstavljajo tisti viri, ki so bili ob začetku projekta že dostopni pod strožjimi pogoji in za katere v okviru projekta nismo pridobili soglasja imetnikov materialnih avtorskih pravic za bolj odprto uporabo. Pridobljena korpusna besedila bi za jezikoslovje sicer predstavljala zelo dragocene raziskovalne podatke, ker pa ne gre samo za raziskovalne po- datke, veljavna zakonodaja ščiti avtorje z določili, ki od raziskovalcev zahteva- jo natančen opis namena uporabe, kar lahko vsaka projektna skupina opredeli samo za točno določen projekt. Glavno oviro za odprti dostop, ki bi omogočal rabo tudi v naslednjih projektih in raziskavah, torej predstavlja nadaljnji namen uporabe besedil. Pridobivanje besedil učencev Besedila šolarjev smo zbirali s pomočjo učiteljev v vzgojno-izobraževalnih za- vodih (zaposlenih v 23 osnovnih in srednjih šolah iz različnih delov Slovenije, ki poučujejo v 645 oddelkih). Besedila šolarjev so dveh tipov. Prvi tip predstavljajo besedila, ki so jih napisali učenci od 1. do 5. razreda osnovne šole. Drugi tip be- sedil so napisali učenci višjih razredov osnovne šole in srednješolci, pri čemer gre za besedila, ki nagovarjajo otroke v prvih razredih osnovne šole. Za pridobivanje besedil šolarjev smo vzpostavili spletni vmesnik, prek katerega so jih sodelujoči učitelji lahko oddali. Spletni vmesnik je učiteljem olajšal oddajanje besedil, razi- skovalcem pa sistemsko zbiranje metapodatkov. 15 Delo postane javna last 70 let po avtorjevi smrti. 133Jezikoslovni zapiski 28  2022  1 Slika 1: Spletni vmesnik za oddajo besedil šolarjev Pred oddajo so učitelji v besedilih popravili večje slovnične in pravopisne napake (npr. napačno zapisane besede), saj bi te lahko vplivale na uspešnost postopkov avtomatske lematizacije in oblikoskladenjskega označevanja (torej tudi na samo besedišče in iskanje po korpusu). Podatki o napakah učencev v korpusu niso do- kumentirani, saj korpus ni namenjen detekciji napak, ampak je bil zasnovan za leksikografske namene. Besedila šolarjev so učitelji ob oddaji tudi anonimizirali. Anonimizacija je obsegala nadomeščanje podatkov o imenih in priimkih nejavnih osebnosti, nadomeščanje naslovov, imen vzgojno-izobraževalnih in drugih podob- nih zavodov ter nadomeščanje zemljepisnih imen krajev, občin, regij ipd., in sicer so učitelji lastna imena zamenjevali z nadomestnim besedilom [ime], [priimek], [naslov], [šola], [kraj], [občina] oz. [regija]. Besedila šolarjev so učitelji pred od- dajo tudi ustrezno dokumentirali: vsakemu so dodali metapodatke, skladne z vnap- rej določenim naborom metapodatkov, pripisanim drugim besedilom v korpusu (gl. razdelek 2.2.2). Da bi bili metapodatki poenoteni, so pri večini predvidenih atributov s spustnega seznama možnih vrednosti izbrali tisto, ki je bila za konkre- tno besedilo najbolj ustrezna. Le izjemoma (npr. pri metapodatku naslov besedila) so metapodatek v vnosni obrazec spletnega vmesnika vpisali brez omejitve. Da bi lahko šolsko besedilo oddali, so morali navesti vse potrebne metapodatke besedila, hkrati pa zagotoviti, da so besedilo anonimizirali v skladu z navodili. Potrditi so morali tudi, da so bila za vsa oddana besedila podana vsa potrebna soglasja zako- nitih zastopnikov. Da bi bil postopek oddaje besedil čim bolj enostaven, so bila v okviru vmesnika na voljo tudi navodila za anonimizacijo ter dokumentiranje in oddajanje besedil. 134 Nina Ledinek idr.  Korpus šolsKih besedil slovensKega jeziKa Slika 2: Vnosni obrazec za dokumentiranje besedil šolarjev Skupno je bilo zbranih 428 krajših besedil šolarjev, ki so v povprečju obsegala 17 povedi oz. 225 pojavnic. Metapodatki besedil so bili iz spletnega vmesnika avtomatsko uvoženi v podatkovno zbirko v tabelarični obliki, v kateri smo v času priprave korpusa za druge tipe besedil ročno zapisovali metapodatke o zbranih korpusnih besedilih. Posebno zahteven je bil postopek zbiranja vseh pravnih soglasij za zbiranje besedil šolarjev. S sodelujočimi vzgojno-izobraževalnimi zavodi smo podpisali pogodbe, s katerimi so lahko učitelji zbirali besedila šolarjev, še prej pa smo mora- li z njihovo pomočjo pridobiti soglasja zakonitih zastopnikov šolarjev, ki so oddali svoja besedila. Pri tem smo skrbno pazili, da so bila navodila za anonimizacijo natančno predstavljena tako učiteljem kot zakonitim zastopnikom, ki so se tako seznanili z načinom varovanja pravic otrok pri vseh opisanih postopkih. zaključek Korpus šolskih besedil slovenskega jezika je specializirani pisni korpus slovenskega jezika v obsegu približno 1,8 milijona pojavnic, namensko oblikovan v okviru pro- jekta Franček za potrebe pedagoške leksikografije. V korpus so vključena besedila, ki nagovarjajo učence nižjih razredov osnovnih šol, in sicer učbeniška besedila (46 enot, 809.406 pojavnic) in izvirno slovensko leposlovje za otroke (83 enot, 931.147 pojav- nic), ter besedila, ki so jih oblikovali šolarji (428 enot, 96.257 pojavnic). Del korpusa 4 135Jezikoslovni zapiski 28  2022  1 je dostopen kot odprto dostopna podatkovna zbirka, zapisana v označevalnem jeziku XML, skladnem s specifikacijami iniciative za zapis korpusnih besedil TEI, celoten korpus pa je za raziskovanje uporabnikom na voljo prek konkordančnikov NoSketch Engine in KonText v okviru raziskovalne strukture CLARIN.SI. Da bi korpus še nap- rej lahko služil kot gradivska osnova za sodobne pedagoške slovarje slovenščine, raz- mišljamo o njegovi posodobitvi, v prihodnosti pa načrtujemo tudi raziskave, v katerih bomo Korpus šolskih besedil slovenskega jezika primerjali z aktualnim referenčnim korpusom slovenščine, zlasti z vidika njune uporabe v leksikografiji. viRi in liteRatuRa Ahačič idr. 2021a = Kozma Ahačič – Simon Atelšek – Tomaž Erjavec – Peter Holozan – Nataša Jakop – Mateja Jemec Tomazin – Janoš Ježovnik – Nina Ledinek – Andrej Perdih – Miro Ro- mih – Mitja Trojar, Corpus of Slovenian school texts SBSJ 1.0, Slovenian language resource repository CLARIN.SI, 2021, http://hdl.handle.net/11356/1413. Ahačič idr. 2021b = Kozma Ahačič – Janoš Ježovnik – Nina Ledinek – Andrej Perdih – Špela Petric Žižić – Duša Race, Priprava jezikovnih podatkov za pedagoški portal o slovenščini Franček, Philological Studies 19.1 (2021), 203–224. Ahačič – Ledinek – Perdih 2015 = Kozma Ahačič – Nina Ledinek – Andrej Perdih, Portal Fran – nastanek in trenutno stanje, v: Slovnica in slovar – aktualni jezikovni opis (1. del), ur. Mojca Smolej, Ljubljana: Znanstvena založba Filozofske fakultete, 2015 (Obdobja 34), 57–66. BN 2002 = Tatjana Kokalj, Besede nagajivke: učni pripomoček za učence od 2. do 5. razreda devet- let ne osnovne šole, Trzin: Založba Izolit, 2002. Čebulj 2013 = Monika Čebulj, Raba slovarja v 1. in 2. triletju osnovne šole, diplomsko delo, Uni- verza v Ljubljani, Pedagoška fakulteta, 2013, http://pefprints.pef.uni-lj.si/1854/1/Čebulj-za_od- dajo_(1).pdf. Erjavec – Krek 2008 = Tomaž Erjavec – Simon Krek, The JOS morphosyntactically tagged corpus of Slovene, v: Proceedings of the Sixth International Conference on Language Resources and Evaluation, LREC'08, Pariz: ELRA, 2008. Erjavec idr. 2010 = Tomaž Erjavec – Darja Fišer – Simon Krek – Nina Ledinek, The JOS lingu- istically tagged corpus of Slovene, v: Proceedings of the Seventh International Conference on Language Resources and Evaluation, LREC’10, Valetta: ELRA, 2010. Godec Soršak 2015 = Lara Godec Soršak, Slovenski otroški šolski slovar, v: Slovnica in slovar – aktualni jezikovni opis (1. del), ur. Mojca Smolej, Ljubljana: Znanstvena založba Filozofske fakultete, 2015 (Obdobja 34), 243–250. Godec Soršak 2019 = Lara Godec Soršak, Zasnova šolskega slovarja za otroke v 1. in 2. vzgojno-iz- obraževalnem obdobju, doktorska disertacija, Univerza v Ljubljani, Filozofska fakulteta, 2019. Grčar – Krek – Dobrovoljc 2012 = Miha Grčar – Simon Krek – Kaja Dobrovoljc, Obeliks: stati- stični oblikoskladenjski označevalnik in lematizator za slovenski jezik, v: Zbornik Osme konfe- rence Jezikovne tehnologije, ur. Tomaž Erjavec – Jerneja Žganec Gros, Ljubljana: Institut Jožef Stefan, 2012, 89–94. Ježovnik – Kenda-Jež – Škofic 2020 = Janoš Ježovnik – Karmen Kenda-Jež – Jožica Škofic, Re- duce, Reuse, Recycle: Adaptation of Scientific Dialect Data for Use in a Language Portal for Schoolchildren, v: Proceedings of XIX EURALEX Congress: Lexicography for Inclusion, Vol. I., ur. Zoe Gavriilidou – Maria Mitsiaki – Asimakis Fliatouras, [Poznań : European Association for Lexicography], 2020, 31–37. Kilgarriff idr. 2014 = Adam Kilgarriff – Vít Baisa – Jan Bušta – Miloš Jakubíček – Vojtěch Kovář – Jan Michelfeit – Pavel Rychlý – Vít Suchomel, The Sketch Engine: ten years on, Lexicography 1 (2014), 7–36. Kosem – Rozman – Stritar 2011 = Iztok Kosem – Tadeja Rozman – Mojca Stritar, How do Slo- venian primary and secondary school students write and what their teachers correct: a corpus 136 Nina Ledinek idr.  Korpus šolsKih besedil slovensKega jeziKa of student writing, v: Proceedings of the Corpus Linguistics 2011 conference, 20-22 July 2011, Birmingham: University, 2011, http://www.birmingham.ac.uk/research/activity/corpus/publi- cations/conference-archives/2011-birmingham.aspx. Kosem idr. 2012 = Iztok Kosem – Mojca Stritar Kučuk – Sara Može – Ana Zwitter Vitez – Špela Arhar Holdt – Tadeja Rozman, Analiza jezikovnih težav učencev: korpusni pristop, Ljubljana: Trojina, zavod za uporabno humanistiko, 2012. Kosem idr. 2016 = Iztok Kosem – Tadeja Rozman – Špela Arhar Holdt – Polonca Kocjančič – Cyprian Adam Laskowski, Šolar 2.0: nadgradnja korpusa šolskih pisnih izdelkov, v: Zbornik konference Jezikovne tehnologije in digitalna humanistika 2016, ur. Tomaž Erjavec – Darja Fišer, Ljubljana: Znanstvena založba Filozofske fakultete, 2016, 95–100, http://www.sdjt.si/ wp/wp-content/uploads/2016/09/JTDH-2016_Kosem-et-al_Solar-2-0-nadgradnja-korpusa-sol- skih-pisnih-izdelkov.pdf. Krek idr. 2020 = Simon Krek – Špela Arhar Holdt – Tomaž Erjavec – Jaka Čibej – Andraž Repar – Polona Gantar – Nikola Ljubešić – Iztok Kosem – Kaja Dobrovoljc, Gigafida 2.0: the reference corpus of written standard Slovene, v: LREC 2020: Twelfth International Conference on Lan- guage Resources and Evaluation: May 11-16, 2020, Marseille, France, ur. Nicoletta Calzolari, Paris: ELRA - European Language Resources Association, 2020, 3340–3345, http://www.lrec- -conf.org/proceedings/lrec2020/LREC-2020.pdf. Logar Berginc idr. 2020 = Nataša Logar Berginc – Miha Grčar – Marko Brakus – Tomaž Erjavec – Špela Arhar Holdt – Simon Krek, Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKres: gradnja, vsebina, uporaba, 1. e-izdaja, Ljubljana: Znanstvena založba Filozofske fakul- tete, 2020, https://doi.org/10.4312/9789610603542. Machálek 2020 = Tomáš Machálek, KonText: Advanced and Flexible Corpus Query Interface, v: LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11–16, 2020, Marseille, France, ur. Nicoletta Calzolari, Paris: ELRA – European Language Reso- urces Association, 2020, 7003–7008, https://www.aclweb.org/anthology/2020. MMS 1996 = Majda Bitenc – Majda Starovašnik – Marija Ajdovec – Dijana Korošec, Moj mali slovar, Kranj: Osnovna šola Franceta Prešerna, 1996. MPS 2002 = Damjana Šubic – Breda Sivec, Moj prvi slovar, Ljubljana: DZS, 2002. MS 2000 = Barbara Hanuš – Irena Šimenc Mihalič – Damjana Šubic, Moj slovar, Ljubljana: DZS, 2000. Perdih 2021 = Andrej Perdih, Indikatorji pri homografih na portalu Franček, Jezikoslovni zapiski 27.2 (2021), 7–21. Perdih idr. 2021 = Andrej Perdih – Kozma Ahačič – Janoš Ježovnik – Duša Race, Building an Educati- onal Language Portal Using Existing Dictionary Data, Jazykovedný časopis 72.2 (2021), 568–578. Petric Žižić 2020 = Špela Petric Žižić, Tipologija razlag v Šolskem slovarju slovenskega jezika, Slavi- stična revija 68.3 (2020), 391–409. Rozman 2010 = Tadeja Rozman, Vloga enojezičnega slovarja slovenščine pri razvoju jezikovne zmož- nosti, doktorska disertacija, Univerza v Ljubljani, Filozofska fakulteta, 2010. Rozman 2012 = Tadeja Rozman, Jezikovni pouk slovenščine: model (za) nove generacije, v: Slavistika v regijah – Koper, ur. Boža Krakar Vogel, Ljubljana: Zveza društev Slavistično društvo Sloveni- je – Znanstvena založba Filozofske fakultete, 2012 (Zbornik Slavističnega društva Slovenije 23), 219–225. Rozman idr. 2015 = Tadeja Rozman – Iztok Kosem – Nataša Pirih Svetina – Ina Ferbežar, Slovarji in učenje slovenščine, v: Slovar sodobne slovenščine: problemi in rešitve, ur. Vojko Gorjanc – Polona Gantar – Iztok Kosem – Simon Krek, Ljubljana: Znanstvena založba Filozofske fakultete, 2015, 67–74. Rozman idr. 2020 = Tadeja Rozman – Irena Krapš Vodopivec – Mojca Stritar – Iztok Kosem, Empirič- ni pogled na pouk slovenskega jezika, Ljubljana: Znanstvena založba Filozofske fakultete, 2020. Rychlý 2007 = Pavel Rychlý, Manatee/Bonito – A Modular Corpus Manager, v: Proceedings of the First Workshop on Recent Advances in Slavonic Natural Language Processing (RASLAN 2007), ur. Petr Sojka – Aleš Horák, Brno: Masaryk University, 2007, 65–70. Stabej idr. 2008 = Marko Stabej – Tadeja Rozman – Nataša Pirih Svetina – Nina Modrijan – Boštjan Bajec, Jezikovni viri pri jezikovnem pouku v osnovni in srednji šoli: končno poročilo z rezultati 137Jezikoslovni zapiski 28  2022  1 dela, Ljubljana: Pedagoški inštitut, 2008, https://www.trojina.si/wp-content/uploads/2019/08/ StabejRozman.pdf. TEI Consortium 2017 = TEI P5: guidelines for electronic text encoding and interchange, TEI Con- sortium, http://www.tei-c.org/Guidelines/P5/. Weiss 1994 = Peter Weiss, Katere slovarje smemo pričakovati po izidu Slovarja slovenskega knji- žnega jezika, Jezik in slovstvo 39.7–8 (1994), 346–350. Weiss 2001 = Peter Weiss, Slovenski šolski slovar, v: Sodobna slovenska narečna poezija. Ciril Kos- mač in razvoj povojne slovenske proze, ur. Zoltan Jan, Ljubljana: Zavod Republike Slovenije za šolstvo, 2001 (Zbornik Slavističnega društva Slovenije 11), 179–188. summaRy The Corpus of Slovenian School Texts: Design and Creation The Corpus of Slovenian School Texts is a specialized corpus of written Slovenian con- taining around 1.8 million tokens, which has been designed specifically for pedagogical lexicography as part of the project Franček, Language Advising Service for Teachers of Slovenian and the Slovenian School Dictionary. It contains texts intended for students in lower primary-school grades and texts composed by students in primary-school grades 1–5. The corpus has been automatically lemmatized and morphosyntactically tagged us- ing the JOS model. It contains three types of texts: school textbooks for subjects taught in primary-school grades 1–6 (809,406 tokens; around 44% of all tokens in the corpus), original Slovenian fiction for children (931,147 tokens; around 51% of all tokens in the corpus), and school texts written by students in primary and secondary schools (96,257 tokens; around 5% of all tokens in the corpus). The part of the corpus that contains texts composed by students is encoded in the XML TEI markup language and is available in the CLARIN.SI research infrastructure repository as an open-access database (CC-BY 4.0). The entire corpus is available to users for research purposes in the NoSketch Engine in KonText concordancers, again using the CLARIN.SI research infrastructure.