POLETNI RAZISKOVALNI TABOR SPLETNE SLOVENŠČINE JANES ZA SREDNJEŠOLCE Oddelek za prevajalstvo Filozofska fakulteta, Ljubljana 24. – 28. avgust 2015 UČNA GRADIVA POLETNI RAZISKOVALNI TABOR SPLETNE SLOVENŠČINE JANES ZA SREDNJEŠOLCE Zbornik učnih gradiv Uredila: Darja Fišer Univerza v Ljubljani, Filozofska fakulteta, 2015. To delo je ponujeno pod licenco Creative Commons: Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Slovenija. Založila: Znanstvena založba Filozofske fakultete Univerze v Ljubljani Izdal: Oddelek za prevajalstvo Za založbo: dr. Branka Kalenić Ramšak, red. prof. Filozofske fakultete Ljubljana, 2015 1. izdaja Publikacija je brezplačno dostopna na spletni strani: http://nl.ijs.si/janes/wp-content/uploads/2015/10/Gradiva.pdf CIP - Kataložni zapis o publikaciji Narodna in univerzitetna knjižnica, Ljubljana 811.163.6(083.97)(0.034.2) POLETNI raziskovalni tabor spletne slovenščine Janes za srednješolce (2015 ; Ljubljana) Učna gradiva / Poletni raziskovalni tabor spletne slovenščine Janes za srednješolce, Ljubljana, 24.-28. avgust 2015 ; [uredila Darja Fišer]. - 1. izd. - El. knjiga. - Ljubljana : Znanstvena založba Filozofske fakultete Univerze v Ljubljani, 2015 ISBN 978-961-237-780-9 (pdf) 1. Gl. stv. nasl. 2. Fišer, Darja, 1978- 281635584 KAZALO VSEBINE 1 PREDGOVOR ....................................................................................................... 5 Špela Arhar Holdt in Jaka Čibej: ........................................................................................................................... 7 2 KORPUSI IN KORPUSNO JEZIKOSLOVJE ................................................................ 7 2.1 IZROČKI – korpusi in korpusno jezikoslovje .............................................................................................. 9 2.2 Od konkordance do kolokacije – prvi del ............................................................................................... 23 2.2 .1 Korpus KRES ................................................................................................................................................ 23 2.2 .2 Korpus GOS ................................................................................................................................................. 23 2.3 Od konkordance do kolokacije – drugi del ............................................................................................. 24 2.3 .1 Korpus Janes ............................................................................................................................................... 24 2.3 .2 Korpus Šolar ................................................................................................................................................ 26 Damjan Popič in Katja Zupan: ........................................................................................................................... 27 3 STANDARDNA IN SPLETNA SLOVENŠČINA ........................................................... 27 3.1 IZROČKI – standardna in spletna slovenščina ......................................................................................... 27 3.2 Delavnica - Norma: od pravopisa do tvitopisa ........................................................................................ 45 3.2 .1 Potek delavnic in vsebina raziskovalnih nalog ............................................................................................ 45 3.2 .2 Programski jezik CQL .................................................................................................................................. 46 3.2 .3 Spletne povezave ........................................................................................................................................ 47 Polona Gantar in Jaka Čibej: .............................................................................................................................. 48 4 FRAZEOLOGIJA V SPLETNI SLOVENŠČINI ............................................................. 48 4.1 IZROČKI – frazeologija v spletni slovenščini ............................................................................................ 49 4.2 Vaje ...................................................................................................................................................... 59 4.2 .1 Prepoznavanje različnih tipov večbesednih leksikalnih enot v besedilu .................................................... 59 4.2 .2 1. Naloga: KOLOKACIJE ............................................................................................................................... 60 4.2 .3 2. Naloga: OD KOLOKACIJE DO FRAZEMA ................................................................................................... 61 4.3 Delavnice .............................................................................................................................................. 62 4.3 .1 RAZISKOVALNE TEME ................................................................................................................................. 62 Ana Zwitter Vitez in Špela Arhar Holdt: .............................................................................................................. 63 5 GOVOR IN SPLETNA SLOVENŠČINA .................................................................... 63 5.1 IZROČKI – govor in spletna slovenščina .................................................................................................. 63 5.2 Detekstiv – vaje ..................................................................................................................................... 76 5.2 .1 Izhodišče ..................................................................................................................................................... 76 5.2 .2 Vaje ............................................................................................................................................................. 76 5.3 Detekstiv - delavnica (skupine Tvit1, Tvit2, Tvit3) ................................................................................... 77 5.3 .1 Odkrivanje govornih elementov na Twitterju ............................................................................................ 77 5.3 .2 Naloge ......................................................................................................................................................... 77 5.4 Detekstiv - delavnica (skupini Forum1 in Forum2) .................................................................................. 78 5.4 .1 Odkrivanje govornih elementov na spletnih forumih ................................................................................ 78 5.4 .2 Naloge ......................................................................................................................................................... 78 Tamara Mikolič Južnič in Katja Zupan: ................................................................................................................ 79 6 SLOVENŠČINA V STIKU Z DRUGIMI JEZIKI ............................................................ 79 6.1 IZROČKI – slovenščina v stiku z drugimi jeziki ......................................................................................... 79 6.2 IZROČKI – vaje ....................................................................................................................................... 96 6.3 Vaje: od Novega mesta do Njujorka ..................................................................................................... 111 6.3 .1 Kako zapisujemo tujejezične elemente? .................................................................................................. 111 6.3 .2 Koliko je tujejezičnih elementov v JANES-u in iz katerih jezikov so? ........................................................ 112 6.3 .3 Kdaj in kako se uporablja tujejezične elemente? ..................................................................................... 113 6.3 .4 Kdo uporablja tujejezične elemente? ....................................................................................................... 115 6.3 .5 Stopnja (ne)standardnosti in tujejezični elementi .................................................................................... 116 4 1 Predgovor Od 24. do 28. avgusta 2015 je na Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani potekal Raziskovalni tabor spletne slovenščine za srednješolce JANES. Tabor je bil organiziran v okviru temeljnega nacionalnega projekta JANES – Jezikoslovna analiza nestandardne slovenščine je nacionalni raziskovalni projekt (J6―6842), ki ga od 1. 7. 2014 do 30. 6. 2017 financira Javna agencija za raziskovalno dejavnost Republike Slovenije, s sredstvi razpisa za predstavljanje, uveljavljanje in razvoj slovenskega jezika (JPR-UPRS-2015) pa ga je sofinanciralo Ministrstvo za kulturo. Z raziskovalnim taborom, na katerem so srednješolci dobili priložnost raziskovati slovenščino z najsodobnejšimi viri, tehnologijami in metodami, razvitimi v okviru projekta JANES (http://nl.ijs.si/janes/), smo želeli dijakom približati slovenščino in pokazati, da je izjemno zanimiv in pomemben predmet proučevanja. Poleg tega pa je bil naš cilj tudi, da dijake seznanimo z jezikovnimi tehnologijami, s katerimi slovenščina postaja vse bolje opremljena. Tako smo na praktično zasnovanih raziskovalnih delavnicah dijake uvedli v svet korpusnega jezikoslovja in jezikovnih tehnologij ter jih opremili s kompetencami, ki jim omogočajo, da s pomočjo prosto dostopnih virov za slovenščino samostojno odgovarjajo na najrazličnejša jezikovna vprašanja. Z analizo izbranih jezikovnih prvin smo osvetlili razlike med standardno in spletno slovenščino na ortografski, leksikalni, skladenjski in slogovni ravni ter razlike med jezikom družbenih medijev in govorjeno slovenščino. S pomočjo opravljenih analiz so dijaki spoznali temeljne pojme s področja sociolingvistike in analize diskurza ter dvignili zavest o izbiri ustreznih jezikovnih različic v različnih govornih položajih. Raziskovalni tabor je trajal pet dni. Vsak dan je bil posvečen drugi osrednji temi, ki je bila najprej predstavljena na uvodnem predavanju, temu pa so sledile vaje in delavnice. Na njih so dijaki v manjših skupinah pod nadzorom mentorjev, vrhunskih strokovnjakov s področja korpusnega jezikoslovja in jezikovnih tehnologij, samostojno raziskovali izbrano raziskovalno vprašanje. Ker menimo, da bodo gradiva koristila tudi drugim dijakom, študentom, profesorjem in jezikoslovcem, ki se želijo seznaniti s korpusnim jezikoslovjem in značilnostmi spletne slovenščine, smo jih zbrali v skupni publikaciji, ki je pred vami. Poglavja sledijo programu tabora: v prvem poglavju dr. Špela Arhar Holdt predstavi osnove korpusnega jezikoslovja in delo z najpomembnejši korpusi za slovenščino, kot so referenčni 5 korpus Gigafida, vzorčni korpus Kres, korpus govorjene slovenščine Gos, učni korpus Šolar in korpus spletne slovenščine Janes. V drugem poglavju dr. Damjan Popič oriše razvoj slovenske pravopisne norme podobnosti in osvetli razlike med standardno in spletno slovenščino. Tretje poglavje, ki ga je pripravila dr. Polona Gantar, je posvečeno večbesednim leksikalnim enotam v spletni slovenščini s poudarkom na kolokacijah in frazemih. Dr. Ana Zwitter Vitez v četrtem poglavju izpostavi podobnosti in razlike med računalniško posredovano komunikacijo in govorjenim jezikom ter demonstrira odkrivanje govornih elementov v spletnih uporabniških vsebinah. Gradiva sklenemo s poglavjem dr. Tamare Mikolič Južnič o pojavljanju in zapisovanju tujejezičnih prvin ter preklapljanju med jeziki v spletnih žanrih. doc. dr. Darja Fišer Ljubljana, oktober 2015 6 Špela Arhar Holdt in Jaka Čibej: 2 KORPUSI IN KORPUSNO JEZIKOSLOVJE Besedilni korpusi so obsežne zbirke realnih besedil v elektronski obliki. Besedila so zajeta iz različnih virov na način, da predstavljajo vzorec jezikovne rabe določene vrste. Korpusna besedila tipično vsebujejo programsko ali ročno pripisane oznake, npr. osnovno obliko besede, besedno vrsto in druge lastnosti besede. Za raziskovanje besedilnih korpusov so besedila umeščena v konkordančnike: specializirane programe, ki omogočajo napredno iskanje po besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno. Da lahko pravilno interpretiramo in generaliziramo ugotovitve, moramo dobro razumeti, kakšna besedila določen korpus vsebuje, kako je bil zgrajen in kakšen je njegov namen. Besedilne korpuse uporabljamo: • ker naša jezikovna intuicija ne more natančno predvideti, kako se jezik v širši rabi obnaša, • ker s pomočjo računalnika lahko obdelamo večje količine podatkov na naprednejše načine in tako lažje poiščemo relevantne jezikovne vzorce in trende, • ker so zgrajeni na transparenten in dokumentiran način, da lahko podatke ustrezno interpretiramo in generaliziramo. Korpusi se uporabljajo za različne namene v uporabnem jezikoslovju (za pripravo slovarjev, slovnic, šolskih gradiv ipd.), teoretičnem jezikoslovju (za raziskave, ki lahko vodijo do novih dognanj o jezikovni rabi in sistemu), pri drugih poklicih, ki se posvečajo pisni produkciji (pisanje, prevajanje, lektoriranje ipd.) in tudi za ljubiteljsko raziskovanje jezika (preverjanje jezikovne rabe, raziskovanje raznih zanimivosti ipd.) Za slovenščino trenutno še ne obstaja veliko priročnikov, ki so narejeni na osnovi korpusnih podatkov (v prihodnosti jih bo več). Korpusi so tudi sodobnejši od nekaterih obstoječih priročnikov, zato se korpusni podatki in podatki v priročnikih mestoma razlikujejo). V praksi se korpusi zato pogosto uporabljajo kot dopolnilo obstoječim jezikovnim priročnikom. Za slovenščino je na voljo več različnih korpusov. Na taboru bomo natančneje spoznali naslednje: IME KORPUSA VRSTA JEZIKA, POVEZAVA ZAJETA BESEDILA Kres Splošna pisna slovenščina časopisi, revije, leposlovje, strokovna literatura, spletna besedila, besedilni drobiž GOS Govorjena slovenščina televizijske in radijske oddaje, javni nastopi, sestanki, zasebna komunikacija … 7 Janes Spletna slovenščina tviti, blogi, uporabniški komentarji, forumi Šolar Jezik šolarjev šolski eseji in testi + učiteljski popravki Gigafida je obsežna zbirka sodobnih (1990-2011) slovenskih besedil iz časopisov, revij, knjig, s spleta itd. Korpus obsega skoraj 1,2 milijarde besed. Kres je manjša različica tega korpusa, prinaša cca. 100 milijonov besed. Korpuse, ki prinašajo splošni jezik, imenujemo referenčni korpusi. Ti se uporabljajo za izdelavo referenčnih priročnikov, v raziskavah pa jih pogosto uporabljamo tako, da z njimi primerjamo rezultate iz drugih korpusov. GOS je prvi korpus govorjene slovenščine. Prinaša posnetke govora v različnih vsakodnevnih situacijah. Posnetki so transkribirani in umeščeni v zmogljiv konkordančnik, s katerim lahko primere govora iščemo, poslušamo in preučujemo. Korpus obsega okrog milijon besed. Namenjen je raziskovanju govora. Šolar vsebuje pisna besedila, ki so jih učenci in dijaki slovenskih šol tvorili pri pouku. V precejšnjem delu besedil so posebej označene tudi jezikovne napake, ki so jih v spisih popravili učitelji. Po slednjih lahko s pomočjo specializiranega konkordančnika tudi iščemo. Korpus vsebuje približno milijon besed, namenjen je raziskavam šolske pisne produkcije oz. jezikovne zmožnosti šolarjev in pripravi učnih gradiv. Janes je korpus spletne slovenščine. Vsebuje besedila, ki so jih na spletu tvorili uporabniki, in sicer tvite, forumska sporočila, blogovske zapise in komentarje spletnih novic. Korpus obsega okrog 134 milijonov besed. Namenjen je raziskovanju nestandardne spletne slovenščine. Korpus je eden od rezultatov nacionalnega raziskovalnega projekta Jezikoslovna analiza nestandardne slovenščine (J6―6842), ki poteka med leti 2014 in 2017, v njegovem sklopu pa je organiziran tudi naš poletni tabor. 8 2.1 IZROČKI – korpusi in korpusno jezikoslovje 9 10 11 12 13 14 15 16 17 18 19 20 21 22 2.2 Od konkordance do kolokacije – prvi del 2.2.1 Korpus KRES http://www.korpus-kres.net/ 1. Odpremo korpus Kres in vtipkamo v iskalno okence besedo pljuvalnik. Ogledamo si rezultate v konkordančniku in spoznamo:  kaj je konkordanca oz. konkordančni niz, konkordančno jedro,  kje najdemo število konkordanc,  kako pridemo do širšega sobesedila, metapodatkov o besedilu in korpusnih oznak,  kaj so filtri in kako jih uporabljamo. 2. Raziščemo, kaj pomeni beseda pljuvalnik. Kaj pomeni brbotalnik? Poznamo sopomenko za brbotalnik? Kako pogosto in v katerih besedilih se pojavlja brbotalnik, kako pogosto pa sopomenka? 3. Katere besede na –nik še poznamo? Naštejemo tiste, za katere mislimo, da so v korpusu najpogostejše. Odpremo zavihek Seznam in vnesemo iskalni pogoj *nik. Ogledamo si rezultate. Ogledamo si filter Besedna vrsta in komentiramo, kar najdemo pod Neuvrščeno in Prislov. 4. Ogledamo si besedo lastnik in razmislimo o besedni zvezi lastnik + koga ali česa. Naštejemo nekaj primerov. Odpremo zavihek Okolica in vnesemo besedo lastnik + prvo mesto na desni. Ogledamo si rezultate in spoznamo pojem kolokator in različne možnost razvrščanja le-teh. Kolokatorje filtriramo na samostalnike in uredimo glede na pojavitve v okolici. 5. Kdo najde samostalnik, ki se v korpusu najpogosteje pojavlja? Kot zanimivost si ogledamo besedni oblak z najpogostejšimi samostalniki iz korpusa Kres. 6. Kako blizu so bili naši odgovori korpusnim podatkom? Zakaj se je naša jezikovna intuicija v nekaterih primerih izkazala za ustrezno, v drugih ne? 2.2.2 Korpus GOS http://www.korpus-gos.net 1. Odpremo korpus GOS in vtipkamo v iskalno okence besedo recimo. Ogledamo si rezultate v konkordančniku in spoznamo razlike korpusa GOS glede na Kres:  možnost poslušanja posnetka (poslušamo nekaj primerov),  podatki o besedilih so drugačni ( kaj pravte recimo na to vse vi ste tudi podjetnica – ogledamo si prekrivanje lastnih imen in oznako za nerazumljivo), 23  razlike v filtrih, poskušamo filtrirati, npr. Maribor, nejavni nezasebni. Kakšne vrste komunikacije se najdejo v tej vrsti oznake? 2. Poiščemo v korpusu besedo ful in si ogledamo filtre. Kaj lahko ugotovimo glede tipa govora, regije snemanja, spol, starost … Lahko glede na podatke zaključimo, da ženske uporabljajo besedo ful pogosteje kot moški? Za pomoč pri odločitvi si ogledamo podatke O korpusu. 3. Ponovimo, da je korpus GOS transkribiran na dveh nivojih. Odpremo zavihek Seznam in izberemo Iskanje po standardiziranem zapisu, iščemo besedo lahko. Ogledamo si rezultate in vsak poišče obliko in posluša posnetke, ki so najbližje njegovemu narečju ali ki se mu zdijo najbolj zanimivi. 2.3 Od konkordance do kolokacije – drugi del 2.3.1 Korpus Janes http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes 1. Odpremo korpus Janes in vnesemo v iskalno okence besedo valjda. Ogledamo si rezultate v konkordančniku in spoznamo značilnosti vmesnika:  konkordančni niz je podoben, na levi imamo nekaj osnovnih metainformacij o viru besedila, npr. da gre z tvit in kdo je avtor,  klik na konkordančno jedro odpre sobesedilo, klik na informacije na levi dodatne metapodatke,  možnost, da si ogledujemo zadetke v obliki povedi ( Možnosti prikaza > Stavek),  možnost, da podatke sortiramo – ogledamo si funkcijo Premešaj, ki premeša zadetke, da npr. niso na začetku samo tviti,  omenimo možnost, da vzorčimo in filtriramo konkordančni niz,  ogledamo si seznam oblik besede ( Frekvenca > Oblike niza),  ogledamo si seznam izvornih dokumentov ( Frekvenca -> Dokumenti)  ogledamo si možnosti izdelave seznama kolokatorjev: atribute word, v razponu 1 do 1. Uredimo zadetke po frekvenci in se pogovorimo o rezultatih. 24 2. Samostojno delo 1: primerjava besed neumen in glup v korpusu Janes.  Raziskovanje poteka v parih.  Eden od dijakov poišče v korpusu Janes besedo glup, drugi pa besedo neumen.  Ugotovita, kako pogosto se vsaka od besed pojavlja in postavita hipotezo, zakaj je tako.  Izdelata seznam kolokatorjev na mestu desno tik ob besedi in si ogledata prvih 100 (dve strani) rezultatov.  Primerjata oba seznama kolokatorjev in po potrebi posamične konkordance (s klikom na P pred kolokatorjem): kakšno besedišče se pojavlja? Kako pogosti so kolokatorji?  Katere ugotovitve lahko sklenemo iz podatkov? So podatki potrdili ali ovrgli hipotezo?  (V sredo bomo spoznali orodje Primerjalne skice, ki olajša tovrstne primerjave med besedami.) 3. Samostojno delo 2: različni žanri korpusa Janes.  Delo poteka v štirih skupinah.  Vsaka od skupin dobi enega od žanrov: tvit, blogi, forumi ali komentarji in v konkordančniku za delo izbere ustrezen podkorpus.  Izberemo besedo ali besedno zvezo, za katero predvidevamo, da se bo pojavljala v vseh žanrih (npr. itak).  Vsaka skupina v svojem podkorpusu naredi naključen vzorec stotih konkordanc.  Vsaka skupina pregleda svoje konkordance (stavčni pogled) in zabeleži čim več zanimivosti v zvezi z jezikom v njih, npr. ali se pojavljajo posebni znaki in če da, v kakšni funkciji so, kako se uporabljajo ločila, kako se besede zapisujejo, se pojavljajo tujejezične besede ali zveze, sleng, ali katera od besed dobiva nov pomen, kakšen je odnos avtorjev besedila do vsebine, ki jo sporočajo …  Skupine primerjajo rezultate in ugotovimo, katere značilnosti se pojavljajo v različnih žanrih, katere pa so značilne za posamezen žanr. 25 2.3.2 Korpus Šolar www. korpus-solar.net/ 1. Odpremo korpus Šolar in vnesemo v iskalno okence kot napako besedo otrok. Ogledamo si rezultate v konkordančniku in spoznamo razlike vmesnika:  mogoče je iskati po jezikovnih napakah učencev in popravkih učiteljev,  napake in popravki so izpisani v konkordančnem nizu in v razširjenem kontekstu,  možnosti urejanja rezultatov so primerljive, ogledamo si podatke Oblike niza, Dokumenti. 2. Razmislimo in naštejemo nekaj napak, ki se nam zdijo tipične za šolska besedila. Ogledamo si možnosti iskanja s pomočjo Oznake napake, npr. napake na ravni besedišča, če je čas, še seznam Oblike niza in posamezne primer (npr. in, Hamlet). Za obnovitev znanja in dodatne ideje glede uporabe korpusov lahko obiščete spletno stran Portal jezikovnih virov. Janes, ki je povsem nov projekt, sicer še ni predstavljen, so pa na voljo videopredstavitve korpusov Gigafida (ki ima enak konkordančnik kot Kres), GOS in Šolar. 26 Damjan Popič in Katja Zupan: 3 STANDARDNA IN SPLETNA SLOVENŠČINA 3.1 IZROČKI – standardna in spletna slovenščina 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 3.2 Delavnica - Norma: od pravopisa do tvitopisa 3.2.1 Potek delavnic in vsebina raziskovalnih nalog Dijaki delajo samostojno, predavatelj in asistent sta na voljo za pomoč in sugestije. Vsaka skupina si izbere enega od vsebinskih sklopov, ki smo ga spoznali pri vajah: 1. Pregibanje osebnih lastnih imen 2. E-tvorjenke1 3. Stvarno lastno ali občno poimenovanje? 4. Kratice in simboli 5. Zapis tvorjenk Vsaka skupina si v okviru izbrane tematike izbere ustrezno tematiko in pripravi besedilo z naslednjo strukturo: I. Opredelitev naloge: raziskovalno vprašanje in teze. II. Opis poteka raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz. korpusov in orodja za njihovo analizo in opis metodologije. III. Raziskava in beleženje ugotovitev. IV. Zaključki glede na zastavljeno raziskovalno vprašanje. 1 [word="(?i)[a-zčšž]-.*"] (e-tvorjenke tipa č-podstava in Č-podstava) [word="[a-zčšž][A-ZČŠŽ].*"] (e-tvorjenke tipa čPodstava) 45 3.2.2 Programski jezik CQL Nekaj posebnih operatorjev v jeziku CQL:2 2 Pripravila Kaja Dobrovoljc. 46 3.2.3 Spletne povezave  Slovenski pravopis 2001 -- slovar: http://bos.zrc-sazu.si/sp2001.html  Pravila: http://bos.zrc-sazu.si/c/sp/sp2001_pravila.pdf  Slogovni priročnik: http://slogovni.slovenscina.eu  Sloleks: http://www.slovenscina.eu/sloleks  Besana: http://besana.amebis.si/pregibanje/  Slovar slovenskega knjižnega jezika: http://bos.zrc-sazu.si/sskj.html  ŠUSS (odgovori na jezikovna vprašanja): http://www2.arnes.si/~lmarus/suss/  Pregled slovenskih pravopisov: http://www.pravopis.si/Zgodovina/tabid/82/Default.aspx  Jezikovna svetovalnica pri Inštitutu Frana Ramovša: http://isjfr.zrc-sazu.si/svetovalnica#v  Pravopis za francosko govoreča okolja: http://orthonet.sdv.fr/ž  Dodatne pravopisne vaje: https://dl.dropboxusercontent.com/u/13258131/USSJ_Dodatne_vaje.pdf Korpusi: http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes 47 Polona Gantar in Jaka Čibej: 4 FRAZEOLOGIJA V SPLETNI SLOVENŠČINI Frazeologija je veda, ki preučuje večbesedne leksikalne enote (VLE) in njihovo pomensko in skladenjsko obnašanje v besedilu. Obsežni korpusi in računalniška orodja omogočajo prepoznavanje jezikovnih vzorcev in tipičnih sopojavitev besed, zato je mogoče VLE preučevati veliko bolj natančno, kot če besede preučujemo izolirano in na podlagi intuitivnih predvidevanj. V korpusu pride do izraza njihova zgradba, pomenske lastnosti in celostna besedilna vloga. V frazeologiji ne obstaja enotno pojmovanje tega, kaj je frazeološka enota. Načeloma velja, da gre za večbesedno zvezo, ki ima samostojen od sestavin neodvisen navadno ekspresiven pomen, je skladenjsko trdna in jo imamo govorci v zavesti kot celoto. Za našo raziskavo bomo uporabili delitev, ki obsega 3 tipe:  KOLOKACIJE so pogoste sopojavitve besed, ki sicer nimajo samostojnega pomena kot celota, ampak izražajo naravno, pristno jezikovno rabo, npr. gosta megla, krepka juha, dobra družba, najboljša prijateljica, vroče poletje, prva ljubezen itd.  STALNE BESEDNE ZVEZE (SBZ) so večbesedne enote, ki imajo samostojen, navadno neekspresiven pomen. Najpogosteje označujejo predmete, rastline in živali, npr. gorsko kolo, rdeči ribez, črna vdova, ter pojave, npr. topla greda, sončni zahod. Načeloma se obnašajo kot besede in so pogosto značilne za določeno strokovno področje, npr. (nogomet) prepovedani položaj, (zdravstvo ) kurja slepota, (državna uprava) rojstni list.  FRAZEMI (FE) so večbesedne enote s samostojnim ekspresivnim pomenom, ki imajo lahko zgradbo besedne zveze, stavka ali samostojne povedi, npr. mamin sinček, izgubiti živce; sreča je opoteča; Ne ga srat. Za frazeme je značilno, da imajo nepredvidljiv pomen, nepričakovano in spremenljivo zgradbo in ustvarjajo številne priložnosti za ustvarjalno, enkratno rabo. 48 4.1 IZROČKI – frazeologija v spletni slovenščini 49 50 51 52 53 54 55 56 57 58 4.2 Vaje 4.2.1 Prepoznavanje različnih tipov večbesednih leksikalnih enot v besedilu  Priporočljivo je, da si sproti beležite postopek in ugotovitve, saj vam bo to prišlo prav pri izdelavi raziskovalne naloge. Za vnašanje rešitev lahko uporabite kar ta dokument, tako da ga s svojim imenom shranite na računalnik.  Odpremo orodje Sketch Engine (SkE) oz. wsketch_form: izbira korpusa vpis besede/leme izbira besedne vrste Slika 1: Začetno okno v orodju Sketch Engine  Analiza bo potekala v orodju Sketch Engine (SkE) z uporabo funkcije »Iskanje« (konkordance) in »Besedne skice« (ang. Word Sketches). Uporabljali bomo korpus KRES za analizo splošne slovenščine in korpus JANES za analizo spletne slovenščine. Znotraj korpusa JANES lahko izbiramo med različnimi podkorpusi: Janes Blog, janes Comment, Janes Forum, Janes Tweet itd.  V okence »Lema« vtipkamo poljubno besedo v osnovni obliki (lemi). To, kar dobimo, so besedne skice. Besedne skice so avtomatsko izdelan povzetek slovničnega in kolokacijskega obnašanja določene besede. 59 gramatična relacija kolokatorji frekvenca št. pojavitev v korpusu statistična jakost Slika 2: Besedne skice za besedo koža LEMA je beseda v osnovni obliki. KOLOKATORJI so besede, ki se tipično sopojavljajo s preučevano besedo in z njo tvorijo KOLOKACIJE (kolokator + koža = kolokacija). Da zvezo štejemo za kolokacijo, mora imeti v korpusu najmanj 3 pojavitve. Če kliknemo na kolokator, se nam odprejo konkordance, ki ta kolokator vsebujejo. FREKVENCA prikazuje, kolikokrat se kolokator pojavi ob preučevani besedi oz. koliko kolokacij tvori z njo v izbranem korpusu. STATISTIČNA JAKOST določa trdnost in soodvisnost besed, ki vstopajo v kolokacijo. 4.2.2 1. Naloga: KOLOKACIJE POVEJ MI, S KOM SE DRUŽIŠ, IN POVEM TI ... KAJ POMENIŠ  Preden se lotimo korpusne analize, preizkusimo svojo intuicijo. Vsaka skupina naj zabeleži čim več besed, ki se po njenem mnenju največkrat sopojavljajo z besedo hud. Skupina, ki bo zabeležila največ kolokacij, ki so izkazane tudi v korpusu, bo dobila nagrado  60  V izhodiščnem okencu (gl. Sliko 1) izberemo korpus KRES, odtipkamo besedo: hud in določimo besedno vrsto: pridevnik.  Kolikokrat se beseda hud pojavlja v korpusu KRES in kolikokrat v korpusu JANES? Ali lahko na podlagi tega kaj sklepamo?  V dobljeni besedni skici analiziramo kolokatorje v prvih dveh stolpcih (relacije: S_kdo-kaj? in S_kako-kdaj_p? ). Kakšen pomen besede hud izkazujejo kolokatorji v korpusu KRES? Katera je njihova skupna lastnost?  Ali v drugem stolpcu kateri kolokator izstopa? Zakaj? Preverimo še konkordance in vir.  Postopek analize kolokatorjev za besedo hud ponovimo še na korpusu JANES in primerjajmo rezultate.  Kateri kolokatorji so prekrivni v obeh korpusih in kateri izstopajo?  Zapišimo ugotovitve 4.2.3 2. Naloga: OD KOLOKACIJE DO FRAZEMA  Izdelamo besedno skico za samostalnik tič.  Najprej zabeležimo frekvenco leme v obeh korpusih. Kaj ugotovimo?  Analiziramo kolokatorje v relacij S_kakšen? v korpusu KRES. Katere pomene nakazujejo kolokatorji v prvem stolpcu? Poskusimo vsak pomen ponazoriti z ustrezno konkordanco – zgledom iz korpusa.  Ali so v obeh korpusih prekrivni kolokatorji in pomeni? Kako je s frekvenco kolokatorjev v enem in drugem korpusu?  Ali pri katerem od kolokatorjev v korpusu KRES najdemo frazeme? Kaj pa v JANES-u? Katere? Kaj je zanačilno za njihovo rabo? Izpišimo primere.  Ali pridejo do izraza še kateri drugi frazemi v obeh korpusih, če analiziramo konkordance (V orodju SkE izberemo možnost »Iskanje«)? Pregledamo do 10 kolokacijskih nizov.  Ali lahko prepoznamo kako ustvarjalno rabo frazema (t. i. prenovitev)? Zapišimo si primere in vir (korpus).  Kako je prenovitev frazema dosežena (npr. združitev dveh frazemov, dobesedna raba ipd.).  Ali so frazemi, ki jih je mogoče najti v obeh korpusih, opisani v Slovarju slovenskega knjižnega jezika (SSKJ: preverite na http://www.fran.si/)?  Ali najdemo v SSKJ frazeme, ki jih v korpusu KRES in JANES ni? Katere?  Zabeležimo ugotovitve 61 4.3 Delavnice Delavnice so namenjene samostojnemu raziskovanju v skupinah. Pri analizi uporabljamo korpuse in orodja za njihovo analizo (konkordančnik, besedne skice itd.). Vsaka raziskovalna naloga naj vsebuje:  raziskovalno vprašanje  opis korpusa in orodij za analizo  opis postopka in  ugotovitve 4.3.1 RAZISKOVALNE TEME  »To se da tud drgač povedat«: analiza frazeoloških prenovitev v spletni slovenščini  Leži kot krava in laže kot pes teče: živalske prispodobe v spletni in splošni slovenščini  Hudič, vrag, zlodej in satan na kupu: ali na spletu preklinjamo drugače?  Slovenec Slovencu – Slovenac: primerjalna analiza besed, ki označujejo regionalno pripadnost: slovenski, štajerski, dolenjski, primorski in gorenjski  Janes, naj te koklja brcne: primerjalna analiza besed kokl(j)a, kura in kokoš v splošni in spletni slovenščini Vsi drugačni – vsi enakopravni: primerjalna analiza standardno-nestandardnih besednih parov: hlev-štala, kišta – zaboj, milo – žajfa, obraz – ksiht, knedl – cmok, tla – poden, varžet - žep ... 62 Ana Zwitter Vitez in Špela Arhar Holdt: 5 Govor in spletna slovenščina 5.1 IZROČKI – govor in spletna slovenščina 63 64 65 66 67 68 69 70 71 72 73 74 75 5.2 Detekstiv – vaje 5.2.1 Izhodišče 1. Odpri konkordančnik korpusa Gos. Najdeš ga na strani http://www.korpus-gos.net/. 2. Z orodjem SketchEngine izdelaj seznam ključnih besednih oblik korpusa Gos glede na korpus Kres. Na spletni strani http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes izberi možnost Seznami in nastavi korpus Gos. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni korpus pa izberi korpus Kres. 5.2.2 Vaje 1. Katere so 3 najbolj tipične besedne oblike korpusa Gos glede na korpus Kres? Zakaj jih tako pogosto najdemo v govoru, v pisnih besedilih pa ne? Na seznamu poišči še tri takšne besede. 2. Na seznamu ključnih besednih oblik poišči oblike zaj, guor, fse, vejš, tk, čeprov, ge, bul. Iz katerih regij prihajajo govorci? Koliko izgovornih različic imajo njihove standardne oblike? Izberi eno standardno obliko in poslušaj, kako jo izgovorijo govorci iz treh različnih regij. 3. Na seznamu ključnih besednih oblik poišči besedo čav. V katerem tipu diskurza korpusa Gos je najbolj prisotna? Kako stari govorci jo največ uporabljajo? Koliko besed na ključnem seznamu je takih, ki jih večinoma uporabljamo v neformalnih situacijah? 4. Ključne besedne oblike korpusa Gos predstavi v besednem oblaku. Odpri datoteko [Podatki za besedni oblak.xls] na spletni strani http://nl.ijs.si/janes/dogodki/tabor-2015/. V novem zavihku odpri spletno stran http://www.wordle.net/ in izberi zavihek Advanced. Prilepi podatke iz tabele v okence in izdelaj besedni oblak. 5. Zanima nas, kateri so najpogostejši samostalniki korpusov Gos in Janes. V orodju SketchEngine izbereš iskanje po korpusu Gos. Pri opciji Vrste iskanj izbereš iskanje z ukazi CQL. Nato v vrstico CQL vpišeš ukaz [tag="So.*"], s katerim dobiš seznam vseh konkordanc, ki vsebujejo občne samostalnike. Nato v levem meniju izbereš opcijo Frekvence in klikneš Izdelaj frekvenčni seznam. Zdaj lahko v novem zavihku ponoviš enak postopek na korpusu Janes. Kaj opaziš? 6. Radi bi ugotovili, ali se govor bolj izobraženih razlikuje od govora manj izobraženih. V orodju SketchEngine izbereš iskanje po korpusu Gos. Pri opciji Vrste iskanj izbereš iskanje z ukazi CQL. Nato v vrstico CQL vpišeš ukaz [word=".*"]. Dobiš seznam konkordanc, nato v levem meniju izbereš opcijo Frekvence in klikneš Izdelaj frekvenčni seznam. 76 Zdaj lahko v novem zavihku ponoviš enak postopek, le da pri iskanju CQL vpišeš ukaz [word=".*"]. Kaj opaziš? 5.3 Detekstiv - delavnica (skupine Tvit1, Tvit2, Tvit3) 5.3.1 Odkrivanje govornih elementov na Twitterju Izdelaj seznam ključnih besednih oblik korpusa Twitter (stopnja L 2, 3) glede na korpus Kres. Na spletni strani http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes izberi možnost Seznami in izberi korpus Janes v 0.3.3 Tweet L2, 3. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni korpus pa izberi korpus Kres. 5.3.2 Naloge 1. Ali na tem seznamu najdemo besede eee, mhm, eem? Zakaj? 2. Na seznamu poišči besede jst, dans (stran 2), nekej (stran 3). Po čem so si te besede podobne? Izpiši še tri take besede. Zdaj te besede poišči v korpusu Gos. Kaj lahko sklepaš o profilu avtorja besedila, ki jih uporablja? 3. Na seznamu poišči besede fajn, komot (stran 2) in ful. Kaj je njihova skupna lastnost? Izpiši še tri take besede. Zdaj te besede poišči v korpusu Gos. V katerem tipu diskurza prevladujejo? 4. Na seznamu ključnih besed poišči besede videoposnetek, tvit in tnx. Jih najdeš v korpusu Gos? Zakaj? 5. Seznam ključnih besed korpusa Gos in podkorpusa tvitov predstavi v besednem oblaku. Vsaka skupina v okviru izbrane tematike pripravi predstavitev z naslednjo strukturo: I. Raziskovalno vprašanje: v kolikšni meri drži, da “na Twitterju pišemo, kot govorimo”? II. Potek raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz. korpusov in orodja za njihovo analizo in opis metodologije. III. Raziskava in beleženje ugotovitev. Predstavitev besednega oblaka in ugotovitev na podlagi točk 1, 2, 3 in 4. Ali neformalne besede in izgovoru podoben zapis odsevata jezikovno neznanje avtorjev besedila? Zakaj? Kaj na podlagi podatkov iz korpusov lahko povemo o spolu, starosti ali regiji avtorja besedila? IV. Zaključki glede na zastavljeno raziskovalno vprašanje. 77 5.4 Detekstiv - delavnica (skupini Forum1 in Forum2) 5.4.1 Odkrivanje govornih elementov na spletnih forumih Izdelaj seznam ključnih besed korpusa Forum (stopnja L 2, 3) glede na korpus Kres. Na spletni strani http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes izberi možnost Seznami. Nastavi korpus Janes v 0.3.1 Forum in podkorpus Forum L2, 3. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni korpus pa izberi korpus Kres. 5.4.2 Naloge 1. Ali na tem seznamu najdemo besede eee, mhm, eem? Zakaj? 2. Na seznamu poišči besede lahk, jest in kak. Kaj imajo te besede skupnega? Izpiši še tri take besede. Zdaj te besede poišči v korpusu Gos. Kaj lahko sklepaš o profilu avtorja besedila, ki jih uporablja? 3. Na seznamu poišči besede vredu, pomoje in nevem. Kateri pojav zaznamuje te besede? Poskusi te besede poiskati v korpusu Gos: dobiš več rezultatov z zapisom skupaj ali narazen? 4. Na seznamu ključnih besed poišči besede feltne, oglasnik in turbina. Jih najdeš v korpusu Gos? Zakaj? 5. Seznam ključnih besed korpusa Gos in korpusa spletnih forumov predstavi v besednem oblaku. Vsaka skupina v okviru izbrane tematike pripravi predstavitev z naslednjo strukturo: I. Raziskovalno vprašanje: v kolikšni meri drži, da “na spletnih forumih pišemo, kot govorimo”? II. Potek raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz. korpusov in orodja za njihovo analizo in opis metodologije. III. Raziskava in beleženje ugotovitev. Predstavitev besednega oblaka in ugotovitev na podlagi točk 1, 2, 3 in 4. Kateri zaznani pojavi odsevajo jezikovno neznanje, kateri pa kreativnost v jeziku? Kaj na podlagi podatkov iz korpusov lahko povemo o spolu, starosti ali regiji avtorja besedila? IV. Zaključki glede na zastavljeno raziskovalno vprašanje. 78 Tamara Mikolič Južnič in Katja Zupan: 6 Slovenščina v stiku z drugimi jeziki 6.1 IZROČKI – slovenščina v stiku z drugimi jeziki 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 6.2 IZROČKI – vaje 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 6.3 Vaje: od Novega mesta do Njujorka 6.3.1 Kako zapisujemo tujejezične elemente? 1. Se pogosteje uporablja citatni zapis ali poslovenjene oblike? a. Odpremo JANES v. 0.3. : http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes b. V iskalno okence za enostavno iskanje vpišemo naslednje besede v citatnih oblikah in poiščemo njihovo pogostnost.  like _____________________________________________________________________  good _____________________________________________________________________  please _____________________________________________________________________ 2. Poleg citatnih oblik se, kot smo videli, uporabljajo tudi različne poslovenjene oblike. a. Kako lahko poiščemo poslovenjene oblike? b. Katere so po vašem mnenju poslovenjene oblike zgornjih besed? c. Napišite te oblike v okence za enostavno iskanje in poiščite njihovo frekvenco. Prepišite najdene vrednosti za citatne oblike (vse skupaj) in poslovenjene oblike (vse skupaj).  Oblike za please in njihova frekvenca: ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________  Oblike za good in njihova frekvenca: ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ 111  Oblike za like in njihova frekvenca: ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ 3. Katere oblike torej prevladujejo pri izbranih besedah, citatne ali poslovenjene? ___________________________________________________________________________ 6.3.2 Koliko je tujejezičnih elementov v JANES-u in iz katerih jezikov so? 1. Najprej si poglejmo, koliko je tujejezičnih elementov v korpusu. a. V korpusu JANES so besede, ki jih je avtomatski označevalnik prepoznal kot tuje, vendar program ne ločuje med različnimi jeziki. Besede so preprosto označene s posebno, vedno enako kodo. Ko iščemo s CQL, lahko uporabimo to kodo in vse take besede izluščimo naenkrat.  V polje CQL vpišite iskalni ukaz [tag="Nj"] (Nj je oznaka za tujejezične elemente)  Koliko je vseh takih konkordanc ? _____________________ b. Za primerjavo odprimo tokrat govorni korpus GOS (http://www.korpus-gos.net/) in preverimo, koliko je tujejezičnih elementov v tem korpusu.  Vtipkajmo enak iskalni ukaz v polje CQL. Rezultat je _____________________.  Zakaj prihaja do take razlike? c. Ali se prisotnost tujejezičnih elementov spreminja glede na besedilni tip? Poiščite skupno število tujejezičnih elementov v vsakem izmed štirih podkorpusov JANES-a.  Na vrhu izberite podkorpus, nato kot vrsto iskanja izberite CQL in v ukazno polje vpišite [tag="Nj"].  Rezultati: Blogi (JANES v0.3 Blog): _________________ Komentarji (JANES v0.3.1 Comment): __________________ Forumi (JANES v0.3.1 Forum): ________________ Tviti (JANES v0.3.3 Tweet): ________________ 112 2. Videli smo, da se poleg angleščine, ki nedvomno prevladuje, v spletni slovenščini pojavljajo tudi besede iz drugih jezikov. Kako bi ugotovili, kateri jeziki se poleg angleščine še pojavljajo? a. Izberite si enega izmed podkorpusov, poiščite vse tujejezične elemente v tem podkorpusu. Napravite frekvenčni seznam besed. Nato na prvih desetih straneh frekvenčnega seznama »ročno« preverite, kateri jeziki se pojavljajo (poleg angleščine). Zapišite te jezike (in primere rabe, ki ste jih našli) spodaj: ___________________________________________________________________________________ ___________________________________________________________________________________ ___________________________________________________________________________________ 3. Kako točni so naši rezultati? a. Ker avtomatsko označevanje ni 100 %, se pojavljajo napake: med besedami, označenimi kot neslovenskimi, je tudi nekaj takih, ki to zagotovo niso. Poiščite jih 5. ___________________________ ___________________________ ___________________________ ___________________________ ___________________________ b. Zakaj prihaja do takih napak? _______________________________________________________________________________ 6.3.3 Kdaj in kako se uporablja tujejezične elemente? 1. Kako se pojavljajo tujejezični elementi? Kakšne vsebine bodo izražene v tujih jezikih? a. Razmislite, na kakšen način bi se lahko pojavljali tujejezični elementi v korpusu JANES (naštejte, kar se spomnite s predavanja). ___________________________________________________________________________________ ___________________________________________________________________________________ ___________________________________________________________________________________ b. Ustvarite seznam konkordanc vseh tujih besed v korpusu JANES.  Izberite korpus JANES v0.3.  Pri vrstah iskanj izberite CQL in v iskalno polje vpišite [tag="Nj"]. 113 c. Preglejte dobljene konkordance in ocenite, ali se primeri, ki ste jih našli, ujemajo z vašimi predvidevanji (in spominom). Navedite vsaj 5 različnih načinov in po en primer za vsak način. ___________________________________________________________________________________ ___________________________________________________________________________________ ___________________________________________________________________________________ ___________________________________________________________________________________ ___________________________________________________________________________________ d. Kateri način vam je najbližji oz. kaj sami uporabljate v podobnih okoliščinah (socialna omrežja, forumi, blogi ipd.)? Napišite tri besede/besedne zveze, ki jih najpogosteje uporabljate, in primerjajte njihovo pogostnost v vseh štirih podkorpusih.  Besedo/besedno zvezo preprosto vpišite v polje za enostavno iskanje, pri čemer najprej izberite vsak podkorpus posebej. Prepišite, kolikokrat na milijon se pojavlja v posameznem podkorpusu. Beseda/Bes. zveza Tweet Forum Blog Comment ______________________________________________________________________________ ______________________________________________________________________________ ______________________________________________________________________________ e. Kdaj se po vašem mnenju avtorji odločajo za preklapljanje – preskok iz slovenščine v drugi jezik in uporabo tujejezičnih elementov (če odmislimo naslove, lastna imena ipd.)?  Poiščite vse tuje besede v podkorpusu Tweet.  Napišite, kateri so razlogi za preklapljanje v opazovanih primerih: ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________ ____________________________________________________________________________  Ali avtorji izrazito preklapljajo na kakem posebnem mestu v svojih tvitih? ____________________________________________________________________________ ____________________________________________________________________________ 114 6.3.4 Kdo uporablja tujejezične elemente? 1. Korpus JANES je označen tudi s podatki o tem, kdo so avtorji besedil, ki jih vključuje. Zlasti podkorpus TWEET ponuja veliko informacij v tem smislu. Poglejmo si, pri katerih uporabnikih se tujejezični elementi pojavljajo pogosteje. a. V podkorpusu TWEET so zasebni uporabniki označeni kot 'private', podjetja, organizacije in drugi javni subjekti pa s 'corporate'. Kateri tip uporabnikov uporablja več tujejezičnih elementov?  Vključimo lastnosti besedil pri iskanju.  Izberemo možnost 'corporate' pri izbiri TEXT.SOURCE.  Z iskanjem CQL poiščemo vse tujejezične elemente v izbranih tvitih. Rezultat za javna besedila: ________________________  Nato gremo nazaj na iskanje in pri TEXT.SOURCE izberemo možnost 'private'.  Z iskanjem CQL poiščemo vse tujejezične elemente v teh tvitih. Rezultat za zasebna besedila: ________________________ 2. Zabeležen je tudi spol uporabnikov. a. Ali tujejezične elemente več uporabljajo ženske ali moški?  Pri lastnostih besedil imamo možnost izbire spola avtorja. Rezultat za ženske: ____________________ Rezultat za moške: ____________________ 3. Kdo (kateri posameznik) je v svojih tvitih uporabil absolutno največ tujejezičnih elementov?  Izdelamo konkordance vseh tujejezičnih elementov v podkorpusu TWEET.  Izberemo Frekvence in v spodnjem kvadratu (Frekvenčna razporeditev po lastnostnih besedil) Izberemo prvo možnost (text.author).  Avtor/-ica z največjim absolutnim številom tujih besed v svojih tvitih je: ________________________________ b. Kaj pa, če upoštevamo relativno frekvenco, kdo najpogosteje uporablja tujejezične elemente?  Na zgoraj izdelanem frekvenčnem seznamu kliknemo na napis »Rel. frekvenca (%)«  Največji odstotek tujejezičnih elementov je v svojih tvitih uporabil/a: ________________________. 115 c. Katere tujejezične elemente pa ta oseba uporablja?  Kliknemo na »p« na začetku vrstice ob imenu avtorja, da odpremo konkordance vseh tvitov s tujejezičnimi elementi tega avtorja.  Izdelamo frekvenčni seznam tujejezičnih elementov za te konkordance.  Izberite še kakega drugega avtorja in preverite, ali so besede pri vrhu podobne. 6.3.5 Stopnja (ne)standardnosti in tujejezični elementi 1. Podkorpus Tweet je označen tudi glede na stopnjo nestandardnosti besedila (oznake L1, L2 in L3). Oglejmo si, ali višja stopnja nestandardnosti pomeni tudi pogostejšo uporabo tujejezičnih elementov. Kakšna so vaša pričakovanja? a. Največ tujejezičnih elementov bo verjetno v besedilih z oznako _______________________________. b. Preverimo, koliko je tujejezičnih elementov v besedilih z najnižjo stopnjo nestandardnosti (torej v besedilih, ki najbolj sledijo pravilom o standardni rabi slovenščine).  Izberemo podkorpus TWEET.  Pri Lastnostih besedil izberemo L1.  V iskalno polje CQL napišemo iskalni ukaz za tujejezične elemente: [tag="Nj"].  Število tujejezičnih elementov v besedilih, označenih z L1, je _________________________. c. Enako naredimo za besedila, označena z L2 in L3.  Število tujejezičnih elementov v besedilih, označenih z L2, je _________________________.  Število tujejezičnih elementov v besedilih, označenih z L3, je _________________________. d. Razmislimo o razlogih za take rezultate. Pobrskajte po konkordancah za posamezne oznake nestandardnosti in preverite, v kakšnem sobesedilu se kje pojavljajo tujejezični elementi. 2. Preverimo lahko tudi, kdo uporablja najbolj nestandarden jezik in največ tujejezičnih elementov. a. Preverimo, kdo uporablja več tujejezičnih elementov v najbolj nestandardnih tvitih, moški ali ženske.  Izberemo podkorpus TWEET.  Pri Lastnostih besedil izberemo L3.  Pri Lastnostih besedil izberemo spol avtorjev (enkrat ženski, enkrat moški).  V iskalno polje CQL napišemo iskalni ukaz za tujejezične elemente: [tag="Nj"]. 116  Skupno število tujejezičnih elementov pri ženskah v najbolj nestandardnih tvitih je: _____________ Skupno število tujejezičnih elementov pri moških v najbolj nestandardnih tvitih je: _____________ b. Poiščite tri avtorje moškega in tri ženskega spola, ki uporabljajo najbolj nestandarden jezik in hkrati največ tujejezičnih elementov.  Ko po zgoraj navedenem postopku dobimo konkordance, zgradimo frekvenčni seznam, pri čemer v oknu Frekvenčna razporeditev po lastnostih besedil izberemo »text.author«.  V najbolj nestandardnih tvitih največ tujejezičnih elementov uporabljajo: moški: ______________________________________ ______________________________________ ______________________________________ ženske: _____________________________________ _____________________________________ _____________________________________ 117 Document Outline 1 Predgovor Špela Arhar Holdt in Jaka Čibej: 2 KORPUSI IN KORPUSNO JEZIKOSLOVJE 2.1 IZROČKI – korpusi in korpusno jezikoslovje 2.2 Od konkordance do kolokacije – prvi del 2.2.1 Korpus KRES 2.2.2 Korpus GOS 2.3 Od konkordance do kolokacije – drugi del 2.3.1 Korpus Janes 2.3.2 Korpus Šolar Damjan Popič in Katja Zupan: 3 STANDARDNA IN SPLETNA SLOVENŠČINA 3.1 IZROČKI – standardna in spletna slovenščina 3.2 Delavnica - Norma: od pravopisa do tvitopisa 3.2.1 Potek delavnic in vsebina raziskovalnih nalog 3.2.2 Programski jezik CQL 3.2.3 Spletne povezave Polona Gantar in Jaka Čibej: 4 FRAZEOLOGIJA V SPLETNI SLOVENŠČINI 4.1 IZROČKI – frazeologija v spletni slovenščini 4.2 Vaje 4.2.1 Prepoznavanje različnih tipov večbesednih leksikalnih enot v besedilu 4.2.2 1. Naloga: KOLOKACIJE 4.2.3 2. Naloga: OD KOLOKACIJE DO FRAZEMA 4.3 Delavnice 4.3.1 RAZISKOVALNE TEME Ana Zwitter Vitez in Špela Arhar Holdt: 5 Govor in spletna slovenščina 5.1 IZROČKI – govor in spletna slovenščina 5.2 Detekstiv – vaje 5.2.1 Izhodišče 5.2.2 Vaje 5.3 Detekstiv - delavnica (skupine Tvit1, Tvit2, Tvit3) 5.3.1 Odkrivanje govornih elementov na Twitterju 5.3.2 Naloge 5.4 Detekstiv - delavnica (skupini Forum1 in Forum2) 5.4.1 Odkrivanje govornih elementov na spletnih forumih 5.4.2 Naloge 5.5 Tamara Mikolič Južnič in Katja Zupan: 6 Slovenščina v stiku z drugimi jeziki 6.1 IZROČKI – slovenščina v stiku z drugimi jeziki 6.2 IZROČKI – vaje 6.3 Vaje: od Novega mesta do Njujorka 6.3.1 Kako zapisujemo tujejezične elemente? 6.3.2 Koliko je tujejezičnih elementov v JANES-u in iz katerih jezikov so? 6.3.3 Kdaj in kako se uporablja tujejezične elemente? 6.3.4 Kdo uporablja tujejezične elemente? 6.3.5 Stopnja (ne)standardnosti in tujejezični elementi