POLETNI RAZISKOVALNI TABOR SPLETNE SLOVENŠČINE JANES ZA SREDNJEŠOLCE Oddelek za prevajalstvo Filozofska fakulteta, Ljubljana 4. – 8. julij 2016 UČNA GRADIVA 2. POLETNI RAZISKOVALNI TABOR SPLETNE SLOVENŠČINE JANES ZA SREDNJEŠOLCE Zbornik učnih gradiv Uredila: Darja Fišer Univerza v Ljubljani, Filozofska fakulteta, 2016. To delo je ponujeno pod licenco Creative Commons: Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Slovenija. Založila: Znanstvena založba Filozofske fakultete Univerze v Ljubljani Izdal: Oddelek za prevajalstvo Za založbo: dr. Branka Kalenić Ramšak, red. prof. Filozofske fakultete Ljubljana, 2016 1. izdaja Publikacija je brezplačno dostopna na spletni strani: http://nl.ijs.si/janes/wp-content/uploads/2016/08/Zbornik-gradiv-JANES-tabor-2016.pdf CIP - Kataložni zapis o publikaciji Narodna in univerzitetna knjižnica, Ljubljana 811.163.6(083.97)(0.034.2) POLETNI raziskovalni tabor spletne slovenščine Janes za srednješolce (2 ; 2016 ; Ljubljana) Učna gradiva [Elektronski vir] / 2. poletni raziskovalni tabor spletne slovenščine Janes za srednješolce, Ljubljana, Filozofska fakulteta, Ljubljana 4.-8. julij 2016 ; [uredila Darja Fišer]. - 1. izd. - El. knjiga. - Ljubljana : Znanstvena založba Filozofske fakultete Univerze v Ljubljani, 2016 Način dostopa (URL): http://nl.ijs.si/janes/wp-content/uploads/2016/08/Zbornik- gradiv-JANES-tabor-2016.pdf ISBN 978-961-237-849-3 (pdf) 1. Gl. stv. nasl. 2. Fišer, Darja, 1978- 286114816 KAZALO VSEBINE PREDGOVOR _____________________________________________________________ 5 1 KORPUSI IN KORPUSNO JEZIKOSLOVJE ____________________________________ 7 1.1 Korpusi in korpusno jezikoslovje – izročki ________________________________ 7 1.2 Korpusi in korpusno jezikoslovje – vaje ____________________________________ 21 1.2.1 Od konkordance do kolokacije – prvi del _______________________________________________ 22 1.2.2 Od konkordance do kolokacije – drugi del ______________________________________________ 24 2 STANDARDNA IN SPLETNA SLOVENŠČINA _________________________________ 26 2.1 Standardna in spletna slovenščina – izročki ________________________________ 26 2.2 Od pravopisa do tvitopisa – vaje __________________________________________ 47 2.2.1 Pregibanje osebnih lastnih imen _____________________________________________________ 47 2.2.2 E-tvorjenke ______________________________________________________________________ 47 2.2.3 Stvarna lastna imena ______________________________________________________________ 49 2.2.4 Kratice in simboli _________________________________________________________________ 50 2.2.5 Zapis tvorjenk ____________________________________________________________________ 51 2.3 Od pravopisa do tvitopisa – delavnica ____________________________________ 53 3 FRAZEOLOGIJA V SPLETNI SLOVENŠČINI __________________________________ 55 3.1 Frazeologija v spletni slovenščini – izročki __________________________________ 55 3.2 Povzetek ________________________________________________________________ 73 3.3 Prepoznavanje različnih tipov večbesednih leksikalnih enot v besedilu – vaje 74 3.3.1 Od kolokacije do frazema ___________________________________________________________ 75 3.3.2 Od kolokacije k frazeološkim enotam _________________________________________________ 76 3.4 Delavnice _______________________________________________________________ 77 4 GOVOR IN SPLETNA SLOVENŠČINA ______________________________________ 78 4.1 Govor in spletna slovenščina – izročki _____________________________________ 78 4.2 Detekstiv – vaje __________________________________________________________ 90 4.2.1 Izhodišče ________________________________________________________________________ 90 4.2.2 Vaje ____________________________________________________________________________ 90 4.3 Detekstiv  delavnica Odkrivanje govornih elementov na spletnih forumih __ 92 4.4 Detekstiv  delavnica Odkrivanje govornih elementov na Twitterju __________ 93 5 SLOVENŠČINA V STIKU Z DRUGIMI JEZIKI _________________________________ 94 5.1 Slovenščina v stiku z drugimi jeziki – izročki ________________________________ 94 5.2 Od Novega mesta do Njujorka – vaje ____________________________________ 113 5.2.1 Kako zapisujemo tujejezične elemente? ______________________________________________ 113 5.2.2 Koliko je tujejezičnih elementov v JANES-u in iz katerih jezikov so? ________________________ 114 5.2.3 Kdaj in kako se uporablja tujejezične elemente? _______________________________________ 115 5.2.4 Kdo uporablja tujejezične elemente? ________________________________________________ 116 5.2.5 Stopnja (ne)standardnosti in tujejezični elementi _______________________________________ 117 PREDGOVOR Od 4. do 8. julija 2016 je na Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani potekal 2. raziskovalni tabor spletne slovenščine za srednješolce JANES. Tabor je bil organiziran v okviru temeljnega nacionalnega projekta JANES – Jezikoslovna analiza nestandardne slovenščine je nacionalni raziskovalni projekt (J6―6842), ki ga od 1. 7. 2014 do 30. 6. 2017 financira Javna agencija za raziskovalno dejavnost Republike Slovenije, sofinancirala pa ga je Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije CLARIN.SI. Z raziskovalnim taborom smo želeli sredješolcem približati slovenščino in jim pokazati, da je zanimiv in pomemben predmet proučevanja. Poleg tega je bil naš cilj tudi, da dijake seznanimo z jezikovnimi tehnologijami, s katerimi slovenščina postaja vse bolje opremljena. Tako smo dijake s preglednimi predavanji in vodenimi vajami uvedli v svet korpusnega jezikoslovja in jezikovnih tehnologij, na praktično zasnovanih raziskovalnih delavnicah pod nadzorom mentorjev, vrhunskih strokovnjakov s področja korpusnega jezikoslovja in jezikovnih tehnologij pa so srednješolci dobili še priložnost za raziskovanje izbranega raziskovalnega vprašanja z najsodobnejšimi korpusnimi viri, tehnologijami in metodami, razvitimi v okviru projekta JANES. Raziskovalni tabor je trajal pet dni, vsak dan je bil posvečen drugi osrednji temi. Tabor je otvorila dr. Špela Arhar Holdt z uvodom v korpusno jezikoslovje ter predstavitvijo najpomembnejših korpusnih virov in orodij, predstavi osnove korpusnega jezikoslovja in delo z najpomembnejši korpusi za slovenščino, kot so referenčni korpus Gigafida, vzorčni korpus Kres, korpus govorjene slovenščine Gos, učni korpus Šolar in korpus spletne slovenščine Janes. Druga tema je bila namenjena ozaveščanju razlik med standardno in spletno slovenščino na ortografski, leksikalni, skladenjski in slogovni ravni, v okviru katere je dr. Damjan Popič predstavil razvoj slovenske pravopisne norme in osvetlil razlike med standardno in spletno slovenščino, pri čemer je posebno pozornost namenil rabi vejice. Tretja tema, ki jo je pripravila dr. Polona Gantar, je bila posvečena kolokacijskim in frazeološkim posebnostim slovenščine v spletnih skupnostih. V četrti temi so dr. Ana Zwitter Vitez, dr. Špela Arhar Holdt in dr. Tadeja Rozman jezik družbenih medijev primerjale z govorjeno slovenščino ter demonstrirale postopke za odkrivanje govornih elementov v spletnih uporabniških vsebinah. Tabor sta s peto temo sklenila dr. Tamara Mikolič Južnič in Jaka Čibej, ki sta spregovorila o pojavljanju in zapisovanju tujejezičnih prvin ter preklapljanju med jeziki v spletnih žanrih. 5 S pomočjo preglednih predavanj in opravljenih analiz smo dijake seznanili s temeljnimi pojmi s področja korpusnega jezikoslovja, sociolingvistike in analize diskurza ter jim dvignili zavest o izbiri ustreznih jezikovnih različic v različnih govornih položajih. Poleg tega smo jih opremili tudi s kompetencami, ki jim omogočajo, da s pomočjo prosto dostopnih virov za slovenščino samostojno odgovarjajo na najrazličnejša jezikovna vprašanja. Ker menimo, da tovrstne vsebine postajajo vse bolj aktualne, a so še vedno premalo vključene v učne in študijske programe, smo prepričani, da bodo gradiva koristila tudi drugim dijakom, študentom, profesorjem in jezikoslovcem, ki se želijo seznaniti s korpusnim jezikoslovjem in značilnostmi spletne slovenščine, zato smo jih zbrali v skupni publikaciji, ki je pred vami. doc. dr. Darja Fišer Ljubljana, avgust 2016 6 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje Špela Arhar Holdt in Jaka Čibej 1 KORPUSI IN KORPUSNO JEZIKOSLOVJE 1.1 Korpusi in korpusno jezikoslovje – izročki 7 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 8 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 9 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 10 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 11 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 12 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 13 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 14 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 15 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 16 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 17 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 18 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 19 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 20 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 1.2 Korpusi in korpusno jezikoslovje – vaje Besedilni korpusi so obsežne zbirke realnih besedil v elektronski obliki. Besedila so zajeta iz različnih virov na način, da predstavljajo vzorec jezikovne rabe določene vrste. Korpusna besedila tipično vsebujejo programsko ali ročno pripisane oznake, npr. osnovno obliko besede, besedno vrsto in druge lastnosti besede. Za raziskovanje besedilnih korpusov so besedila umeščena v konkordančnike: specializirane programe, ki omogočajo napredno iskanje po besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno. Da lahko pravilno interpretiramo in generaliziramo ugotovitve, moramo dobro razumeti, kakšna besedila določen korpus vsebuje, kako je bil zgrajen in kakšen je njegov namen. Besedilne korpuse uporabljamo:  ker naša jezikovna intuicija ne more natančno predvideti, kako se jezik v širši rabi obnaša,  ker s pomočjo računalnika lahko obdelamo večje količine podatkov na naprednejše načine in tako lažje poiščemo relevantne jezikovne vzorce in trende,  ker so zgrajeni na transparenten in dokumentiran način, da lahko podatke ustrezno interpretiramo in generaliziramo. Korpusi se uporabljajo za različne namene v uporabnem jezikoslovju (za pripravo slovarjev, slovnic, šolskih gradiv ipd.), teoretičnem jezikoslovju (za raziskave, ki lahko vodijo do novih dognanj o jezikovni rabi in sistemu), pri drugih poklicih, ki se posvečajo pisni produkciji (pisanje, prevajanje, lektoriranje ipd.) in tudi za ljubiteljsko raziskovanje jezika (preverjanje jezikovne rabe, raziskovanje raznih zanimivosti ipd.) Za slovenščino trenutno še ne obstaja veliko priročnikov, ki so narejeni na osnovi korpusnih podatkov (v prihodnosti jih bo več). Korpusi so tudi sodobnejši od nekaterih obstoječih priročnikov, zato se korpusni podatki in podatki v priročnikih mestoma razlikujejo). V praksi se korpusi zato pogosto uporabljajo kot dopolnilo obstoječim jezikovnim priročnikom. Za slovenščino je na voljo več različnih korpusov. Na taboru bomo natančneje spoznali naslednje: IME VRSTA JEZIKA, ZAJETA BESEDILA KORPUSA POVEZAVA Kres Splošna pisna časopisi, revije, leposlovje, strokovna literatura, slovenščina spletna besedila, besedilni drobiž GOS Govorjena televizijske in radijske oddaje, javni nastopi, sestanki, slovenščina zasebna komunikacija … 21 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje Janes Spletna slovenščina tviti, blogi, uporabniški komentarji, forumi Šolar Jezik šolarjev šolski eseji in testi + učiteljski popravki Gigafida je obsežna zbirka sodobnih (1990-2011) slovenskih besedil iz časopisov, revij, knjig, s spleta itd. Korpus obsega skoraj 1,2 milijarde besed. Kres je manjša različica tega korpusa, prinaša cca. 100 milijonov besed. Korpuse, ki prinašajo splošni jezik, imenujemo referenčni korpusi. Ti se uporabljajo za izdelavo referenčnih priročnikov, v raziskavah pa jih pogosto uporabljamo tako, da z njimi primerjamo rezultate iz drugih korpusov. GOS je prvi korpus govorjene slovenščine. Prinaša posnetke govora v različnih vsakodnevnih situacijah. Posnetki so transkribirani in umeščeni v zmogljiv konkordančnik, s katerim lahko primere govora iščemo, poslušamo in preučujemo. Korpus obsega okrog milijon besed. Namenjen je raziskovanju govora. Šolar vsebuje pisna besedila, ki so jih učenci in dijaki slovenskih šol tvorili pri pouku. V precejšnjem delu besedil so posebej označene tudi jezikovne napake, ki so jih v spisih popravili učitelji. Po slednjih lahko s pomočjo specializiranega konkordančnika tudi iščemo. Korpus vsebuje približno milijon besed, namenjen je raziskavam šolske pisne produkcije oz. jezikovne zmožnosti šolarjev in pripravi učnih gradiv. Janes je korpus spletne slovenščine. Vsebuje besedila, ki so jih na spletu tvorili uporabniki, in sicer tvite, forumska sporočila, blogovske zapise in komentarje spletnih novic. Korpus obsega okrog 134 milijonov besed. Namenjen je raziskovanju nestandardne spletne slovenščine. Korpus je eden od rezultatov nacionalnega raziskovalnega projekta Jezikoslovna analiza nestandardne slovenščine (J6―6842), ki poteka med leti 2014 in 2017, v njegovem sklopu pa je organiziran tudi naš poletni tabor. 1.2.1 Od konkordance do kolokacije – prvi del 1.2.1.1 Korpus KRES http://www.korpus-kres.net/ 1. Odpremo korpus Kres in vtipkamo v iskalno okence besedo pljuvalnik. Ogledamo si rezultate v konkordančniku in spoznamo:  kaj je konkordanca oz. konkordančni niz, konkordančno jedro,  kje najdemo število konkordanc,  kako pridemo do širšega sobesedila, metapodatkov o besedilu in korpusnih oznak,  kaj so filtri in kako jih uporabljamo. 22 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 2. Raziščemo, kaj pomeni beseda pljuvalnik. Kaj pomeni brbotalnik? Poznamo sopomenko za brbotalnik? Kako pogosto in v katerih besedilih se pojavlja brbotalnik, kako pogosto pa sopomenka? 3. Katere besede na –nik še poznamo? Naštejemo tiste, za katere mislimo, da so v korpusu najpogostejše. Odpremo zavihek Seznam in vnesemo iskalni pogoj *nik. Ogledamo si rezultate. Ogledamo si filter Besedna vrsta in komentiramo, kar najdemo pod Neuvrščeno in Prislov. 4. Ogledamo si besedo lastnik in razmislimo o besedni zvezi lastnik + koga ali česa. Naštejemo nekaj primerov. Odpremo zavihek Okolica in vnesemo besedo lastnik + prvo mesto na desni. Ogledamo si rezultate in spoznamo pojem kolokator in različne možnost razvrščanja le-teh. Kolokatorje filtriramo na samostalnike in uredimo glede na pojavitve v okolici. 5. Kdo najde samostalnik, ki se v korpusu najpogosteje pojavlja? Kot zanimivost si ogledamo besedni oblak z najpogostejšimi samostalniki iz korpusa Kres. 6. Kako blizu so bili naši odgovori korpusnim podatkom? Zakaj se je naša jezikovna intuicija v nekaterih primerih izkazala za ustrezno, v drugih ne? 1.2.1.2 Korpus GOS http://www.korpus-gos.net 1. Odpremo korpus GOS in vtipkamo v iskalno okence besedo recimo. Ogledamo si rezultate v konkordančniku in spoznamo razlike korpusa GOS glede na Kres:  možnost poslušanja posnetka (poslušamo nekaj primerov),  podatki o besedilih so drugačni ( kaj pravte recimo na to vse vi ste tudi podjetnica – ogledamo si prekrivanje lastnih imen in oznako za nerazumljivo),  razlike v filtrih, poskušamo filtrirati, npr. Maribor, nejavni nezasebni. Kakšne vrste komunikacije se najdejo v tej vrsti oznake? 2. Poiščemo v korpusu besedo ful in si ogledamo filtre. Kaj lahko ugotovimo glede tipa govora, regije snemanja, spol, starost … Lahko glede na podatke zaključimo, da ženske uporabljajo besedo ful pogosteje kot moški? Za pomoč pri odločitvi si ogledamo podatke O korpusu. 23 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 3. Ponovimo, da je korpus GOS transkribiran na dveh nivojih. Odpremo zavihek Seznam in izberemo Iskanje po standardiziranem zapisu, iščemo besedo lahko. Ogledamo si rezultate in vsak poišče obliko in posluša posnetke, ki so najbližje njegovemu narečju ali ki se mu zdijo najbolj zanimivi. 1.2.2 Od konkordance do kolokacije – drugi del 1.2.2.1 Korpus Janes http://nl.ijs.si/noske/janes04.cgi/first_form?corpname=janes.04 1. Odpremo korpus Janes in vnesemo v iskalno okence besedo valjda. Ogledamo si rezultate v konkordančniku in spoznamo značilnosti vmesnika:  konkordančni niz je podoben, na levi imamo nekaj osnovnih metainformacij o viru besedila, npr. da gre z tvit in kdo je avtor,  klik na konkordančno jedro odpre sobesedilo, klik na informacije na levi dodatne metapodatke,  možnost, da si ogledujemo zadetke v obliki povedi ( Možnosti prikaza > Stavek),  možnost, da podatke sortiramo – ogledamo si funkcijo Premešaj, ki premeša zadetke, da npr. niso na začetku samo tviti,  omenimo možnost, da vzorčimo in filtriramo konkordančni niz,  ogledamo si seznam oblik besede ( Frekvenca > Oblike niza),  ogledamo si seznam izvornih dokumentov ( Frekvenca -> Dokumenti)  ogledamo si možnosti izdelave seznama kolokatorjev: atribute word, v razponu 1 do 1. Uredimo zadetke po frekvenci in se pogovorimo o rezultatih. 2. Samostojno delo 1: primerjava besed neumen in glup v korpusu Janes.  Raziskovanje poteka v parih.  Eden od dijakov poišče v korpusu Janes besedo glup, drugi pa besedo neumen.  Ugotovita, kako pogosto se vsaka od besed pojavlja in postavita hipotezo, zakaj je tako,  Izdelata seznam kolokatorjev na mestu desno tik ob besedi in si ogledata prvih 100 (dve strani) rezultatov,  Primerjata oba seznama kolokatorjev in po potrebi posamične konkordance (s klikom na P pred kolokatorjem): kakšno besedišče se pojavlja? Kako pogosti so kolokatorji?  Katere ugotovitve lahko sklenemo iz podatkov? So podatki potrdili ali ovrgli hipotezo?  (V sredo bomo spoznali orodje Primerjalne skice, ki olajša tovrstne primerjave med besedami.) 24 Špela Arhar Holdt in Jaka Čibej Korpusi in korpusno jezikoslovje 3. Samostojno delo 2: različni žanri korpusa Janes.  Delo poteka v štirih skupinah.  Vsaka od skupin dobi enega od žanrov: tvit, blogi, forumi ali komentarji in v konkordančniku za delo izbere ustrezen podkorpus.  Izberemo besedo ali besedno zvezo, za katero predvidevamo, da se bo pojavljala v vseh žanrih (npr. itak).  Vsaka skupina v svojem podkorpusu naredi naključen vzorec stotih konkordanc.  Vsaka skupina pregleda svoje konkordance (stavčni pogled) in zabeleži čim več zanimivosti v zvezi z jezikom v njih, npr. ali se pojavljajo posebni znaki in če da, v kakšni funkciji so, kako se uporabljajo ločila, kako se besede zapisujejo, se pojavljajo tujejezične besede ali zveze, sleng, ali katera od besed dobiva nov pomen, kakšen je odnos avtorjev besedila do vsebine, ki jo sporočajo …  Skupine primerjajo rezultate in ugotovimo, katere značilnosti se pojavljajo v različnih žanrih, katere pa so značilne za posamezen žanr. 1.2.2.2 Korpus Šolar www. korpus-solar.net/ 1. Odpremo korpus Šolar in vnesemo v iskalno okence kot napako besedo otrok. Ogledamo si rezultate v konkordančniku in spoznamo razlike vmesnika:  mogoče je iskati po jezikovnih napakah učencev in popravkih učiteljev,  napake in popravki so izpisani v konkordančnem nizu in v razširjenem kontekstu,  možnosti urejanja rezultatov so primerljive, ogledamo si podatke Oblike niza, Dokumenti. 2. Razmislimo in naštejemo nekaj napak, ki se nam zdijo tipične za šolska besedila. Ogledamo si možnosti iskanja s pomočjo Oznake napake, npr. napake na ravni besedišča, če je čas, še seznam Oblike niza in posamezne primer (npr. in, Hamlet). Za obnovitev znanja in dodatne ideje glede uporabe korpusov lahko obiščete spletno stran Portal jezikovnih virov (viri.trojina.si). Janes sicer še ni predstavljen, so pa na voljo videopredstavitve korpusov Gigafida (ki ima enak konkordančnik kot Kres), GOS in Šolar. 25 Damjan Popič Standardna in spletna slovenščina Damjan Popič 2 STANDARDNA IN SPLETNA SLOVENŠČINA 2.1 Standardna in spletna slovenščina – izročki 26 Damjan Popič Standardna in spletna slovenščina 27 Damjan Popič Standardna in spletna slovenščina 28 Damjan Popič Standardna in spletna slovenščina 29 Damjan Popič Standardna in spletna slovenščina 30 Damjan Popič Standardna in spletna slovenščina 31 Damjan Popič Standardna in spletna slovenščina 32 Damjan Popič Standardna in spletna slovenščina 33 Damjan Popič Standardna in spletna slovenščina 34 Damjan Popič Standardna in spletna slovenščina 35 Damjan Popič Standardna in spletna slovenščina 36 Damjan Popič Standardna in spletna slovenščina 37 Damjan Popič Standardna in spletna slovenščina 38 Damjan Popič Standardna in spletna slovenščina 39 Damjan Popič Standardna in spletna slovenščina 40 Damjan Popič Standardna in spletna slovenščina 41 Damjan Popič Standardna in spletna slovenščina 42 Damjan Popič Standardna in spletna slovenščina 43 Damjan Popič Standardna in spletna slovenščina 44 Damjan Popič Standardna in spletna slovenščina 45 Damjan Popič Standardna in spletna slovenščina 46 Damjan Popič Standardna in spletna slovenščina 2.2 Od pravopisa do tvitopisa – vaje 2.2.1 Pregibanje osebnih lastnih imen a) Tvorite rodilnik in svojilni pridevnik George – Broadway – Kreisky – Dumas – Shakespeare – Andrew – Hradetzky – Crusoe – Kaye – Mike – Chomsky – Makarios – Wilde – Lukács – García – Boccaccio – Wallace – Nixon – Lamartine – Descartes – Holmes – Poe – Jacques – May – Rousseau – Manet – Zola – Sydney – Tesnière – Bordeaux – Disney – b) Lastna imena v oklepajih postavite v ustrezno obliko. Boji v polfinalu so bili bolj izenačeni, kot so pričakovali. Presenečenje je bil poraz _____________________ (Daniela Hantuchova) proti ___________________ (Francesca Schiavone). Pri moških omenimo poraz najboljšega slovenskega teniškega igralca ________________ (Marko Tkalec) z Nemcem _________________ (Waske). Znan je največji poraženec uvodnega dela tekmovanja Lige prvakov, ___________ (München – prid.) Bayern. Za uvrstitev v 2. krog so vrata še vedno odprta _______________________ (švicarski Basel), ____________________ (francoski Lens) in ________________ (grški AEK). 2.2.2 E-tvorjenke iPhone (tudi iP4, iP5 in iP6), iPad, iOS, iTunes, iPod, iMac, iCloud, iStore, iMessage, iWatch, iStyle, iSpot, iHelp, iBooks, iWork, iMovie, iDrive, iPhoto, iP, iPlayer, iLife, iCal, iLoop, iBookstore, iGlove, iStvar, iBand, iCalendar, iSight, iTouch, iWeb, iFlicks, iMaps, iDevice, iUser, iRadar, iSteve 47 Damjan Popič Standardna in spletna slovenščina iNaprava, iTelefon, iNapravica, iZadeva, iPriročnik, iTrgovina, iAplikacija pa tudi iCrap, iDiot, iGrača, iFanatik, iFan, iNeki in sklanjanje besede iPhone kot iPhoneta/iPhonetov 10 najpogostejših e-tvorjenk Beseda / besedna družina Pojavitve e-mail, e-mailing, e-majlirati 1699 e-pošta, e-poštni 722 e-knjiga, e-knjigica 420 e-naslov 201 e-novice, e-novičke 248 e-volitve 242 e-račun 181 e-trgovina, e-trgovinica 151 e-uprava, e-upravljanje 140 e-fotograf, e-fotografija 114 e-bančništvo, e-banka 104 10 najpogostejših e-tvorjenk s področja avtomobilizma Beseda Pojavitve dCi 470 S-Max 375 C-Max 197 S-line 184 T-Jet 146 S-Class / s-klasa 98 E-Class / e-klasa 85 X-Trail 84 C-Elysée 73 B-Max 68 10 najpogostejših imen produktov Beseda Pojavitve B-complex / B-kompleks 78 iGO 68 X-treme 57 e-Hdi 34 uTorrent 32 48 Damjan Popič Standardna in spletna slovenščina V-lube 32 iRobot 29 nVidia 24 x-box / xBox1 16 X-TRM 13 X-Reality 12 N-Gage 11 2.2.3 Stvarna lastna imena združeni narodi evropska unija vlada republike slovenije mestno gledališče ljubljansko druga svetovna vojna lekadol silvestrovo vlak novomeščan fordov novi mondeo vozim se s fordom liberalna stranka mestna hiša slovenska ustava Predsednik slovenske vlade se je sestal s predstavniki ministrstva za notranje zadeve/notranjega ministrstva. Fotografiram z nikonom. Komarje uničujem s pipsom, faraonke pa s faracidom. dan državnosti, prešernov dan, silvestrovo, pust, novo leto, božič aspirin, lekadol, apavrin musliman južni slovani avto renault clio storia večernica (nagrada) 1 Pri slednji besedi gre za napačen zapis imena igralne konzole Xbox. 49 Damjan Popič Standardna in spletna slovenščina gostilna pri mraku zlato vegovo priznanje telefon nokia ohmov zakon sizifovo delo uradno je bila zadnja odprava na luno apollo 17. 2.2.4 Kratice in simboli a) Zapišite rodilniško obliko. SSKJ FidaPLUS Nato NUK SMS FBI BTC FF Unesco Fida FDV IBM b) Okrajšajte. tega leta lastnoročno literarnozgodovinski družba z omejeno rimskokatoliški in tako dalje odgovornostjo na primer to je tako imenovani italijansko-nemški c) Označite presledke. 18kg ø1,5mm 800kg/m3 20°C 5'10'' 300€ 50% §290 100N 30x40 cm 45° d) Popravite, če je to potrebno. GSM-aparat A-skupina (skupina A) TV-sprejemnik 7.b razred 90-letnica DNK test G-dur test DNK C-vitamin (vitamin C) 20 do 30 odstotno povišanje cen e) Označite vse pravilne zapise. TV-hiša TV Slovenija HD-televizor HD TV TV program HD-TV 50 Damjan Popič Standardna in spletna slovenščina 2.2.5 Zapis tvorjenk a) Popravite zapis, kjer je to potrebno. vitamin C, program TV, legokocke, žalbeseda, pedenjčlovek, temperabarve, dumdumka, dumdumkrogla, tele-objektiv, brutoteža, Josipdol, Slovenija les, rendez-vous, fin de siecle, East River, človek žaba, možbeseda, Cankar-dramatik, Schleswig-Holstein, angloamerištvo, mini golf, mini golfovski, super bencin, nevojak, nekovina, antidelec, nebodigatreba, Sun Jat- sen, črnobelost, zlatolaska, sreče-lov, avtogaraža, rdečebela zastava, rjavo ok, vrvohodec, tri- tisočak, prelep, koreferent,mso-podpisnik, TV Slovenija, jugovzhod, generalpolkovnik, TV hiša, A diplomska naloga, sladkokisel, vitamin C, naravoslovnokulturni spomenik, SMS sporočilo, G-dur, kolovoz, elektro oprema, avto šola, e pošta, polčas, tenis igrišče, zimsko športni, 4. c razred, tempera barva, Ljubljana-Center, frizersko brivski salon, protidelec, črno- bel, Korošec Dularjev učbenik, velikonočni, čokoladno rjav, modrikasto bel, temno zelen, bledorjav, častilakomen, novo poročenec, TV Dober dan, Avstro-Ogrska, avstro-ogrskost, italijanskonemški, Anglo-Američan, tule, letu, kdor koli, slej ko prej, sem ter tja, ravno tako, čim bolj, čimveč, natanko, od zunaj, nadrobno, nasvidenje, avto moto zveza, rent-a-car služba fitnes center / fitnescenter / center za fitnes fitnes oprema / fitnesoprema / oprema za fitnes tenis igrišče / teniško igrišče / igrišče za tenis golf klub / golfklub mini golf / minigolf ananasliker / ananas liker / ananasov liker diskoklub / disko klub džezbalet / džez balet brutoteža / bruto teža popzvezda / pop zvezda kavabar / kava bar Škofjeloški pasijon državnoupravni postopki državnozborske volitve triinpolodstotna podražitev lesnoindustrijski obrat tisočpetstokrat premoženjskopravni postopki termoelektrarna svetovnonazorski visokofrekvenčni socialnovarstveni dodatek vojaškoobrambni vodnogospodarski psihofizični razvoj otroka 51 Damjan Popič Standardna in spletna slovenščina bližnjevzhodni mirovni sporazum svetopisemska zgodba narodnoosvobodilni boj južnoameriški petdesetodstotni delež živosrebrn devetdesetletnica afroameriška glasba 52 Damjan Popič Standardna in spletna slovenščina 2.3 Od pravopisa do tvitopisa – delavnica Dijaki delajo samostojno, predavatelj in asistent sta na voljo za pomoč in sugestije. Vsaka skupina si izbere enega od vsebinskih sklopov, ki smo ga spoznali pri vajah: 1. Pregibanje osebnih lastnih imen 2. E-tvorjenke2 3. Stvarno lastno ali občno poimenovanje? 4. Kratice in simboli 5. Zapis tvorjenk Vsaka skupina si v okviru izbrane tematike izbere ustrezno tematiko in pripravi besedilo z naslednjo strukturo: I. Opredelitev naloge: raziskovalno vprašanje in teze. II. Opis poteka raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz. korpusov in orodja za njihovo analizo in opis metodologije. III. Raziskava in beleženje ugotovitev. IV. Zaključki glede na zastavljeno raziskovalno vprašanje. Nekaj posebnih operatorjev v jeziku CQL3: 2 [word="(?i)[a-zčšž]-.*"] (e-tvorjenke tipa č-podstava in Č-podstava) [word="[a-zčšž][A-ZČŠŽ].*"] (e-tvorjenke tipa čPodstava) 3 Pripravila Kaja Dobrovoljc. 53 Damjan Popič Standardna in spletna slovenščina Spletne povezave:  Slovenski pravopis 2001 -- slovar: http://bos.zrc-sazu.si/sp2001.html  Pravila: http://bos.zrc-sazu.si/c/sp/sp2001_pravila.pdf  Slogovni priročnik: http://slogovni.slovenscina.eu  Sloleks: http://www.slovenscina.eu/sloleks  Besana: http://besana.amebis.si/pregibanje/  Slovar slovenskega knjižnega jezika: http://bos.zrc-sazu.si/sskj.html  ŠUSS (odgovori na jezikovna vprašanja): http://www2.arnes.si/~lmarus/suss/  Pregled slovenskih pravopisov: http://www.pravopis.si/Zgodovina/tabid/82/Default.aspx  Jezikovna svetovalnica pri Inštitutu Frana Ramovša: http://isjfr.zrc- sazu.si/svetovalnica#v  Pravopis za francosko govoreča okolja: http://orthonet.sdv.fr/ž  Dodatne pravopisne vaje: https://dl.dropboxusercontent.com/u/13258131/USSJ_Dodatne_vaje.pdf  Korpusi: http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes 54 Polona Gantar Frazeologija v spletni slovenščini Polona Gantar 3 FRAZEOLOGIJA V SPLETNI SLOVENŠČINI 3.1 Frazeologija v spletni slovenščini – izročki 55 Polona Gantar Frazeologija v spletni slovenščini 56 Polona Gantar Frazeologija v spletni slovenščini 57 Polona Gantar Frazeologija v spletni slovenščini 58 Polona Gantar Frazeologija v spletni slovenščini 59 Polona Gantar Frazeologija v spletni slovenščini 60 Polona Gantar Frazeologija v spletni slovenščini 61 Polona Gantar Frazeologija v spletni slovenščini 62 Polona Gantar Frazeologija v spletni slovenščini 63 Polona Gantar Frazeologija v spletni slovenščini 64 Polona Gantar Frazeologija v spletni slovenščini 65 Polona Gantar Frazeologija v spletni slovenščini 66 Polona Gantar Frazeologija v spletni slovenščini 67 Polona Gantar Frazeologija v spletni slovenščini 68 Polona Gantar Frazeologija v spletni slovenščini 69 Polona Gantar Frazeologija v spletni slovenščini 70 Polona Gantar Frazeologija v spletni slovenščini 71 Polona Gantar Frazeologija v spletni slovenščini 72 Polona Gantar Frazeologija v spletni slovenščini 3.2 Povzetek Frazeologija je veda, ki preučuje večbesedne leksikalne enote (VLE) in njihovo pomensko in skladenjsko obnašanje v besedilu. Obsežni korpusi in računalniška orodja omogočajo prepoznavanje jezikovnih vzorcev in tipičnih sopojavitev besed, zato je mogoče VLE preučevati veliko bolj natančno, kot če besede preučujemo izolirano in na podlagi intuitivnih predvidevanj. V korpusu pride do izraza njihova zgradba, pomenske lastnosti in celostna besedilna vloga. V frazeologiji ne obstaja enotno pojmovanje tega, kaj je frazeološka enota. Načeloma velja, da gre za večbesedno zvezo, ki ima samostojen od sestavin neodvisen navadno ekspresiven pomen, je skladenjsko trdna in jo imamo govorci v zavesti kot celoto. Za našo raziskavo bomo uporabili delitev, ki obsega 3 tipe  KOLOKACIJE so pogoste sopojavitve besed, ki sicer nimajo samostojnega pomena kot celota, ampak izražajo naravno, pristno jezikovno rabo, npr. gosta megla, krepka juha, dobra družba, najboljša prijateljica, vroče poletje, prva ljubezen itd.  STALNE BESEDNE ZVEZE (SBZ) so večbesedne enote, ki imajo samostojen, navadno neekspresiven pomen. Najpogosteje označujejo predmete, rastline in živali, npr. gorsko kolo, rdeči ribez, črna vdova, ter pojave, npr. topla greda, sončni zahod. Načeloma se obnašajo kot besede in so pogosto značilne za določeno strokovno področje, npr. (nogomet) prepovedani položaj, (zdravstvo ) kurja slepota, (državna uprava) rojstni list.  FRAZEMI (FE) so večbesedne enote s samostojnim ekspresivnim pomenom, ki imajo lahko zgradbo besedne zveze, stavka ali samostojne povedi, npr. mamin sinček, izgubiti živce; sreča je opoteča; Ne ga srat. Za frazeme je značilno, da imajo nepredvidljiv pomen, nepričakovano in spremenljivo zgradbo in ustvarjajo številne priložnosti za ustvarjalno, enkratno rabo. 73 Polona Gantar Frazeologija v spletni slovenščini 3.3 Prepoznavanje različnih tipov večbesednih leksikalnih enot v besedilu – vaje Priporočljivo je, da si sproti beležite postopek in ugotovitve, saj vam bo to prišlo prav pri izdelavi raziskovalne naloge. Za vnašanje rešitev lahko uporabite kar ta dokument, tako da ga s svojim imenom shranite na računalnik. Odpremo orodje Sketch Engine (SkE): - NoSkE: http://nl.ijs.si/noske/janes04.cgi/first_form?corpname=janes.04 - FRISke: https://sketch.cjvt.si/bonito/janes04.cgi/first_form - BESEDNE SKICE izbira korpusa vpis besede/leme izbira besedne vrste Slika 1: Začetno okno v orodju Sketch Engine Analiza bo potekala v orodju Sketch Engine (SkE) z uporabo funkcije »Iskanje« (konkordance) in »Besedne skice« (ang. Word Sketches). Uporabljali bomo korpus KRES za analizo splošne slovenščine in korpus JANES za analizo spletne slovenščine. Znotraj korpusa JANES lahko izbiramo med različnimi podkorpusi: Janes Blog, janes Comment, Janes Forum, Janes Tweet itd. V okence »Lema« vtipkamo poljubno besedo v osnovni obliki (lemi). To, kar dobimo, so besedne skice. Besedne skice so avtomatsko izdelan povzetek slovničnega in kolokacijskega obnašanja določene besede. 74 Polona Gantar Frazeologija v spletni slovenščini gramatična relacija kolokatorji frekvenca št. pojavitev v korpusu statistična jakost Slika 2: Besedne skice za besedo koža  LEMA je beseda v osnovni obliki.  KOLOKATORJI so besede, ki se tipično sopojavljajo s preučevano besedo in z njo tvorijo KOLOKACIJE (kolokator + koža = kolokacija). Da zvezo štejemo za kolokacijo, mora imeti v korpusu najmanj 3 pojavitve. Če kliknemo na kolokator, se nam odprejo konkordance, ki ta kolokator vsebujejo.  FREKVENCA prikazuje, kolikokrat se kolokator pojavi ob preučevani besedi oz. koliko kolokacij tvori z njo v izbranem korpusu. Pomembno je razlikovati med absolutno in relativno frekvenco  STATISTIČNA JAKOST določa trdnost in sosdvisnost besed, ki vstopajo v kolokacijo. 3.3.1 Od kolokacije do frazema 1. naloga  V izhodiščnem okencu (gl. Sliko 1) izberemo korpus KRES, odtipkamo besedo: jajce in določimo besedno vrsto: samostalnik.  Kolikokrat se beseda jajce pojavlja v korpusu KRES in kolikokrat v korpusu JANES? Ali lahko na podlagi tega kaj sklepamo? → frekvenco.  V dobljeni besedni skici analiziramo kolokatorje v posameznih dveh stolpcih (relacije: S_kakšen?, S_kdo-kaj? in S_kako-kdaj_p?). Kakšne pomene besede jajce izkazujejo kolokatorji v obeh korpusih? Preverimo tudi relacije z glagoli in s predlogi. 75 Polona Gantar Frazeologija v spletni slovenščini  Ali se morda pod katerimi kolokatorji skrivajo frazeološke enote. Pod katerimi kolokatorji? Katere?  Skušaj ugotoviti, kaj pomenijo te frazeološke enote tako, da jih kot celoto vtipkaj v iskalno okence. 2. naloga  Razdelimo se v skupine oz. v vrste. V prvi vrsti dijaki delajo s korpusom Kres, v drugi pa s korpusom Janes  Izdelamo besedno skico za pridevnik bolan.  Najprej zabeležimo frekvenco leme v obeh korpusih. Kaj ugotovimo?  Analiziramo kolokatorje v relacij S_kakšen? v obeh korpusih. Katere pomene nakazujejo kolokatorji v prvem stolpcu? Poskusimo vsak pomen ponazoriti z ustrezno konkordanco – zgledom iz korpusa.  Naredimo enako raziskavo še za pridevnik hud v obeh korpusih 3.3.2 Od kolokacije k frazeološkim enotam 1. naloga V tej nalogi se bomo osredotočili na prepoznavanje različnih tipov večbesednih enot (kolokacije, stalne zveze, frazeološke enote). Obe skupini bosta primerjali rezultate iskanja po korpusu, pri čemer bo ena skupina uporabljala besedne skice, druga pa običajno iskanje v konkordančniku. Obe skupini bosta uporabljali najprej podkorpus Tweet, nato pa še celotni korpus Janes.  V konkordančnik oz. besedno skico vtipkajte besedo dlaka. o Katere VLE je mogoče izluščiti na podlagi besedne skice. Zapišite kolokacije, stalne zveze in FE: o Katere VLE je mogoče izluščiti na podlagi splošnega iskanja. JANES (Tweet): iskati dlako v jajcu, brez dlake na jeziku, za mišjo dlako, volk dlako menja, narave nikoli, dlaka se ježi, gre pokonci, se dvigne, gre gor ...  Ali najdemo te zveze tudi v SSKJ. Kaj pomenijo?  Ali je v SSKJ katera VLE, ki je v korpusu nismo našli  Če bomo imeli veliko časa na voljo, se gremo lahko pred delavnicami še igro besed: http://www.igra-besed.si/ 76 Polona Gantar Frazeologija v spletni slovenščini 3.4 Delavnice Delavnice so namenjene samostojnemu raziskovanju v skupinah. Pri analizi uporabljamo korpuse in orodja za njihovo analizo (konkordančnik, besedne skice itd.). Za ppt-predstavitev je mogoče uporabiti predlogo, ki jo najdete na spletni strani. Vsaka raziskovalna naloga naj vsebuje:  raziskovalno vprašanje  opis korpusa in orodij za analizo  opis postopka in  ugotovitve Raziskovalne teme:  »To se da tud drgač povedat«: analiza frazeoloških prenovitev v spletni slovenščini  Leži kot krava in laže kot pes teče: živalske prispodobe v spletni in splošni slovenščini  Hudič, vrag, zlodej in satan na kupu: ali na spletu preklinjamo drugače?  Slovenec Slovencu – Slovenac: primerjalna analiza besed, ki označujejo regionalno pripadnost: slovenski, štajerski, dolenjski, primorski in gorenjski  Janes, naj te koklja brcne: primerjalna analiza besed kokl(j)a, kura in kokoš v splošni in spletni slovenščini  Vsi drugačni – vsi enakopravni: primerjalna analiza standardno-nestandardnih besednih parov: hlev-štala, kišta – zaboj, milo – žajfa, obraz – ksiht, knedl – cmok, tla – poden, varžet - žep ...  Da si prste oblizneš: večbesedne enote in prehranjevalne navade na spletu (krompir, jajce, juha, vino ...)  Deli telesa v frazeologiji spletne slovenščine 77 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman 4 GOVOR IN SPLETNA SLOVENŠČINA 4.1 Govor in spletna slovenščina – izročki 78 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 79 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 80 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 81 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 82 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 83 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 84 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 85 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 86 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 87 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 88 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 89 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 4.2 Detekstiv – vaje 4.2.1 Izhodišče 1. Odpri konkordančnik korpusa Gos. Najdeš ga na strani http://www.korpus-gos.net/. 2. Z orodjem SketchEngine izdelaj seznam ključnih besednih oblik korpusa Gos glede na korpus Kres. Na spletni strani http://nl.ijs.si/noske/janes04.cgi/first_form?corpname=janes.04 izberi možnost Seznami in nastavi korpus Gos. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni korpus pa izberi korpus Kres. 4.2.2 Vaje 1. Katere so 3 najbolj tipične besedne oblike korpusa Gos glede na korpus Kres? Zakaj jih tako pogosto najdemo v govoru, v pisnih besedilih pa ne? Na seznamu poišči še tri takšne besede. 2. Kaj je še značilno za besedne oblike na seznamu? Zakaj so redke v korpusu Kres? 3. Na seznamu ključnih besednih oblik poišči oblike zaj, guor, fse, vejš, tk, čeprov, ge, bul. Zapiši njihovo standardno obliko in ugotovi, iz katerih regij prihajajo govorci? Koliko izgovornih različic imajo njihove standardne oblike? Izberi eno standardno obliko in poslušaj, kako jo izgovorijo govorci iz treh različnih regij. 4. Izberi pogovorno besedno obliko, ki je značilna za tvoje govorno področje. Je ta beseda značilna samo za eno regijo? Preveri v korpusu Gos. 5. Na seznamu ključnih besednih oblik poišči besedo čav. V katerem tipu diskurza korpusa Gos je najbolj prisotna? Kako stari govorci jo največ uporabljajo? Koliko besed na ključnem seznamu je takih, ki jih večinoma uporabljamo v neformalnih situacijah? 6. Ali meniš, da bi katero izmed besednih oblik s seznama lahko našli v korpusu Šolar? Preveri v korpusu. Najdeš ga na www.korpus-solar.net. 7. Izberi eno besedo ali besedno obliko, ki jo po tvojem mnenju uporabljate predvsem mladi, in v korpusu Gos preveri, če to drži? 90 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 8. Ključne besedne oblike korpusa Gos predstavi v besednem oblaku. Odpri datoteko [Podatki za besedni oblak.xls] na spletni strani http://nl.ijs.si/janes/dogodki/tabor-2016/. V novem zavihku odpri spletno stran http://www.wordle.net/ in izberi zavihek Advanced. Prilepi podatke iz tabele v okence in izdelaj besedni oblak. 9. Katera beseda se po tvojem mnenju pogosteje uporablja v govoru: policist ali policaj? Zakaj? Preveri v korpusu Gos in pokomentiraj rezultate. Uporabo obeh variant preveri tudi v korpusu Kres. So rezultati predvidljivi ali presenetljivi? Korpus Kres najdeš na http://www.korpus-kres.net/. Dodatne vaje 10. Zanima nas, kateri so najpogostejši samostalniki korpusov Gos in Janes. V orodju SketchEngine izbereš iskanje po korpusu Gos. Pri opciji Vrste iskanj izbereš iskanje z ukazi CQL. Nato v vrstico CQL vpišeš ukaz [tag="So.*"], s katerim dobiš seznam vseh konkordanc, ki vsebujejo občne samostalnike. Nato v levem meniju izbereš opcijo Frekvence in klikneš Izdelaj frekvenčni seznam. Zdaj lahko v novem zavihku ponoviš enak postopek na korpusu Janes. Kaj opaziš? 11. Radi bi ugotovili, ali se govor bolj izobraženih razlikuje od govora manj izobraženih. V orodju SketchEngine izbereš iskanje po korpusu Gos. Pri opciji Vrste iskanj izbereš iskanje z ukazi CQL. Nato v vrstico CQL vpišeš ukaz [word=".*"]. Dobiš seznam konkordanc, nato v levem meniju izbereš opcijo Frekvence in klikneš Izdelaj frekvenčni seznam. Zdaj lahko v novem zavihku ponoviš enak postopek, le da pri iskanju CQL vpišeš ukaz [word=".*"]. Kaj opaziš? 91 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 4.3 Detekstiv  delavnica Odkrivanje govornih elementov na spletnih forumih Izdelaj seznam ključnih besed korpusa Forum glede na korpus Kres. Na spletni strani http://nl.ijs.si/noske/janes04.cgi/first_form?corpname=janes.04 izberi možnost Seznami in izberi korpus Janes v 0.4 Forum. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni korpus pa izberi korpus Kres. 1. Ali na tem seznamu najdemo besede eee, mhm, eem? Zakaj? 2. Oglej si prvih 20 besed na seznamu. Kaj opaziš? 3. Na seznamu poišči besede drgač, mislu in zihr. Kaj imajo te besede skupnega? Izpiši še tri take besede. Zdaj te besede poišči v korpusu Gos. Kaj lahko sklepaš o profilu avtorja besedila, ki jih uporablja? Ali bi te besede kdaj zapisal/a v šolskem spisu? Odgovor pokomentiraj. 4. Na seznamu poišči besede vredu, pomoje in nevem. Kateri pojav zaznamuje te besede? Poskusi te besede poiskati v korpusu Gos: dobiš več rezultatov z zapisom skupaj ali narazen? Kaj pa v korpusu spletnih forumov Janes? 5. Na seznamu ključnih besed poišči besede feltne, oglasnik in turbina. Jih najdeš v korpusu Gos? Zakaj? 6. Seznam ključnih besed korpusa Gos in korpusa spletnih forumov predstavi v besednem oblaku. Vsaka skupina v okviru izbrane tematike pripravi predstavitev z naslednjo strukturo: I. Raziskovalno vprašanje: v kolikšni meri drži, da “na spletnih forumih pišemo, kot govorimo”? II. Potek raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz. korpusov in orodja za njihovo analizo in opis metodologije. III. Raziskava in beleženje ugotovitev. Predstavitev besednega oblaka in ugotovitev na podlagi točk 1, 2, 3 in 4. Kateri zaznani pojavi odsevajo jezikovno neznanje, kateri pa kreativnost v jeziku? Kaj na podlagi podatkov iz korpusov lahko povemo o spolu, starosti ali regiji avtorja besedila? IV. Zaključki glede na zastavljeno raziskovalno vprašanje. 92 Ana Zwitter Vitez, Špela Arhar Holdt in Tadeja Rozman Govor in spletna slovenščina 4.4 Detekstiv  delavnica Odkrivanje govornih elementov na Twitterju Izdelaj seznam ključnih besednih oblik korpusa Twitter glede na korpus Kres. Na spletni strani http://nl.ijs.si/noske/janes04.cgi/first_form?corpname=janes.04 izberi možnost Seznami in izberi korpus Janes v 0.4 Tweet. Pri Možnostih filtriranja izberi Izloči besede in izberi datoteko tabor-tuje.txt, ki jo dobiš na spletni strani http://nl.ijs.si/janes/dogodki/tabor-2016/. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni korpus pa izberi korpus Kres. 1. Ali na tem seznamu najdemo besede eee, mhm, eem? Zakaj? 2. Oglej si prvih 20 besed na seznamu. Kaj opaziš? 3. Na seznamu poišči besede jst, dons, jutr. Po čem so si te besede podobne? Izpiši še tri take besede. Zdaj te besede poišči v korpusu Gos. Kaj lahko sklepaš o profilu avtorja besedila, ki jih uporablja? 4. Na seznamu poišči besede fora, valda in ful. Kaj je njihova skupna lastnost? Izpiši še tri take besede. Zdaj te besede poišči v korpusu Gos. V katerem tipu diskurza prevladujejo? Ali bi te besede kdaj zapisal/a v šolskem spisu? Odgovor pokomentiraj. 5. Na seznamu ključnih besed poišči besede videoposnetek, tvit in btw. Jih najdeš v korpusu Gos? Zakaj? 6. Seznam ključnih besed korpusa Gos in podkorpusa tvitov predstavi v besednem oblaku. Vsaka skupina v okviru izbrane tematike pripravi predstavitev z naslednjo strukturo: I. Raziskovalno vprašanje: v kolikšni meri drži, da “na Twitterju pišemo, kot govorimo”? II. Potek raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz. korpusov in orodja za njihovo analizo in opis metodologije. III. Raziskava in beleženje ugotovitev. Predstavitev besednega oblaka in ugotovitev na podlagi točk 1, 2, 3 in 4. Ali neformalne besede in izgovoru podoben zapis odsevata jezikovno neznanje avtorjev besedila? Zakaj? Kaj na podlagi podatkov iz korpusov lahko povemo o spolu, starosti ali regiji avtorja besedila? IV. Zaključki glede na zastavljeno raziskovalno vprašanje. 93 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki Tamara Mikolič Južnič in Jaka Čibej 5 SLOVENŠČINA V STIKU Z DRUGIMI JEZIKI 5.1 Slovenščina v stiku z drugimi jeziki – izročki 94 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 95 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 96 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 97 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 98 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 99 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 100 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 101 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 102 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 103 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 104 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 105 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 106 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 107 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 108 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 109 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 110 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 111 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 112 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 5.2 Od Novega mesta do Njujorka – vaje 5.2.1 Kako zapisujemo tujejezične elemente? 1. Se pogosteje uporablja citatni zapis ali poslovenjene oblike? a. Odpremo JANES v. 0.4.: http://nl.ijs.si/noske/janes04.cgi/first_form?corpname=janes.04 b. V iskalno okence za enostavno iskanje vpišemo naslednje besede v citatnih oblikah in poiščemo njihovo pogostnost.  like ____________________________________________________________  good ____________________________________________________________  please ____________________________________________________________ 2. Poleg citatnih oblik se, kot smo videli, uporabljajo tudi različne poslovenjene oblike. a. Katere so po vašem mnenju poslovenjene oblike zgornjih besed? b. Napišite te oblike v okence za enostavno iskanje in poiščite njihovo frekvenco. Prepišite najdene vrednosti za citatne oblike (vse skupaj) in poslovenjene oblike (vse skupaj).  Oblike za please in njihova frekvenca: _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________  Oblike za good in njihova frekvenca: _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________  Oblike za like in njihova frekvenca: _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ 3. Katere oblike torej prevladujejo pri izbranih besedah, citatne ali poslovenjene? _____________________________________________________________________ 113 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 5.2.2 Koliko je tujejezičnih elementov v JANES-u in iz katerih jezikov so? 1. Najprej si poglejmo, koliko je tujejezičnih elementov v korpusu. a. V korpusu JANES so besede, ki jih je avtomatski označevalnik prepoznal kot tuje, vendar program ne ločuje med različnimi jeziki. Besede so preprosto označene s posebno, vedno enako kodo. Ko iščemo s CQL, lahko uporabimo to kodo in vse take besede izluščimo naenkrat.  V polje CQL vpišite iskalni ukaz [tag="Nj"] (Nj je oznaka za tujejezične elemente)  Koliko je vseh takih konkordanc ? _____________________ b. Za primerjavo odprimo tokrat govorni korpus GOS in preverimo, koliko je tujejezičnih elementov v tem korpusu.  Vtipkajmo enak iskalni ukaz v polje CQL. Rezultat je _____________________.  Zakaj prihaja do take razlike? c. Ali se prisotnost tujejezičnih elementov spreminja glede na besedilni tip? Poiščite skupno število tujejezičnih elementov v vsakem izmed štirih podkorpusov JANES-a.  Na vrhu izberite podkorpus, nato kot vrsto iskanja izberite CQL in v ukazno polje vpišite [tag="Nj"].  Rezultati: Blogi (JANES v0.4 Blog): _________________ Komentarji (JANES v0.4 News): __________________ Forumi (JANES v0.4 Forum): ________________ Tviti (JANES v0.4 Tweet): ________________ 2. Videli smo, da se poleg angleščine, ki nedvomno prevladuje, v spletni slovenščini pojavljajo tudi besede iz drugih jezikov. Kako bi ugotovili, kateri jeziki se poleg angleščine še pojavljajo? a. Izberite si enega izmed podkorpusov, poiščite vse tujejezične elemente v tem podkorpusu. Napravite frekvenčni seznam besed. Nato na prvih desetih straneh frekvenčnega seznama »ročno« preverite, kateri jeziki se pojavljajo (poleg angleščine). Zapišite te jezike (in primere rabe, ki ste jih našli) spodaj: _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ 114 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki 3. Kako točni so naši rezultati? a. Ker avtomatsko označevanje ni 100 %, se pojavljajo napake: med besedami, označenimi kot neslovenskimi, je tudi nekaj takih, ki to zagotovo niso. Poiščite jih 5. ___________________________ ___________________________ ___________________________ ___________________________ ___________________________ b. Zakaj prihaja do takih napak? 5.2.3 Kdaj in kako se uporablja tujejezične elemente? 1. Kako se pojavljajo tujejezični elementi? Kakšne vsebine bodo izražene v tujih jezikih? a. Razmislite, na kakšen način bi se lahko pojavljali tujejezični elementi v korpusu JANES (naštejte, kar se spomnite s predavanja). _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ b. Ustvarite seznam konkordanc vseh tujih besed v korpusu JANES.  Izberite korpus JANES v0.4.  Pri vrstah iskanj izberite CQL in v iskalno polje vpišite [tag="Nj"]. c. Preglejte dobljene konkordance in ocenite, ali se primeri, ki ste jih našli, ujemajo z vašimi predvidevanji (in spominom). Navedite vsaj 5 različnih načinov in po en primer za vsak način. _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ d. Kateri način vam je najbližji oz. kaj sami uporabljate v podobnih okoliščinah (socialna omrežja, forumi, blogi ipd.)? Napišite tri besede/besedne zveze, ki jih najpogosteje uporabljate, in primerjajte njihovo pogostnost v vseh štirih podkorpusih.  Besedo/besedno zvezo preprosto vpišite v polje za enostavno iskanje, pri čemer najprej izberite vsak podkorpus posebej. Prepišite, kolikokrat na milijon se pojavlja v posameznem podkorpusu. 115 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki Besed/Bes. zveza Tweet Forum Blog News ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ e. Kdaj se po vašem mnenju avtorji odločajo za preklapljanje – preskok iz slovenščine v drugi jezik in uporabo tujejezičnih elementov (če odmislimo naslove, lastna imena ipd.)?  Poiščite vse tujejezične besede v podkorpusu Tweet.  Napišite, kateri so razlogi za preklapljanje v opazovanih primerih: _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________ _____________________________________________________________________  Ali avtorji izrazito preklapljajo na kakem posebnem mestu v svojih tvitih? _____________________________________________________________________ _____________________________________________________________________ 5.2.4 Kdo uporablja tujejezične elemente? 1. Korpus JANES je označen tudi s podatki o tem, kdo so avtorji besedil, ki jih vključuje. Zlasti podkorpus TWEET ponuja veliko informacij v tem smislu. Poglejmo si, pri katerih uporabnikih se tujejezični elementi pojavljajo pogosteje. a. V podkorpusu TWEET so zasebni uporabniki označeni kot 'private', podjetja, organizacije in drugi javni subjekti pa s 'corporate'. Kateri tip uporabnikov uporablja več tujejezičnih elementov?  Vključimo lastnosti besedil pri iskanju.  Izberemo možnost 'corporate' pri izbiri TEXT.SOURCE.  Z iskanjem CQL poiščemo vse tujejezične elemente v izbranih tvitih. Rezultat za javna besedila: ________________________  Nato gremo nazaj na iskanje in pri TEXT.SOURCE izberemo možnost 'private'.  Z iskanjem CQL poiščemo vse tujejezične elemente v teh tvitih. Rezultat za zasebna besedila: ________________________ 2. Zabeležen je tudi spol uporabnikov. a. Ali tujejezične elemente več uporabljajo ženske ali moški?  Pri lastnostih besedil imamo možnost izbire spola avtorja. Rezultat za ženske: ____________________ 116 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki Rezultat za moške: ____________________ 3. Kdo (kateri posameznik) je v svojih tvitih uporabil absolutno največ tujejezičnih elementov?  Izdelamo konkordance vseh tujejezičnih elementov v podkorpusu TWEET.  Izberemo Frekvence in v spodnjem kvadratu (Frekvenčna razporeditev po lastnostnih besedil) Izberemo prvo možnost (text.author).  Avtor/-ica z največjim absolutnim številom tujih besed v svojih tvitih je: ________________________________ a. Kaj pa če upoštevamo relativno frekvenco, kdo najpogosteje uporablja tujejezične elemente?  Na zgoraj izdelanem frekvenčnem seznamu kliknemo na napis »Rel. frekvenca (%)«  Največji odstotek tujejezičnih elementov je v svojih tvitih uporabil/a: ________________________. b. Katere tujejezične elemente pa ta oseba uporablja?  Kliknemo na »p« na začetku vrstice ob imenu avtorja, da odpremo konkordance vseh tvitov s tujejezičnimi elementi tega avtorja.  Izdelamo frekvenčni seznam tujejezičnih elementov za te konkordance.  Izberite še kakega drugega avtorja in preverite, ali so besede pri vrhu podobne. 5.2.5 Stopnja (ne)standardnosti in tujejezični elementi 1. Podkorpus Tweet je označen tudi glede na stopnjo nestandardnosti besedila (oznake L1, L2 in L3). Oglejmo si, ali višja stopnja nestandardnosti pomeni tudi pogostejšo uporabo tujejezičnih elementov. Kakšna so vaša pričakovanja? a. Največ tujejezičnih elementov bo verjetno v besedilih z oznako __________________________. b. Preverimo, koliko je tujejezičnih elementov v besedilih z najnižjo stopnjo nestandardnosti (torej v besedilih, ki najbolj sledijo pravilom o standardni rabi slovenščine).  Izberemo podkorpus TWEET.  Pri Lastnostih besedil izberemo L1.  V iskalno polje CQL napišemo iskalni ukaz za tujejezične elemente: [tag="Nj"].  Število tujejezičnih elementov v besedilih, označenih z L1, je _________________________. 117 Tamara Mikolič Južnič in Jaka Čibej Slovenščina v stiku z drugimi jeziki c. Enako naredimo za besedila, označena z L2 in L3.  Število tujejezičnih elementov v besedilih, označenih z L2, je _________________________.  Število tujejezičnih elementov v besedilih, označenih z L3, je _________________________. d. Razmislimo o razlogih za take rezultate. Pobrskajte po konkordancah za posamezne oznake nestandardnosti in preverite, v kakšnem sobesedilu se kje pojavljajo tujejezični elementi. 2. Preverimo lahko tudi, kdo uporablja najbolj nestandarden jezik in največ tujejezičnih elementov. a. Preverimo, kdo uporablja več tujejezičnih elementov v najbolj nestandardnih tvitih, moški ali ženske.  Izberemo podkorpus TWEET.  Pri Lastnostih besedil izberemo L3.  Pri Lastnostih besedil izberemo spol avtorjev (enkrat ženski, enkrat moški).  V iskalno polje CQL napišemo iskalni ukaz za tujejezične elemente: [tag="Nj"].  Skupno število tujejezičnih elementov pri ženskah v najbolj nestandardnih tvitih je: _____________ Skupno število tujejezičnih elementov pri moških v najbolj nestandardnih tvitih je: _____________ b. Poiščite tri avtorje moškega in tri ženskega spola, ki uporabljajo najbolj nestandarden jezik in hkrati največ tujejezičnih elementov.  Ko po zgoraj navedenem postopku dobimo konkordance, zgradimo frekvenčni seznam, pri čemer v oknu Frekvenčna razporeditev po lastnostih besedil izberemo »text.author«.  V najbolj nestandardnih tvitih največ tujejezičnih elementov uporabljajo: moški: ______________________________________ ______________________________________ ______________________________________ ženske:______________________________________ ______________________________________ ______________________________________ 118