POLETNI RAZISKOVALNI TABOR

SPLETNE SLOVENŠČINE JANES

ZA SREDNJEŠOLCE





Oddelek za prevajalstvo

Filozofska fakulteta, Ljubljana

24. – 28. avgust 2015





UČNA GRADIVA





POLETNI RAZISKOVALNI TABOR

SPLETNE SLOVENŠČINE JANES ZA SREDNJEŠOLCE

Zbornik učnih gradiv

Uredila: Darja Fišer

Univerza v Ljubljani, Filozofska fakulteta, 2015.

To delo je ponujeno pod licenco Creative Commons: Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0

Slovenija.

Založila: Znanstvena založba Filozofske fakultete Univerze v Ljubljani

Izdal: Oddelek za prevajalstvo

Za založbo: dr. Branka Kalenić Ramšak, red. prof. Filozofske fakultete

Ljubljana, 2015

1. izdaja



Publikacija je brezplačno dostopna na spletni strani:



http://nl.ijs.si/janes/wp-content/uploads/2015/10/Gradiva.pdf



CIP - Kataložni zapis o publikaciji

Narodna in univerzitetna knjižnica, Ljubljana

811.163.6(083.97)(0.034.2)

POLETNI raziskovalni tabor spletne slovenščine Janes za srednješolce (2015 ; Ljubljana)

Učna gradiva / Poletni raziskovalni tabor spletne slovenščine Janes za srednješolce, Ljubljana,

24.-28. avgust 2015 ; [uredila Darja Fišer]. - 1. izd. - El. knjiga. - Ljubljana : Znanstvena založba

Filozofske fakultete Univerze v Ljubljani, 2015

ISBN 978-961-237-780-9 (pdf)

1. Gl. stv. nasl. 2. Fišer, Darja, 1978-

281635584





KAZALO VSEBINE

1 PREDGOVOR ....................................................................................................... 5

Špela Arhar Holdt in Jaka Čibej: ........................................................................................................................... 7

2 KORPUSI IN KORPUSNO JEZIKOSLOVJE ................................................................ 7

2.1

IZROČKI – korpusi in korpusno jezikoslovje .............................................................................................. 9

2.2

Od konkordance do kolokacije – prvi del ............................................................................................... 23

2.2

.1

Korpus KRES ................................................................................................................................................ 23

2.2

.2

Korpus GOS ................................................................................................................................................. 23

2.3

Od konkordance do kolokacije – drugi del ............................................................................................. 24

2.3

.1

Korpus Janes ............................................................................................................................................... 24

2.3

.2

Korpus Šolar ................................................................................................................................................ 26

Damjan Popič in Katja Zupan: ........................................................................................................................... 27

3 STANDARDNA IN SPLETNA SLOVENŠČINA ........................................................... 27

3.1

IZROČKI – standardna in spletna slovenščina ......................................................................................... 27

3.2

Delavnica - Norma: od pravopisa do tvitopisa ........................................................................................ 45

3.2

.1

Potek delavnic in vsebina raziskovalnih nalog ............................................................................................ 45

3.2

.2

Programski jezik CQL .................................................................................................................................. 46

3.2

.3

Spletne povezave ........................................................................................................................................ 47

Polona Gantar in Jaka Čibej: .............................................................................................................................. 48

4 FRAZEOLOGIJA V SPLETNI SLOVENŠČINI ............................................................. 48

4.1

IZROČKI – frazeologija v spletni slovenščini ............................................................................................ 49

4.2

Vaje ...................................................................................................................................................... 59

4.2

.1

Prepoznavanje različnih tipov večbesednih leksikalnih enot v besedilu .................................................... 59

4.2

.2

1. Naloga: KOLOKACIJE ............................................................................................................................... 60

4.2

.3

2. Naloga: OD KOLOKACIJE DO FRAZEMA ................................................................................................... 61

4.3

Delavnice .............................................................................................................................................. 62

4.3

.1

RAZISKOVALNE TEME ................................................................................................................................. 62

Ana Zwitter Vitez in Špela Arhar Holdt: .............................................................................................................. 63

5 GOVOR IN SPLETNA SLOVENŠČINA .................................................................... 63





5.1

IZROČKI – govor in spletna slovenščina .................................................................................................. 63

5.2

Detekstiv – vaje ..................................................................................................................................... 76

5.2

.1

Izhodišče ..................................................................................................................................................... 76

5.2

.2

Vaje ............................................................................................................................................................. 76

5.3

Detekstiv - delavnica (skupine Tvit1, Tvit2, Tvit3) ................................................................................... 77

5.3

.1

Odkrivanje govornih elementov na Twitterju ............................................................................................ 77

5.3

.2

Naloge ......................................................................................................................................................... 77

5.4

Detekstiv - delavnica (skupini Forum1 in Forum2) .................................................................................. 78

5.4

.1

Odkrivanje govornih elementov na spletnih forumih ................................................................................ 78

5.4

.2

Naloge ......................................................................................................................................................... 78

Tamara Mikolič Južnič in Katja Zupan: ................................................................................................................ 79

6 SLOVENŠČINA V STIKU Z DRUGIMI JEZIKI ............................................................ 79

6.1

IZROČKI – slovenščina v stiku z drugimi jeziki ......................................................................................... 79

6.2

IZROČKI – vaje ....................................................................................................................................... 96

6.3

Vaje: od Novega mesta do Njujorka ..................................................................................................... 111

6.3

.1

Kako zapisujemo tujejezične elemente? .................................................................................................. 111

6.3

.2

Koliko je tujejezičnih elementov v JANES-u in iz katerih jezikov so? ........................................................ 112

6.3

.3

Kdaj in kako se uporablja tujejezične elemente? ..................................................................................... 113

6.3

.4

Kdo uporablja tujejezične elemente? ....................................................................................................... 115

6.3

.5

Stopnja (ne)standardnosti in tujejezični elementi .................................................................................... 116





4





1 Predgovor



Od 24. do 28. avgusta 2015 je na Oddelku za prevajalstvo Filozofske fakultete Univerze v

Ljubljani potekal Raziskovalni tabor spletne slovenščine za srednješolce JANES. Tabor je bil

organiziran v okviru temeljnega nacionalnega projekta JANES – Jezikoslovna analiza

nestandardne slovenščine je nacionalni raziskovalni projekt (J6―6842), ki ga od 1. 7. 2014

do 30. 6. 2017 financira Javna agencija za raziskovalno dejavnost Republike Slovenije, s

sredstvi razpisa za predstavljanje, uveljavljanje in razvoj slovenskega jezika (JPR-UPRS-2015)

pa ga je sofinanciralo Ministrstvo za kulturo.



Z raziskovalnim taborom, na katerem so srednješolci dobili priložnost raziskovati

slovenščino z najsodobnejšimi viri, tehnologijami in metodami, razvitimi v okviru projekta

JANES (http://nl.ijs.si/janes/), smo želeli dijakom približati slovenščino in pokazati, da je izjemno zanimiv in pomemben predmet proučevanja. Poleg tega pa je bil naš cilj tudi, da

dijake seznanimo z jezikovnimi tehnologijami, s katerimi slovenščina postaja vse bolje

opremljena. Tako smo na praktično zasnovanih raziskovalnih delavnicah dijake uvedli v svet

korpusnega jezikoslovja in jezikovnih tehnologij ter jih opremili s kompetencami, ki jim

omogočajo, da s pomočjo prosto dostopnih virov za slovenščino samostojno odgovarjajo na

najrazličnejša jezikovna vprašanja.



Z analizo izbranih jezikovnih prvin smo osvetlili razlike med standardno in spletno

slovenščino na ortografski, leksikalni, skladenjski in slogovni ravni ter razlike med jezikom

družbenih medijev in govorjeno slovenščino. S pomočjo opravljenih analiz so dijaki spoznali

temeljne pojme s področja sociolingvistike in analize diskurza ter dvignili zavest o izbiri

ustreznih jezikovnih različic v različnih govornih položajih.



Raziskovalni tabor je trajal pet dni. Vsak dan je bil posvečen drugi osrednji temi, ki je bila

najprej predstavljena na uvodnem predavanju, temu pa so sledile vaje in delavnice. Na njih

so dijaki v manjših skupinah pod nadzorom mentorjev, vrhunskih strokovnjakov s področja

korpusnega jezikoslovja in jezikovnih tehnologij, samostojno raziskovali izbrano

raziskovalno vprašanje. Ker menimo, da bodo gradiva koristila tudi drugim dijakom,

študentom, profesorjem in jezikoslovcem, ki se želijo seznaniti s korpusnim jezikoslovjem in

značilnostmi spletne slovenščine, smo jih zbrali v skupni publikaciji, ki je pred vami.



Poglavja sledijo programu tabora: v prvem poglavju dr. Špela Arhar Holdt predstavi osnove

korpusnega jezikoslovja in delo z najpomembnejši korpusi za slovenščino, kot so referenčni

5





korpus Gigafida, vzorčni korpus Kres, korpus govorjene slovenščine Gos, učni korpus Šolar in

korpus spletne slovenščine Janes. V drugem poglavju dr. Damjan Popič oriše razvoj

slovenske pravopisne norme podobnosti in osvetli razlike med standardno in spletno

slovenščino. Tretje poglavje, ki ga je pripravila dr. Polona Gantar, je posvečeno

večbesednim leksikalnim enotam v spletni slovenščini s poudarkom na kolokacijah in

frazemih. Dr. Ana Zwitter Vitez v četrtem poglavju izpostavi podobnosti in razlike med

računalniško posredovano komunikacijo in govorjenim jezikom ter demonstrira odkrivanje

govornih elementov v spletnih uporabniških vsebinah. Gradiva sklenemo s poglavjem dr.

Tamare Mikolič Južnič o pojavljanju in zapisovanju tujejezičnih prvin ter preklapljanju med

jeziki v spletnih žanrih.



doc. dr. Darja Fišer

Ljubljana, oktober 2015





6





Špela Arhar Holdt in Jaka Čibej:

2 KORPUSI IN KORPUSNO JEZIKOSLOVJE



Besedilni korpusi so obsežne zbirke realnih besedil v elektronski obliki. Besedila so zajeta iz različnih virov na način, da predstavljajo vzorec jezikovne rabe določene vrste. Korpusna

besedila tipično vsebujejo programsko ali ročno pripisane oznake, npr. osnovno obliko besede,

besedno vrsto in druge lastnosti besede. Za raziskovanje besedilnih korpusov so besedila

umeščena v konkordančnike: specializirane programe, ki omogočajo napredno iskanje po

besedilih, razvrščanje, filtriranje, izvažanje podatkov in podobno.

Da lahko pravilno interpretiramo in generaliziramo ugotovitve, moramo dobro razumeti, kakšna

besedila določen korpus vsebuje, kako je bil zgrajen in kakšen je njegov namen.

Besedilne korpuse uporabljamo:

• ker naša jezikovna intuicija ne more natančno predvideti, kako se jezik v širši rabi obnaša,

• ker s pomočjo računalnika lahko obdelamo večje količine podatkov na naprednejše načine in

tako lažje poiščemo relevantne jezikovne vzorce in trende,

• ker so zgrajeni na transparenten in dokumentiran način, da lahko podatke ustrezno

interpretiramo in generaliziramo.

Korpusi se uporabljajo za različne namene v uporabnem jezikoslovju (za pripravo slovarjev,

slovnic, šolskih gradiv ipd.), teoretičnem jezikoslovju (za raziskave, ki lahko vodijo do novih

dognanj o jezikovni rabi in sistemu), pri drugih poklicih, ki se posvečajo pisni produkciji (pisanje,

prevajanje, lektoriranje ipd.) in tudi za ljubiteljsko raziskovanje jezika (preverjanje jezikovne rabe, raziskovanje raznih zanimivosti ipd.)

Za slovenščino trenutno še ne obstaja veliko priročnikov, ki so narejeni na osnovi korpusnih

podatkov (v prihodnosti jih bo več). Korpusi so tudi sodobnejši od nekaterih obstoječih

priročnikov, zato se korpusni podatki in podatki v priročnikih mestoma razlikujejo). V praksi se

korpusi zato pogosto uporabljajo kot dopolnilo obstoječim jezikovnim priročnikom.

Za slovenščino je na voljo več različnih korpusov. Na taboru bomo natančneje spoznali

naslednje:

IME KORPUSA

VRSTA JEZIKA, POVEZAVA

ZAJETA BESEDILA

Kres

Splošna pisna slovenščina

časopisi, revije, leposlovje, strokovna



literatura, spletna besedila, besedilni drobiž

GOS

Govorjena slovenščina

televizijske in radijske oddaje, javni nastopi,



sestanki, zasebna komunikacija …

7





Janes

Spletna slovenščina

tviti, blogi, uporabniški komentarji, forumi

Šolar

Jezik šolarjev

šolski eseji in testi + učiteljski popravki

Gigafida je obsežna zbirka sodobnih (1990-2011) slovenskih besedil iz časopisov, revij, knjig, s spleta itd. Korpus obsega skoraj 1,2 milijarde besed. Kres je manjša različica tega korpusa,

prinaša cca. 100 milijonov besed. Korpuse, ki prinašajo splošni jezik, imenujemo referenčni

korpusi. Ti se uporabljajo za izdelavo referenčnih priročnikov, v raziskavah pa jih pogosto

uporabljamo tako, da z njimi primerjamo rezultate iz drugih korpusov.

GOS je prvi korpus govorjene slovenščine. Prinaša posnetke govora v različnih vsakodnevnih

situacijah. Posnetki so transkribirani in umeščeni v zmogljiv konkordančnik, s katerim lahko

primere govora iščemo, poslušamo in preučujemo. Korpus obsega okrog milijon besed.

Namenjen je raziskovanju govora.

Šolar vsebuje pisna besedila, ki so jih učenci in dijaki slovenskih šol tvorili pri pouku. V

precejšnjem delu besedil so posebej označene tudi jezikovne napake, ki so jih v spisih popravili

učitelji. Po slednjih lahko s pomočjo specializiranega konkordančnika tudi iščemo. Korpus

vsebuje približno milijon besed, namenjen je raziskavam šolske pisne produkcije oz. jezikovne

zmožnosti šolarjev in pripravi učnih gradiv.

Janes je korpus spletne slovenščine. Vsebuje besedila, ki so jih na spletu tvorili uporabniki, in sicer tvite, forumska sporočila, blogovske zapise in komentarje spletnih novic. Korpus obsega

okrog 134 milijonov besed. Namenjen je raziskovanju nestandardne spletne slovenščine. Korpus

je eden od rezultatov nacionalnega raziskovalnega projekta Jezikoslovna analiza nestandardne

slovenščine (J6―6842), ki poteka med leti 2014 in 2017, v njegovem sklopu pa je organiziran

tudi naš poletni tabor.





8





2.1 IZROČKI – korpusi in korpusno jezikoslovje





9





10





11





12





13





14





15





16





17





18





19





20





21





22





2.2 Od konkordance do kolokacije – prvi del

2.2.1 Korpus KRES

http://www.korpus-kres.net/

1. Odpremo korpus Kres in vtipkamo v iskalno okence besedo pljuvalnik. Ogledamo si rezultate v

konkordančniku in spoznamo:

 kaj je konkordanca oz. konkordančni niz, konkordančno jedro,

 kje najdemo število konkordanc,

 kako pridemo do širšega sobesedila, metapodatkov o besedilu in korpusnih oznak,

 kaj so filtri in kako jih uporabljamo.

2. Raziščemo, kaj pomeni beseda pljuvalnik. Kaj pomeni brbotalnik? Poznamo sopomenko za brbotalnik? Kako pogosto in v katerih besedilih se pojavlja brbotalnik, kako pogosto pa sopomenka?

3. Katere besede na –nik še poznamo? Naštejemo tiste, za katere mislimo, da so v korpusu

najpogostejše. Odpremo zavihek Seznam in vnesemo iskalni pogoj *nik. Ogledamo si rezultate.

Ogledamo si filter Besedna vrsta in komentiramo, kar najdemo pod Neuvrščeno in Prislov.

4. Ogledamo si besedo lastnik in razmislimo o besedni zvezi lastnik + koga ali česa. Naštejemo

nekaj primerov. Odpremo zavihek Okolica in vnesemo besedo lastnik + prvo mesto na desni.

Ogledamo si rezultate in spoznamo pojem kolokator in različne možnost razvrščanja le-teh.

Kolokatorje filtriramo na samostalnike in uredimo glede na pojavitve v okolici.

5. Kdo najde samostalnik, ki se v korpusu najpogosteje pojavlja? Kot zanimivost si ogledamo

besedni oblak z najpogostejšimi samostalniki iz korpusa Kres.

6. Kako blizu so bili naši odgovori korpusnim podatkom? Zakaj se je naša jezikovna intuicija v

nekaterih primerih izkazala za ustrezno, v drugih ne?



2.2.2 Korpus GOS

http://www.korpus-gos.net

1. Odpremo korpus GOS in vtipkamo v iskalno okence besedo recimo. Ogledamo si rezultate v

konkordančniku in spoznamo razlike korpusa GOS glede na Kres:

 možnost poslušanja posnetka (poslušamo nekaj primerov),

 podatki o besedilih so drugačni ( kaj pravte recimo na to vse vi ste tudi podjetnica –

ogledamo si prekrivanje lastnih imen in oznako za nerazumljivo),

23





 razlike v filtrih, poskušamo filtrirati, npr. Maribor, nejavni nezasebni. Kakšne vrste

komunikacije se najdejo v tej vrsti oznake?

2. Poiščemo v korpusu besedo ful in si ogledamo filtre. Kaj lahko ugotovimo glede tipa govora,

regije snemanja, spol, starost … Lahko glede na podatke zaključimo, da ženske uporabljajo

besedo ful pogosteje kot moški? Za pomoč pri odločitvi si ogledamo podatke O korpusu.

3. Ponovimo, da je korpus GOS transkribiran na dveh nivojih. Odpremo zavihek Seznam in

izberemo Iskanje po standardiziranem zapisu, iščemo besedo lahko. Ogledamo si rezultate in

vsak poišče obliko in posluša posnetke, ki so najbližje njegovemu narečju ali ki se mu zdijo

najbolj zanimivi.





2.3 Od konkordance do kolokacije – drugi del

2.3.1 Korpus Janes

http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes

1. Odpremo korpus Janes in vnesemo v iskalno okence besedo valjda. Ogledamo si rezultate v

konkordančniku in spoznamo značilnosti vmesnika:

 konkordančni niz je podoben, na levi imamo nekaj osnovnih metainformacij o viru

besedila, npr. da gre z tvit in kdo je avtor,

 klik na konkordančno jedro odpre sobesedilo, klik na informacije na levi dodatne

metapodatke,

 možnost, da si ogledujemo zadetke v obliki povedi ( Možnosti prikaza > Stavek),

 možnost, da podatke sortiramo – ogledamo si funkcijo Premešaj, ki premeša zadetke, da

npr. niso na začetku samo tviti,

 omenimo možnost, da vzorčimo in filtriramo konkordančni niz,

 ogledamo si seznam oblik besede ( Frekvenca > Oblike niza),

 ogledamo si seznam izvornih dokumentov ( Frekvenca -> Dokumenti)

 ogledamo si možnosti izdelave seznama kolokatorjev: atribute word, v razponu 1 do 1.

Uredimo zadetke po frekvenci in se pogovorimo o rezultatih.





24





2. Samostojno delo 1: primerjava besed neumen in glup v korpusu Janes.

 Raziskovanje poteka v parih.

 Eden od dijakov poišče v korpusu Janes besedo glup, drugi pa besedo neumen.

 Ugotovita, kako pogosto se vsaka od besed pojavlja in postavita hipotezo, zakaj je tako.

 Izdelata seznam kolokatorjev na mestu desno tik ob besedi in si ogledata prvih 100 (dve

strani) rezultatov.

 Primerjata oba seznama kolokatorjev in po potrebi posamične konkordance (s klikom na

P pred kolokatorjem): kakšno besedišče se pojavlja? Kako pogosti so kolokatorji?

 Katere ugotovitve lahko sklenemo iz podatkov? So podatki potrdili ali ovrgli hipotezo?

 (V sredo bomo spoznali orodje Primerjalne skice, ki olajša tovrstne primerjave med

besedami.)





3. Samostojno delo 2: različni žanri korpusa Janes.

 Delo poteka v štirih skupinah.

 Vsaka od skupin dobi enega od žanrov: tvit, blogi, forumi ali komentarji in v

konkordančniku za delo izbere ustrezen podkorpus.

 Izberemo besedo ali besedno zvezo, za katero predvidevamo, da se bo pojavljala v vseh

žanrih (npr. itak).

 Vsaka skupina v svojem podkorpusu naredi naključen vzorec stotih konkordanc.

 Vsaka skupina pregleda svoje konkordance (stavčni pogled) in zabeleži čim več

zanimivosti v zvezi z jezikom v njih, npr. ali se pojavljajo posebni znaki in če da, v kakšni

funkciji so, kako se uporabljajo ločila, kako se besede zapisujejo, se pojavljajo tujejezične

besede ali zveze, sleng, ali katera od besed dobiva nov pomen, kakšen je odnos avtorjev

besedila do vsebine, ki jo sporočajo …

 Skupine primerjajo rezultate in ugotovimo, katere značilnosti se pojavljajo v različnih

žanrih, katere pa so značilne za posamezen žanr.





25





2.3.2 Korpus Šolar

www. korpus-solar.net/

1. Odpremo korpus Šolar in vnesemo v iskalno okence kot napako besedo otrok. Ogledamo si

rezultate v konkordančniku in spoznamo razlike vmesnika:

 mogoče je iskati po jezikovnih napakah učencev in popravkih učiteljev,

 napake in popravki so izpisani v konkordančnem nizu in v razširjenem kontekstu,

 možnosti urejanja rezultatov so primerljive, ogledamo si podatke Oblike niza, Dokumenti.

2. Razmislimo in naštejemo nekaj napak, ki se nam zdijo tipične za šolska besedila. Ogledamo si

možnosti iskanja s pomočjo Oznake napake, npr. napake na ravni besedišča, če je čas, še seznam

Oblike niza in posamezne primer (npr. in, Hamlet).



Za obnovitev znanja in dodatne ideje glede uporabe korpusov lahko obiščete spletno stran

Portal jezikovnih virov. Janes, ki je povsem nov projekt, sicer še ni predstavljen, so pa na voljo videopredstavitve korpusov Gigafida (ki ima enak konkordančnik kot Kres), GOS in Šolar.





26





Damjan Popič in Katja Zupan:

3 STANDARDNA IN SPLETNA SLOVENŠČINA

3.1 IZROČKI – standardna in spletna slovenščina





27





28





29





30





31





32





33





34





35





36





37





38





39





40





41





42





43





44





3.2 Delavnica - Norma: od pravopisa do tvitopisa

3.2.1 Potek delavnic in vsebina raziskovalnih nalog

Dijaki delajo samostojno, predavatelj in asistent sta na voljo za pomoč in sugestije. Vsaka

skupina si izbere enega od vsebinskih sklopov, ki smo ga spoznali pri vajah:

1. Pregibanje osebnih lastnih imen

2. E-tvorjenke1

3. Stvarno lastno ali občno poimenovanje?

4. Kratice in simboli

5. Zapis tvorjenk



Vsaka skupina si v okviru izbrane tematike izbere ustrezno tematiko in pripravi besedilo z

naslednjo strukturo:

I.

Opredelitev naloge: raziskovalno vprašanje in teze.

II.

Opis poteka raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz.

korpusov in orodja za njihovo analizo in opis metodologije.

III.

Raziskava in beleženje ugotovitev.

IV.

Zaključki glede na zastavljeno raziskovalno vprašanje.





1 [word="(?i)[a-zčšž]-.*"] (e-tvorjenke tipa č-podstava in Č-podstava)

[word="[a-zčšž][A-ZČŠŽ].*"] (e-tvorjenke tipa čPodstava)

45





3.2.2 Programski jezik CQL

Nekaj posebnih operatorjev v jeziku CQL:2





2 Pripravila Kaja Dobrovoljc.

46





3.2.3 Spletne povezave

 Slovenski pravopis 2001 -- slovar: http://bos.zrc-sazu.si/sp2001.html

 Pravila: http://bos.zrc-sazu.si/c/sp/sp2001_pravila.pdf

 Slogovni priročnik: http://slogovni.slovenscina.eu

 Sloleks: http://www.slovenscina.eu/sloleks

 Besana: http://besana.amebis.si/pregibanje/

 Slovar slovenskega knjižnega jezika: http://bos.zrc-sazu.si/sskj.html

 ŠUSS (odgovori na jezikovna vprašanja): http://www2.arnes.si/~lmarus/suss/

 Pregled slovenskih pravopisov: http://www.pravopis.si/Zgodovina/tabid/82/Default.aspx

 Jezikovna svetovalnica pri Inštitutu Frana Ramovša: http://isjfr.zrc-sazu.si/svetovalnica#v

 Pravopis za francosko govoreča okolja: http://orthonet.sdv.fr/ž

 Dodatne pravopisne vaje:

https://dl.dropboxusercontent.com/u/13258131/USSJ_Dodatne_vaje.pdf

Korpusi:

http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes





47





Polona Gantar in Jaka Čibej:

4 FRAZEOLOGIJA V SPLETNI SLOVENŠČINI



Frazeologija je veda, ki preučuje večbesedne leksikalne enote (VLE) in njihovo pomensko in skladenjsko obnašanje v besedilu. Obsežni korpusi in računalniška orodja omogočajo

prepoznavanje jezikovnih vzorcev in tipičnih sopojavitev besed, zato je mogoče VLE preučevati

veliko bolj natančno, kot če besede preučujemo izolirano in na podlagi intuitivnih predvidevanj.

V korpusu pride do izraza njihova zgradba, pomenske lastnosti in celostna besedilna vloga.

V frazeologiji ne obstaja enotno pojmovanje tega, kaj je frazeološka enota. Načeloma velja, da

gre za večbesedno zvezo, ki ima samostojen od sestavin neodvisen navadno ekspresiven

pomen, je skladenjsko trdna in jo imamo govorci v zavesti kot celoto.

Za našo raziskavo bomo uporabili delitev, ki obsega 3 tipe:

 KOLOKACIJE so pogoste sopojavitve besed, ki sicer nimajo samostojnega pomena kot

celota, ampak izražajo naravno, pristno jezikovno rabo, npr. gosta megla, krepka juha,

dobra družba, najboljša prijateljica, vroče poletje, prva ljubezen itd.

 STALNE BESEDNE ZVEZE (SBZ) so večbesedne enote, ki imajo samostojen, navadno

neekspresiven pomen. Najpogosteje označujejo predmete, rastline in živali, npr. gorsko

kolo, rdeči ribez, črna vdova, ter pojave, npr. topla greda, sončni zahod. Načeloma se obnašajo kot besede in so pogosto značilne za določeno strokovno področje, npr.

(nogomet) prepovedani položaj, (zdravstvo ) kurja slepota, (državna uprava) rojstni list.

 FRAZEMI (FE) so večbesedne enote s samostojnim ekspresivnim pomenom, ki imajo

lahko zgradbo besedne zveze, stavka ali samostojne povedi, npr. mamin sinček, izgubiti

živce; sreča je opoteča; Ne ga srat. Za frazeme je značilno, da imajo nepredvidljiv pomen,

nepričakovano in spremenljivo zgradbo in ustvarjajo številne priložnosti za ustvarjalno,

enkratno rabo.





48





4.1 IZROČKI – frazeologija v spletni slovenščini





49





50





51





52





53





54





55





56





57





58





4.2 Vaje

4.2.1 Prepoznavanje različnih tipov večbesednih leksikalnih enot v besedilu

 Priporočljivo je, da si sproti beležite postopek in ugotovitve, saj vam bo to prišlo prav pri

izdelavi raziskovalne naloge. Za vnašanje rešitev lahko uporabite kar ta dokument, tako da

ga s svojim imenom shranite na računalnik.

 Odpremo orodje Sketch Engine (SkE) oz. wsketch_form:

izbira korpusa

vpis besede/leme

izbira besedne vrste



Slika 1: Začetno okno v orodju Sketch Engine



 Analiza bo potekala v orodju Sketch Engine (SkE) z uporabo funkcije »Iskanje«

(konkordance) in »Besedne skice« (ang. Word Sketches). Uporabljali bomo korpus KRES za

analizo splošne slovenščine in korpus JANES za analizo spletne slovenščine. Znotraj korpusa

JANES lahko izbiramo med različnimi podkorpusi: Janes Blog, janes Comment, Janes Forum,

Janes Tweet itd.

 V okence »Lema« vtipkamo poljubno besedo v osnovni obliki (lemi). To, kar dobimo, so

besedne skice.



Besedne skice so avtomatsko izdelan povzetek slovničnega in kolokacijskega obnašanja

določene besede.





59





gramatična relacija

kolokatorji

frekvenca

št. pojavitev v

korpusu

statistična

jakost





Slika 2: Besedne skice za besedo koža

LEMA je beseda v osnovni obliki.

KOLOKATORJI so besede, ki se tipično sopojavljajo s preučevano besedo in z njo tvorijo

KOLOKACIJE (kolokator + koža = kolokacija). Da zvezo štejemo za kolokacijo, mora imeti v

korpusu najmanj 3 pojavitve. Če kliknemo na kolokator, se nam odprejo konkordance, ki ta

kolokator vsebujejo.

FREKVENCA prikazuje, kolikokrat se kolokator pojavi ob preučevani besedi oz. koliko kolokacij

tvori z njo v izbranem korpusu.

STATISTIČNA JAKOST določa trdnost in soodvisnost besed, ki vstopajo v kolokacijo.



4.2.2 1. Naloga: KOLOKACIJE

POVEJ MI, S KOM SE DRUŽIŠ, IN POVEM TI ... KAJ POMENIŠ

 Preden se lotimo korpusne analize, preizkusimo svojo intuicijo. Vsaka skupina naj zabeleži

čim več besed, ki se po njenem mnenju največkrat sopojavljajo z besedo hud. Skupina, ki bo

zabeležila največ kolokacij, ki so izkazane tudi v korpusu, bo dobila nagrado 



60





 V izhodiščnem okencu (gl. Sliko 1) izberemo korpus KRES, odtipkamo besedo: hud in

določimo besedno vrsto: pridevnik.

 Kolikokrat se beseda hud pojavlja v korpusu KRES in kolikokrat v korpusu JANES? Ali lahko na

podlagi tega kaj sklepamo?

 V dobljeni besedni skici analiziramo kolokatorje v prvih dveh stolpcih (relacije: S_kdo-kaj? in

S_kako-kdaj_p? ). Kakšen pomen besede hud izkazujejo kolokatorji v korpusu KRES? Katera je njihova skupna lastnost?

 Ali v drugem stolpcu kateri kolokator izstopa? Zakaj? Preverimo še konkordance in vir.

 Postopek analize kolokatorjev za besedo hud ponovimo še na korpusu JANES in primerjajmo

rezultate.

 Kateri kolokatorji so prekrivni v obeh korpusih in kateri izstopajo?

 Zapišimo ugotovitve



4.2.3 2. Naloga: OD KOLOKACIJE DO FRAZEMA

 Izdelamo besedno skico za samostalnik tič.

 Najprej zabeležimo frekvenco leme v obeh korpusih. Kaj ugotovimo?

 Analiziramo kolokatorje v relacij S_kakšen? v korpusu KRES. Katere pomene nakazujejo kolokatorji v prvem stolpcu? Poskusimo vsak pomen ponazoriti z ustrezno konkordanco –

zgledom iz korpusa.

 Ali so v obeh korpusih prekrivni kolokatorji in pomeni? Kako je s frekvenco kolokatorjev v

enem in drugem korpusu?

 Ali pri katerem od kolokatorjev v korpusu KRES najdemo frazeme? Kaj pa v JANES-u? Katere?

Kaj je zanačilno za njihovo rabo? Izpišimo primere.

 Ali pridejo do izraza še kateri drugi frazemi v obeh korpusih, če analiziramo konkordance (V

orodju SkE izberemo možnost »Iskanje«)? Pregledamo do 10 kolokacijskih nizov.

 Ali lahko prepoznamo kako ustvarjalno rabo frazema (t. i. prenovitev)? Zapišimo si primere

in vir (korpus).

 Kako je prenovitev frazema dosežena (npr. združitev dveh frazemov, dobesedna raba ipd.).

 Ali so frazemi, ki jih je mogoče najti v obeh korpusih, opisani v Slovarju slovenskega

knjižnega jezika (SSKJ: preverite na http://www.fran.si/)?

 Ali najdemo v SSKJ frazeme, ki jih v korpusu KRES in JANES ni? Katere?

 Zabeležimo ugotovitve





61





4.3 Delavnice



Delavnice so namenjene samostojnemu raziskovanju v skupinah. Pri analizi uporabljamo

korpuse in orodja za njihovo analizo (konkordančnik, besedne skice itd.).

Vsaka raziskovalna naloga naj vsebuje:

 raziskovalno vprašanje

 opis korpusa in orodij za analizo

 opis postopka in

 ugotovitve



4.3.1 RAZISKOVALNE TEME

 »To se da tud drgač povedat«: analiza frazeoloških prenovitev v spletni slovenščini

 Leži kot krava in laže kot pes teče: živalske prispodobe v spletni in splošni slovenščini

 Hudič, vrag, zlodej in satan na kupu: ali na spletu preklinjamo drugače?

 Slovenec Slovencu – Slovenac: primerjalna analiza besed, ki označujejo regionalno

pripadnost: slovenski, štajerski, dolenjski, primorski in gorenjski

 Janes, naj te koklja brcne: primerjalna analiza besed kokl(j)a, kura in kokoš v splošni in spletni slovenščini

Vsi drugačni – vsi enakopravni: primerjalna analiza standardno-nestandardnih besednih parov:

hlev-štala, kišta – zaboj, milo – žajfa, obraz – ksiht, knedl – cmok, tla – poden, varžet - žep ...





62





Ana Zwitter Vitez in Špela Arhar Holdt:

5 Govor in spletna slovenščina

5.1 IZROČKI – govor in spletna slovenščina





63





64





65





66





67





68





69





70





71





72





73





74





75





5.2 Detekstiv – vaje

5.2.1 Izhodišče

1. Odpri konkordančnik korpusa Gos.

Najdeš ga na strani http://www.korpus-gos.net/.

2. Z orodjem SketchEngine izdelaj seznam ključnih besednih oblik korpusa Gos glede na korpus

Kres.

Na spletni strani http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes izberi možnost Seznami in nastavi korpus Gos. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni korpus pa izberi korpus Kres.



5.2.2 Vaje

1. Katere so 3 najbolj tipične besedne oblike korpusa Gos glede na korpus Kres? Zakaj jih tako

pogosto najdemo v govoru, v pisnih besedilih pa ne? Na seznamu poišči še tri takšne besede.



2. Na seznamu ključnih besednih oblik poišči oblike zaj, guor, fse, vejš, tk, čeprov, ge, bul. Iz

katerih regij prihajajo govorci? Koliko izgovornih različic imajo njihove standardne oblike?

Izberi eno standardno obliko in poslušaj, kako jo izgovorijo govorci iz treh različnih regij.



3. Na seznamu ključnih besednih oblik poišči besedo čav. V katerem tipu diskurza korpusa Gos

je najbolj prisotna? Kako stari govorci jo največ uporabljajo? Koliko besed na ključnem

seznamu je takih, ki jih večinoma uporabljamo v neformalnih situacijah?



4. Ključne besedne oblike korpusa Gos predstavi v besednem oblaku.

Odpri datoteko [Podatki za besedni oblak.xls] na spletni strani http://nl.ijs.si/janes/dogodki/tabor-2015/. V

novem zavihku odpri spletno stran http://www.wordle.net/ in izberi zavihek Advanced. Prilepi podatke iz

tabele v okence in izdelaj besedni oblak.



5. Zanima nas, kateri so najpogostejši samostalniki korpusov Gos in Janes.

V orodju SketchEngine izbereš iskanje po korpusu Gos. Pri opciji Vrste iskanj izbereš iskanje z ukazi CQL. Nato v vrstico CQL vpišeš ukaz [tag="So.*"], s katerim dobiš seznam vseh konkordanc, ki vsebujejo občne samostalnike.

Nato v levem meniju izbereš opcijo Frekvence in klikneš Izdelaj frekvenčni seznam.

Zdaj lahko v novem zavihku ponoviš enak postopek na korpusu Janes. Kaj opaziš?

6. Radi bi ugotovili, ali se govor bolj izobraženih razlikuje od govora manj izobraženih.

V orodju SketchEngine izbereš iskanje po korpusu Gos. Pri opciji Vrste iskanj izbereš iskanje z ukazi CQL. Nato v

vrstico CQL vpišeš ukaz <s education="srednja šola"> [word=".*"]. Dobiš seznam konkordanc, nato v levem meniju izbereš opcijo Frekvence in klikneš Izdelaj frekvenčni seznam.



76





Zdaj lahko v novem zavihku ponoviš enak postopek, le da pri iskanju CQL vpišeš ukaz <s education="fakulteta ali več"> [word=".*"]. Kaj opaziš?



5.3 Detekstiv - delavnica (skupine Tvit1, Tvit2, Tvit3)

5.3.1 Odkrivanje govornih elementov na Twitterju

Izdelaj seznam ključnih besednih oblik korpusa Twitter (stopnja L 2, 3) glede na korpus Kres.

Na spletni strani http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes izberi možnost Seznami in izberi korpus Janes v 0.3.3 Tweet L2, 3. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni korpus pa izberi korpus Kres.



5.3.2 Naloge

1. Ali na tem seznamu najdemo besede eee, mhm, eem? Zakaj?

2. Na seznamu poišči besede jst, dans (stran 2), nekej (stran 3). Po čem so si te besede

podobne? Izpiši še tri take besede. Zdaj te besede poišči v korpusu Gos. Kaj lahko sklepaš o

profilu avtorja besedila, ki jih uporablja?

3. Na seznamu poišči besede fajn, komot (stran 2) in ful. Kaj je njihova skupna lastnost? Izpiši še tri take besede. Zdaj te besede poišči v korpusu Gos. V katerem tipu diskurza

prevladujejo?

4. Na seznamu ključnih besed poišči besede videoposnetek, tvit in tnx. Jih najdeš v korpusu

Gos? Zakaj?

5. Seznam ključnih besed korpusa Gos in podkorpusa tvitov predstavi v besednem oblaku.



Vsaka skupina v okviru izbrane tematike pripravi predstavitev z naslednjo strukturo:

I.

Raziskovalno vprašanje: v kolikšni meri drži, da “na Twitterju pišemo, kot govorimo”?

II.

Potek raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz. korpusov in

orodja za njihovo analizo in opis metodologije.

III.

Raziskava in beleženje ugotovitev.

Predstavitev besednega oblaka in ugotovitev na podlagi točk 1, 2, 3 in 4.

Ali neformalne besede in izgovoru podoben zapis odsevata jezikovno neznanje avtorjev besedila? Zakaj?

Kaj na podlagi podatkov iz korpusov lahko povemo o spolu, starosti ali regiji avtorja besedila?

IV.

Zaključki glede na zastavljeno raziskovalno vprašanje.





77





5.4 Detekstiv - delavnica (skupini Forum1 in Forum2)

5.4.1 Odkrivanje govornih elementov na spletnih forumih

Izdelaj seznam ključnih besed korpusa Forum (stopnja L 2, 3) glede na korpus Kres.

Na spletni strani http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes izberi možnost Seznami. Nastavi korpus Janes v 0.3.1 Forum in podkorpus Forum L2, 3. Pri Možnostih izpisa izberi opcijo Ključne besede, za referenčni

korpus pa izberi korpus Kres.



5.4.2 Naloge

1. Ali na tem seznamu najdemo besede eee, mhm, eem? Zakaj?

2. Na seznamu poišči besede lahk, jest in kak. Kaj imajo te besede skupnega? Izpiši še tri take

besede. Zdaj te besede poišči v korpusu Gos. Kaj lahko sklepaš o profilu avtorja besedila, ki jih

uporablja?

3. Na seznamu poišči besede vredu, pomoje in nevem. Kateri pojav zaznamuje te besede?

Poskusi te besede poiskati v korpusu Gos: dobiš več rezultatov z zapisom skupaj ali narazen?

4. Na seznamu ključnih besed poišči besede feltne, oglasnik in turbina. Jih najdeš v korpusu Gos?

Zakaj?

5. Seznam ključnih besed korpusa Gos in korpusa spletnih forumov predstavi v besednem

oblaku.



Vsaka skupina v okviru izbrane tematike pripravi predstavitev z naslednjo strukturo:

I.

Raziskovalno vprašanje: v kolikšni meri drži, da “na spletnih forumih pišemo, kot

govorimo”?

II.

Potek raziskave: utemeljitev izbora vsebinskega sklopa, izbor gradiva oz. korpusov in

orodja za njihovo analizo in opis metodologije.

III.

Raziskava in beleženje ugotovitev.

Predstavitev besednega oblaka in ugotovitev na podlagi točk 1, 2, 3 in 4.

Kateri zaznani pojavi odsevajo jezikovno neznanje, kateri pa kreativnost v jeziku?

Kaj na podlagi podatkov iz korpusov lahko povemo o spolu, starosti ali regiji avtorja besedila?

IV.

Zaključki glede na zastavljeno raziskovalno vprašanje.





78





Tamara Mikolič Južnič in Katja Zupan:

6 Slovenščina v stiku z drugimi jeziki

6.1 IZROČKI – slovenščina v stiku z drugimi jeziki





79





80





81





82





83





84





85





86





87





88





89





90





91





92





93





94





95





6.2 IZROČKI – vaje





96





97





98





99





100





101





102





103





104





105





106





107





108





109





110





6.3 Vaje: od Novega mesta do Njujorka

6.3.1 Kako zapisujemo tujejezične elemente?

1. Se pogosteje uporablja citatni zapis ali poslovenjene oblike?

a. Odpremo JANES v. 0.3. : http://nl.ijs.si/noske/janes.cgi/first_form?corpname=janes

b. V iskalno okence za enostavno iskanje vpišemo naslednje besede v citatnih oblikah in poiščemo

njihovo pogostnost.

 like

_____________________________________________________________________

 good

_____________________________________________________________________

 please

_____________________________________________________________________



2. Poleg citatnih oblik se, kot smo videli, uporabljajo tudi različne poslovenjene oblike.

a. Kako lahko poiščemo poslovenjene oblike?

b. Katere so po vašem mnenju poslovenjene oblike zgornjih besed?

c. Napišite te oblike v okence za enostavno iskanje in poiščite njihovo frekvenco. Prepišite najdene

vrednosti za citatne oblike (vse skupaj) in poslovenjene oblike (vse skupaj).

 Oblike za please in njihova frekvenca:

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________



 Oblike za good in njihova frekvenca:

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________





111





 Oblike za like in njihova frekvenca:

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________



3. Katere oblike torej prevladujejo pri izbranih besedah, citatne ali poslovenjene?

___________________________________________________________________________



6.3.2 Koliko je tujejezičnih elementov v JANES-u in iz katerih jezikov so?

1. Najprej si poglejmo, koliko je tujejezičnih elementov v korpusu.

a. V korpusu JANES so besede, ki jih je avtomatski označevalnik prepoznal kot tuje, vendar program ne

ločuje med različnimi jeziki. Besede so preprosto označene s posebno, vedno enako kodo. Ko iščemo s

CQL, lahko uporabimo to kodo in vse take besede izluščimo naenkrat.

 V polje CQL vpišite iskalni ukaz [tag="Nj"] (Nj je oznaka za tujejezične elemente)

 Koliko je vseh takih konkordanc ? _____________________



b. Za primerjavo odprimo tokrat govorni korpus GOS (http://www.korpus-gos.net/) in preverimo, koliko je tujejezičnih elementov v tem korpusu.

 Vtipkajmo enak iskalni ukaz v polje CQL. Rezultat je _____________________.

 Zakaj prihaja do take razlike?



c. Ali se prisotnost tujejezičnih elementov spreminja glede na besedilni tip? Poiščite skupno število

tujejezičnih elementov v vsakem izmed štirih podkorpusov JANES-a.

 Na vrhu izberite podkorpus, nato kot vrsto iskanja izberite CQL in v ukazno polje vpišite

[tag="Nj"].

 Rezultati:

Blogi (JANES v0.3 Blog): _________________

Komentarji (JANES v0.3.1 Comment): __________________

Forumi (JANES v0.3.1 Forum): ________________

Tviti (JANES v0.3.3 Tweet): ________________



112





2. Videli smo, da se poleg angleščine, ki nedvomno prevladuje, v spletni slovenščini

pojavljajo tudi besede iz drugih jezikov. Kako bi ugotovili, kateri jeziki se poleg angleščine

še pojavljajo?

a. Izberite si enega izmed podkorpusov, poiščite vse tujejezične elemente v tem podkorpusu. Napravite

frekvenčni seznam besed. Nato na prvih desetih straneh frekvenčnega seznama »ročno« preverite,

kateri jeziki se pojavljajo (poleg angleščine). Zapišite te jezike (in primere rabe, ki ste jih našli) spodaj:

___________________________________________________________________________________

___________________________________________________________________________________

___________________________________________________________________________________



3. Kako točni so naši rezultati?

a. Ker avtomatsko označevanje ni 100 %, se pojavljajo napake: med besedami, označenimi kot

neslovenskimi, je tudi nekaj takih, ki to zagotovo niso. Poiščite jih 5.

___________________________

___________________________

___________________________

___________________________

___________________________

b. Zakaj prihaja do takih napak?

_______________________________________________________________________________



6.3.3 Kdaj in kako se uporablja tujejezične elemente?

1. Kako se pojavljajo tujejezični elementi? Kakšne vsebine bodo izražene v tujih jezikih?

a. Razmislite, na kakšen način bi se lahko pojavljali tujejezični elementi v korpusu JANES (naštejte, kar se

spomnite s predavanja).

___________________________________________________________________________________

___________________________________________________________________________________

___________________________________________________________________________________



b. Ustvarite seznam konkordanc vseh tujih besed v korpusu JANES.

 Izberite korpus JANES v0.3.

 Pri vrstah iskanj izberite CQL in v iskalno polje vpišite [tag="Nj"].

113





c. Preglejte dobljene konkordance in ocenite, ali se primeri, ki ste jih našli, ujemajo z vašimi

predvidevanji (in spominom). Navedite vsaj 5 različnih načinov in po en primer za vsak način.

___________________________________________________________________________________

___________________________________________________________________________________

___________________________________________________________________________________

___________________________________________________________________________________

___________________________________________________________________________________



d. Kateri način vam je najbližji oz. kaj sami uporabljate v podobnih okoliščinah (socialna omrežja, forumi,

blogi ipd.)?

Napišite tri besede/besedne zveze, ki jih najpogosteje uporabljate, in primerjajte njihovo pogostnost v

vseh štirih podkorpusih.

 Besedo/besedno zvezo preprosto vpišite v polje za enostavno iskanje, pri čemer najprej

izberite vsak podkorpus posebej. Prepišite, kolikokrat na milijon se pojavlja v posameznem

podkorpusu.

Beseda/Bes. zveza

Tweet Forum

Blog



Comment

______________________________________________________________________________

______________________________________________________________________________

______________________________________________________________________________

e. Kdaj se po vašem mnenju avtorji odločajo za preklapljanje – preskok iz slovenščine v drugi jezik in

uporabo tujejezičnih elementov (če odmislimo naslove, lastna imena ipd.)?

 Poiščite vse tuje besede v podkorpusu Tweet.

 Napišite, kateri so razlogi za preklapljanje v opazovanih primerih:

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________

____________________________________________________________________________



 Ali avtorji izrazito preklapljajo na kakem posebnem mestu v svojih tvitih?

____________________________________________________________________________

____________________________________________________________________________

114





6.3.4 Kdo uporablja tujejezične elemente?

1. Korpus JANES je označen tudi s podatki o tem, kdo so avtorji besedil, ki jih vključuje. Zlasti

podkorpus TWEET ponuja veliko informacij v tem smislu. Poglejmo si, pri katerih

uporabnikih se tujejezični elementi pojavljajo pogosteje.

a. V podkorpusu TWEET so zasebni uporabniki označeni kot 'private', podjetja, organizacije in drugi javni

subjekti pa s 'corporate'. Kateri tip uporabnikov uporablja več tujejezičnih elementov?

 Vključimo lastnosti besedil pri iskanju.

 Izberemo možnost 'corporate' pri izbiri TEXT.SOURCE.

 Z iskanjem CQL poiščemo vse tujejezične elemente v izbranih tvitih.

Rezultat za javna besedila: ________________________

 Nato gremo nazaj na iskanje in pri TEXT.SOURCE izberemo možnost 'private'.

 Z iskanjem CQL poiščemo vse tujejezične elemente v teh tvitih.

Rezultat za zasebna besedila: ________________________



2. Zabeležen je tudi spol uporabnikov.

a. Ali tujejezične elemente več uporabljajo ženske ali moški?

 Pri lastnostih besedil imamo možnost izbire spola avtorja.

Rezultat za ženske: ____________________

Rezultat za moške: ____________________



3. Kdo (kateri posameznik) je v svojih tvitih uporabil absolutno največ tujejezičnih

elementov?

 Izdelamo konkordance vseh tujejezičnih elementov v podkorpusu TWEET.

 Izberemo Frekvence in v spodnjem kvadratu (Frekvenčna razporeditev po lastnostnih besedil)

Izberemo prvo možnost (text.author).

 Avtor/-ica z največjim absolutnim številom tujih besed v svojih tvitih je:

________________________________



b. Kaj pa, če upoštevamo relativno frekvenco, kdo najpogosteje uporablja tujejezične elemente?

 Na zgoraj izdelanem frekvenčnem seznamu kliknemo na napis »Rel. frekvenca (%)«

 Največji odstotek tujejezičnih elementov je v svojih tvitih uporabil/a:

________________________.



115





c. Katere tujejezične elemente pa ta oseba uporablja?

 Kliknemo na »p« na začetku vrstice ob imenu avtorja, da odpremo konkordance vseh tvitov s

tujejezičnimi elementi tega avtorja.

 Izdelamo frekvenčni seznam tujejezičnih elementov za te konkordance.

 Izberite še kakega drugega avtorja in preverite, ali so besede pri vrhu podobne.



6.3.5 Stopnja (ne)standardnosti in tujejezični elementi

1. Podkorpus Tweet je označen tudi glede na stopnjo nestandardnosti besedila (oznake L1,

L2 in L3). Oglejmo si, ali višja stopnja nestandardnosti pomeni tudi pogostejšo uporabo

tujejezičnih elementov. Kakšna so vaša pričakovanja?

a. Največ tujejezičnih elementov bo verjetno v besedilih z oznako _______________________________.

b. Preverimo, koliko je tujejezičnih elementov v besedilih z najnižjo stopnjo nestandardnosti (torej v

besedilih, ki najbolj sledijo pravilom o standardni rabi slovenščine).

 Izberemo podkorpus TWEET.

 Pri Lastnostih besedil izberemo L1.

 V iskalno polje CQL napišemo iskalni ukaz za tujejezične elemente: [tag="Nj"].

 Število tujejezičnih elementov v besedilih, označenih z L1, je _________________________.



c. Enako naredimo za besedila, označena z L2 in L3.

 Število tujejezičnih elementov v besedilih, označenih z L2, je _________________________.

 Število tujejezičnih elementov v besedilih, označenih z L3, je _________________________.



d. Razmislimo o razlogih za take rezultate. Pobrskajte po konkordancah za posamezne oznake

nestandardnosti in preverite, v kakšnem sobesedilu se kje pojavljajo tujejezični elementi.



2. Preverimo lahko tudi, kdo uporablja najbolj nestandarden jezik in največ tujejezičnih

elementov.

a. Preverimo, kdo uporablja več tujejezičnih elementov v najbolj nestandardnih tvitih, moški ali ženske.

 Izberemo podkorpus TWEET.

 Pri Lastnostih besedil izberemo L3.

 Pri Lastnostih besedil izberemo spol avtorjev (enkrat ženski, enkrat moški).

 V iskalno polje CQL napišemo iskalni ukaz za tujejezične elemente: [tag="Nj"].

116





 Skupno število tujejezičnih elementov pri ženskah v najbolj nestandardnih tvitih je:

_____________

Skupno število tujejezičnih elementov pri moških v najbolj nestandardnih tvitih je:

_____________



b. Poiščite tri avtorje moškega in tri ženskega spola, ki uporabljajo najbolj nestandarden jezik in hkrati

največ tujejezičnih elementov.

 Ko po zgoraj navedenem postopku dobimo konkordance, zgradimo frekvenčni seznam, pri

čemer v oknu Frekvenčna razporeditev po lastnostih besedil izberemo »text.author«.

 V najbolj nestandardnih tvitih največ tujejezičnih elementov uporabljajo:

moški: ______________________________________



______________________________________



______________________________________

ženske: _____________________________________



_____________________________________



_____________________________________



117





Document Outline


1 Predgovor Špela Arhar Holdt in Jaka Čibej:





2 KORPUSI IN KORPUSNO JEZIKOSLOVJE 2.1 IZROČKI – korpusi in korpusno jezikoslovje

2.2 Od konkordance do kolokacije – prvi del 2.2.1 Korpus KRES

2.2.2 Korpus GOS





2.3 Od konkordance do kolokacije – drugi del 2.3.1 Korpus Janes

2.3.2 Korpus Šolar





Damjan Popič in Katja Zupan:





3 STANDARDNA IN SPLETNA SLOVENŠČINA 3.1 IZROČKI – standardna in spletna slovenščina

3.2 Delavnica - Norma: od pravopisa do tvitopisa 3.2.1 Potek delavnic in vsebina raziskovalnih nalog

3.2.2 Programski jezik CQL

3.2.3 Spletne povezave





Polona Gantar in Jaka Čibej:





4 FRAZEOLOGIJA V SPLETNI SLOVENŠČINI 4.1 IZROČKI – frazeologija v spletni slovenščini

4.2 Vaje 4.2.1 Prepoznavanje različnih tipov večbesednih leksikalnih enot v besedilu

4.2.2 1. Naloga: KOLOKACIJE

4.2.3 2. Naloga: OD KOLOKACIJE DO FRAZEMA





4.3 Delavnice 4.3.1 RAZISKOVALNE TEME





Ana Zwitter Vitez in Špela Arhar Holdt:





5 Govor in spletna slovenščina 5.1 IZROČKI – govor in spletna slovenščina

5.2 Detekstiv – vaje 5.2.1 Izhodišče

5.2.2 Vaje





5.3 Detekstiv - delavnica (skupine Tvit1, Tvit2, Tvit3) 5.3.1 Odkrivanje govornih elementov na Twitterju

5.3.2 Naloge





5.4 Detekstiv - delavnica (skupini Forum1 in Forum2) 5.4.1 Odkrivanje govornih elementov na spletnih forumih

5.4.2 Naloge





5.5

Tamara Mikolič Južnič in Katja Zupan:





6 Slovenščina v stiku z drugimi jeziki 6.1 IZROČKI – slovenščina v stiku z drugimi jeziki

6.2 IZROČKI – vaje

6.3 Vaje: od Novega mesta do Njujorka 6.3.1 Kako zapisujemo tujejezične elemente?

6.3.2 Koliko je tujejezičnih elementov v JANES-u in iz katerih jezikov so?

6.3.3 Kdaj in kako se uporablja tujejezične elemente?

6.3.4 Kdo uporablja tujejezične elemente?

6.3.5 Stopnja (ne)standardnosti in tujejezični elementi