Psiholo.ka obzorja / Horizons of Psychology, 9, 1, 79-90 (2000)H
© Dru.tvo psihologov Slovenije 2000, ISSN 1318-187HZnanstveni empirieno-raziskovalni prispevekH

Ocenjevanje zanesljivosti maturitetnih izpitov#4

GREGOR SOEAN
¶ 

Univerza v Ljubljani, Oddelek za psihologijo, LjubljanaH

Povzetek: V prispevku obravnavamo zanesljivost nekaterih maturitetnih izpitov v obdobjß 
1996-1999, veeinoma z vidika klasiene testne teorije. Rezultati konfirmatornih faktorskih analiX 
so pokazali, da priljubljeni koeficient a zaradi neveljavnosti predpostavk ni najbolj.a mera zanesljivosto 
za tovrstne preizkuse. Zato smo zanesljivost raeunali z metodo faktorske analize najmanj.ega ranga
o 
Izkazalo se je, da zanesljivost nekaterih preizkusov ni zadovoljiva, zlasti v primerih, kjer je majheU 
dele. objektivno ocenljivih nalog. V prispevku obravnavamo .e spreminjanje zanesljivosti preizkuso
. 
skozi eas ter ocenjevanje zanesljivosti celotnega maturitetnega izpita, ob konca pa ilustriramo .
I 
ocenjevanje zanesljivosti po teoriji odgovora na postavko. Prispevek koneujemo z nekaj praktienimo 
nasveti, kako bi lahko izbolj.ali ocenjevanje zanesljivosti maturitetnih izpitov in njihovo zanesljivoss 
samo
o 

Kljuene besede: zanesljivost, matura, koeficient a, faktorska analiza, teorija odgovora na postavk
1 

Assessment of reliability of Matura examinations4

GREGOR SOEAu 

University of Ljubljana, Department of Psychology, Ljubljana, SloveniaH

Abstract: Reliability of several Slovenian Matura examinations in the years 1996-1999 is reN 
viewed, mostly from the viewpoint of the classical test theory. Results of confirmatory facto
. 
analyses had shown that coefficient alpha is not the optimal reliability measure for such tests. ThereN 

fore, reliabilities were computed by means of minimum rank factor analysis. Reliabilities of some examR 
were not satisfactory, especially in cases where the proportion of objectively scored items in the exa
. 
was low. Changes in reliability overe time and reliability of the total examination score are also disN 
cussed. Additionally, reliability estimation in the framework of item response theory is illustrated
o 
Finally, some suggestions are made about possible improvements of reliability of exams and the reliabilN 
ity assessment procedure
o 
Key words: reliability, Matura, Cronbach.s alpha, factor analysis, item response theorÂ 

CC=2227 224
1 

* Naslov / address: Gregor Soean, Univerza v Ljubljani Oddelek za psihologijo, A.kereeva 2, 1001HLjubljana; e-mail: gregor.socan@guest.arnes.siH

# Prispevek je bil predstavljen na 3. Kongresu psihologov Slovenije oktobra 1999 v Portoro.u v simpozijuH
.Metodolo.ka vpra.anja slovenske mature.. .tudija je bila izvedena v okviru raziskovalnega projektaH403-20/97 S17 Ministrstva za .olstvo in .port z naslovom .Evalvacija mature in analiza uspe.nostiH
.tudentov na univerzah..H


804G. SoeanH

Uvod4

Pojem in pomen zanesljivosti4

Maturitetni izpit je za marsikoga najpomembnej.i preizkus v .ivljenju, saj lahko dose.e÷ 
na maturi odloeilno vpliva na poklicno pot posameznika. Zato najbr. ni potrebno posebe
3 
utemeljevati trditve, da morajo biti te meritve znanja eimbolj natanene in eimbol
3 
neodvisne od napak merjenja. Ee bi se namree izkazalo, da ima eisto nakljuejI 
pomemben vpliv na to, ali bo nekomu priznana gimnazijska izobrazba ali na katero 
.tudij se bo lahko vpisal, bi postala smiselnost celotnega maturitetnega sistema zel
1 
vpra.ljiva. V tem prispevku se bomo ukvarjali z vpra.anjem, kolik.en je vpliv nakljueni
. 
napak na nekatere maturitetne dose.ke. Poudariti je treba, da se ne bomo ukvarjali 
X 
vpra.anjem, ali so maturitetni preizkusi primerni za .tudijsko selekcijo, saj je to predmes 
nekaterih drugih prispevkov iz tega sklopa. Omejili se bomo torej izkljueno na natanenoss 
merjenja znanja
o 

Natanenost merjenja oziroma neodvisnost meritve od nakljuenih napak 
. 
psihometriji oznaeujemo z izrazom .zanesljivost.. Klasiena psihometriena teorija (npr
o 
Lord in Novick, 1974) opredeljuje zanesljivost kot razmerje med varianco pravi
. 
dose.kov (torej hipotetienih povpreenih dose.kov na mnogih testiranjih) in varianc
1 
dejanskih dose.kov na neki meritvi (npr. testu ali izpitu). Zanesljivost nam torej pove
¸ 
kolik.en dele. variance dose.kov preizku.ancev je pojasnjen s pravimi dose.ki iU 
kolik.en z napakami merjenja. Zanesljivost 0,90 npr. pomeni, da desetina variancI 
testnih dose.kov izvira iz napak merjenja
o 

Zanesljivost je nujen, a ne zadosten pogoj kakovostnega merjenja. Preizkus 
X 
nizko zanesljivostjo je zagotovo neuporaben; preizkus z visoko zanesljivostjo pa .e no 
nujno tudi veljaven in s tem praktieno uporaben. Koeficient zanesljivosti ima lahk
1 
vrednost med nie in ena, pri eemer vrednost ena pomeni popolnoma zanesljivo, vrednoss 
nie pa popolnoma nezanesljivo meritev. Nunnally in Bernstein (1994) priporoeata, na
3 
bo zanesljivost testiranj, na podlagi katerih bomo sprejeli kako pomembno odloeitev 
1 
posamezniku, okrog 0,95, vsekakor pa vsaj 0,90. Med taka testiranja prav gotov
1 
sodijo tudi maturitetni izpiti
o 

Klasieno ocenjevanje zanesljivosti in koeficient 
. 

Zanesljivost lahko ocenimo preko ponovnega testiranja z istim testom, testiranja 
X 
alternativnimi oblikami testa ali preko notranje skladnosti testa. Pri maturitetnih izpiti
. 
pride v po.tev le tretji naein, ker lahko vsakega kandidata preizkusimo le enkrat
o 
Najpogostej.i postopek za oceno notranje skladnosti testa je koeficient a (Guttman
¸ 
1945; Cronbach, 1951), ki temelji na povpreeni kovarianci oz. korelaciji med postavkamiç 
vi.ja kot je povpreena kovarianca v primerjavi s povpreeno varianco postavk, vi.ji jI 
tudi koeficient a. Osnovna zamisel koeficienta a je, da bi morale postavke, ki merij
1 


Zanesljivost maturitetnih izpito
. 
814

isto lastnost, med seboj popolnoma korelirati. Dejstvo, da so korelacije med takimo 
postavkami ni.je od ena, lahko zato pripi.emo le vplivu napak merjenja
o 

Koeficient
ƒ 
a je skupaj s svojimi posebnimi oblikami (Spearman-Browno
. 
obrazec, obe inaeici razpolovitvenega koeficienta, KR-20, Hoytov obrazec) .e vedn
1 
najbolj priljubljen naein ocenjevanja zanesljivosti. Mnogi uebeniki psiholo.kega testiranj
a 
(npr. Cronbach, 1990) sploh ne navajajo drugih postopkov ocenjevanja zanesljivosti
o 
Ta neobieajna priljubljenost ima najbr. vee vzrokovç 
N 
koeficient
ƒ 
a je zelo enostavno izraeunati, saj moramo poznati le variancI 

postavk in skupno variancoe 

N 
njegovo bistvo je lahko razumeti tudi brez posebnega znanja psihometrijee 

N 
ima ugodne statistiene lastnosti (npr. nepristranskost)
o 

Ob vsem tem ni eudno, da tudi bolj izku.eni praktiki redkokdaj upo.tevajo, da jI 
natanenost tega koeficienta odvisna od predpostavke esencialne t-enakovrednosto 
(Lord in Novick, 1974), ki praviç 

1
o 
da vse postavke merijo isto lastnost iU 

2
o 
da imajo pravi dose.ki na vseh postavkah enako varianco (torej so merjeni n
a 
enakovrednih lestvicah)
o 
Lord in Novick sta pokazala, da je koeficient a enak zanesljivosti, kadar so postavkI 
esencialno t-enakovredne; v nasprotnem primeru bomo s koeficientom a dobili prenizk
1 
oceno zanesljivosti. To tudi pomeni, da je koeficient a spodnja meja zanesljivosti: ee jI 
bil vzorec preizku.ancev reprezentativen in dovolj velik, smo lahko preprieani, da jI 
zanesljivost vsaj tako visoka, najverjetneje pa vi.ja kot koeficient a. Predpostavk
1 
esencialne t-enakovrednosti lahko z raeunalni.kimi programi za strukturno modeliranje
¸ 
kot je LISREL (Jöreskog in Sörbom, 1993), zelo enostavno preverimo po postopku, ko 

ga je uvedel .e Jöreskog (1971). Tehnieno gledano je ta postopek konfirmatorn
a 
faktorska analiza z enim samim faktorjem, pri eemer regresijske koeficiente prisilimo
¸ 
da so enako visoki; vhodna matrika mora biti kovarianena (in ne korelacijska) matrika
o 
Zanimivo je, da se tudi analitiki Dr.avnega izpitnega centra ne zavedajo omejite
. 
uporabe koeficienta a, saj v svojih poroeilih (Kali.nik, Drole in Urank, 1998; gl. tudo 
Bre.ar, 1996; Grgurevie, 1998; Pivk, 1997) navajajo te koeficiente, ne da bi pred te
. 
preverili, ali so podatki ustrezni za izraeun te mere
o 

Faktorska analiza minimalnega ranga: alternativa koeficientu
. . 

Ee se izka.e, da predpostavka esencialne t-enakovrednosti ne dr.i, je treba zanesljivoss 
oceniti kako drugaee. Postopek, s katerim lahko dobimo najbolj.e mo.ne ocenI 
zanesljivosti, se imenuje faktorska analiza minimalnega ranga (MRFA). Jackson iU 

Agunwamba (1977) sta dognala, da lahko t.i. najveejo spodnjo mejo zanesljivosto 

824G. SoeanH

doloeimo tako, da poi.eemo najni.jo vrednost koeficienta zanesljivosti, ki je .e skladn
a 
z danimi podatki . ki torej ohranja lastnost pozitivne definitnosti kovarianenih matri÷ 
pravih dose.kov in napak. Raeunski algoritem, s katerim lahko izraeunamo ustreznI 
variance napak in preko njih koeficiente zanesljivosti, sta izpopolnila ten Berge iU 

Kiers (1991) in ga poimenovala faktorska analiza minimalnega ranga 
o 
Za ocenjevanje zanesljivosti z MRFA potrebujemo zelo velike vzorce (vsa
3 
1000 oseb), sicer dobimo previsoke ocene zanesljivosti (ten Berge, 1998). Zarado 
tega je MRFA v veeini praktienih primerov neprimerna; to pa ne velja za maturitetnI 
izpite, kjer pri obveznih predmetih .tevilo kandidatov redno presega 5000
o 

Zanesljivost testne baterije4

Oba opisana postopka sta primerna predvsem za homogene preizkuse, torej take, kje
. 
vse komponente merijo isto lastnost (npr. znanje fizike). Pri maturitetnem izpitu p
a 
nas ne zanima le zanesljivost posameznih izpitov, ampak tudi zanesljivost celotnI 
maturitetne ocene, ki jo doloeimo kot vsoto delnih ocen. Doloeanje zanesljivosti taki
. 
sestavljenih dose.kov je enostavno . poznati moramo le zanesljivosti in variance delni
. 
dose.kov, v na.em primeru posameznih izpitov (za natanenej.i opis postopka gl
o 
Nunnally in Bernstein, 1994). Zanesljivost vsote izpitov (t.j. skupne maturitetne oceneÖ 
je odvisna od zanesljivosti posameznih testov in korelacij med njimi. Ee so izpito 
nekorelirani, je zanesljivost vsote enaka tehtanemu povpreeju zanesljivosti izpitov; e
I 
pa je povpreena korelacija pozitivna, je zanesljivost vi.ja od povpreene zanesljivosti.

Vpliv posameznega izpita je sorazmeren z njegovo varianco
o 

Zanesljivost z vidika teorije odgovora na postavko (TOP)4

Teorija odgovora na postavko (Lord in Novick, 1974; Birnbaum, 1974; Hambleton
¸ 
Swaminathan in Rogers, 1991) je razmeroma nova paradigma v psihometrieni teoriji
¸ 
ki temelji na nelinearnih modelih odnosa med izra.enostjo merjene lastnosti iU 
verjetnostjo doloeenega odgovora na postavko. TOP v nasprotju s klasieno testn
1 
teorijo ne uporablja obte.enih vsot in kovarianenih oz. korelacijskih matrik; tudi testno 
dose.ek pri TOP ni vsota toekovanih odgovorov na postavke, ampak je izraeunaU 

glede na vzorec odgovorov na postavke. Ta testni dose.ek ima svojo standardn
1 
napako ocene, iz katere lahko izraeunamo koeficient zanesljivosti (gl. tudi Rost, 1996)
o 
Pomembna prednost TOP pred klasieno testno teorijo je, da lahko pri TOP doloeim
1 
natanenost merjenja za vsak testni dose.ek posebej. TOP torej dopu.ea mo.nost, d
a 
z nekim testom npr. bolj nataneno merimo sposobnej.e, manj nataneno pa man
3 
sposobne osebe. Klasiena testna teorija nasprotno predpostavlja, da je zanesljivoss 
merjenja enaka za vse preizku.ance, kar pa v resnici seveda ne dr.i
o 
Kadar je standardna napaka ocene podobna pri vseh ravneh merjene lastnosti
¸ 
lahko izraeunamo tudi t.i. robno zanesljivost (Thissen, 1991), ki je pokazatelj povpreenI 
natanenosti merjenja za vse osebe v v vzorcu. Primerjava tega indeksa s klasieni
. 

Zanesljivost maturitetnih izpitovH834

koeficientom zanesljivosti nam pove, ali se klasieno in TOP toekovanje razlikujet
a 

glede na zanesljivost testnih dose.kov
o 
Metoda4

Maturitetni preizkusi, ki smo jih analizirali, so bili izvedeni med leti 1996 in 1999
o 

Analizirali smo le rezultate junijskih preizkusov; pri izpitih, ki se lahko opravljajo n
a 
osnovni in vi.ji ravni, smo analizirali le osnovno raven. Pri vsakem preizkusu sm
1 
upo.tevali podatke vseh kandidatov, zaradi eesar je bilo .tevilo oseb pri razlienih analiza
. 
razlieno (med 1084 in 8199). Podatke smo dobili od Dr.avnega izpitnega centra
o 
Na tem mestu ne bomo podrobneje opisovali strukture in postopkov izvedbI 
posameznih izpitov, saj se le-ti med seboj precej razlikujejo. V splo.nem so izpiti obieajn
1 
sestavljeni iz pisnega dela (ki ga sestavljajo raeunske, esejske ali objektivne naloge) iU 
ustnega dela, lahko pa tudi iz ocene seminarske naloge. Podrobnosti so dostopne 
. 
izdajah Dr.avnega izpitnega centra (npr. Ur.ie, 1997a; Ur.ie, 1997b). PsihometrienI 
analize smo izvedli s programi LISREL 8 (Jöreskog in Sörbom, 1993), MRFA2 (Kiers
¸ 
1996) in MULTILOG 6 (Thissen, 1991)
o 

Rezultati in razprava

V rezultatih ne opisujemo deskriptivnih statistik posameznih preizkusov, saj bi to p
1 
nepotrebnem zmanj.alo preglednost rezultatov, poleg tega pa lahko bralec te podatkI 
najde v poroeilih Dr.avnega izpitnega centra (Bre.ar, 1996; Grgurevie, 1998; Pivk
¸ 
1997)
o 

Ali je koeficient 
. 
ustrezna mera zanesljivosti za maturitetne preizkuse?

V prvem koraku smo po Jöreskogovem (1971) postopku preverili predpostavk
1 
esencialne t-enakovrednosti. V tem primeru nas niso zanimale ocene regresijski
. 
parametrov in varianc napak, ampak le mere prileganja modela. Izmed mno.ice me
. 
prileganja navajamo le dve (gl. npr. Bollen, 1989)
ç 

1
o 
c2
ƒ 
je mera odstopanja reproducirane od empiriene kovarianene matrike
o 
Statistieno pomemben c2 pomeni, da je razlika med njima statistieno pomembn
a 
in torej model ni ustrezen
o 
2
o 
AGFI (adjusted goodness-of-fit index) je opisna mera skladnosti, ki nam pove
¸ 
kolik.en dele. skupne variance je pojasnjen z modelom. Sprejemljive vrednosto 
te statistike so 0,90 ali vee
o 


G. SoeanH

 tabeli 1 so prikazane vrednosti obeh statistik za vzorec arbitrarno izbrani
. 
izpitov, ki pokrivajo vsa pomembnej.a predmetna podroeja (obvezni in izbirni predmeto 
ter naravoslovne in dru.boslovne vede)
o 

isoke vrednosti c2 nam .e takoj povedo, da lahko v vseh petih primeri
. 
zavrnemo esencialno t-enakovredni model. Tudi indeksi AGFI so zelo nizki, le pro 
matematiki (leta 1996) se AGFI pribli.a sprejemljivi vrednosti. Najbr. ne bo preve: 
tvegano zakljueiti, da naloge pri maturitetnih izpitih v splo.nem niso esencialno t
N 
enakovredne in da koeficient a ni dobra mera zanesljivosti teh preizkusov. Analitiko 
Dr.avnega izpitnega centra (Kali.nik, Drole in Urank, 1998) torej gre.ijo, ko zanesljivoss 
izpitov ocenjujejo le s tem koeficientom
o 

Po na.em mnenju sta za odstopanje od esencialno t-enakovrednega model
a 
dva glavna razlogaç 

1
o 
Nekateri izpiti niso enodimenzionalni: znaeilen primer je predmet Slovensko 
jezik in knji.evnost, ki je - kot pove .e ime - sestavljen iz dveh vsebinsko zel
1 
razlienih sklopov
o 
2
o 
Pri veeini izpitov so komponente (pisne naloge, ustni izpit, seminarska nalogaÖ 
toekovane na razlienih lestvicah. Pri predmetu Psihologija imamo npr. na eno 
strani esejski del, ki je vreden 45 toek, na drugi strani pa kratke naloge, ko 
veljajo po eno toeko. Tak.ne naloge imajo seveda tako razliene variance, d
a 
je praktieno nemogoee, da bi imele vsaj pribli.no enake variance pravi
. 
dose.kov (razen v malo verjetnem primeru, da bi imele naloge z malo toekamo 
skoraj popolno zanesljivost, naloge z veliko toekami pa skoraj nieeln
1 
zanesljivost)
o 

Ocene zanesljivosti predmetnih izpitov4

Ker smo ugotovili, da koeficient a za na.e podatke ni optimalen, smo zanesljivoss 
ocenili s faktorsko analizo najmanj.ega ranga (MRFA). Rezultati so prikazani v tabelo 
2. Za primerjavo so prikazani tudi koeficienti a
o 
eeina koeficientov sicer dosega zanesljivost 0,75, ki je tipiena za teste znanj
a 
(Bucik, 1993), vendar dele. variance napak pri vseh analiziranih izpitih presega dobr
1 

Tabela 1: Mere prileganja za pet maturitetnih izpitovH

Predmet in leto c2 AGFI N 
Psihologija 1996 3599*** 0,47 1177 
Matematika 1996 4285*** 0,89 6315 
Slovenski j. in knj. 1998 1961*** 0,59 8199 
Fizika 1998 892*** 0,24 1731 
Biologija z ekol. 1998 1090*** 0,35 1084 

*** p < 0,1
ˆ 


Zanesljivost maturitetnih izpitovH854Tabela 2: Koeficienti zanesljivosti nekaterih maturitetnih izpitovH

Predmet in leto MRFA a N 
Psihologija 1996 0,80 0,65 1177 
Matematika 1996 0,86 0,84 6315 
Slovenski j. in knj. 1998 0,68 0,57 8199 
Angleški jezik 1998 0,84 0,76 5352 
Fizika 1998 0,83 0,71 1731 
Biologija z ekol. 1998 0,87 0,75 1084 

desetino, kar najbr. ni razlog za zadovoljstvo. Zdi se, da imajo najveeje te.ave izpiti, ko 
vkljueujejo notorieno nezanesljive esejske naloge. Taka predmeta sta v na.em primerß 
Slovenski jezik in knji.evnost ter Psihologija. Seveda pa so predmetne komisije tiste
¸ 
ki se morajo odloeiti, ali se splaea .rtvovati del zanesljivosti za domnevno bolj.
1 
vsebinsko veljavnost, h kateri naj bi prispevale esejske naloge
o 

Zunanja matura se v Sloveniji izvaja .ele zadnjih pet let in predmetne komisije
¸ 
zadol.ene za sestavljanje izpitov, so si v zadnjih letih verjetno nabrale veliko novi
. 
izku.enj. Zato se je zanimivo vpra.ati, ali se je zanesljivost maturitetnih preizkuso
. 
skozi eas izbolj.evala. Za ilustracijo smo izbrali le matematiko in psihologijo.

V nasprotju s prieakovanji se zanesljivost pri izbranih predmetih skozi eas no 
poveeevala, pri psihologiji pa se zdi, da je trend celo nekoliko negativen (zaradi majhneg
a 
.tevila easovnih toek se nismo lotili analize trenda). Po eni strani je sicer nerealn
1 
prieakovati, da se bo zanesljivost z leti zvi.evala v nedogled. Pri testih znanja, ko 
pokrivajo .iroko podroeje snovi - kot denimo velja za matematiko - .e heterogenoss 
snovi prepreeuje, da bi bili koeficienti zanesljivosti ekstremno visoki. Pri takih preizkusi
. 

199
. 
199
. 
199
. 
199
. 

. 
t
. 

Slika 1: Koeficienti zanesljivosti izpitov iz psihologije in matematike v razlienih letih.H
.tevilo kandidatov pri psihologiji je bilo v zaporednih letih 1177, 1095, 1188 in 1339, priHmatematiki pa 6315, 7420, 7320 in 8080.H

0,50,60,70,80,91ZanesljivosPsihologijaMatematika

864G. SoeanH

se je potrebno zavedati, da je resniena zanesljivost vedno .e nekoliko vi.ja od ocenjeneg
a 
koeficienta, tudi ee ga izraeunamo z optimalno metodo. Kljub temu pa je stagnacij
a 
koeficientov pri psihologiji lahko zaskrbljujoea. Po na.em mnenju lahko nizke koeficientI 
zanesljivosti pri tem predmetu pripi.emo tudi dejstvu, da je pri izpitu iz psihologije lI 
malo povsem objektivno vrednotenih nalog, velik vpliv na oceno pa imajo ocene eseje
. 
in ocena seminarske naloge, kjer zelo te.ko dose.emo zadovoljivo objektivnoss 
ocenjevanja
o 

Zanesljivost skupne ocene4

Maturitetni izpit ni le zakljueni izpit ob koncu srednje.olskega izobra.evanja, ampa÷ 
tudi izbirni izpit za vpis na univerzitetni .tudij. S tega vidika je pomembna tudi zanesljivoss 
skupne ocene in ne le posameznih izpitov. Nenavadno je, da maturitetni organi dosle
3 
temu vpra.anju niso posvetili nikakr.ne pozornosti, saj v svojih poroeilih (Bre.ar, 1996e 
Grgurevie, 1998; Kali.nik in sod., 1998; Pivk, 1997) nikjer ne navajajo zanesljivosto 
skupnih ocen
o 

Zanesljivost skupne ocene je za razliene kombinacije predmetov razliena. GledI 
na to, da je kombinacij predmetov zelo veliko, bomo na tem mestu navedli le vzoreno 
primer za pet predmetov: matematiko, slovenski jezik, angle.ki jezik, psihologijo iU 
biologijo, ki so morda tipieni za bodoeega .tudenta psihologije. Povpreena zanesljivoss 
na.tetih izpitov je 0,80. Zanesljivost vsote smo izraeunali kot zanesljivost vsotI 
standardiziranih (z) vrednosti. Predpostavili smo torej, da ocena vsakega izpita prinesI 
enak dele. k skupni oceni. Kot ocene zanesljivosti smo vzeli koeficiente zanesljivosto 
za leto 1998, izraeunane z MRFA (gl. tabelo 2)
o 

Zanesljivost vsote z vrednosti je bila 0,87. Za ilustracijo povejmo, da je pro 
tolik.ni zanesljivosti standardna napaka merjenja enaka 36% standardne deviacijI 
dose.kov, .irina 95% intervala zaupanja za pravi dose.ek pa je 1,32 standardne deviacijI 
skupnih dose.kov. Kandidat, ki je dosegel povpreeno .tevilo toek, ima torej s 95
ˆ 
verjetnostjo pravi dose.ek nekje v obmoeju M ± 0,66 SD. Tako .irok interval zaupanj
a 
seveda ni rezultat, s katerim bi lahko bili zadovoljni; zanesljivost skupne ocene tudi nI 
dosega vrednosti 0,90, ki jo priporoeata Nunnally in Bernstein (1994). Seveda navedeno 
rezultat velja samo za to kombinacijo predmetov. Nekoliko v .ali lahko dodamo, d
a 
bodo kandidati s slab.im znanjem storili bolje, ee bodo izbrali eim manj zanesljiv
1 
kombinacijo predmetov: na ta naein lahko upajo, da bodo zaradi regresijskega pojav
a 
.nazadovanja proti povpreeju. njihovi dose.ki bli.e povpreenemu, kot bi si sicer zaslu.ili
o 
Nasprotno pa bo za dobro pripravljene kandidate preudarnej.a izbira katera od bol
3 
zanesljivih kombinacij
o 

Navedeni rezultati bi bili nataneni, ee bi bil skupni maturitetni dose.ek ena÷ 
vsoti standardiziranih dose.kov na posameznih izpitih. .al pa Dr.avni izpitni center 
. 
resnici pred se.tevanjem dose.ek na vsakem izpitu pretvori na petstopenjsko lestvico
¸ 
nakar se se.tejejo tako zaokro.eni rezultati. Za ta postopek ne najdemo nikakr.neg
a 
razumnega opravieila. Njegov ueinek je podoben, kot ee bi vsaki oceni pri.teli nek
1 


Zanesljivost maturitetnih izpitovH874

majhno nakljueno vrednost. .al ne poznamo postopka, s katerim bi lahko natanen
1 
ugotovili, za koliko se zaradi zaokro.evanja zmanj.a zanesljivost; razlog za to je dejstvo
¸ 
da politomizacija zmanj.a variabilnost spremenljivke. Na podlagi preliminarnih poskuso
. 
s simuliranimi podatki pa ocenjujemo, da lahko pretvorba na petstopenjsko lestvic
1 
zmanj.a dele. prave variance tudi za nekaj odstotkov
o 

Na prvi pogled se morda sicer zdi, da s to pretvorbo izenaeimo prispevek vsakeg
a 
izpita k skupnemu dose.ku, vendar to ne dr.i, ker se pretvorba na petstopenjsk
1 
lestvico ne izvaja z z vrednostmi. S tega vidika bi bilo enako ueinkovito, ee bi se.telo 
odstotne toeke za vsak predmet. Maturitetni organi torej brez potrebe zni.ujejo .
I 
tako ne dovolj visoko zanesljivost maturitetne ocene
o 

Zanesljivost z vidika teorije odgovora na postavko4

Uporabili smo Samejimin (1969, 1997) model za graduirane odgovore. Ta mode× 
omogoea analizo postavk na veestopenjski lestvici in dopu.ea razliene diskriminativnosto 
postavk. Analizirali smo izpit iz matematike leta 1999. Tu ne navajamo parametro
. 
modela za posamezne postavke, ker z vidika zanesljivosti niso zanimivi. Slika 2 prikazujI 
standardno napako ocene latentne poteze (t.j. znanja matematike) pri razlienih ravne
. 
znanja. Znanje je, kot je pri tovrstnih analizah obieaj, lestvieeno na standardizirano 
lestvici
o 

Kot vidimo, je standardna napaka ocene najni.ja za osebe, katerih dose.ek jI 
pribli.no med z vrednostima 0 in 1. Preizkus torej najbolj nataneno meri znanjI 
kandidatov, ki so nekoliko nad povpreejem. Vseeno pa je standardna napaka podobn
1 
visoka pri vseh ravneh znanja. Sama vi.ina standardne napake je razmeroma visok
a 
. okoli .tiri desetine standardne deviacije. Koeficient robne zanesljivosti je enak 0,84
¸ 
-2-1
1 1 . 

Znanj
. 

Slika 2: Standardna napaka ocene pri razlienih ravneh znanja matematike.H

00,10,20,30,40,5Stand. napaka

87 
G. SoeanH

kar je zelo blizu koeficientu zanesljivosti, izraeunanem v skladu s klasieno testno teorij
1 
(z MRFA), ki zna.a 0,85. Z vidika zanesljivosti se torej vrednotenje po teoriji odgovor
a 
na postavko v tem primeru ni pokazalo bolj.e od klasienega vrednotenja s se.tevanje
. 
toek. Tudi sicer menimo, da si teorija odgovora na postavko .e nekaj easa ne bo utrl
a 
poti do vrednotenja maturitetnih izpitov. Prvi razlog je, da je ta paradigma bolj primern
a 
za postavke z malo kategorijami, pri nalogah z veejim .tevilom toek (npr. esejskih) p
a 
se lahko pojavijo tehnieni problemi z ocenjevanjem parametrov. Drugi razlog je prece
3 
banalen, a nie manj pomemben: dvomimo, da bi si katerikoli .olski minister upal odobrito 
sistem vrednotenja izpitov, po katerem bi lahko kandidat z manj toekami dobil bolj.
1 
oceno kot kandidat z vee toekami
o 

Zakljueki4

Na vpra.anje, ali je zanesljivost maturitetnih izpitov dobra ali slaba, ni mogoee enoznaen
1 
odgovoriti. V prid pozitivni oceni govorita dva razlogaç 

1
o 
2
o 
zanesljivost mature veeinoma dosega in tudi presega tipiene zanesljivosti testo
. 
znanjae 
pri sestavljanju maturitetnih izpitov ni mogoee uporabiti obieajnega postopk
a 
sestavljanja testa, pri katerem najprej preizkusimo veejo skupino nalog, izmeB 
katerih potem v koneno obliko izberemo najbolj.e
o 
Po drugi strani pa vseeno ne moremo mimo tega, da so standardne napakI 

merjenja razmeroma velike in da vpliv nakljueja na maturitetno oceno ni tako majhen
¸ 
kot bi si .eleli. Seveda so predmetne komisije tiste, ki morajo oceniti, ali lahko man
3 
zanesljive naloge oz. tipe nalog nadomestijo z bolj zanesljivimi ali pa bi to preve: 
poru.ilo njihov koncept maturitetnega izpita
o 

Iz na.ih rezultatov lahko izlu.eimo .e nekaj praktienih priporoeilç 

1
o 
Koeficient a v mnogih ali celo veeini primerov ni ustrezna mera zanesljivosto 
maturitetnih izpitov. Alternativa, prikazana v tem prispevku, je faktorska analiz
a 
minimalnega ranga, na voljo pa so tudi druge, bolj dostopne mo.nosti (gl. npr
o 
Jöreskog in Sörbom, 1993)
o 

2
o 
Skupna maturitetna ocena naj bo vsota standardiziranih dose.kov n
a 
posameznih izpitih, nikakor pa ne vsota petstopenjskih ocen
o 
3
o 
Sestava in analiza izpitov naj zaenkrat ostaneta v okvirih klasiene testne teorije
¸ 
kljub temu pa naj pristojni organi v dolgoroenih naertih upo.tevajo prednosto 
teorije odgovora na postavko
o 

Ob koncu naj .e enkrat poudarimo, da namen tega prispevka ni bil prikaz vse
. 
koeficientov zanesljivosti za vse predmete v vseh preteklih letih. Ee nie drugega, bi 
R 


Zanesljivost maturitetnih izpitovH894

takim prikazom bistveno presegli prostor, ki je na razpolago. Namesto tega smo .elelo 
predvsem prikazati metodologijo, s katero se lahko optimalno lotimo analize zanesljivosti
o 
Zdi se namree, da so dosedanje analize, objavljene v poroeilih maturitetnih organov
¸ 
zanesljivost obravnavale precej povr.no . njihovi avtorji so se zadovoljili s prikazo
. 
koeficientov a, ne da bi se vpra.ali o utemeljenosti teh izraeunov, poleg tega pa s
1 
nekatera vpra.anja, denimo zanesljivost skupne ocene in intervale zaupanja, preprost
1 
izpustili. Upamo, da jih bo ta prispevek spodbudil k pazljivej.emu obravnavanju navideX 
preproste problematike
o 

Literatura4

Birnbaum, A. (1974). Some latent trait models and their use in inferring an examinee.s ability
o 

 F.M. Lord in M.R. Novick, Statistical theories of mental test scores (2nd printing)H

(str.397-479). Reading, MA: Addison-Wesley
o 
Bollen, K.A. (1989). Structural equations with latent variables. New York: Wiley
o 
Bre.ar, F. (ur.). (1996). Maturitetno letno poroeilo . matura 1996 [Matura 1996 annua× 

report]. Ljubljana: Dr.avni izpitni center
o 
Cronbach, L.J. (1951). Coefficient alpha and internal structure of tests. Psychometrika, 16,H

297-334
o 
Cronbach, L.J. (1990). Essentials of psychological testing (5th ed.). New York: Harpe
. 
Collins
o 
Grgurevie, J. (ur.). (1998). Maturitetno letno poroeilo . matura 1998 [Matura 1998 annua× 
report]. Ljubljana: Dr.avni izpitni center
o 
Guttman, L. (1945). A basis for analyzing test-retest reliability. Psychometrika, 10, 255-282
o 
Hambleton, R.K., Swaminathan, H. in Rogers, H.J. (1991). Fundamentals of item responseH

theory. Newbury Park: Sage
o 
Jackson, P.H. in Agunwamba, C.C. (1977). Lower bounds for the reliability of the total scorI 

on a test composed of non-homogeneous items: I: Algebraic lower bounds
o 

Psychometrika, 42, 567-578
o 

Jöreskog, K.G. (1971). Statistical analysis of sets of congeneric tests. Psychometrika, 36
¸ 
109-133
o 
Jöreskog, K.G. in Sörbom, D. (1993). LISREL 8 - User.s reference guide. Chicago, IL 
ç 
Scientific software international
o 

Kali.nik, M., Drole, D. in Urank, M. (1998). Edukometriena analiza ocenjevanja [Educometri
¬ 
analysis of grading]. V F. Bre.ar (ur.), Notranje vrednotenje mature (str. 35-41)
o 
Ljubljana: Dr.avni izpitni center
o 
Kiers, H.A.L. (1996). MRFA2: a computer program for Minimum rank factor analysiR 
[Programska oprema]. Groningen: University of Groningen
o 
Lord, F.M. in Novick, M.R. (1974). Statistical theories of mental test scores (2nd printing).HReading, MA: Addison-Wesley
o 
Nunnally, J.C. in Bernstein, I.H. (1994). Psychometric theory (3rd ed.). New York: McGrawN 
Hill
o 
Pivk, V. (ur.). (1997). Maturitetno letno poroeilo . matura 1997 [Matura 1997 annua× 


904G. SoeanH

report]. Ljubljana: Dr.avni izpitni center
o 
Rost, J. (1996). Lehrbuch Testtheorie Testkonstruktion. Bern: Hans Huber
o 
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scoresH

(Psychometric Monograph No. 17). Iowa city: Psychometric society
o 
Samejima, F. (1997). Graded response model. V W. van der Linden in R.K. Hambleton,
Handbook of modern item response theory (str. 85-100 ). New York: Springer
o 

ten Berge, J.M.F. (1998). Some recent developments in some classical psychometricHproblems. Referat na 9th European conference on personality, Guildford, Zdru.en
1 
kraljestvo
o 

ten Berge, J.M.F. in Kiers, H.A.L. (1991). A numerical approach to the approximate and thI 

exact minimum rank of a covariance matrix. Psychometrika, 56, 309-31â 
Thissen, D. (1991). MULTILOG user guide. Chicago, IL: Scientific software international
o 
Ur.ie, M. (ur.). (1997a). Zbirka maturitetnih nalog 1995 in 1996 z re.itvami (obvezniH

predmeti) [Compendium of the Matura 1995 and 1996 examination questions anB 

answers (compulsory subjects)]. Ljubljana: Dr.avni izpitni center
o 

Ur.ie, M. (ur.). (1997b). Zbirka maturitetnih nalog 1995 in 1996 z re.itvami (izbirniHpredmeti, I. del) [Compendium of the Matura 1995 and 1996 examination questionR 
and answers (optional subjects, part I)]. Ljubljana: Dr.avni izpitni center
o