Psiholo.ka obzorja / Horizons of Psychology, 9, 1, 79-90 (2000)H © Dru.tvo psihologov Slovenije 2000, ISSN 1318-187HZnanstveni empirieno-raziskovalni prispevekH Ocenjevanje zanesljivosti maturitetnih izpitov#4 GREGOR SOEAN ¶ Univerza v Ljubljani, Oddelek za psihologijo, LjubljanaH Povzetek: V prispevku obravnavamo zanesljivost nekaterih maturitetnih izpitov v obdobjß 1996-1999, veeinoma z vidika klasiene testne teorije. Rezultati konfirmatornih faktorskih analiX so pokazali, da priljubljeni koeficient a zaradi neveljavnosti predpostavk ni najbolj.a mera zanesljivosto za tovrstne preizkuse. Zato smo zanesljivost raeunali z metodo faktorske analize najmanj.ega ranga o Izkazalo se je, da zanesljivost nekaterih preizkusov ni zadovoljiva, zlasti v primerih, kjer je majheU dele. objektivno ocenljivih nalog. V prispevku obravnavamo .e spreminjanje zanesljivosti preizkuso . skozi eas ter ocenjevanje zanesljivosti celotnega maturitetnega izpita, ob konca pa ilustriramo . I ocenjevanje zanesljivosti po teoriji odgovora na postavko. Prispevek koneujemo z nekaj praktienimo nasveti, kako bi lahko izbolj.ali ocenjevanje zanesljivosti maturitetnih izpitov in njihovo zanesljivoss samo o Kljuene besede: zanesljivost, matura, koeficient a, faktorska analiza, teorija odgovora na postavk 1 Assessment of reliability of Matura examinations4 GREGOR SOEAu University of Ljubljana, Department of Psychology, Ljubljana, SloveniaH Abstract: Reliability of several Slovenian Matura examinations in the years 1996-1999 is reN viewed, mostly from the viewpoint of the classical test theory. Results of confirmatory facto . analyses had shown that coefficient alpha is not the optimal reliability measure for such tests. ThereN fore, reliabilities were computed by means of minimum rank factor analysis. Reliabilities of some examR were not satisfactory, especially in cases where the proportion of objectively scored items in the exa . was low. Changes in reliability overe time and reliability of the total examination score are also disN cussed. Additionally, reliability estimation in the framework of item response theory is illustrated o Finally, some suggestions are made about possible improvements of reliability of exams and the reliabilN ity assessment procedure o Key words: reliability, Matura, Cronbach.s alpha, factor analysis, item response theor CC=2227 224 1 * Naslov / address: Gregor Soean, Univerza v Ljubljani Oddelek za psihologijo, A.kereeva 2, 1001HLjubljana; e-mail: gregor.socan@guest.arnes.siH # Prispevek je bil predstavljen na 3. Kongresu psihologov Slovenije oktobra 1999 v Portoro.u v simpozijuH .Metodolo.ka vpra.anja slovenske mature.. .tudija je bila izvedena v okviru raziskovalnega projektaH403-20/97 S17 Ministrstva za .olstvo in .port z naslovom .Evalvacija mature in analiza uspe.nostiH .tudentov na univerzah..H 804G. SoeanH Uvod4 Pojem in pomen zanesljivosti4 Maturitetni izpit je za marsikoga najpomembnej.i preizkus v .ivljenju, saj lahko dose.e÷ na maturi odloeilno vpliva na poklicno pot posameznika. Zato najbr. ni potrebno posebe 3 utemeljevati trditve, da morajo biti te meritve znanja eimbolj natanene in eimbol 3 neodvisne od napak merjenja. Ee bi se namree izkazalo, da ima eisto nakljuejI pomemben vpliv na to, ali bo nekomu priznana gimnazijska izobrazba ali na katero .tudij se bo lahko vpisal, bi postala smiselnost celotnega maturitetnega sistema zel 1 vpra.ljiva. V tem prispevku se bomo ukvarjali z vpra.anjem, kolik.en je vpliv nakljueni . napak na nekatere maturitetne dose.ke. Poudariti je treba, da se ne bomo ukvarjali X vpra.anjem, ali so maturitetni preizkusi primerni za .tudijsko selekcijo, saj je to predmes nekaterih drugih prispevkov iz tega sklopa. Omejili se bomo torej izkljueno na natanenoss merjenja znanja o Natanenost merjenja oziroma neodvisnost meritve od nakljuenih napak . psihometriji oznaeujemo z izrazom .zanesljivost.. Klasiena psihometriena teorija (npr o Lord in Novick, 1974) opredeljuje zanesljivost kot razmerje med varianco pravi . dose.kov (torej hipotetienih povpreenih dose.kov na mnogih testiranjih) in varianc 1 dejanskih dose.kov na neki meritvi (npr. testu ali izpitu). Zanesljivost nam torej pove ¸ kolik.en dele. variance dose.kov preizku.ancev je pojasnjen s pravimi dose.ki iU kolik.en z napakami merjenja. Zanesljivost 0,90 npr. pomeni, da desetina variancI testnih dose.kov izvira iz napak merjenja o Zanesljivost je nujen, a ne zadosten pogoj kakovostnega merjenja. Preizkus X nizko zanesljivostjo je zagotovo neuporaben; preizkus z visoko zanesljivostjo pa .e no nujno tudi veljaven in s tem praktieno uporaben. Koeficient zanesljivosti ima lahk 1 vrednost med nie in ena, pri eemer vrednost ena pomeni popolnoma zanesljivo, vrednoss nie pa popolnoma nezanesljivo meritev. Nunnally in Bernstein (1994) priporoeata, na 3 bo zanesljivost testiranj, na podlagi katerih bomo sprejeli kako pomembno odloeitev 1 posamezniku, okrog 0,95, vsekakor pa vsaj 0,90. Med taka testiranja prav gotov 1 sodijo tudi maturitetni izpiti o Klasieno ocenjevanje zanesljivosti in koeficient . Zanesljivost lahko ocenimo preko ponovnega testiranja z istim testom, testiranja X alternativnimi oblikami testa ali preko notranje skladnosti testa. Pri maturitetnih izpiti . pride v po.tev le tretji naein, ker lahko vsakega kandidata preizkusimo le enkrat o Najpogostej.i postopek za oceno notranje skladnosti testa je koeficient a (Guttman ¸ 1945; Cronbach, 1951), ki temelji na povpreeni kovarianci oz. korelaciji med postavkamiç vi.ja kot je povpreena kovarianca v primerjavi s povpreeno varianco postavk, vi.ji jI tudi koeficient a. Osnovna zamisel koeficienta a je, da bi morale postavke, ki merij 1 Zanesljivost maturitetnih izpito . 814 isto lastnost, med seboj popolnoma korelirati. Dejstvo, da so korelacije med takimo postavkami ni.je od ena, lahko zato pripi.emo le vplivu napak merjenja o Koeficient ƒ a je skupaj s svojimi posebnimi oblikami (Spearman-Browno . obrazec, obe inaeici razpolovitvenega koeficienta, KR-20, Hoytov obrazec) .e vedn 1 najbolj priljubljen naein ocenjevanja zanesljivosti. Mnogi uebeniki psiholo.kega testiranj a (npr. Cronbach, 1990) sploh ne navajajo drugih postopkov ocenjevanja zanesljivosti o Ta neobieajna priljubljenost ima najbr. vee vzrokovç N koeficient ƒ a je zelo enostavno izraeunati, saj moramo poznati le variancI postavk in skupno variancoe N njegovo bistvo je lahko razumeti tudi brez posebnega znanja psihometrijee N ima ugodne statistiene lastnosti (npr. nepristranskost) o Ob vsem tem ni eudno, da tudi bolj izku.eni praktiki redkokdaj upo.tevajo, da jI natanenost tega koeficienta odvisna od predpostavke esencialne t-enakovrednosto (Lord in Novick, 1974), ki praviç 1 o da vse postavke merijo isto lastnost iU 2 o da imajo pravi dose.ki na vseh postavkah enako varianco (torej so merjeni n a enakovrednih lestvicah) o Lord in Novick sta pokazala, da je koeficient a enak zanesljivosti, kadar so postavkI esencialno t-enakovredne; v nasprotnem primeru bomo s koeficientom a dobili prenizk 1 oceno zanesljivosti. To tudi pomeni, da je koeficient a spodnja meja zanesljivosti: ee jI bil vzorec preizku.ancev reprezentativen in dovolj velik, smo lahko preprieani, da jI zanesljivost vsaj tako visoka, najverjetneje pa vi.ja kot koeficient a. Predpostavk 1 esencialne t-enakovrednosti lahko z raeunalni.kimi programi za strukturno modeliranje ¸ kot je LISREL (Jöreskog in Sörbom, 1993), zelo enostavno preverimo po postopku, ko ga je uvedel .e Jöreskog (1971). Tehnieno gledano je ta postopek konfirmatorn a faktorska analiza z enim samim faktorjem, pri eemer regresijske koeficiente prisilimo ¸ da so enako visoki; vhodna matrika mora biti kovarianena (in ne korelacijska) matrika o Zanimivo je, da se tudi analitiki Dr.avnega izpitnega centra ne zavedajo omejite . uporabe koeficienta a, saj v svojih poroeilih (Kali.nik, Drole in Urank, 1998; gl. tudo Bre.ar, 1996; Grgurevie, 1998; Pivk, 1997) navajajo te koeficiente, ne da bi pred te . preverili, ali so podatki ustrezni za izraeun te mere o Faktorska analiza minimalnega ranga: alternativa koeficientu . . Ee se izka.e, da predpostavka esencialne t-enakovrednosti ne dr.i, je treba zanesljivoss oceniti kako drugaee. Postopek, s katerim lahko dobimo najbolj.e mo.ne ocenI zanesljivosti, se imenuje faktorska analiza minimalnega ranga (MRFA). Jackson iU Agunwamba (1977) sta dognala, da lahko t.i. najveejo spodnjo mejo zanesljivosto 824G. SoeanH doloeimo tako, da poi.eemo najni.jo vrednost koeficienta zanesljivosti, ki je .e skladn a z danimi podatki . ki torej ohranja lastnost pozitivne definitnosti kovarianenih matri÷ pravih dose.kov in napak. Raeunski algoritem, s katerim lahko izraeunamo ustreznI variance napak in preko njih koeficiente zanesljivosti, sta izpopolnila ten Berge iU Kiers (1991) in ga poimenovala faktorska analiza minimalnega ranga o Za ocenjevanje zanesljivosti z MRFA potrebujemo zelo velike vzorce (vsa 3 1000 oseb), sicer dobimo previsoke ocene zanesljivosti (ten Berge, 1998). Zarado tega je MRFA v veeini praktienih primerov neprimerna; to pa ne velja za maturitetnI izpite, kjer pri obveznih predmetih .tevilo kandidatov redno presega 5000 o Zanesljivost testne baterije4 Oba opisana postopka sta primerna predvsem za homogene preizkuse, torej take, kje . vse komponente merijo isto lastnost (npr. znanje fizike). Pri maturitetnem izpitu p a nas ne zanima le zanesljivost posameznih izpitov, ampak tudi zanesljivost celotnI maturitetne ocene, ki jo doloeimo kot vsoto delnih ocen. Doloeanje zanesljivosti taki . sestavljenih dose.kov je enostavno . poznati moramo le zanesljivosti in variance delni . dose.kov, v na.em primeru posameznih izpitov (za natanenej.i opis postopka gl o Nunnally in Bernstein, 1994). Zanesljivost vsote izpitov (t.j. skupne maturitetne oceneÖ je odvisna od zanesljivosti posameznih testov in korelacij med njimi. Ee so izpito nekorelirani, je zanesljivost vsote enaka tehtanemu povpreeju zanesljivosti izpitov; e I pa je povpreena korelacija pozitivna, je zanesljivost vi.ja od povpreene zanesljivosti. Vpliv posameznega izpita je sorazmeren z njegovo varianco o Zanesljivost z vidika teorije odgovora na postavko (TOP)4 Teorija odgovora na postavko (Lord in Novick, 1974; Birnbaum, 1974; Hambleton ¸ Swaminathan in Rogers, 1991) je razmeroma nova paradigma v psihometrieni teoriji ¸ ki temelji na nelinearnih modelih odnosa med izra.enostjo merjene lastnosti iU verjetnostjo doloeenega odgovora na postavko. TOP v nasprotju s klasieno testn 1 teorijo ne uporablja obte.enih vsot in kovarianenih oz. korelacijskih matrik; tudi testno dose.ek pri TOP ni vsota toekovanih odgovorov na postavke, ampak je izraeunaU glede na vzorec odgovorov na postavke. Ta testni dose.ek ima svojo standardn 1 napako ocene, iz katere lahko izraeunamo koeficient zanesljivosti (gl. tudi Rost, 1996) o Pomembna prednost TOP pred klasieno testno teorijo je, da lahko pri TOP doloeim 1 natanenost merjenja za vsak testni dose.ek posebej. TOP torej dopu.ea mo.nost, d a z nekim testom npr. bolj nataneno merimo sposobnej.e, manj nataneno pa man 3 sposobne osebe. Klasiena testna teorija nasprotno predpostavlja, da je zanesljivoss merjenja enaka za vse preizku.ance, kar pa v resnici seveda ne dr.i o Kadar je standardna napaka ocene podobna pri vseh ravneh merjene lastnosti ¸ lahko izraeunamo tudi t.i. robno zanesljivost (Thissen, 1991), ki je pokazatelj povpreenI natanenosti merjenja za vse osebe v v vzorcu. Primerjava tega indeksa s klasieni . Zanesljivost maturitetnih izpitovH834 koeficientom zanesljivosti nam pove, ali se klasieno in TOP toekovanje razlikujet a glede na zanesljivost testnih dose.kov o Metoda4 Maturitetni preizkusi, ki smo jih analizirali, so bili izvedeni med leti 1996 in 1999 o Analizirali smo le rezultate junijskih preizkusov; pri izpitih, ki se lahko opravljajo n a osnovni in vi.ji ravni, smo analizirali le osnovno raven. Pri vsakem preizkusu sm 1 upo.tevali podatke vseh kandidatov, zaradi eesar je bilo .tevilo oseb pri razlienih analiza . razlieno (med 1084 in 8199). Podatke smo dobili od Dr.avnega izpitnega centra o Na tem mestu ne bomo podrobneje opisovali strukture in postopkov izvedbI posameznih izpitov, saj se le-ti med seboj precej razlikujejo. V splo.nem so izpiti obieajn 1 sestavljeni iz pisnega dela (ki ga sestavljajo raeunske, esejske ali objektivne naloge) iU ustnega dela, lahko pa tudi iz ocene seminarske naloge. Podrobnosti so dostopne . izdajah Dr.avnega izpitnega centra (npr. Ur.ie, 1997a; Ur.ie, 1997b). PsihometrienI analize smo izvedli s programi LISREL 8 (Jöreskog in Sörbom, 1993), MRFA2 (Kiers ¸ 1996) in MULTILOG 6 (Thissen, 1991) o Rezultati in razprava V rezultatih ne opisujemo deskriptivnih statistik posameznih preizkusov, saj bi to p 1 nepotrebnem zmanj.alo preglednost rezultatov, poleg tega pa lahko bralec te podatkI najde v poroeilih Dr.avnega izpitnega centra (Bre.ar, 1996; Grgurevie, 1998; Pivk ¸ 1997) o Ali je koeficient . ustrezna mera zanesljivosti za maturitetne preizkuse? V prvem koraku smo po Jöreskogovem (1971) postopku preverili predpostavk 1 esencialne t-enakovrednosti. V tem primeru nas niso zanimale ocene regresijski . parametrov in varianc napak, ampak le mere prileganja modela. Izmed mno.ice me . prileganja navajamo le dve (gl. npr. Bollen, 1989) ç 1 o c2 ƒ je mera odstopanja reproducirane od empiriene kovarianene matrike o Statistieno pomemben c2 pomeni, da je razlika med njima statistieno pomembn a in torej model ni ustrezen o 2 o AGFI (adjusted goodness-of-fit index) je opisna mera skladnosti, ki nam pove ¸ kolik.en dele. skupne variance je pojasnjen z modelom. Sprejemljive vrednosto te statistike so 0,90 ali vee o G. SoeanH tabeli 1 so prikazane vrednosti obeh statistik za vzorec arbitrarno izbrani . izpitov, ki pokrivajo vsa pomembnej.a predmetna podroeja (obvezni in izbirni predmeto ter naravoslovne in dru.boslovne vede) o isoke vrednosti c2 nam .e takoj povedo, da lahko v vseh petih primeri . zavrnemo esencialno t-enakovredni model. Tudi indeksi AGFI so zelo nizki, le pro matematiki (leta 1996) se AGFI pribli.a sprejemljivi vrednosti. Najbr. ne bo preve: tvegano zakljueiti, da naloge pri maturitetnih izpitih v splo.nem niso esencialno t N enakovredne in da koeficient a ni dobra mera zanesljivosti teh preizkusov. Analitiko Dr.avnega izpitnega centra (Kali.nik, Drole in Urank, 1998) torej gre.ijo, ko zanesljivoss izpitov ocenjujejo le s tem koeficientom o Po na.em mnenju sta za odstopanje od esencialno t-enakovrednega model a dva glavna razlogaç 1 o Nekateri izpiti niso enodimenzionalni: znaeilen primer je predmet Slovensko jezik in knji.evnost, ki je - kot pove .e ime - sestavljen iz dveh vsebinsko zel 1 razlienih sklopov o 2 o Pri veeini izpitov so komponente (pisne naloge, ustni izpit, seminarska nalogaÖ toekovane na razlienih lestvicah. Pri predmetu Psihologija imamo npr. na eno strani esejski del, ki je vreden 45 toek, na drugi strani pa kratke naloge, ko veljajo po eno toeko. Tak.ne naloge imajo seveda tako razliene variance, d a je praktieno nemogoee, da bi imele vsaj pribli.no enake variance pravi . dose.kov (razen v malo verjetnem primeru, da bi imele naloge z malo toekamo skoraj popolno zanesljivost, naloge z veliko toekami pa skoraj nieeln 1 zanesljivost) o Ocene zanesljivosti predmetnih izpitov4 Ker smo ugotovili, da koeficient a za na.e podatke ni optimalen, smo zanesljivoss ocenili s faktorsko analizo najmanj.ega ranga (MRFA). Rezultati so prikazani v tabelo 2. Za primerjavo so prikazani tudi koeficienti a o eeina koeficientov sicer dosega zanesljivost 0,75, ki je tipiena za teste znanj a (Bucik, 1993), vendar dele. variance napak pri vseh analiziranih izpitih presega dobr 1 Tabela 1: Mere prileganja za pet maturitetnih izpitovH Predmet in leto c2 AGFI N Psihologija 1996 3599*** 0,47 1177 Matematika 1996 4285*** 0,89 6315 Slovenski j. in knj. 1998 1961*** 0,59 8199 Fizika 1998 892*** 0,24 1731 Biologija z ekol. 1998 1090*** 0,35 1084 *** p < 0,1 ˆ Zanesljivost maturitetnih izpitovH854Tabela 2: Koeficienti zanesljivosti nekaterih maturitetnih izpitovH Predmet in leto MRFA a N Psihologija 1996 0,80 0,65 1177 Matematika 1996 0,86 0,84 6315 Slovenski j. in knj. 1998 0,68 0,57 8199 Angleški jezik 1998 0,84 0,76 5352 Fizika 1998 0,83 0,71 1731 Biologija z ekol. 1998 0,87 0,75 1084 desetino, kar najbr. ni razlog za zadovoljstvo. Zdi se, da imajo najveeje te.ave izpiti, ko vkljueujejo notorieno nezanesljive esejske naloge. Taka predmeta sta v na.em primerß Slovenski jezik in knji.evnost ter Psihologija. Seveda pa so predmetne komisije tiste ¸ ki se morajo odloeiti, ali se splaea .rtvovati del zanesljivosti za domnevno bolj. 1 vsebinsko veljavnost, h kateri naj bi prispevale esejske naloge o Zunanja matura se v Sloveniji izvaja .ele zadnjih pet let in predmetne komisije ¸ zadol.ene za sestavljanje izpitov, so si v zadnjih letih verjetno nabrale veliko novi . izku.enj. Zato se je zanimivo vpra.ati, ali se je zanesljivost maturitetnih preizkuso . skozi eas izbolj.evala. Za ilustracijo smo izbrali le matematiko in psihologijo. V nasprotju s prieakovanji se zanesljivost pri izbranih predmetih skozi eas no poveeevala, pri psihologiji pa se zdi, da je trend celo nekoliko negativen (zaradi majhneg a .tevila easovnih toek se nismo lotili analize trenda). Po eni strani je sicer nerealn 1 prieakovati, da se bo zanesljivost z leti zvi.evala v nedogled. Pri testih znanja, ko pokrivajo .iroko podroeje snovi - kot denimo velja za matematiko - .e heterogenoss snovi prepreeuje, da bi bili koeficienti zanesljivosti ekstremno visoki. Pri takih preizkusi . 199 . 199 . 199 . 199 . . t . Slika 1: Koeficienti zanesljivosti izpitov iz psihologije in matematike v razlienih letih.H .tevilo kandidatov pri psihologiji je bilo v zaporednih letih 1177, 1095, 1188 in 1339, priHmatematiki pa 6315, 7420, 7320 in 8080.H 0,50,60,70,80,91ZanesljivosPsihologijaMatematika 864G. SoeanH se je potrebno zavedati, da je resniena zanesljivost vedno .e nekoliko vi.ja od ocenjeneg a koeficienta, tudi ee ga izraeunamo z optimalno metodo. Kljub temu pa je stagnacij a koeficientov pri psihologiji lahko zaskrbljujoea. Po na.em mnenju lahko nizke koeficientI zanesljivosti pri tem predmetu pripi.emo tudi dejstvu, da je pri izpitu iz psihologije lI malo povsem objektivno vrednotenih nalog, velik vpliv na oceno pa imajo ocene eseje . in ocena seminarske naloge, kjer zelo te.ko dose.emo zadovoljivo objektivnoss ocenjevanja o Zanesljivost skupne ocene4 Maturitetni izpit ni le zakljueni izpit ob koncu srednje.olskega izobra.evanja, ampa÷ tudi izbirni izpit za vpis na univerzitetni .tudij. S tega vidika je pomembna tudi zanesljivoss skupne ocene in ne le posameznih izpitov. Nenavadno je, da maturitetni organi dosle 3 temu vpra.anju niso posvetili nikakr.ne pozornosti, saj v svojih poroeilih (Bre.ar, 1996e Grgurevie, 1998; Kali.nik in sod., 1998; Pivk, 1997) nikjer ne navajajo zanesljivosto skupnih ocen o Zanesljivost skupne ocene je za razliene kombinacije predmetov razliena. GledI na to, da je kombinacij predmetov zelo veliko, bomo na tem mestu navedli le vzoreno primer za pet predmetov: matematiko, slovenski jezik, angle.ki jezik, psihologijo iU biologijo, ki so morda tipieni za bodoeega .tudenta psihologije. Povpreena zanesljivoss na.tetih izpitov je 0,80. Zanesljivost vsote smo izraeunali kot zanesljivost vsotI standardiziranih (z) vrednosti. Predpostavili smo torej, da ocena vsakega izpita prinesI enak dele. k skupni oceni. Kot ocene zanesljivosti smo vzeli koeficiente zanesljivosto za leto 1998, izraeunane z MRFA (gl. tabelo 2) o Zanesljivost vsote z vrednosti je bila 0,87. Za ilustracijo povejmo, da je pro tolik.ni zanesljivosti standardna napaka merjenja enaka 36% standardne deviacijI dose.kov, .irina 95% intervala zaupanja za pravi dose.ek pa je 1,32 standardne deviacijI skupnih dose.kov. Kandidat, ki je dosegel povpreeno .tevilo toek, ima torej s 95 ˆ verjetnostjo pravi dose.ek nekje v obmoeju M ± 0,66 SD. Tako .irok interval zaupanj a seveda ni rezultat, s katerim bi lahko bili zadovoljni; zanesljivost skupne ocene tudi nI dosega vrednosti 0,90, ki jo priporoeata Nunnally in Bernstein (1994). Seveda navedeno rezultat velja samo za to kombinacijo predmetov. Nekoliko v .ali lahko dodamo, d a bodo kandidati s slab.im znanjem storili bolje, ee bodo izbrali eim manj zanesljiv 1 kombinacijo predmetov: na ta naein lahko upajo, da bodo zaradi regresijskega pojav a .nazadovanja proti povpreeju. njihovi dose.ki bli.e povpreenemu, kot bi si sicer zaslu.ili o Nasprotno pa bo za dobro pripravljene kandidate preudarnej.a izbira katera od bol 3 zanesljivih kombinacij o Navedeni rezultati bi bili nataneni, ee bi bil skupni maturitetni dose.ek ena÷ vsoti standardiziranih dose.kov na posameznih izpitih. .al pa Dr.avni izpitni center . resnici pred se.tevanjem dose.ek na vsakem izpitu pretvori na petstopenjsko lestvico ¸ nakar se se.tejejo tako zaokro.eni rezultati. Za ta postopek ne najdemo nikakr.neg a razumnega opravieila. Njegov ueinek je podoben, kot ee bi vsaki oceni pri.teli nek 1 Zanesljivost maturitetnih izpitovH874 majhno nakljueno vrednost. .al ne poznamo postopka, s katerim bi lahko natanen 1 ugotovili, za koliko se zaradi zaokro.evanja zmanj.a zanesljivost; razlog za to je dejstvo ¸ da politomizacija zmanj.a variabilnost spremenljivke. Na podlagi preliminarnih poskuso . s simuliranimi podatki pa ocenjujemo, da lahko pretvorba na petstopenjsko lestvic 1 zmanj.a dele. prave variance tudi za nekaj odstotkov o Na prvi pogled se morda sicer zdi, da s to pretvorbo izenaeimo prispevek vsakeg a izpita k skupnemu dose.ku, vendar to ne dr.i, ker se pretvorba na petstopenjsk 1 lestvico ne izvaja z z vrednostmi. S tega vidika bi bilo enako ueinkovito, ee bi se.telo odstotne toeke za vsak predmet. Maturitetni organi torej brez potrebe zni.ujejo . I tako ne dovolj visoko zanesljivost maturitetne ocene o Zanesljivost z vidika teorije odgovora na postavko4 Uporabili smo Samejimin (1969, 1997) model za graduirane odgovore. Ta mode× omogoea analizo postavk na veestopenjski lestvici in dopu.ea razliene diskriminativnosto postavk. Analizirali smo izpit iz matematike leta 1999. Tu ne navajamo parametro . modela za posamezne postavke, ker z vidika zanesljivosti niso zanimivi. Slika 2 prikazujI standardno napako ocene latentne poteze (t.j. znanja matematike) pri razlienih ravne . znanja. Znanje je, kot je pri tovrstnih analizah obieaj, lestvieeno na standardizirano lestvici o Kot vidimo, je standardna napaka ocene najni.ja za osebe, katerih dose.ek jI pribli.no med z vrednostima 0 in 1. Preizkus torej najbolj nataneno meri znanjI kandidatov, ki so nekoliko nad povpreejem. Vseeno pa je standardna napaka podobn 1 visoka pri vseh ravneh znanja. Sama vi.ina standardne napake je razmeroma visok a . okoli .tiri desetine standardne deviacije. Koeficient robne zanesljivosti je enak 0,84 ¸ -2-1 1 1 . Znanj . Slika 2: Standardna napaka ocene pri razlienih ravneh znanja matematike.H 00,10,20,30,40,5Stand. napaka 87 G. SoeanH kar je zelo blizu koeficientu zanesljivosti, izraeunanem v skladu s klasieno testno teorij 1 (z MRFA), ki zna.a 0,85. Z vidika zanesljivosti se torej vrednotenje po teoriji odgovor a na postavko v tem primeru ni pokazalo bolj.e od klasienega vrednotenja s se.tevanje . toek. Tudi sicer menimo, da si teorija odgovora na postavko .e nekaj easa ne bo utrl a poti do vrednotenja maturitetnih izpitov. Prvi razlog je, da je ta paradigma bolj primern a za postavke z malo kategorijami, pri nalogah z veejim .tevilom toek (npr. esejskih) p a se lahko pojavijo tehnieni problemi z ocenjevanjem parametrov. Drugi razlog je prece 3 banalen, a nie manj pomemben: dvomimo, da bi si katerikoli .olski minister upal odobrito sistem vrednotenja izpitov, po katerem bi lahko kandidat z manj toekami dobil bolj. 1 oceno kot kandidat z vee toekami o Zakljueki4 Na vpra.anje, ali je zanesljivost maturitetnih izpitov dobra ali slaba, ni mogoee enoznaen 1 odgovoriti. V prid pozitivni oceni govorita dva razlogaç 1 o 2 o zanesljivost mature veeinoma dosega in tudi presega tipiene zanesljivosti testo . znanjae pri sestavljanju maturitetnih izpitov ni mogoee uporabiti obieajnega postopk a sestavljanja testa, pri katerem najprej preizkusimo veejo skupino nalog, izmeB katerih potem v koneno obliko izberemo najbolj.e o Po drugi strani pa vseeno ne moremo mimo tega, da so standardne napakI merjenja razmeroma velike in da vpliv nakljueja na maturitetno oceno ni tako majhen ¸ kot bi si .eleli. Seveda so predmetne komisije tiste, ki morajo oceniti, ali lahko man 3 zanesljive naloge oz. tipe nalog nadomestijo z bolj zanesljivimi ali pa bi to preve: poru.ilo njihov koncept maturitetnega izpita o Iz na.ih rezultatov lahko izlu.eimo .e nekaj praktienih priporoeilç 1 o Koeficient a v mnogih ali celo veeini primerov ni ustrezna mera zanesljivosto maturitetnih izpitov. Alternativa, prikazana v tem prispevku, je faktorska analiz a minimalnega ranga, na voljo pa so tudi druge, bolj dostopne mo.nosti (gl. npr o Jöreskog in Sörbom, 1993) o 2 o Skupna maturitetna ocena naj bo vsota standardiziranih dose.kov n a posameznih izpitih, nikakor pa ne vsota petstopenjskih ocen o 3 o Sestava in analiza izpitov naj zaenkrat ostaneta v okvirih klasiene testne teorije ¸ kljub temu pa naj pristojni organi v dolgoroenih naertih upo.tevajo prednosto teorije odgovora na postavko o Ob koncu naj .e enkrat poudarimo, da namen tega prispevka ni bil prikaz vse . koeficientov zanesljivosti za vse predmete v vseh preteklih letih. Ee nie drugega, bi R Zanesljivost maturitetnih izpitovH894 takim prikazom bistveno presegli prostor, ki je na razpolago. Namesto tega smo .elelo predvsem prikazati metodologijo, s katero se lahko optimalno lotimo analize zanesljivosti o Zdi se namree, da so dosedanje analize, objavljene v poroeilih maturitetnih organov ¸ zanesljivost obravnavale precej povr.no . njihovi avtorji so se zadovoljili s prikazo . koeficientov a, ne da bi se vpra.ali o utemeljenosti teh izraeunov, poleg tega pa s 1 nekatera vpra.anja, denimo zanesljivost skupne ocene in intervale zaupanja, preprost 1 izpustili. Upamo, da jih bo ta prispevek spodbudil k pazljivej.emu obravnavanju navideX preproste problematike o Literatura4 Birnbaum, A. (1974). Some latent trait models and their use in inferring an examinee.s ability o F.M. Lord in M.R. Novick, Statistical theories of mental test scores (2nd printing)H (str.397-479). Reading, MA: Addison-Wesley o Bollen, K.A. (1989). Structural equations with latent variables. New York: Wiley o Bre.ar, F. (ur.). (1996). Maturitetno letno poroeilo . matura 1996 [Matura 1996 annua× report]. Ljubljana: Dr.avni izpitni center o Cronbach, L.J. (1951). Coefficient alpha and internal structure of tests. Psychometrika, 16,H 297-334 o Cronbach, L.J. (1990). Essentials of psychological testing (5th ed.). New York: Harpe . Collins o Grgurevie, J. (ur.). (1998). Maturitetno letno poroeilo . matura 1998 [Matura 1998 annua× report]. Ljubljana: Dr.avni izpitni center o Guttman, L. (1945). A basis for analyzing test-retest reliability. Psychometrika, 10, 255-282 o Hambleton, R.K., Swaminathan, H. in Rogers, H.J. (1991). Fundamentals of item responseH theory. Newbury Park: Sage o Jackson, P.H. in Agunwamba, C.C. (1977). Lower bounds for the reliability of the total scorI on a test composed of non-homogeneous items: I: Algebraic lower bounds o Psychometrika, 42, 567-578 o Jöreskog, K.G. (1971). Statistical analysis of sets of congeneric tests. Psychometrika, 36 ¸ 109-133 o Jöreskog, K.G. in Sörbom, D. (1993). LISREL 8 - User.s reference guide. Chicago, IL ç Scientific software international o Kali.nik, M., Drole, D. in Urank, M. (1998). Edukometriena analiza ocenjevanja [Educometri ¬ analysis of grading]. V F. Bre.ar (ur.), Notranje vrednotenje mature (str. 35-41) o Ljubljana: Dr.avni izpitni center o Kiers, H.A.L. (1996). MRFA2: a computer program for Minimum rank factor analysiR [Programska oprema]. Groningen: University of Groningen o Lord, F.M. in Novick, M.R. (1974). Statistical theories of mental test scores (2nd printing).HReading, MA: Addison-Wesley o Nunnally, J.C. in Bernstein, I.H. (1994). Psychometric theory (3rd ed.). New York: McGrawN Hill o Pivk, V. (ur.). (1997). Maturitetno letno poroeilo . matura 1997 [Matura 1997 annua× 904G. SoeanH report]. Ljubljana: Dr.avni izpitni center o Rost, J. (1996). Lehrbuch Testtheorie Testkonstruktion. Bern: Hans Huber o Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scoresH (Psychometric Monograph No. 17). Iowa city: Psychometric society o Samejima, F. (1997). Graded response model. V W. van der Linden in R.K. Hambleton, Handbook of modern item response theory (str. 85-100 ). New York: Springer o ten Berge, J.M.F. (1998). Some recent developments in some classical psychometricHproblems. Referat na 9th European conference on personality, Guildford, Zdru.en 1 kraljestvo o ten Berge, J.M.F. in Kiers, H.A.L. (1991). A numerical approach to the approximate and thI exact minimum rank of a covariance matrix. Psychometrika, 56, 309-31â Thissen, D. (1991). MULTILOG user guide. Chicago, IL: Scientific software international o Ur.ie, M. (ur.). (1997a). Zbirka maturitetnih nalog 1995 in 1996 z re.itvami (obvezniH predmeti) [Compendium of the Matura 1995 and 1996 examination questions anB answers (compulsory subjects)]. Ljubljana: Dr.avni izpitni center o Ur.ie, M. (ur.). (1997b). Zbirka maturitetnih nalog 1995 in 1996 z re.itvami (izbirniHpredmeti, I. del) [Compendium of the Matura 1995 and 1996 examination questionR and answers (optional subjects, part I)]. Ljubljana: Dr.avni izpitni center o