Božidar Brudar, dipl. inž. Železarna Jesenice DK: 519.24 ASM/SLA: SL2 Interpretacija diagramov V članku je opisano, kaj lahko trdimo in česa ne moremo zagovarjati pri interpretaciji diagramov, če se držimo principov matematične statistike. Opisana je tudi metoda ortogonalnih polinomov, s katero določamo, katera potenca polinoma je še statistično pomembna. V Železarskem zborniku, pa tudi v drugih revijah se pogosto pojavljajo članki, v katerih avtorji delajo zaključke na podlagi rezultatov meritev, ki so prikazani z diagrami. Diagramu navadno sledijo zaključki o povezanosti med odvisnimi in neodvisnimi spremenljivkami, ki pa so pogosto nekritični. Velikokrat se namreč vidi, da določene trditve diagram sploh ne podpira. To velja tudi za nekatere referate na XV. posvetovanju metalurgov v Portorožu v oktobru 1972. Kritičnemu bralcu se vsiljuje vprašanje, kaj je prav: ali držijo zaključki, ki so morda avtorju znani iz literature, ali njegovi eksperimentalno dobljeni diagrami. To zavaja tudi druge raziskovalce, če verjamejo razlagi, ki se morda pozneje izkaže kot nepravilna. To pa vnaša v naše delo nezaupanje. Če bi vse zaključke statistično preverili, bi v svoje delo vnesli več kritičnosti in ne bi delali nepotrebnih napak. V naslednjih primerih si bomo ogledali, kako lahko interpretiramo rezultate meritev, ki jih ponazarjamo z diagrami. Linearna regresi j a Oglejmo si, kaj na primer lahko povemo o povezavi med spremenljivkama X in Y, če smo si X izbrali (neodvisna spremenljivka), Y pa merili (odvisna spremenljivka). Rezultate 11 meritev (tabela I) smo narisali kot točke na sliki 1. Narišimo diagram! Predpostavimo, da že iz literature vemo, da je zveza linearna, t. j. da gre za premico s smernim koeficientom okrog 0,4. Premico je treba narisati tako, da se njen potek kar najbolj ujema s potekom točk na sliki 1. Matematično to zahtevo izpolnimo tako, da določimo parametre bo in bi v regresijski enačbi Y = bo + n + bi X iz pogoja ^ (Yj — Y;)2 = minimum1. i=l Tabela I X Y 0 6 1 5 2 7 3 5 4 7 5 7 6 8 7 0 6 O O 9 O 10 10 9 10 B 6' 4 2 °0 2 4 6 8 TO -- X Slika 1 Podatki iz tabele 1 Za naš primer dobimo sledeče vrednosti: bo = 5,227, bi = 0,373, koeficient množične ko-relacije R = 0,781. To pomeni, da smo z linearno zvezo Y = 5,227 + 0,373 X pojasnili približno 61 % celotnega razsipanja vrednosti Y. Dobili smo torej enačbo premice, ki pa velja le za naš vzorec 11 meritev. Kaj lahko povemo o linearni zvezi med X in Y, ki naj velja za celo populacijo, t. j. za množico točk, ki bi jih lahko narisali, če bi jih izmerili. O karakterističnih parametrih populacije lahko povemo le interval vrednosti, v katerem lahko dani parameter z neko določeno verjetnostjo pričakujemo. Regresijsko enačbo za populacijo lahko zapišemo v obliki Y = Po + Pi X. Določili bomo interval, v katerem z 90 % gotovostjo pričakujemo vrednost parametra Pi. Še prej se pa vprašajmo, kakšne informacije lahko dobimo o naši populaciji parov (X, Y), če smo naredili omenjenih 11 meritev. Ali lahko na podlagi eksperimenta trdimo, da gre tudi v našem primeru za koeficient (3i = p,' = 0,4, kot navaja literatura? Označimo standardno napako ocene z SE, ki je definirana z relacijo: SE = 2 (t-v,)2 i = l n —2 Standardno napako regresijskega koeficienta izračunamo po formuli: Sb = i=l Izračunajmo parameter t: b, - [3', t = Sb, V našem primeru je SE = 1,034 Sb, = 0,0986 bi = 0,373 P'i = 0,400 t = 0,277 če se odločimo za a — 0,05, je t(1 _ _?_)_ (n —2) = to,975; 9 = 2,262, kar je precej več kot 0,277. Hipoteze torej ne moremo zavreči. To pa še ne pomeni, da smo že dokazali, da je Pi za našo populacijo enak P\ = 0,4. Upoštevati je treba še operacijske karakteristike2 za tak primer. Vprašajmo se, ali nismo pri tem, ko smo sprejeli hipotezo, da je Si = = 0,4, naredili preveliko napako druge vrste. Tabela II t v, n v = 0,950 v = 0,975 1 6,314 12,706 2 2,920 4,303 3 2,353 3,182 4 2,132 2,776 5 2,015 2,571 6 1,943 2,447 7 1,895 2,365 8 1,860 2,306 9 1,833 2,262 10 1,812 2,228 11 1,796 2,201 12 1.782 2,179 13 1.771 2,160 14 1.761 2,145 15 1.753 2,131 16 1,746 2,120 17 1,740 2,110 18 1,734 2,101 19 1.729 2,093 20 1,725 2,086 za katerega velja Studentova distribucija (tabela II.). Hipotezo, da je naš vzorec iz populacije z vrednostjo Pi = Pi' = 0,4 bomo zavrgli v primeru, če bo |t| =5 t(1__a-)i(n_2)» pri čemer je a verjetnost za napako prve vrste2, n pa število meritev v vzorcu. Operacijske karakteristike Pokazati se da,3 da je za ta primer treba upoštevati drug tip operacijskih karakteristik, kot so opisane v članku2, saj imamo opravka s Studento-vo distribucijo. Na sliki 2 je narisana familija operacijskih karakteristik za dvostransko preverjanje hipotez, če gre za Studentovo distribucijo, pri čemer smo si izbrali a = 0,05. d = |Pi-P'i| .Sx P -C o S ■I -8 Slika 2 Operacijske karakteristike za dvostranski t — test Ce privzamemo, da je standardna deviacija cry = Sy = 1,578 in standardni odklon spremenljivke X Sx = 3,317, lahko iz diagrama na sliki 2 odčitamo, da pripada 20 % verjetnosti za sprejeto hipotezo pri vzorcu (11 vrednosti) vrednost parametra d — 1. V diagramu je treba za ta primer upoštevati krivuljo s številko n—1, če je n število podatkov v vzorcu3. Ce je {3*i = 0,4, bi to odgovarjalo (3, = 0,876. Pri tako majhnem vzorcu lahko torej naredimo občutno napako druge vrste. Trdimo lahko, da je Pi = 0,4, pri tem pa je še vedno 20 % verjetno, da smo se zmotili, ker je v resnici morda Pt = 0,876. Vprašamo se pa lahko tudi drugače. Kolikšna je verjetnost, da smo se zmotili, ko smo trdili, da je Pi = 0,4, ker je le-ta morda 0,2 oziroma 0,62. Iz družine operacijskih karakteristik (slika 2) znaša za ta primer vrednost d = 0,420 in verjetnost za takšno napako je potem približno 80 %. Iz istega diagrama se vidi, da bi za preskus trditve, da je Pi = P'i = 0,4 potrebovali približno 40 podatkov, če bi hoteli zagotoviti, da bi pri Pi = 0,2 oziroma 0,6 znašala verjetnost za napako druge vrste le 20 %. Pri tako majhnem vzorcu torej nikakor ni izključeno, da bi bil Pi za našo populacijo enak 0,4, vendar pa je tudi verjetnost za vrednosti Pi 0,2 ali 0,6 zelo velika. Ničelna hipoteza Oglejmo si še drug primer. Na sliki 3 so narisane točke (n = 11), ki ponazarjajo odvisnost Y od X (tabela 3) pri nekem drugem poskusu. Tabela III. X Y 0 7 1 8 2 7 3 6 4 7 5 7 6 6 7 7 8 6 9 6 10 7 Narisana je regresijska premica, ki jo karakte-rizirajo sledeči parametri: R = 0,466 10 8 i. 4 2 ^0 2 4 6 8 TO -- X Slika 3 Primei za ničelno hipotezo bi = —0,0909 Sb, = 0,0575 Sx = 0,332 Sy = 0,647 Pojasnjenih je približno 22 % vseh odstopanj spremenljivke Y. Ali smemo trditi na podlagi izračunane regre-sijske premice, da Y pada, ko X narašča od 0 proti 10? Ali gre sploh za kakšno odvisnost med X in Y? Ta primer testiramo tako, da postavimo ničelno hipotezo: P'i = 0 Ali lahko trdimo, da je naš vzorec iz populacije, kjer je Pi = 0, oziroma da ni odvisnosti med X in Y? Izračunajmo vrednost parametra t! t = j bj —p'i Sb, V našem primeru je t = 1,581. Ce si ponovno izberemo a = 0,05, znaša t0 975. g — 2,262, kar je več kot 1,581. Hipoteze Pi = p'i = 0 ne moremo zavreči. Trdili bi torej, da med Y in X ni povezave. Ali smo pa naredili napako druge vrste? Ali ni morda resnični Pi sicer majhen in negativen in je le število meritev premajhno? Spet si pomagajmo z operacijskimi karakteristikami na sliki 2. Kolikšna je verjetnost, da je resnični Pi = —0,1? Za ta primer znaša vrednost d: To pomeni, da je približno 70 % verjetno, da smo zgrešili premico z regresijskim koeficientom — 0,1. 20% verjetnost za napako druge vrste bi bila šele pri d = 1, oziroma (3i = —0,195. Potrebovali bi vsaj 32 podatkov, da bi lahko rekli, da je Pi = p'i = 0 in bi bilo pri tem 20 % verjetno, da bi zgrešili pri takem testiranju res-bila šele pri d = 1, oziroma (3i = —0,195. Populacija Kaj torej lahko povemo o parametru (3i za primer na sliki 1. Točne vrednosti ne moremo povedati. Lahko pa določimo interval, v katerem z 90 % gotovostjo pričakujemo vrednost parametra Pi po formuli3- 5.6: Pi = b, 1 + 7 .S, Y' = Y (X') ± t j +7 ■ S, n—2 1 (X' —X)2 n~+ I(X; — X)2 Y' = Y (X') + tt + 7 . Sy, , n—2 pri čemer je SY' = SE . 1 (X' —X)2 1 + — +-— n 2 (X; — X)2 12 10 B A A B • • Pri tem je y verjetnost (0,90), n pa število podatkov v vzorcu (11) in t0 95.9 = 1,8 3 3 po tabeli II: 0,193 < < 0,553 Zaradi velikega procenta nepojasnjenih vplivov (slučajnostnih) tudi za določeno vrednost X' ne moremo povedati, kolikšna bi bila pripadajoča vrednost Y'. Določeni vrednosti X' pripada veliko število možnih vrednosti Y'. Vse te vrednosti se porazdeljujejo okrog neke srednje vrednosti Y'. Predpostavljamo, da je distribucija vrednosti Y', ki pripada nekemu določenemu X', normalna in da je standardna deviacija teh Y' enaka pri vseh X'. Interval vrednosti, v katerem lahko z_neko določeno verjetnostjo (y) pričakujemo naš Y', se lahko izračuna po formuli: 10 Na sliki 4 sta narisani obe meji (A) za 90% verjetnost za podatke iz tabele 1. Ce bi torej naredili zelo veliko meritev, bi lahko na primer pri X' = 7 dobili množico pripadajočih vrednosti Y'. Srednja vrednost teh Y' bi bila nekje med 7,1 in 8,5. To pričakujemo z 90 % gotovostjo. Vprašajmo se še, kaj lahko pričakujemo za posamezno vrednost Y', ki pripada nekemu X'. Z verjetnostjo y lahko pričakujemo, da bo Y' ležal v intervalu Slika 4 Regresijska premica in meje 90 % gotovosti Na sliki 4 sta narisani obe mejni vrednosti (B) tudi za 90 % gotovost za vrednost Y'. Pri X' = 7 lahko torej z 90 % gotovostjo pričakujemo, da bomo pripadajočo vrednost Y' našli nekje med 5,8 in 9,8. Zato moramo biti zelo previdni pri opisovanju poteka odvisnosti Y (X). Neutemeljena bi bila trditev, da na primer Y močno narašča, ko gre X od 7 proti 9, nato pa hitro pada. Parabolična odvisnost Zastavimo si še eno vprašanje. Predpostavimo, da so točke na sliki 1 rezultat nekih meritev vrednosti Y pri posameznih vrednostih X. Očitno je, da so vrednosti Y do neke mere odvisne od vrednosti X. Toda, ali je odvisnost zares linearna? Če nam tega ni nihče prej povedal, bi bilo morda pravilneje narisati kakšno parabolo, ki bi lepše ponazarjala potek teh točk na sliki 1. Po metodi najmanjših kvadratov1 smo poiskali regresijske koeficiente v naslednjih enačbah: Linearna Kvadratična Kubična Parabola četrte stopnje Y, = b0i + b„X (61%) Y2 = bo2 + bi2X2 (65%) Y3 = b03 + bi3X3 (63%) Y4 = bo, + b14X" (59%) V oklepaju je naveden procent raztrosa vrednosti Y, ki ga pojasnjuje posamezna enačba (R2). Parabola druge stopnje Y2 pojasnjuje največji del raztrosa, vendar gre le za 4 % izboljšanja glede na linearno regresijsko funkcijo Yi. Slika 5 Regresijska enačba: Yi = boi + bn X Slika 7 Regresijska enačba: Yi = boj + bi3 X3 10 o Slika 6 Regresijska enačba: Y2 = bo2 + bi2 X2 Naredimo enako analizo glede vrednosti Y' in Y', ki jih lahko pričakujemo z 90 % gotovostjo v primeru, ko gre za kvadratično parabolo. Narišemo lahko podoben diagram (slika 9), kot ga prikazuje slika 4. V tem primeru lahko z 90 % gotovostjo pri X' = 7 pričakujemo Y' med 7,0 in 8,2. Posamezno vrednost Y' pa lahko z 90 % verjetnostjo najdemo v intervalu med 5,7 in 9,5. S tega stališča je kaj malo važno, kaj v resnici narišemo skozi točke na sliki 1 — premico ali parabolo. Obe sta dokaj neostro definirani, če že potegnemo parabolo, moramo pa biti zelo previdni pri zaključkih. Slika 8 Regresijska enačba: Y* = b»4 + bn X4 Nujno je treba upoštevati statistično gotovost, oziroma negotovost pri vrednostih funkcije Y, ki jih želimo napovedati. Zaradi velikega raztrosa točk okrog parabole težko trdimo za populacijo, da se na primer krivulja odvisnosti med Y in X pri večjih X bolj strmo dviga kot pri majhnih vrednostih X. Metoda ortogonalnih polinomov daje točnejši odgovor na vprašanje, ali sploh gre za parabolo ali ne. Metoda ortogonalnih polinomov V primeru, ko so posamezne vrednosti X enakomerno (v enakih intervalih) razporejene in, ko Zaradi ortogonalnih lastnosti lahko izračunamo koeficiente A;: Y - A0 = 2 = Y A= = i = 1 V primeru, ko vrednosti X naraščajo od 1 do n11 v enakih intervalih (po 1), lahko izračunamo prve tri ortogonalne polinome po formulah: 5, =X, (X —X) Z2 = \2 ?3 = X3 (X-X)2- n2—1 12 (X —X)3— (X- .X).3n2-7 20 Slika 9 Regresijska parabola Y: in meje 90 % gotovosti vsaki vrednosti X pripada le en Y, je mogoče narediti polinomno regresijo s pomočjo ortogonalnih polinomov.6.8 Metoda je zelo podobna postopni regresiji1, oziroma polinomni regresiji9. Največja prednost te metode pred običajno polinomno regresijo je v tem, da lahko postopoma dodajamo člene višjega reda, ne da bi pri tem morali spreminjati tudi koeficiente pri ostalih stopnjah polinoma. Če smo na primer poskušali najprej opisati zvezo Y (X) z linearno enačbo Y =b0 +biX po programu za polinomno regresijo9, nato pa smo jo izboljšali z nastankom Y = b'o + b'iX + b'2X2, smo morali vso obdelavo narediti še enkrat. Vrednosti bo in bi nam ne koristijo več, saj je bo / b'o in b, 9t b'i. Slabost programa9 je tudi v tem, da ne moremo vedeti, kolikšen je prispevek dodanega kvadratnega člena. Metoda ortogonalnih polinomov nam pa da drugačno sliko. Namesto običajnega izraza Y = bo + bi X +......bk Xk lahko uporabimo izraz: Y = A0 + Ai +......Ak |k, kjer so |j(i = 1 -» k) ortogonalni polinomi i-te stopnje spremenljivke X, A; (i = 0 -»k) pa konstante. Za ortogonalne polinome velja: 2 št |k = 0 če je i # k 2 Si = 0 n Pri tem seštevamo po vseh vrednostih spremenljivke X. X si izberemo tako, da je % čim manjše celo število. Analiza variance daje sliko o prispevku posameznih ortogonalnih polinomov, ki nastopajo v regresijski enačbi. Vsota kvadratov, ki pripada i-temu polinomu je enaka: A; 2 (Y^i) n Regresijske enačbe s pomočjo ortogonalnih polinomov Po tej metodi smo obdelali primer iz tabele I in se prepričali, da gre pri tem le za linearno odvisnost (Tabela IV.) Opraviti imamo z 11 vrednostmi X, ki naraščajo po 1 od 0 do 10. Omejili smo se le na prve tri ortogonalne polinome. Iz tabel10 se da videti, da znaša vrednost parametra F za 95 °/o verjetnost za ta primer F1; 7.0 05 = = 5,5914, za 90% verjetnost pa 12,246. Očitno je torej, da je edina smiselna regresijska enačba — enačba premice. Kvadratični prispevek ni statistično pomemben. Regresijsko enačbo zapišemo z ortogonalnimi polinomi takole: Y = 7,0909 + 0,3727. (X —5), oziroma: Y = 5,2273 + 0,3727 X ZAKLJUČEK Opisali smo torej nekaj osnovnih primerjav, ki jih mora upoštevati vsak, ki želi interpretirati svoje diagrame. Nekritično tolmačenje takšnih diagramov lahko zavaja raziskovalce pri njihovem delu, da pogosto ugotavljajo dejstva, za katera nimajo nobene osnove. Tabela IV. X Y 5, 52 53 Y . 5i Y.52 Y.?3 0 6 —5 + 15 —30 —30 + 90 —180 A0 = 7,0909 1 5 —4 + 6 + 6 —20 + 30 + 30 2 7 —3 — 1 + 22 —21 — 7 + 154 3 5 —2 — 6 + 23 —10 — 30 + 115 A, = 0,3727 4 7 —1 — 9 + 14 — 7 — 63 + 98 5 7 0 —10 0 0 — 70 0 A2 = 0,0338 6 8 + 1 — 9 —14 8 — 72 —112 7 6 + 2 — 6 —23 12 — 36 —138 A3 = 0,0002 8 8 + 3 — 1 —22 24 — 8 —176 9 10 +4 + 6 — 6 40 + 60 — 60 10 9 + 5 + 15 + 30 45 + 135 + 270 I 78 0 0 0 + 41 + 29 + 1 X 1 1 5 6 SŠ2 110 858 4290 Analiza variance za primer iz tabele I. Prispevek Vsota Stopnje Povprečni polinomov kvadratov prostosti kvadrat Linearni 15,2818 1 15,2818 12,37 Kvadratični 0,9802 1 0,9802 0,79 Kubični 0,0002 1 0,0002 0,00 Ostanek 8,6469 7 1,2353 Vsota 24,9091 10 Metoda ortogonalnih polinomov pa kaže, kako efektivno je mogoče tudi brez modernega računalnika določiti osnovne karakteristike povezave med X in Y. Literatura 1. B. Rode: Statistična analiza regresije z uporabo elektronskih računalnikov. Železarski zbornik št. 3, leto 1969, stran 221. 2. B. Brudar: Preverjanje statističnih hipotez s pomočjo oepracijskih karakteristik. Železarski zbornik št. 3. 1972, stran 175. 3. A. H. Bowker, G. J. Lieberman: Engineering Statistics, Prentice Hali, Inc. 1959. 4. M. Fisz: Wahrscheinlichkeitsrechnung und mathemati-sche Statistik VEB Deutsche Verlag der VVissenschaften, Berlin 1970. 5. N. W. Smirnov, I. W. Dunin — Barkovski: Mathemati-sche Statistik in der Technik, VEB Deutsche Verlag, der W., Berlin 1970. 6. B. Ostle: Statistics in Research, The Iowa State Univer-sity Press 1969. 7. A. Linder: Planen und Auswerten von Versuchen, Birk-hauser Verlag 1969. 8. O. L. Davies: Design and Analysis of Industrial Experi-ments, Hafner Publishing Company, New York 1971. 9. System/360 Scientific Subroutine Package (360A-CM-03X) Version III, Programmer's Manual, IBM Application Program 10. B. Rode, J. Rodič: Statistično planiranje in vrednotenje metalurških raziskav, Žel. zbornik št. 2, 1968, stran 99. ZUSAMMENFASSUNG Die Messergebnisse werden iiblich in einem Diagramm als Punkte aufgezeichnet. Diese Punkte werden dann mit einer entsprechen Kurve verbunden. Was fiir eine Kurve durch diese Punkte aufgezeichnet werden kann und welche Schlussfolgerungen iiber die Zu-sammenhange zwischen der abhangigen und unabhangigen Variable gezogen werden konnen wenn wir die Prinzipen der mathematischen Statistik befolgen, ist in diesem Arti- kel enthalten. Es sind zwei Beispiele beschrieben, bei denen mit Hilfe der Operationskarakteristiken die Zuver-lassigkeitsgrenzen der Regresionsgleichungsparametern be-stimmt werden. Mit der Methode der ortogonalen Polynomen ist die Wichtigkeit der einzelnen Glieder im Polynom, vvelche die Abhiingigkeit Y von X darstellt bestimmt. SUMMARY Experimental results are usually plotted in a diagram. Singular points are connected by a most suitable curve. The paper discribes which curve may be dravvn and which conclusios on the relationship between the de-pendent and the independent variable can be made if the principles of mathematical statistics are obeyed. Two examples are described where confidence intervals for the parameters of the regression equation are determined by means of operating characteristic curves. Method of orthogonal polynomiaIs determines the im-portance of single terms in polynomials which represents the relationship betvveen Y and X. 3AKAKMEHHE Pe3yAbTaTbi H3MepeHHH KaK CAeAyeT HapiicoBbiBaeM b $opMe tomek b AHarpaMMy. Tomkh coeAHHaeM b HanSoAee n0AX0A«mVK> KpHByK). AaHO oracaHHe KaKyio KpHByio mo>kho HapHCOBaTb, H KaKiio 3aKAIOTeHHH mojkho BtIBeCTH O COOTHOmeHHH me«ay 3aBHCHMbISIH n He3aBHCHMbiMH H3MeHseMbiMH BeAHHHHaMii, npiiAep)KHBaacb npiIH-LliinOB MaTeMaTIIMCCKOH CTaTHCTHKH. OnncaHbi Asa npuMepa npn KOTOpbix, npn noMomH onepaniBHbix xapaKTepiiCTHK, onpeAeAeHbi rpaHHUbi HaAe>KHOCTH napaMeTpoB ypaB-HeHHH perpeccim. MeTOAOM opToroHaAbHbix MHOroiAeHOB onpeAeAeHO 3HaMeHHe 0TAeAbHbix vAeHOB, >ito npeACTaBAaeT coBofl 3aBiiciiMocTb Y ot X.