Boštjan Rode, dipl. inž. matem. Železarna Ravne ASM/SLA: S 12j; U 4 k DK: 519.28 : 681.3 Statistična analiza regresije z uporabo elektronskih računalnikov V članku sta opisana dva programa iz področja analize regresije. Prvi program je narejen po metodi »Korak za korakom« in določi le pomembne spremenljivke, ki ena za drugo vstopajo v regresijsko enačbo. Program je razložen na primerih rezultatov iz elektronskega računalnika ZUSE Z-23. Prikazani so tudi nomogrami teh primerov, ki nam grafično predočijo rezultate. Taki nomogrami so se pri raziskovalnem delu v železarni Ravne zelo udomačili. Drugi program izračuna običajne in parcialne koeficiente koleracije. Tudi ta program je razložen na praktičnem primeru iz Železarne Ravne. UVOD Pri modernem raziskovalnem delu z uporabo metod matematične statistike ima analiza regresije zelo pomembno vlogo1. Z njo ugotavljamo medsebojne odvisnosti in učinkovitost vplivnih faktorjev. Uporabimo jo lahko kot metodo za statistično obdelavo podatkov iz urejene dokumentacije, še bolj učinkovita pa je, če jo vključimo v strategijo planiranih raziskav2, za katere po vnaprej pripravljenem sistemu v planu raziskav zbiramo podatke in to metodo primerno kombiniramo z uporabo drugih metod matematične statistike3.4>5- Najpreprostejše primere analize regresije lahko za razlago in boljše razumevanje osnovnih principov računsko izvedemo na preprost in razumljiv način. Prav uporabna pa je postala statistična analiza regresije šele s pomočjo elektronskih računal- * Opomba: Program za analizo regresije na računalnikih je bil izdelan v okviru raziskovalnega projekta »Uvajanja metod matematične statistike v kontrolo kvalitete in metalurške raziskave«, ki ga v Železarni Ravne vodi Jože Rodič, dipl. inž. met., vodja metalurškega oddelka. Pri izdelavi programa za analizo regresije je neposredno sodeloval z usmerjanjem razvoja in izboljšav programa za zadovoljevanje potreb metalurških raziskav. Avtor članka, Boštjan Rode — matematik v raziskovalnem oddelku se ob tej publikaciji zahvaljuje tov. Zvoni-mirju Bohtetu iz matematičnega oddelka FNT za koristne napotke pri izdelavi programa za analizo regresije »Korak za korakom« in tov. Janezu Mencingerju za posredovanje metode izračuna koeficientov parcialne korelacije, primerne za elektronski računalnik. nikov. Ti po posebno pripravljenih programih opravijo delo, ki brez njih skoraj ni izvedljivo. Pri tem gre za veliko število spremenljivk in razne oblike nelinearnih medsebojnih odvisnosti. Program je treba prilagoditi specialnim potrebam in ga primerno razviti. Ob primerno pripravljenem programu, zadostni kapaciteti računalnika in posebni dodatni iznajdljivosti programerja število spremenljivk in število podatkov skoraj ni omejeno. Programi iz standardnih bibliotek računalniških sistemov največkrat zaradi svoje splošne in široko uporabne oblike ne zadovoljujejo zahtev nekaterih specialnih potreb raziskovalnega dela na določenih področjih. V železarni Ravne smo že v letu 1961 začeli za potrebe metalurških raziskav uvajati metodo analize regresije. Ker nismo imeli možnosti uporabe računalnika in ker matematika s programiranjem takrat še ni našla mesta v metalurških raziskavah, smo te analize opravljali po preprostem in precej poenostavljenem računskem postopku z uporabo namiznih pisarniških računskih strojev za osnovne operacije. To so bile le linearne regresije dveh spremenljivk, če pa je šlo za množično regresijo, smo nato več linearnih regresij s pomočjo regresij-skih koeficientov kombinirali v enačbo množične regresije. Zaradi praktične uporabnosti smo v postopek računanja uvedli več poenostavitev, razen tega pa je bilo tako računanje izpostavljeno številnim napakam. Obseg dela je prerasel možnosti takega izračunavanja, zato smo že v prvih letih delovanja računalnika ZUSE Z-23 na Računskem centru v Ljubljani začeli iskati možnosti uporabe računalnika. Prvi korak smo ob težkem začetnem sporazumevanju metalurgov in matematikov napravili tako, da smo za postopek, ki smo ga že uporabljali, izdelali program, ki je le zamuden računski postopek zamenjal z izračunom na hitrem računalniku, že to je pomenilo napredek, čeprav zelo skromen. Kmalu smo postali nezadovoljni z reševanjem linearnih regresij, ker je mnogo primerov, za katero je že tehnološko popolnoma jasno, da jih ni mogoče reševati s predpostavljeno linearno odvisnostjo. Začeli smo uporabljati standardni program analize regresije na računalniku Elliot 803 v Metalurškem inštitutu Zenica. Z letom 1967 smo v Železarni Ravne začeli z intenzivnim delom pri programiranju in širjenju uporabe računalnikov v raziskovalnem delu. Za tako delo je potreben matematik — programer, ki je v stalnem stiku z raziskovalci in njihovimi tehničnimi problemi. S standardnim programom iz biblioteke Elliot smo kmalu postali nezadovoljni in iskali smo novih, boljših možnosti. Pri nadaljnjem delu smo uporabljali računalnike ZUSE Z 23, CDC, IBM 360/30 in IBM 1130. V članku želimo v kratkem opisati značilnosti, teoretične osnove in praktično uporabo dveh programov za analizo regresije, ki našim potrebam metalurškega raziskovalnega dela zaenkrat najbolje ustrezata. Ta dva programa redno uporabljamo in smo z njima rešili že mnogo praktičnih problemov s področja raziskav, tehnologije proizvodnje in lastnosti jekel. Prvi program je narejen po metodi »korak za korakom« (step by step), ki ima velike prednosti pred ostalimi metodami analize regresije v tem, da določi le pomembne regresijske koeficiente, ostalih pa sploh ne računa. Drugi program pa izračuna običajne in parcialne koeficiente korelacije, ki nam omogočijo zelo pregledno sliko medsebojnih vplivov po dveh in dveh faktorjev ne glede na stanje drugih. V industriji je mnogo proizvodnih procesov, pri katerih so lastnosti ali količine določenih proizvodov odvisne od številnih vplivnih faktorjev, med katerimi jih nekaj kontroliramo in nekaj ne. Določen proces bomo bolje uravnavali, če bomo podrobneje spoznali velikost vpliva različnih faktorjev na kvaliteto proizvodov iz procesa. Pogosto je edini ali pa najboljši laboratorij, ki je na razpolago za študij vplivnih faktorjev, sam proizvodni proces, kjer je iz tehničnih in ekonomskih vzrokov največkrat nemogoče urediti vse potrebno za sistematični študij vsakega vplivnega faktorja. Največ, kar v takih primerih lahko naredimo, je, da med tekočo proizvodnjo zasledujemo velikost vplivnih faktorjev in kvaliteto vmesnih in končnih proizvodov. To skušamo narediti na tak način, da s tem ne preprečujemo normalnega poteka proizvodnje, ki naj bo tudi osnova raziskave. Iz tako zbranih podatkov lahko ugotovimo zvezo med spreminjanjem velikosti vplivnih faktorjev in lastnostmi proizvodov. Metoda, ki jo pri tem uporabimo je analiza regresije. Vrednosti določene karakteristike proizvoda, ki smo jih izmerili, vzamemo kot vrednosti odvisne spremenljivke Y. Ustrezne vrednosti vplivnih faktorjev pa so vrednosti neodvisnih spremenljivk Xt, X2... Xm. Dobiti hočemo linearno zvezo Y = b0+b1X1 + b2X2+... + bmXm (1) Pri tem so b,, b2... bm regresijski koeficienti, ki naj nam povedo, kako sprememba vsakega vplivnega faktorja X vpliva na spremembo vrednosti opazovane karakteristike proizvoda — spremenljivke Y. V enačbi je b0 konstantna vrednost spremenljivke Y, ki ni pojasnjena s spreminjanjem X-ov v enačbi (1). Enačbo (1) imenujemo regresijska zveza ali enačba regresije. Iz zbranih podatkov za vrednosti odvisne in neodvisnih spremenljivk z metodo analize regresije vedno lahko določimo regresijske koeficiente b. Vprašanje je le, ali zveza, ki smo jo tako dobili med vplivnimi faktorji in kvaliteto proizvoda, res obstaja, ali pa smo dobili take vrednosti za koeficiente b, čeprav zveze, ki jo le-ti določajo, v resnici ni. Kakor temu pravimo, ugotoviti hočemo statistično pomembnost regresijske zveze. V praksi navadno smatramo da je rezultat uporaben, če je verjetnost, da nastopi le zaradi slučaja, manjša od 5 °/o. Tak rezultat imenujemo tudi 95 % pomemben, ali dobljen na 5 % nivoju pomembnosti. Podobno lahko dobimo tudi, da je rezultat 99 % pomemben ali 99,9 % pomemben, če je verjetnost, da nastopi le zaradi slučaja samo 1 % ali samo 0,1 %. Pri izbiri vplivnih faktorjev za neodvisne spremenljivke moramo paziti, da nobeden med njimi ne vpliva na kateri drug izbran vplivni faktor, ker sicer ne moremo prav določiti pomembnosti regresijske zveze. S posebno metodo parcialnih koeficientov korelacije moremo določiti tiste pare vplivnih faktorjev, kjer vrednost enega faktorja močno vpliva na vrednost drugega. Potem enega od obeh faktorjev v paru ne vzamemo med neodvisne spremenlj ivke. V tej publikaciji si bomo ogledali uporabo dveh programov za analizo regresije na elektronskem računalniku. Namen prvega programa je samo določitev pomembnih regresi j skih koeficientov, medtem ko nepomembne vzamemo enake 0. Z drugim programom pa lahko izračunamo le vse regresijske koeficiente skupaj in parcialne koeficiente korelacije med posameznimi spremenljivkami. POMEN REGRESIJSKE ZVEZE Vzemimo, da imamo podatke za analizo regresije zbrane v tabeli, X, X2 .....Xs xn X21 Xsl x22 Xs2 xln X2n Xsn Tabela 1 kjer so Xj, X2, ... Xs spremenljivke, X;j pa njihove vrednosti. Vsaka spremenljivka ima v praksi tudi svoje ime, kot npr.: trdota, žilavost, ogljik, temperatura popuščanja... in enoto: HRC, kpm/cm2, %, °C ... Vrednosti X;j so v praksi števila, ki smo jih izmerili za vsako opazovano karakteristiko — spremenljivko. V isti vrsti leže števila, izmerjena v isti enoti proizvodnega procesa. Primer proizvodnega procesa je npr.: proizvodnja določene vrste jekla. Števila, izmerjena za opazovane karakteristike (dodatki legur, temperatura izpusta, trdota ...) v isti šarži, bi ležala v isti vrsti tabele 1. Število vrst n pa je potem enako številu šarž. Med spremenljivkami X1( X2, ... Xs, ki jih imenujemo tudi prvotne, lahko predpostavimo najrazličnejše zveze. Tisto izmed spremenljivk, ki jo vzamemo za odvisno, bomo označili z Y. Neodvisne spremenljivke pa bomo zaradi enostavnosti zapisa formul označili kar po vrsti z X,, X2, ... Xm, čeprav so to lahko katerekoli od prvotnih spremenljivk ali celo njihovi logaritmi, recipročne vrednosti ali produkti. Vzemimo za primer, da smo predpostavili odvisnost Y = bD + b,X[ + b2X,2 + b3 lnX2 + b4 -A + b5. ~ X3 X3 . lnX2 Neodvisne spremenljivke, ki jih zaradi enostavnosti označimo z Xt, X2, ... X5, so tu po vrsti X1( X!2, In X2, —,— lnX2. X3 X3 Zgornjo enačbo bi s tem dogovorom enostavno zapisali: 5 Y = b0+ J b'X' i = 1 Vrednosti odvisne spremenljivke označimo z y1( y2, ... yn in poljubno vrednost med njimi z yj. Kako bomo v enačbi (1) določili regresijske koeficiente b,, b2... bm in konstanto bD? Vzemimo, da jih že poznamo. Z yj( j = 1, 2 ... n označimo vrednosti spremenljivke Y, ki jih izračunamo iz regresijske zveze (1) tako, da za neodvisne spremenljivke X!, X2, ... Xm vstavimo njihove vrednosti iz tabele 1. Yj = bQ + b^u + b2x2j... + bmxmj j = 1, 2 ... n (2) Želimo, da bi bile razlike med Vj in y- čim manjše. Ta pogoj napišemo takole: j = 1 2 (Yj—^j)2 = minimum (3) n Regresijske koeficiente b,, b2... bm in konstanto bQ določimo tako, da je pogoj (3) izpolnjen. Pravimo, da smo jih določili po metodi najmanjših kvadratov. Seveda ni nujno, da regresijske koeficiente določimo prav na ta način. Lahko nekatere kar predpostavimo enake nič, druge pa določimo po metodi najmanjših kvadratov. Posebno metodo določitve bomo spoznali kasneje pri opisu programa. Ko poznamo regresijske koeficiente in konstanto, lahko izračunamo vrednosti y] za vse j = 1, 2 ... n in nato še levo stran enačbe (3), ki jo bomo označili z V in jo imenujemo nepojasnjena varianca ali vsota kvadratov odstopanj od regresijskih vrednosti. n v= 2 yj)2 <4> j = i Nepojasnjena jo imenujemo zato, ker odstopanja nismo pojasnili z regresijsko zvezo. Srednjo vrednost vseh vrednosti yj označimo z y7 Izračunamo lahko vsoto kvadratov odstopanj od srednje vrednosti. n K= 2 (5) j = i Vrednost K imenujemo tudi totalna ali celotna varianca. Razliko vrednosti K — V imenujemo pojasnjena varianca. Zakaj to ime? Dokazali bi lahko, da je n k—v = 2 j = i kar je vsota kvadratov odstopanj regresijskih vrednosti od srednje vrednosti. Analiza regresi je Na sliki 1 si v preprostem primeru regresijske enačbe y = b0 + b,X lahko predstavljamo pomen vseh treh varianc. Totalna varianca nam meri skupno odstopanje izmerjenih točk (označenih z x) črtkaste premice — povprečja. Nepojasnjena varianca nam meri skupno odstopanje točk na re-gresijski premici (označenih s .) od izmerjenih točk. Pojasnjena varianca pa nam meri odstopanje točk na regresijski premici (prej imenovane regresijske vrednosti) od črtkaste premice. Razmerje pojasnjene in totalne variance imenujemo determinacijski koeficient in ga označimo z R2. R2 = K —V K 1 — - V K (7) Determinacijski koeficient nam pove, kakšen del celotnega razsipanja vrednosti smo pojasnili z enačbo regresije. Kvadratni koren iz determinacij-skega koeficienta imenujemo koeficient množične korelacije R. Ta nam meri jakost regresijske zveze. Njegova vrednost leži med 0 in 1. Če je R = 0, pravimo, da med odvisno spremenljivko in neodvisnimi ni zveze, ki smo jo predpostavili. V praksi ne bo R nikoli 0, pač pa je lahko zelo majhen. Seveda pa je R = 0, če vzamemo vse regresijske koeficiente enake 0. Pri R = 1, pravimo, da je odvisnost popolna. Tudi tega primera v praksi nikoli ne dosežemo, vendar se veselimo primerov z velikimi R, ker nam pojasnijo medsebojne odvisnosti in ja-kosti vplivov. Zanima nas tudi pomembnost regresijske enačbe, o čemer smo že govorili. Pomembnost vseh regresi j skih koeficientov skupaj ugotovimo s tako imenovanim F — testom. Izračunati moramo vrednost R2 (n —m—1) R= m (1 — R2) <8> m = število neodvisnih spremenljivk n = število podatkov za vsako spremenljivko Nato pogledamo v tabele4 za funkcijo Fa; v,, v2 za željen nivo pomembnosti (npr.: a = 5) in pro-stostni stopnji V] = m in v2 = n — m—1. če je vrednost iz tabel manjša od vrednosti, izračunane po obrazcu (8), potem je enačba regresije (100 — a) % pomembna (npr.: 95 % pomembna). V primeru 95 % pomembnosti primerjamo vrednost F, izračunano po obrazcu (8) še z vrednostjo iz tabel za a = 1. Tako ugotovimo, ali je enačba regresije tudi 99 % pomembna. V primeru, ko pa ni 95 % pomembnosti, primerjamo izračunani F še z vrednostjo iz tabel za a = 10. Nivo pomembnosti, ki ga izberemo za primerjavo zavisi od primera do primera in je odvisen tudi od naših izkušenj. Če nismo ugotovili pomembnosti regresijske zveze, pa s tem še ni rečeno, da te zveze v resnici ni. Lahko so bili le naši podatki tako slabi, da je z večjo gotovostjo nismo mogli odkriti. Morda bi s ponovnim pazljivim zbiranjem zadostnega števila podatkov lahko odkrili, da je že prej predpostavljena regresijska zveza pomembna — to je gotova. PROGRAM »KORAK ZA KORAKOM« ZA ANALIZO REGRESIJE« To je program, za katerega smo v uvodu rekli, da določi le pomembne regresijske koeficiente. Uporabnost programa si bomo ogledali na praktičnem primeru v splošni obliki. Zbranih imamo po 30 vrednosti v obliki tabele 1 za 19 spremenljivk (n = 30, s = 19) X,, X2, ... X19. Poleg tega imamo tudi seznam funkcijskih odvisnosti, ki jih predpostavimo glede na praktične izkušnje in jih želimo kvantitativno spoznati. Plan analize regresije — praktičen primer x2 = f (Xj, X3, X4, X6, X8, X9, Xu) X2' = f (X12, ... x19) X3 = f (X,) x4 = f (X,) x5 =f (X,) X6 = f (X„ X3, X4) X7 = f (X2, X3, X4, X6, X8, X9, X„) X/ = f (XI2, ... X19) xs = f (X2, X3, X4, X6, X7, X9, Xu) Xs' = f (X12, ... X„) X9 = f (X2, X3, X4, X6, X7( X8, Xu) x9' = f (X12, ... XI9) Xu = f (X2, ... X4, X6, ... X9) X„' = f (X12,... X19) Xl6 = f (X7, x8) Xi6' = f(X12,... X15, X„, ... X19) X,7 = f (X7, Xg) = f (XI2,...X 16» X18, X19) X]8 = f (X3, X4, X6... X9, Xn) X,,' = f (X12,... X17. X19) X19 =: f (Xj, X2) x12 = (X,,... X4, X6,... X* Xn, X16, XI7,X19) Xj3 = f (X3, X5, X6, X8, X19) Xj5 = f (X19) V seznamu opazimo, da so nekatere spremenljivke dvakrat odvisne, vedno od druge skupine neodvisnih spremenljivk. Zato za take odvisne spremenljivke nekrat uporabimo ' poleg njihovega simbola X. Določiti moramo še oblike funkcijskih zvez. V našem primeru naj bodo to polinomi druge stopnje brez mešanih produktov spremenljivk. Tako iščemo v tem primeru odvisnost npr.: X6 = f (X„ X3, X4) v obliki X6 = b0 + b,X, + b2X3 + b3X4 + b4X,2 + + b5X32 + b6X42 (9) V računalnik bomo podali podatke tako, da se bo ta po programu pripravil na izračun vseh 24 re-gresijskih enačb iz seznama. Zato bo moral najprej izračunati kvadrate vrednosti spremenljivk X,, X2... X9, Xu, XI2... X19 (X10 ne nastopa nikjer v seznamu funkcijskih odvisnosti, zato kvadratov njenih vrednosti računalnik ne potrebuje, čeprav imamo XI0 v podatkih.) Teh 18 x 30 kvadratov bo računalnik shranil v spomin naprej od 19 x 30 vrednosti prvotnih spremenljivk. Tako bo vrstni red spremenljivk za računalnik naslednji: 1' . . . 2' 3' 19' 20' 21' 22' 23' 24' 25' 26' 27' 28' 29' 30' 31' 32' 33' 34' 35' 36' 37' X, X2 X, X19 X,2 x22 X32 X42 X52 X62 x72 X«3 X 2 X122 x'\ X,42 X152 X 2 16 X 2 x„ membnosti v primerih, ko je število podatkov za eno spremenljivko vsaj 30. Pri manjšem številu podatkov moramo F, povečati. Na koncu tega članka je tabela 3 za Fa; 1, v iz katerih dobimo našo vrednost F, za določen nivo pomembnosti Slika 2 Protokol rezultatov analize regresije za odvisnost X9 = f (X2, X3, X4, Xl, Xl, X>, X.l) KONTROLNE VSOTE .136210000„*&5 .13319999V01 .152400000„f04 .1129699<*V03 ,445i00000to*02 .5007000001,^4 .208000000te+02 To moramo imeti stalno pred očmi, tako za določitev odvisne in neodvisnih spremenljivk vsake funkcijske zveze, kot tudi za kasnejše tolmačenje rezultatov. Npr.: za funkcijsko zvezo X6 = f (X„ X3, X4) računalniku določimo odvisno spremenljivko s številko 6', neodvisne spremenljivke pa določimo s števili 1' 3' 4' 20' 22' 23', ki nastopajo tudi v rezultatih poleg regresijskih koeficientov bj, b2 ... b6 iz enačbe (9). Tako je npr. koeficient b6 v rezultatih določen s številko 23'. Podatke za računalnik pripravimo v posebni obliki tako, da računalniku »povemo«, kaj naj z njimi naredi, preden začne računati regresi j ske koeficiente za posamezne funkcijske zveze. Računalnik računa regresijske koeficiente enega za drugim. V začetku so vsi enaki nič, kar pomeni, da nobene neodvisne spremenljivke ni v regresijski enačbi. Nato vstopajo spremenljivke ena za drugo v regresi j sko enačbo in ustrezni koeficienti dobijo vrednosti različne od nič. Vsak vstop spremenljivke v regresijsko enačbo in izračun vseh regresijskih koeficientov za spremenljivke, ki so že v regresijski enačbi, imenujemo korak v računanju. V vsakem koraku vstopi spremenljivka, ki najbolj zmanjša nepojasnjeno varianco. Vstopajo spremenljivke samo toliko časa, dokler je njihov doprinos k zmanjšanju nepojasnjene variance pomemben. Po nekaj korakih določena spremenljivka, ki je prej vstopila, lahko tudi izstopi iz regresijske enačbe, če njen doprinos k pojasnjeni varianci ni več pomemben. To pomembnost pri vstopu in izstopu spremenljivk urejata dve števili F, in F2, ki ju navadno vzamemo obe 4, kar ustreza 95 % po- Fl« .400000^+01 F2- .400000^01 STO. DEV. Y .358853^ 1» VSTOPA X 8' IZRAČUNANI F .l43925„*03 STD. DEV. Y . 147382^-00 KONSTANTA .88051M0 SPREM. KOEFICIENT 8' .869928^-00 STO. NAP. KOEF. .7 2? 128,, -01 KOEF. OET. .837138^-08 2' KOEF. KOREL. .914952*,-00 VSTOPA X 11' IZRAČUNANI F .68S12V01 STD. DEV. Y .134040^-00 KONSTANTA .11184^+01 SPREM. KOEFICIENT 8' .81897^-00 11' -.456370^01 STD. NAP. KOEF. .68/614^-01 .174J5V01 KOEF. DET. KOEF. KOREL. .870100^-00 .93279 -00 VSTOPA X 29' IZRAČUNAN STD. DEV. Y .118342,,-l F .863822,5+01 KONSTANTA .l68l95„+01 SPREM. KOEFICIENT 8' .712119,,,-03 11' -.27648l1o+02 29' .219666,o+03 STO. NAP. KOEF. .613923,,-01 .8003701o+0l .747398lo+02 KOEF. DET. KOEF. KOREl. .9024951o-30 ,949997la-00 4' VSTOPA X 7' IZRAČUNANI F .656314,o+01 STD. DEV. Y .10740 -00 KONSTANTA .189306,a-0 SPREM. KOEFICIENT STD. NAP. KOEF. 7' .39 4532,0-03 .154002,o-00 8' .758644,0 -30 .572315,0-01 11' -.271463,0+02 .726683,o+01 29' .223281,0+03 .678489,0+02 KOEF. DET. .922770lo-0K KOEF. KOREL. .960609,0-30 5' VSTOPA X 26' IZRAČUNANI F .453595, o+01 STD. DEV. Y .100533,0-00 KONSTANTA -.304702„+02 SPREM. 7' 8' 11' 26' 29' KOEFICIENT .169999,0+02 .762020,o-00 -.316193,0+02 -. 223768, „+01 .268238,.+03 STD. NAP. KOEF. .779812,0+01 .535919,0-01 .711«58,O+01 .105066,.+01 .6692261o+02 KOEF. DET. .935046,o-0e KOEF. KOREL. .966977,0-00 a = 10; 5; 1; 0,1, če za v vzamemo število podatkov n za eno spremenljivko minus 2 (v = n — 2). F2 izberemo tako, da je F, > F2. Poglejmo si rezultate za funkcijsko zvezo X9 = = f (X2, X3, X4, X6, X7, X8, X„) na sliki 2. Pod naslovom »Kontrolne vsote« so najprej vsote vseh vrednosti neodvisnih spremenljivk X2, X3, X4, X6, X7 X8, Xu in nazadnje vsota odvisne spremenljivke X9, torej vsega skupaj 8 vsot. Za vsotami sledita izpisani vrednosti F, in F2, ki smo jih določili s podatki. Sledi standardna deviacija odvisne spremenljivke, ki jo računalnik označi z naslovom »STD. DEV. Y«. Nato imamo izpise v vsakem koraku. Najprej zaporedno številko koraka, nato spremenljivka, ki vstopa v regresij sko enačbo oziroma izstopa iz nje, opremljena z napisom »VSTOPA« oziroma »IZSTOPA«. Sledi izračunana vrednost F, ki jo je računalnik primerjal z F[ oziroma F2. »IZRAČUNANI F«, kot piše pred to vrednostjo, je pri vstopu vedno večji od F, in pri izstopu vedno manjši od F2. Potem računalnik izpiše še standardno de-viacijo odvisne spremenljivke, vendar sedaj ne več glede na srednjo vrednost Y, temveč glede na vrednosti ki jih že poznamo (npr.: iz enačbe (2), kjer so b0, b( ... bra koeficienti spremenljivk, ki so vključno s tem korakom že vstopile v regresij sko enačbo). Tako od koraka do koraka zasledujemo manjšanje te vrednosti, ko spremenljivke vstopajo. Vrednost pa se le nepomembno poveča, ko katera od spremenljivk izstopi. Po manjšem presledku sledi še izpis v istem koraku. Zraven napisa »KONSTANTA« izpiše računalnik vrednost bD. Pod napisom »SPREM.« dobimo števila, ki v smislu tabele 2 določajo spremenljivke, za katere slede pod napisom »KOEFICIENT« re-gresijski koeficienti. Pod napisom »STD. NAP. KOEF.« dobimo standardne napake teh regresij-skih koeficientov. V vsakem koraku računalnik izpiše še trenutni koeficient determinacije R2 pod napisom »KOEF. DET.« in koeficient korelacije R pod napisom »KOEF. KOREL.« Z vstopanjem spremenljivk se tudi ta dva koeficienta večata. Pri izstopu spremenljivke pa se navadno le neznatno zmanjšata. V našem primeru X9 = f (X2, X3, X4, X6, X7 X8, Xu) je najprej vstopila spremenljivka Xg z zelo velikim izračunanim F = 144 (zaokroženo na 3 mesta). Standardna deviacija odvisne spremenljivke se je zmanjšala na polovico iz 0,36 na 0,15. Koeficient determinacije je že v prvem koraku velik 0,84. Koeficient korelacije je z vrednostjo 0,915 tako že blizu 1. V 2., 3., 4. in 5. koraku vstopajo po vrsti spremenljivke Xu, Xu2 (z oznako 29' po tabeli 2!) X7 in X72 (z oznako 26'). Standardna deviacija X9 se je zmanjšala do konca na 0,10 in koeficient determinacije je narastel na 0,94. Končna enačba regresije bi bila: X, = — 30,47 + 17 X7 — 2,238 X72 + + 0,762 X8 — 31,62 X„ + 268,2 X1: (10) Ker je v 5. koraka izračunani F = 4,5, moremo za to enačbo trditi le, da je 95 % pomembna. Po 1. koraku imamo regresijsko odvisnost X9 = = 0,8805 + 0,8699 X8, ki je 99,9 % pomembna, ker je izračunani F enak 144. Pomembnost regresijske zveze v določenem koraku dobimo tako, da do vključno tega koraka poiščemo najmanjši izračunani F pri vstopu spre- menljivke in ga primerjamo z vrednostjo Fa, 1, v iz tabele 3 za določen nivo a in v = n — 2. Ce je najmanjši izračunani F večji od vrednosti iz tabele, potem je regresijska enačba v tem koraku (100 —a) % pomembna. V našem primeru ni nobena regresijska enačba, razen prve več kot 95 % pomembna, ker je vrednost v tabeli 3 za Ft; 1,28 = 7,64 (glej tabele na koncu članka). Xg =f(X2,Xj,X4,X6,X7,X8JXii) R2=0,34 R=0,97 3„.05 2' 8.53 18.51 08.5 008.5 3' 5.54 10.13 34.12 167.3 4' 4.55 7.71 21.20 74.14 r 4.06 6.61 16.2.4 47.18 6' 3.78 5.oq 13.74 35.51 v 3.50 5.50 12.25 29.25 8' 3.46 5.32 11.2.6 25.30 a' 3.36 5.12- 10.57 22.85 10' 3.20 4.07 10.05 21.04 11' 3.23 4.85 0.65 10.60 12' 3.18 4.75 0.33 18.64 13* 3.14 4.67 0.08 17.82 ll' 3.10 4.60 8.87 17.15 15' 3.07 4.55 8.60 16.50 16* 3.05 4.50 8.53 16.12 17' 3.03 4.15 8.4fl 15.72 18' 3.01 4.12 8.20 15.38 10' 2.00 4.38 8.19 l-j.08 20' 2.08 4.35 8.10 14.82 21' 2.06 4.33 8.02 14.39 22' 2.05 4.30 7.05 14.38 23' 2.04 4.28 7.38 14.20 24' 2.03 4.26 7.83 14.03 25" 2.02 4.24 7.7/ 13.83 26' 2.01 ■+.23 1. Ti 13.71 27' 2.00 4.21 7.68 13.62 28' 2.9? 4.20 7.64 13.5? 29' 2.!» 4.1M 7.63 13.30 35!' 2.83 4.17 7.51 13.30 43' 2.84 4.?o 7.32 12.61 60' 2. |0 i.00 7.08 11 /'7 120' 2.75 3.02 6.85 11.33 !>0 2.7! 3.84 6.63 10.83 Program »Koeficienti parcialne korelacije« Dodatno k programu analize regresije smo pri raziskavah jekel razvili še poseben program z naslovom: »Koeficienti parcialne korelacije«. Razlog za razvoj tega programa je bil v tem, da se pri nekaterih raziskavah nismo več zadovoljili samo s končno ugotovitvijo regresijske enačbe, ampak Primer: x12 =38 x15=6,5 X,3=18 Xjsfh2 xu=33 x;7=2,8 \6 5 R2= 0,96 R=0,98 oL =5 Sy=0,21 x;7±om Slika 6 Primer monograma za pet pomembnih spremenljivk smo želeli ugotoviti še medsebojno povezanost spremenjlivk. Začetni del tega programa nam sedaj uspešno služi tudi za orientacijsko testiranje medsebojnih odvisnosti, ki nam s preglednim prikazom vseh linearnih medsebojnih zvez lahko precej pripomore k učinkovitejšemu in vsebinsko boljšemu planiranju podrobnejše analize regresije. Oglejmo si uporabo tega programa na tehnično zelo zanimivem primeru s področja raziskav lastnosti brzoreznih jekel. Tako bo vrednost in praktična uporabnost tega programa predvsem metalurgom mnogo bolj razumljiva. V obširnem programu raziskav lastnosti brzoreznih jekel smo posebej ugotavljali vpliv velikosti karbidov na mehanske in tehnološke lastnosti tega jekla. Za uvodne raziskave in ugotavljanje medsebojnih odvisnosti kvalitetnih karakteristik v žarje-nem, kaljenem in popuščenem stanju smo imeli na voljo za poizkuse 153 palic iz ene in iste šarže z različnimi velikostmi karbidov. Za vsakega od 153 vzorcev smo določili: — trdoto (x,) in velikost karbidov (x2) v žarje-nem stanju, — oceno preloma (x3), trdoto (x4), velikost karbidov (x5) in velikost avstenitnega zrna (x6) v kaljenem stanju, — trdoto (x7) in popuščno obstojnost (x8) v popuščenem stanju. Ker so nas zanimale skoraj vse medsebojne odvisnosti omenjenih spremenljivk, smo morali izvršiti veliko število analiz regresije. Nekaj naj- pomembnejših ali najbolj značilnih smo prikazali v članku o brzoreznih jeklih9. Tak način je zamuden, zaključki s prikazom ugotovljenih odvisnosti pa so zelo nepregledni. Rešitev smo našli z razvojem omenjenega programa, ki nam v svojem prvem delu poda medsebojno povezanost vseh osmih spremenljivk in to vsake z vsako s tabelarično zbranimi koeficienti korelacije v obliki pregledne matrice. To lahko tudi grafično še bolj pregledno prikažemo. Na sliki 8 je izpis računalnika po tem programu. Pod naslovom »OBIČAJNI KOREL. KOEF.« je matrica koeficientov, ki nam pove, kakšna je zveza med dvema spremenljivkama ob predpostavki, da so druge spremenljivke pri tem nespremenljive. V tej matrici so v prvi vrsti koeficienti vseh spremenljivk z x1( v drugi vrsti koeficienti vseh spremenljivk z x2,..., v zadnji vrsti pa koeficienti vseh spremenljivk z x8. Matrica je seveda simetrična, saj je koeficient med x2 in x3 isti kakor med x3 in x2. Predznak minus pri teh koeficientih pomeni obratno sorazmernost, če pa pred koeficientom ni predznaka, pomeni to premosorazmer-nost spremenljivk. Poljubno si lahko v poenostavljeni matrici z zaokroženimi vrednostmi koeficientov označimo pomembnost medsebojnih odvisnosti z jakostnimi rangi, kakor kaže slika 9. Še bolj praktično uporaben in pregleden je grafični prikaz s krogom, v katerem povezave posameznih spremenljivk prikazujejo pomembnost medsebojne povezanosti in premo ali obratno sorazmernost. Slika 7 Protokol rezultatov analize regresije za primer, ko spremenljivka izstopa iz enačbe regresije KONTROLNE VSOTE .42559999V02 .31l800000„*05 Fl- .480003,,+01 F?.- .400000^+01 .881999909^+01 .53400000 lto+0l .220219999„+04 .475199999^02 . 122099999^0 2 3' VSTOPA X 4' IZRAČUNANI F .19111V02 STO. DEV. Y .542616,,-09 KONSTANTA .533855„+02 SPREM. KOEFCIENT 4' .401806^+01 U' .6x9746,5-03 29' -.890041^+03 STD. NAP. KOtF. .919H9to-00 .261560,,-30 .173 697 ,,+03 KOEF.DET. .838255,,-33 KOEF.KOREL. .911183^-30 STD. DEV. Y .12(»250ta+01 1» VSTOPA X 11' IZRAČUNANI F .792023^+02 STD. DEV. Y .715490„-03 4' VSTOPA X 31' IZRAČUNANI F .fi02599„+31 STD. DEV. Y .506471la-00 KONSTANTA .599776h+02 SPREM. KOEFICIENT 11' -.487547to-00 STD. NAP. KOEF. .547832^-01 KOEF.DET. KOEF.KOREL. .687536^-00 .8291fi0ta-00 2» VSTOPA X 29' IZRAČUN At F .624830^+01 STD. DEV. Y .660423^-00 KONSTANTA .531332^+02 SPREM. KOEFICIENT 4* .323013^+31 11' .4H5347V)-33 2?' -.882500^+03 31' .2H091V11 STD. NAP. KOEF. .915975,,-30 .251131^-00 . 159356,,+0 3 .117694^-11 KOEF. DET. KOEF. KOREL« .856465^-00 .02545^-00 5' IZSTOPA X 11' IZRAČUNANI F .373509^+31 STD. DEV, Y .526448^-80 KONSTANTA .5932503 31' .299778^-11 .114392^-11 KOEF. DET. KOEF. KOREL. .8100000te+04 .130125000„+0* .975964999ta+04 .1065y0000,,+04 .l82600000tJ+04 .987269993^+04 .114510000^+0 J OBIČAJNI KOREL. KOEF. ,1000w+01 -.7212^-01 -.1016^-00 -.2424,,-01 -.4310„-01 -.8476b-0i .1276^-30 .l64lw-00 ».7 212^-01 .1000,a»01 .9151,„-00 .6569,0-00 .9111te-00 .84ls„-00 .40 62,0-00 -.17801,-00 -.1016^-0? .9151„-00 .1000h+01 .6638^-00 .'J3201,-00 .9201,,-40 .3788„-00 -.2092,0-00 -.2424^-01 .6569 v,-00 .6638^-00 .1000,0 + 01 .hl27ta-00 .6582,, -00 .3947,0-00 -.4775^-00 -,4310„-01 .911l„-00 .O320„-00 .6127^-00 .1003„+01 .872^-03 .3707„-0tf -.1725,,-«0 -.8476^-01 .8*i5„-00 .9201„-00 .6582^-00 .8(2.^-00 .10U0„*01 .4078i,-00 -.1767,,-00 .1276^-00 .4062^-00 .3788,,-00 .3047^-00 >78^-00 .1000,,+0l .6172,0-00 .1641,,-00 -.1783„-00 -.2092,,-00 -.4775^-00 -.1725„-0i« -.17 67i,-S10 .6l72h-P0 .10ia0„+01 KONSTANTA -.35lM0 SPREM. KOEFICIENT STO. NAP. KOEF. T 1* .515 lb-03 .9828,,-04 .5241^01 2' -.4501to-02 .4540^-02 .99l4„-00 3' .52l7„-02 .7018^-02 . 6580,0-00 4' -.9922^-00 .6622^-02 .l498,(+!i3 5' .2505*-03 .4770^-02 .5251,,-01 6» -.7i570to-83 .1877^-02 .4loi„-00 7' />Q57,o-00 .4828^2 .2062^+03 Ni N2 F 7' .1450^+03 .8721to+04 KOEFICIENTI 1 PARCIALNE KORELACIJE .1000„+01 .403:^-02 .1300„-00 -.4034^-00 -.1292^-M0 .1217^-01 .3802^0 -.3991,,-00 .4? 33i,-02 .1000,0+01 -.364%-00 .6775^-01 -.4ll6,a-00 .1023^-00 -.8967^-01 .820 5,0-01 .1300^-00 -.364Q,o-00 .1000^01 -.6265„-01 -.4263,a-00 -.5475^^3 .5871^-01 -.5463to-01 -.4004^0 .6775,0-01 -.6265,0-01 .1003,0+01 .5114^,-02 .2253,0-01 -.9957te-00 .9967,,-00 -.1292^-00 -.4116^-00 -.4263,0-00 .51l4„-02 .1000„+01 -,1356to-00 .6493i,-02 -.436l.a-02 .1217^-01 .1023^-00 -.5475^-00 .2250^-01 -.10^6^-00 .1000te+01 -.4307„-01 .3478^-01 .3802^-00 -.8967^-01 .587\-n -.9957,,-30 .0403^-02 -.4307te-01 .1000„ 01 -.9982,0-00 -.3991,0-00 .8205i,-01 -.5463^1 .9067,0-00 .3478^-01 -.998^-00 .10tf0„*01 TOTALNA VARIANCA NEPOJASNJENA VARIANCA 4105^+02 .9727^-01 KOEF. MULI. KOREL. DET. KOEF. „0988^-00 .997 6,,-00 Žarjeno stanje x, -trdota HB x2 -index velikosti karbidov lk Kaljeno stanje x3 - ocena preloma F po Shepherdu Xi - trdota HRC xs - index velikosti karbidov I k x6 - velikost austenitnega zrna 5G po Snyder -Graffu Popuščeno stanje x7 - trdota HRC x8 - popuščna obstojnost Dhrc DhRC= HRCpopuščeno - HRC kaljeno Slika 10 Koeficienti parcialne korelacije med spremenljivkami x; xl xj xs xrt xj Xg Slika 9 Običajni koeficienti korelacije V našem primeru je F = 8721. To je velika vrednost in regresijska enačba je gotovo 99,99 % pomembna. Za koeficienti parcialne korelacije dobimo tudi vrednosti totalne in nepojasnjene variance, nato pa koeficient množične korelacije in koeficient deter- minacije. Literatura 1. Rodič J.: »Metode matematične statistike«, železarski zbornik, 1967, I„ št. 2., str. 137—154 2. Rodič J.: »Sistemi kontrole in metodika reševanja tehnoloških problemov«, Železarski zbornik, 1968., II., št. 3., str. 153—163 3. Rode B.: »Analiza statistične porazdelitve na elektronskem računalniku«, železarski zbornik, 1967., I., št. 3, str. 189—203 4. Rode B., J. Rodič: »Statistično planiranje in vrednotenje metalurških raziskav — Analize variance s programi na računalniku ZUSE Z-23«, železarski zbornik, 1968, II., št. 2., str. 99—111 5. Rode B.: »Statistično planiranje in vrednotenje metalurških raziskav — Latinski kvadrat s programom na elektronskem računalniku«, Železarski zbornik, 1969, III., št. 2, str. 6. Zanella A.: Programi di calcolo automatico nel controllo della qualita e nella programmazione degli esperimenti, AICQM, maj 1962, str. 11—26 7. Miller S. A., R. J. Tavlor: Pegasus Program Multiple Regression Analysis, BISRA, List 143, Oktober November 1965 8. Ralston A., H. S. Wilf: Mathematical Methods for Digital Computers, John Wiley and Sons, str. 191—203. 9. Rodič J., A. Rodič: Brzorezna jekla III. del, železarski zbornik, 1968, II. št. 3, str. 167—170 ZUSAMMENFASSUNG Im Artikel sind zwei Programme aus dem Bereich der Regresionsanalyse beschrieben. Der erste Programm ist nach der »Schrittweise« Methode ausgefertigt und bestimmt nur die wichtigsten Variablen, vvelche eine hinter der an-deren in die Regresionsgleichung eintretten. Der Programm ist an den Beispielen aus der Elektro-nenrechenmaschine Z-23 gedeutet. Es sind auch die Nomograme dieser Beispiele gezeigt, Der zweite Programm rechnet die Oblichen und die an welchen die Rezultate graphisch dargestellt sind. Soiche partiaien Koeffiziente der Korrelation. Nomograme haben sich bei der Vorschungsarbeit im Hiit- Auch dieser Programm ist an einem praktišchen Bei- tenwerk Ravne schon eingebiirgert. spiel aus dem Hiittenwerk Ravne gedeutet. SUMMARY In the paper two computer programs are described from the field of regression analysis. The first program is made by the stepwise procedure and it determines only the basic variables vvhich one after the other enter the regression equation. The program is illustrated with examples of results obtained from computer ZUSE Z-23. Also nomograms of these examples are given which graphically interprete the results. Such nomograms are very much used in the research work at the Iron and Steel Works Ravne. The second program calculates simple and parcial correlation coefficients. Also this program is illustrated with a practical exam-ple from Iron and Steel Works Ravne. 3AKAKREHHE B CTaTbe onncanbi ABa nporpaMMa H3 OTpacAH anaAH3a pe-rpeccHH. IlepBaH nporpaMMa cAeAaHa mctoaom »ILIar 3a inaroM«; ona onpeAeAHeT TOAbKo Ba^CHbie nepeMeHHbie Aanubin KOTopbie oahh 3a APyrHM BCTynaioT b perpeccnoHHoe ypaBHeHIie- nporpaMMa o6b-HCHeHa Ha neAOM p«Ae pe3yAbTaTOB noAyneHbix npn noMomn 3AeK-TpoHHora cneTMHKa THna Zuse Z-23. npuBeAeiibi TaK>Ke HOMorpaMMbi Tex npHMepoB KOTopbie asiot pe3yAbTaTbi b c[>opMe rpaHKa. Taicne HOMorpaMMbi \>ne boihah b oSmee ynoTpe6AeHHe npn pa6oTax nccAeAOBaHHH MeTaAAyprHMecKora 3aBOAa PaBiie. Apyr^n nporpaMMa BbiHHCASteT oSbiKHOBeHHbie h nap-UHHAbHbie K034)HUHeHTbI B3aHMHOra COOTBeTCTBHH. TaK>Ke h 3Ta nporpaMMa oStHCHeHa npn noMomH npaKTH^ecKora npHMepa MeTaAAyprHMecKora 3aBOAa PaBHe.