Opombe
Manjkajoče vrednosti predstavljajo pogosto težavo, ki spremlja ustvarjanje podatkovnih baz, bodisi če se podatki zbirajo s pomočjo anket bodisi če so pridobljeni iz načrtovanih eksperimentov. Ne glede na to, koliko truda je vloženo za zagotavljanje popolne izpolnjenosti vprašalnikov ali v skrbno načrtovanje znanstvenega poskusa, se manjkajočim vrednostim pogosto ni možno izogniti. Nepopolni podatki so, odvisno od razmerja v katerem se pojavljajo manjkajoče vrednosti, lahko neustrezni za nadaljnjo analizo, medtem ko je brisanje vzorcev z manjkajočimi vrednostmi, posebno ko njihov odstotek ni dovolj majhen in ti vzorci predstavljajo pomembne informacije, lahko zelo neustrezno. Za reševanje tega problema se tako na področju statistične analizeuporabljajo različne metode za nadomeščanje manjkajočih vrednosti. Z namenom zapolnitve vrzeli, ki obstaja med obstoječimi metodami enkratnega vstavljanja manjkajočih vrednosti in modeli, ki temeljijo na večkratnem vstavljanju in pri katerih je za vsak cikel vstavljanja potrebna ločena statistična analiza, smo v okviru disertacije razvili nov postopek nadomeščanja manjkajočih vrednosti, ki temelji na ansambelskem pristopu nadzorovanega strojnega učenja. Uporabili smo ansambel, imenovan rotacijski regresijski gozd, ki predstavlja varianto rotacijskega gozda (Rotation forest), kot so ga razvili Rodríguez, Kuncheva in Alonso (Rodríguez, Kuncheva,& Alonso, 2006), pri katerem smo namesto osnovne metode, namenjene reševanju klasifikacijskih problemov, uporabili modelno regresijsko drevo. Našo metodo za nadomeščanje manjkajočih vrednosti smo primerjali z 9 drugimi popularnimi metodami, pri čemer smo merili natančnost metod in njihovo sposobnost ohranjanja variance po vstavljanju različnih deležev manjkajočih vrednosti. Meritve smo izvedli na 14 javno dostopnih podatkovnih množicah in eni umetno ustvarjeni množici, tako da smo obravnavali vse mehanizme nastanka manjkajočih vrednosti, kot jih je definiral Rubin (Rubin, 1976). Na podlagi poizkusov smo ugotovili, da naša metoda v povprečju natančneje napoveduje manjkajoče vrednosti v izbranih podatkovnih množicah, ne glede na mehanizem nastanka manjkajočih vrednosti. Prav tako smo pokazali, da z uvedbo dodatne stohastične metode za ohranjanje variance naš rotacijski regresijski gozd bolje ohranja varianco od vseh preostalih metod, ki izvajajo enkratno vstavljanje, pri čemer po svoji natančnosti še vedno prekaša vse metode. V disertaciji smo v uvodnih, teoretičnih poglavjih podrobneje opisali problematiko manjkajočih vrednosti ter obstoječe metode, ki se najpogosteje uporabljajo za njihovo nadomeščanje. Predstavili smo rotacijski regresijski gozd in stohastično metodo za ohranjanje variance. Največjo pozornost smo posvetili rezultatom poizkusov, na podlagi katerih smo v zaključku izoblikovali priporočila za uporabo rotacijskega regresijskega gozda za nadomeščanje manjkajočih vrednosti ter predstavili izhodišča za nadaljnje delo.