16 Kastrin: O nekaterih lastnostih mnogorazsežnih podatkovij © SDMI  http://ims.mf.uni-lj.si/  Pregledni znanstveni članek Andrej Kastrin O nekaterih lastnostih mnogorazsežnih podatkovij Povzetek. Število spremenljivk, s katerimi opisujemo dolo čen predmet prou čevanja, se z razvojem mnogih podro čij znanosti pove čuje. V analizi mnogorazsežnih podatkov se sre čamo s številnimi težavami, ki so med drugim povezane s slabo identifikabilnostjo modela, numeri čno nestabilnostjo rešitve ali preveliko prilagojenostjo modela podatkom. Preden se lotimo zahtevnejše analiza takega podatkovja, moramo poznati glavne lastnosti mnogorazsežnega prostora. V prispevku predstavimo nekatere geometrijske lastnosti mnogorazsežnega prostora. Posebej izpostavimo pojav praznega prostora, ki ga ilustriramo na primerih hiperkocke in hipersfere. Prispevek zaklju čimo s pregledom dodatne literature, ki bo bralcu v pomo č pri nadaljnjem študiju. Klju čne besede: statistika; strojno u čenje; mnogorazsežni podatki; pojav praznega prostora. On Some Properties of High-Dimensional Data Sets Abstract. The extensive use of high-dimensional data to examine certain research phenomena has expanded in parallel with high-throughput technologies in various scientific fields. However, several statistical challenges arise when analysing high-dimensional datasets, such as low identifiability, numerical instability, and overfitting. Before delving into the complex analysis of high-dimensional data, a solid foundation of their inherent properties is crucial. This review aims to illustrate the geometric properties inherent in the statistical analysis of high-dimensional data by examining the behaviour of hypercubes and hyperspheres in a high-dimensional context. An overview of literature is also provided to guide the students in further study. Key words: statistics; machine learning; high-dimensional data; empty space phenomenon.  Infor Med Slov 2023; 28(1-2): 16-23 Institucija avtorja / Author's institution: Medicinska fakulteta, Univerza v Ljubljani. Kontaktna oseba / Contact person: doc. dr. Andrej Kastrin, Univerza v Ljubljani, Medicinska fakulteta, Vrazov trg 2, 1000 Ljubljana, Slovenija. E-pošta / E-mail: andrej.kastrin@mf.uni-lj.si. Prispelo / Received: 27. 11. 2023. Sprejeto / Accepted: 7. 12. 2023. Informatica Medica Slovenica; 2023; 28(1-2) 17 © SDMI  http://ims.mf.uni-lj.si/ Uvod Procesiranje informacij v mnogorazsežnem prostoru je za človeka težka naloga. Če se moramo znajti v takem prostoru, je naš spoznavni aparat zelo omejen. 1 Izkaže se, da ima ve čina ljudi velike težave že z miselno predstavo preprostih tri- in štirirazsežnih predmetov. Nazoren primer je štirirazsežna kocka. Ko tak model kocke predstavimo ljudem in jih prosimo, naj svojo podobo kocke prenesejo na papir, bomo hitro ugotovili, da so njihove miselne predstave zelo razli čne. Obstajajo sicer pri čevanja posameznikov (npr. igralcev ra čunalniških igric), da lahko u činkovito miselno manipulirajo tudi v štirirazsežnem prostoru, vendar so tovrstni izsledki zelo skopi. 2,3 S preprostim besednjakom bi lahko rekli, da človek misli (le) v prostoru treh evklidskih razsežnosti, pri procesiranju informacij v ve č kot treh razsežnostih pa postane nemo čen. Pri opisovanju podatkovnih svetov v mnogorazsežnem prostoru si zato pomagamo z ra čunalnikom. Z mnogorazsežnimi podatki se dandanes sre čujemo na vsakem koraku. Brez posebnih zadržkov lahko re čemo, da je sodobna podatkovna analitika v veliki meri pogojena prav z obvladovanjem mnogorazsežnih podatkovij. Še pred dobrega pol stoletja se je pojem mnogorazsežnega podatkovja navezoval na podatkovno tabelo z najve č štirimi ali petimi spremenljivkami, 4 m e d t e m k o j e d a n e s podatkovje z nekaj tiso č spremenljivkami del statisti čnega vsakdana. 5,6 Primere mnogorazsežnih podatkovij najdemo npr. pri analizi biomedicinskih podatkov, strojnem uvrš čanju besedil, analizi finan čnih transakcij ali iskanju kompleksnih vzorcev v astrofizikalnih podatkih. Obi čajno je za taka podatkovja zna čilno, da število merjenih spremenljivk (mo čno) presega število posameznih primerov. V metodološko zahtevnejših prispevkih avtorji to radi poudarijo z neenakostjo n ≪ p, kjer z n ozna čimo število primerov (enot), s p pa število merjenih spremenljivk (atributov). Pravilna analiza mnogorazsežnih podatkovij je pogojena z dvema dejavnikoma. Prvi č, mnogorazsežni prostor se ponaša z lastnostmi, ki so v primerjavi z eno- ali dvorazsežnim prostorom bistveno druga čne in pogosto neintuitivne. 6-9 Drugi č, metod za analizo eno- in dvorazsežnih podatkovij ne moremo preprosto uporabiti nad mnogorazsežnimi podatkovnimi matrikami. Bralcu bo najbrž dobro poznana težava z linearno regresijo, kjer je v primeru n < p vzor čna kovarian čna matrika singularna, kar ima z a p o s l e d i c o , d a n e m o r e m o i z r a čunati njenega inverza. 10 Za celovit pregled pasti, na katere naletimo v analizi mnogorazsežnega podatkovja, je potrebno predstaviti dva pojava: (i) pojav praznega prostora in (ii) pojav zgoš čanja norm. Zaradi kompleksnosti tematike in omejenosti s prostorom v nadaljevanju prispevka obravnavamo le prvega. V razdelku Motivacija na primeru metode najbližjega soseda bralca najprej uvedemo v problematiko praznega prostora, ki ga nato bolj podrobno razložimo v naslednjem razdelku. V razdelku o geometrijskih lastnosti mnogorazsežnega prostora nekatere posledice praznega prostora, ki so najpomembnejše za statisti čno analizo, razložimo s pomo čjo preproste topološke analize kocke in sfere, ki ju vložimo v mnogorazsežni prostor. Prispevek zaklju čimo s pregledom najpomembnejše literature, ki bo bralcu v pomo č pri nadaljnjem študiju. Motivacija Za boljšo predstavo obravnavajmo preprost klasifikator z metodo najbližjega soseda. Podatkovje D naj sestavlja n podatkovnih to čk 𝑥 𝑖 ∈ ℝ d . Z D i ozna čimo podmnožico to čk z oznako razreda g i , tako da je n i = |D i |. Napovedani razred za podatkovno to čko 𝑥 izra čunamo kot = ˆ ()a r g m i n() ii Gx g K , kjer je K i število podatkovnih to čk med K najbližjimi sosedi to čke 𝑥 , ki so ozna čeni z oznako razreda g i . Situacija uvrš čanja s K = 3 sosedi je prikazana na sliki 1. Slika 1 Metoda najbližjega soseda. Dvorazsežno podatkovje sestavlja 19 primerov, ozna čenih z razredom 1 ali 2. Novi primer, ki ga želimo uvrstiti, ponazarja krožec. Za K = 3 identificiramo tri sosede znotraj sen čene površine. Primer uvrstimo v ve činski razred 1. 18 Kastrin: O nekaterih lastnostih mnogorazsežnih podatkovij © SDMI  http://ims.mf.uni-lj.si/ Orodje imamo, zdaj pa ga uporabimo za simulacijo. Najprej n slu čajnih vektorjev x 𝑋 , 𝑋 ,…, 𝑋 ∈ℝ , enakomerno porazdeljenih na intervalu [0, 1], zložimo v matriko podatkov D. Za vsak vektor poznamo tudi dejansko oznako razreda g 𝑖 ∈ {1, 2}. Naloga zahteva, da nov, neznan primer uvrstimo v ustrezni razred, z omejitvijo, da lahko pri uvrš čanju uporabimo le 10 % u čnih primerov v intervalu λ. Če je npr. x = 0,7, bomo pri uvrš čanju upoštevali le vrednosti v intervalu [0,65; 0,75]. Zanima nas, kolikšen delež u čnih primerov imamo na voljo za uvrš čanje pri razli čnem številu razsežnosti d. Eksperiment smo pognali 100-krat ter si beležili število u čnih primerov znotraj intervala λ. Pri d = 1 je povpre čni delež primerov enak dolžini intervala λ, tj. 0,1. Kaj pa v višjih razsežnostih? Spodaj so prikazani rezultati simulacij za d = 2 (slika 2a) in d = 5 razsežnosti (slika 2b). Slika 2 Množica to čk najbližjih sosedov. V dvorazsežnem prostoru (a) je množica zelo homogena, v prostoru s petimi razsežnostmi (b) pa že mo čno razpršena. Ugotovimo lahko, da je množica to čk najbližjih sosedov v d = 2 razsežnostih kompaktna, pri d = 5 razsežnostih pa že zelo difuzna. Povedano druga če, z ve čanjem števila razsežnosti postaja okolica posameznih podatkovnih to čk vse bolj prazna. 11 Lokalnost primerov, ki je za delovanje metode najbližjih sosedov klju čna, se v mnogorazsežnem prostoru izgubi, klasifikator pa odpove. Izgubljeno lastnost lokalnosti posameznih primerov literatura poimenuje »pojav praznega prostora« (angl. empty space phenomenon). V angleški literaturi jo pogosto zasledimo v povezavi z nadrednico curse of dimensionality, kar prevajamo kot »prekletstvo dimenzionalnosti«. Na pojav praznega prostora v praksi pogosto naletimo v povezavi z vprašljivo identifikabilnostjo statisti čnega modela, numeri čno nestabilnostjo rešitve in prevelikim prileganjem modela podatkom. Zapomniti si velja, da metod za analizo eno- in dvorazsežnih podatkovij ne moremo preprosto uporabiti na mnogorazsežnih podatkovnih tabelah, saj problem mnogorazsežnosti prinaša s seboj mnogo statisti čnih težav. Pojav praznega prostora Zgoraj smo pokazali, da je problem analize mnogorazsežnih podatkovij nelo čljivo povezan s pojavom praznega prostora. Pojav je pred 60 leti prvi opisal Bellman 12 pri opisovanju problema optimizacije z metodo iz črpnega preiskovanja v produktnih prostorih. Strategija iz črpnega preiskovanja pregleda in ovrednoti vse možne rešitve v optimizacijskem prostoru, nato pa izbere zadovoljive. Pokazal je, da z linearnim pove čevanjem prostora spremenljivk velikost optimizacijskega prostora raste eksponentno. To ima za posledico ve čjo ra čunsko zahtevnost ter ve čjo verjetnost, da se optimizacija zaklju či v lokalnem minimumu. Reševanje optimizacijske naloge po metodi iz črpnega preiskovanja zato že pri razmeroma majhnem številu razsežnosti preraste v neobvladljiv problem. ■ Primer 1: Bellmanovo zakonitost ilustrirajmo s preprostim primerom. Denimo, da obravnavamo d-razsežno kartezi čno mrežo s korakom ε = 1/10. Če želimo mrežo napolniti s to čkami, bomo pri d = 10 razsežnostih potrebovali 10 10 to čk, pri d = 20 razsežnostih pa se število potrebnih to čk pove ča že na 10 20 ; v splošnem torej potrebujemo 𝒪 ((1/ ε) d ) to čk. Izkaže se, da z linearnim pove čevanjem prostora spremenljivk velikost prostora rešitev eksponentno raste. ■ Primer 2: Imejmo d-razsežno hiperkocko, v kateri enakomerno porazdelimo podatkovne to čke. Pripravimo vzorec to čk iz r-tega deleža celotne Informatica Medica Slovenica; 2023; 28(1-2) 19 © SDMI  http://ims.mf.uni-lj.si/ prostornine. Zanima nas dolžina stranice l (slika 3). Slika 3 Kocko s stranico dolžine l ≤ 1 vložimo v enotsko kocko. Upoštevajmo, da za zvezo med dolžino stranice, številom razsežnosti in deležem zajete prostornine velja l = r 1/d . S preprostim izra čunom hitro ugotovimo, da bo ob vzor čnem deležu r = 0.01 stranica hiperkocke pri razsežnosti d = 1 zavzemala 1 % celotne dolžine, pri razsežnosti d = 10 pa kar 63 % dolžine stranice hiperkocke. Ob vzor čnem deležu r = 0.1 se bo pri d = 10 razsežnostih dolžina stranice hiperkocke pove čala na 80 %. Odnos med deležem prostornine hiperkocke in dolžino stranice je za štiri različne razsežnosti prikazan na sliki 4. Slika 4 Odnos med deležem prostornine in dolžino stranice d-razsežne hiperkocke. Ugotovitev, povzeta iz primerov 1 in 2, nam nalaga, da z naraš čanjem števila spremenljivk v statisti čnem modelu zagotovimo tudi ustrezno število primerov. V nasprotnem primeru bo naš podatkovni prostor prakti čno prazen oziroma vsaj redek. Poznavanje pojava praznega prostora je pomembno zlasti v vsakdanji statisti čni praksi, saj lahko le redko zagotovimo ustrezno eksponentno rast števila primerov; ve činoma imamo kljub velikemu številu spremenljivk na voljo le nekaj deset primerov. Intuitivne predstave, ki veljajo v eno-, dvo- ali trirazsežnem prostoru, postanejo v mnogorazsežnem prostoru nepravilne. Mnogorazsežni prostor ima namre č neintuitivne geometrijske lastnosti. Predstava podatkovnih to čk v ve črazsežnem prostoru je lahko zato zavajajo ča. Nobenih težav ne bomo imeli, če bomo želeli predstaviti podatkovje 100 enot, merjenih na dveh spremenljivkah. Iz razsevnega diagrama bomo po vsej verjetnosti lahko celo razbrali latentno strukturo podatkov (npr. skupine podatkov in odnose med spremenljivkami). Zdaj pa si predstavljajmo, da želimo predstaviti podatkovje, ki ima enako število primerov, število spremenljivk pa pove čamo na 500. V razsevnem diagramu bodo podatkovne to čke takega podatkovja bolj ali manj slu čajno razpršene. 8 Čeprav obstaja v podatkih neka notranja struktura, bo po vsej verjetnosti iz razsevnega diagrama težko razvidna. Z ve čanjem števila spremenljivk namre č postajajo razdalje med posameznimi primeri v prostoru čedalje ve čje, kar pomeni, da se tudi najbližji primeri medsebojno zelo razlikujejo. To je glavni razlog, da se metode, ki temeljijo na lokalnosti primerov (npr. metoda najbližjega soseda, parzenova okna, Relief), slabo obnesejo pri velikem številu spremenljivk. Geometrijske lastnosti mnogorazsežnega prostora V tem razdelku si bomo ogledali nekatere geometrijske lastnosti mnogorazsežnega evklidskega prostora. Podrobneje bomo obravnavali (i) hiperkocko, (ii) hipersfero, (iii) razmerje med prostorninama hipersfere in hiperkocke ter (iv) prostornino tanke lupine. Topološka analiza je za študij mnogorazsežnega prostora zelo primerna in nam bo nekoliko olajšala njegovo razumevanje. Pri pregledu smo se zgledovali po enem od novejših u čbenikov s podro čja statisti čnega u čenja, 13 ve č matemati čnih podrobnosti pa bo bralec našel v starejših monografijah. 8,14 20 Kastrin: O nekaterih lastnostih mnogorazsežnih podatkovij © SDMI  http://ims.mf.uni-lj.si/ Hiperkocka Minimalno in maksimalno vrednost spremenljivke X j iz podatkovne matrike D zapišemo kot = min( ) min { } ji i j Xx in = max( ) max { }. ji i j Xx Podatkovni hiperprostor D si lahko predstavljamo v prispodobi d-razsežnega hiperpravokotnika, ki je definiran s predpisom () {} = …  =  == ∏ 1 12 min( ), m , ax( ) ,,, d djj j T d RXX x xx x kjer je x j ∈ [min(X j ), max(X j )], za j = 1,..., d. Predpostavimo še, da smo surove vrednosti spremenljivk predhodno pretvorili v odklonske vrednosti, tako da je vektor njihovih aritmeti čnih sredin enak μ = 0. Najve čjo absolutno vrednost v podatkovni matriki D definirajmo s predpisom {} == = 11 max max . dn ij ji mx Podatkovni hiperprostor lahko zdaj obravnavamo kot hiperkocko s središ čem v to čki 0 in dolžino stranice l = 2m. Formalno bomo to zapisali kot ()()  …∀∈  ==    −   12 ,, . ,,, 22 di T d Hl xxx ll xi x Prostornino hiperkocke s stranico dolžine l izra čunamo po obrazcu () () = . d d VHl l Če je l = 1, je prostornina hiperkocke neodvisna od števila razsežnosti. Prostornina bo v tem primeru vedno enaka V(H d (1)) = 1. Če je l > 1, bo prostornina z naraš čanjem števila razsežnosti divergirala k neskon čnosti, pri l < 1 pa konvergirala k vrednosti ni č. ■ Primer 3: Odnos med številom razsežnosti podatkovnega prostora in prostornino hiperkocke je za tri razli čne dolžine stranice prikazan na sliki 5. Slika 5 Odnos med številom razsežnosti in prostornino hiperkocke za razli čne dolžine stranice. Hipersfera Podobno kot zgoraj predpostavimo, da spremenljivke nastopajo v odklonski obliki, tako da je μ = 0. Razdaljo med središ čem podatkovnega hiperprostora D in najbolj oddaljeno podatkovno to čko definirajmo s predpisom {} = . max i i rx Podatkovni hiperprostor lahko zdaj predstavimo kot d-razsežno hiperkroglo s središ čem v to čki 0 ter polmerom r, tako da je (){} =≤ . d Br xxr Površino hiperkrogle B d ponazarja hipersfera S d . Hipersfero sestavljajo vse podatkovne to čke, ki so od izhodiš ča 0 oddaljene natanko za r: (){} == . d Sr xxr Prostornino hipersfere v nižjih razsežnostih znamo enostavno izra čunati s pomo čjo znanih obrazcev, npr. () () () () () () π π = = = 1 2 2 3 3 , 4 , 3 2 . r VSr r VSr r VS r Splošen obrazec za izra čun prostornine d-razsežne hipersfere je () () () π  =   Γ+  2 2 , 1 d d d d VSr r kjer je Informatica Medica Slovenica; 2023; 28(1-2) 21 © SDMI  http://ims.mf.uni-lj.si/ () () π +     Γ+=          1 2 ! če sodo 2 1. !! 2 če liho 2 d d d d d d Zgoraj je z Γ ozna čena funkcija gama, dvojna fakulteta (d!!) pa je definirana s predpisom () ==  =  −≥  1 če 0 ali 1 !! . 2! ! če 2 dd d dd d S pove čevanjem števila razsežnosti prostornina hipersfere najprej naraš ča, nato pa za čne padati in se približuje vrednosti ni č. Za enotsko hipersfero zato velja () () () π →∞ →∞ == Γ+ 2 lim 1 lim 0. 1 2 d dd d d VS ■ Primer 4: Na sliki 6 je predstavljen odnos med številom razsežnosti in prostornino enotske hipersfere. Prostornina sfere najprej naraš ča in doseže najve čjo prostornino pri d = 5, kjer znaša V(S 5 (1)) = 5,26. Prostornina se nato za čne zmanjševati in pri d = 30 doseže zanemarljivo vrednost. Slika 6 Odnos med številom razsežnosti in prostornino hipersfere. Razmerje med prostorninama hipersfere in hiperkocke Podatkovni prostor zopet omejimo s hiperkocko H, na enak na čin, kot smo to naredili v razdelku o hiperkocki. Vanjo postavimo karseda veliko hipersfero S. Polmer hipersfere ozna čimo z r, stranico hiperkocke pa z 2r. Obravnavajmo razmerje med prostorninama obeh teles. Za za četek primerjajmo obe prostornini v dveh in treh razsežnostih. V prvem primeru znaša razmerje () () () () ππ === 2 2 2 2 78.5%, 44 2 VS r VH r rr kar pomeni, da krožnica omejuje π / 4 površine kvadrata, v katerega je vrisana. V treh razsežnostih znaša razmerje ππ π == = 3 4 3 3 52.4%, 86 Vr V kar je le še π / 6 prostornine kocke. V splošnem s pove čevanjem števila razsežnosti d velja () () () () →∞ = , lm 0 i 2 d d d r Vr VS H kar pomeni, da je asimptoti čna prostornina hiperkocke zgoš čena ob robovih prostora, medtem ko je središ če prazno. ■ Primer 5: Na sliki 7 je prikazano razmerje med prostorninama enotske hipersfere in hiperkocke za razli čne razsežnosti prostora. Pri razsežnosti d = 2 znaša razmerje π / 4, kar pomeni, da hipersfera (ki je v tem primeru krog) obsega skoraj celotno prostornino (v tem primeru ploš čino) kvadrata. Z naraš čanjem števila razsežnosti se razmerje hitro približuje vrednosti ni č ter pri d = 10 doseže zanemarljivo vrednost. Slika 7 Razmerje med prostorninama hipersfere in hiperkocke za razli čno število razsežnosti. Prostornina tanke lupine Obravnavajmo še prostornino tanke lupine debeline ε, ki jo omejujeta notranja hipersfera s polmerom r ter zunanja hipersfera s polmerom r + ε. Prostornino tanke lupine S d (r, ε) izra čunamo kot razliko prostornin obeh hipersfer po obrazcu 22 Kastrin: O nekaterih lastnostih mnogorazsežnih podatkovij © SDMI  http://ims.mf.uni-lj.si/ () ()() ()() () =−− òò ,, ddd VSr VSr VSr razmerje med prostorninama tanke lupine in zunanje sfere pa po obrazcu () () () ()  =−  −   ò ò , 1. 1 d d d V S r S r r V ■ Primer 6: V tanki lupini razmerje obeh prostornin naraš ča eksponentno z ve čanjem razsežnosti. Polmer fiksirajmo na r = 1, debelino lupine pa na ε = 0,01. V dveh razsežnostih je prostornina tanke lupine enaka 1 ‒ 0,99 2 ≈ 2 %. V treh razsežnostih se delež prostornine pove ča na 1 ‒ 0,99 3 ≈ 3 %. Pri d = 30 pa prostornina lupine naraste kar na 1 ‒ 0,99 30 ≈ 26 %. Zaradi boljše nazornosti je na sliki 8 prikazano razmerje med dvema sferama s parametroma r = 1 in ε = 0,05. Slika 8 Odnos med številom razsežnosti in prostornino tanke lupine. Ko število razsežnosti d naraš ča prek vseh mej, velja () () () () →∞ = ò , lim 1. d d d VSr VSr Izkaže se, da se s pove čevanjem števila razsežnosti prostornina hipersfere zgoš ča v tanki lupini. Ve čji del prostornine zato najdemo v okolici površine hipersfere (znotraj ε), medtem ko je središ če hipersfere prazno. Z drugimi besedami, če so podatkovne to čke v d-razsežnem prostoru porazdeljene enakomerno, se bo ve čina to čk zgostila ob robovih tega prostora. Priporo čena literatura za nadaljnji študij Pojav praznega prostora in z njim povezane težave na kratko predstavijo mnogi u čbeniki multivariatne statisti čne analize in statisti čnega u čenja. Na enostaven na čin je pojav razložen v knjigi An Introduction to Statistical Learning, 15 z nekoliko ve č matematizacije pa tudi v sestrski The Elements of Statistical Learning. 16 Bralca opozarjamo, da slednja – v drugi, razširjeni izdaji – vsebuje tudi zelo lepo berljivo samostojno poglavje o analizi mnogorazsežnih podatkovij. Zahtevnejši bralec lahko poseže po Bishopovi klasiki Pattern Recognition and Machine Learning 17 ali prvih dveh (imenovanih Book 0 in Book 1) Murphyjevih u čbenikih iz serije Probabilistic Machine Learning. 18,19 Nekatere najpomembnejše geometrijske lastnosti mnogorazsežnih podatkovij so posebej obravnavane v monografiji Data Mining and Machine Learning, 13 pa tudi v starejši Multivariate Density Estimation. 8 Bralcu, ki ga bo tematika posebej zanimala, priporo čamo A Course in Geometry of N Dimensions. 14 Zaklju ček V prispevku smo obravnavali problematiko mnogorazsežnega podatkovja v analizi podatkov. Namerno smo izpostavili le prvo od dveh klju čnih lastnosti, tj. pojav praznega prostora, ki smo ga ilustrirali z obnašanjem hiperkocke in hipersfere v mnogorazsežnem prostoru. Drugo lastnost, t. i. pojav zgoš čanja norm, smo prihranili za objavo v prihodnosti. Pregled lastnosti s tem nikakor ni iz črpen, je pa dovolj temeljit, da bo bralec laže krmaril med Scilo in Karibdo mnogorazsežnih podatkov. Zahvala Prispevek je nastal ob finan čni podpori Javne agencije za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (J5-2552). Hvala izr. prof. dr. Roku Blagusu za pripombe in nasvete, odgovornemu uredniku, prof. dr. Gaju Vidmarju, pa za potrpežljivost ob pripravi prispevka. Reference 1. Kellert SH: Space perception and the fourth dimension. Man World 1994; 27(2): 161–180. 2. Poincare H: Mathematics and science: last essays. Whitefish 2008: Kessinger. 3. Rucker R: The fourth dimension: A guided tour of the higher universe. Boston 1996: Houghton Mifflin. Informatica Medica Slovenica; 2023; 28(1-2) 23 © SDMI  http://ims.mf.uni-lj.si/ 4. Rao CR: The utilization of multiple measurements in problems of biological classification. J R Stat Soc Ser B Methodol 1948; 10(2): 159–203. 5. Guyon I, Elisseeff A: An introduction to variable and feature selection. J Mach Learn Res 2003; 3: 1157–1182. 6. Verleysen M: Learning high-dimensional data. In: Ablameyko S, Goras L, Gori M, Piuri V (eds.). Limitations and future trends in neural computation. Amsterdam 2003: IOS Press; 141-162. 7. Lee JA, Verleysen M: Nonlinear dimensionality reduction. New York 2007: Springer. 8. Scott DW: Multivariate density estimation: theory, practice, and visualization. Hoboken 1992: Wiley. 9. Verleysen M, François D: The curse of dimensionality in data mining and time series prediction. New York 2005: Springer. 10. Kirk M: Thoughtful machine learning with Python: a test- driven approach. Boston 2017: O'Reilly. 11. Beyer K, Goldstein J, Ramakrishnan R, Shaft U: When is “Nearest neighbor” meaningful? In: Beeri C, Buneman P (eds.). Database Theory – ICDT'99: 7th International Conference; 1999 Jan 10-12; Jerusalem. Berlin 1999: Springer; 217–235. 12. Bellman RE: Adaptive control processes: a guided tour. Princeton 1961: Princeton University Press. 13. Zaki MJ, Meira W: Data mining and machine learning: fundamental concepts and algorithms. Cambridge, UK 2020: Cambridge University Press. 14. Kendall MG: A course in geometry of N dimensions. London 2018: Forgotten Books. 15. James G, Witten D, Hastie T, Tibshirani R: An introduction to statistical learning: with applications in R. New York 2013: Springer. 16. Hastie T, Tibshirani R , F rie d man J : The elements of statistical learning: data mining, inference, and prediction (2nd ed.). New York 2016: Springer. 17. Bishop CM: Pattern recognition and machine learning. New York 2006: Springer. 18. Murphy KP: Machine learning: a probabilistic perspective. Cambridge, MA 2013: MIT Press. 19. Murphy KP: Probabilistic machine learning: An introduction. Cambridge, MA 2022: MIT Press.