- :& z Z bi 1 11 SI ULACIJA POLOŽ NIH NAP K T RS H PODAT OV Z ETODO O ECARLO mag. Tomaž Podobnikar ZRC SAZU - Inštitut za prostorske študije, Ljubljana Prispelo za objavo: 1998-08-15 Pripravljeno za objavo: 1998-10-15 Izvleček Simulacijske metode-Mante Car/o lahko uporabljamo za statistično ovrednotenje in predvsem za enostavno ter učinkovito vizualizacijo položajnih napak vektorsko podanih podatkovnih slojev. Rezultate simulacij učinkovito uporabimo za predstavitev napak prostorskih podatkov potencialnim uporabnikom z vizualizacijo (npr. v objektnih katalogih), Primerni so tudi za učenje možnosti vpliva napak prostorskih podatkov in prenosa napak pri prostorskem modeliranju ter planiranju, Simulacije napak so izvedene z lastnim programom. Uporabljeno je testno območje okolice Novega mesta, in sicer za zbirko podatkov GKB 25 (ceste in hidrografski podatki), za RPE (centroidi hišnih številk) in za podatke meja kultur zemljiškega katastra, Ključne besede: GJS, metode Mante Car/o, prostorske analize, statistika, testiranje kakovosti podatkov Abstract Mante Carla simulation methods can be used for statistical evaluation mainly far easy and effective visualisation of positional en-ors far data which are presented as vector coverages, Simulation results can be efficiently used for the presentation of spatial data errors to potential users via visualisation (for example, in object catalogues). They are also suitable for leaming about the possibilities of the influence of spatial data errors and their propagation during spatial modelling and planning, Errors were simulated using our own pro6>ram. The test area, comprising the sun-oundings of Novo Mesto, was used for General Cartographic Database 25 (roads and hydrography) and the Register of Spatial Units ( centre points of house numbers) and f or land cadastre data on land use boundaries, Keywords: data quality tests, GJS, Jvlonte Carla methods, spatial analysis, statistics Geodetski vestnik 42 (1998) 3 1 UVOD razvojem tehnologije GIS-ov je bil v zadnjih letih opazen skokovit razvoj tehnik za merjenje stopnje napak, ki ga označujemo s pojmom testiranje kakovosti podatkov. Pri tem gre za metode testiranja posameznih elementov kakovosti, kot so: poreklo in uporaba podatkov ter predvsem za testiranje (merljivih) parametrov kakovosti (CEN, 1996). Med omenjene parametre štejemo: položajno, tematsko in časovno natančnost podatkov ter popolnost in logično usklajenost podatkov. Informacije o kakovosti podatkov pridobimo s testiranjem ter jih zabeležimo kot metakakovost, ki vsebuje naslednje elemente (CEN, 1996, Aalders, 1996): o mero zaupanja v informacije o kakovosti, ki pomeni stopnjo zaupanja v podatke, o mero zanesljivosti informacije o kakovosti, ki ponazarja, v kolikšnem deležu · predstavlja informacija o kakovosti vse podatke, o opis metodologije, ki smo jo uporabili za pridobitev informacij o kakovosti - za ponazoritev poti do rezultata, o mero abstrakcije za pridobitev informacije o razlikah med stvarnostjo in nominalno osnovo. V prispevku se omejujemo na testiranje položajne natančnosti vektorsko podanih podatkovnih slojev ter predvsem za njihovo vizualizacijo. Razvitih je precej statističnih testov za ocenjevanje položajnih napak, pri katerih gre največkrat za primerjavo opazovanih vrednosti s pričakovanimi. Taki znani testi so (Giordano, Veregin, 1994, Ivačič, 1996): test NMAS (U. S. Geological Survey), test EMAS/ASPRS, Koppejev test, test USGS, test pasu epsilon. V zadnjem primeru gre tudi za učinkovito vizualno predstavitev položajne natančnosti (Veregin, Hergitai, 1995). Za take predstavitve so ene najučinkovitejših simulacijske metode Monte Carla, še posebej na linijskih objektih in drugih sestavljenih strukturah (Slika 1 ). Ozadje ter možnosti uporabe teh metod si bomo ogledali na praktičnem primeru. Slika 1: Perspektivni pogledi ploskev epsilon za odsek linije, izveden s simulacijo Mante Carla; bela črta prek površja označuje prvotno lego linije 2 METODE MONTE CAPJ.O IN GIS Statistične metode Monte Carlo so se začele v geografskih informacijskih sistemih (GIS) pojavljati relativno pozno. Povod za izum metod je bilo širjenje iger na srečo, ob katerih so začeli znanstveniki (in zasvojenci z igrami) študirati zanimive Geodetski vestnik 42 (1998) 3 pojave in izide naključij. Ime za matematične metode Monte Carlo je nastalo okoli leta 1944, ko so jih začeli sistematično razvijati skupaj z jedrskim orožjem v projektu Manhattan v Los Alamosu (Kalos, Whitlock, 1986, Computational, 1995). Večji razmah so metode Monte Carlo doživele po letu 1970 skupaj z digitalnimi računalniki (Pllana, 1997). Metode Monte Carlo lahko zelo poenostavljeno predstavimo kot metode za računanje z naključnimi števili. Primernejšo definicijo metod Monte Carlo sta podala Ka!os in Whitlockova (1986): metode Monte Carlo vsebujejo premišljeno uporabo naključnih števil pri izvrednotenju strukture stohastičnega procesa. Pri tem mislimo na zaporedje položajev, katerih razvoj je določen z naključnimi dogodki. V računalniku jih ustvarjamo z naključnimi števili. Pri omenjenih metodah gre torej za reševanje problemov, ki niso povezani z verjetnostjo, na primer izračun vrednosti rr, z verjetnostnimi metodami. Metode Monte Carlo zasledimo v GIS-ih šele v začetku 90. let, skupaj z večjo praktično uporabo prostorskih analiz (Podobnikar, 1998b ). Zaenkrat so jih v prostorskih analizah večinoma uporabljali na ravni eksperimentiranja, njihovo uporabo pa lahko zasledimo v nekaj primerih. Ti primeri se nanašajo na simulacijo položajne natančnosti oziroma meja med območji ali pa na simulacijo natančnosti nadmorskih višin. Uporabimo jih lahko tudi kot učinkovite statistične analize testiranja domnev za prostorske točkovne vzorce, kadar so ti majhni in neznačilni ter niso porazdeljeni po normalni porazdelitvi. Tu gre torej za primerjavo obravnavanih vzorcev z naključnimi prostorskimi vzorci. 3 IZVORI NAPAK PROSTORSKIH PODATKOV Poznamo veliko vzrokov, zaradi katerih pride do nezanesljivosti in nedoločenosti pri upravljanju s prostorskimi (geografskimi) podatki (Openshaw et al., 1991). Veliko napak lahko odkrijemo pred vnosom v sistem, nekatere druge pa med njegovim izvajanjem. Zelo nevarne so napake, ki nastanejo zaradi operacij v GIS-ih. Napak operacij prekrivanja se lahko na primer rešimo z boljšimi tehnikami klasifikacije in interpolacije, napake digitalizacije pa z manjšo pristranskostjo pri njenem izvajanju. Nedoločenost vhodnih podatkov in prenos napak pri operacijah v GIS-ih lahko grobo razdelimo v naslednji dve skupini (Lovett, 1995, Walsh et al., 1987, podobno tudi Burrough, 1986): o vgrajene napake, ki predstavljajo napake izvorov ali tiste napake, ki so se pojavile med zajemanjem podatkov in o napake operacij, ki se pojavljajo med izvajanjem operacij z orodji GIS-ov. Med vgrajene napake lahko štejemo: merilo kartiranja, napake digitalizacije, napake geokodiranja, starost podatkov, pokritost obravnavanega območja z iskanimi podatki, gostota opazovanj, pomembnost podatkov, dostopnost podatkovnih slojev, poreklo, cena itd. Napake operacij nastanejo kot posledica izvajanja operacij v GIS-ih (Giordano, Veriegin, 1994), na primer pri operacijah prekrivanja ali določanja območij evklidske oddaljenosti. Druge tovrstne napake so lahko še: napake pri računalnišldh operacijah, topoloških analizah, generalizaciji podatkov, interpolaciji, določanju in spreminjanju razredov, prekrivanju in križanju meja, rastriranju itd. Geodetski vestnik 42 (1998) 3 4 EMPIRIČNI MODEL NAPAK VEKTORSKO PODANIH PODATKOV ZA OBMOČJE NOVEGA MESTA Praktično izvedbo simulacije modela položajnih napak smo izdelali z lastno metodo Monte Carlo na manjšem testnem območju okolice Novega mesta. Izbrali smo manjše pravokotno delovno območje (9,1 x 7,9 km), ki obsega osem katastrskih občin (Geodetska uprava Republike Slovenije), in sicer: Bršljin, Gotna vas, Kandija, Novo mesto, Potov Vrh, Ragovo, Šmihel pri Novem mestu in Smolenja vas (Slika 2). Poleg digitalnih podatkov meja s pripadajočimi kulturami zemljiškega katastra, ki so bile zajete z različnih virov, smo uporabili še podatke GKB 25 za ceste ter za hidrografske podatke in centroide hišnih številk (RPE). Slika 2: Podatki, pripravljeni za izvedbo simulacije Mante Carla: kmetijske površine z gozdovi, ceste in reka Krka s potoki (razen hišnih številk); v pravokotniku je prikazano območje (1,4 x 1,1 km) osrednjega dela Novega mesta Podatke za simulacijo smo primerno pripravili. Od podatkov zemljiškega katastra smo na primer potrebovali le kmetijska območja ali gozdove. V ta namen smo združili grafični in tematski ( atributni) del katastra. Primerno smo pripravili tudi druge podatke. Pri podrobnejšem pregledu vseh pripravljenih obravnavanih slojev na območju osrednjega dela Novega mesta (Slika 3) lahko ugotovimo precejšnje neujemanje med njimi. Vidimo lahko, da se centroidi hišnih številk deloma prekrivajo z območji kmetijskih površin in gozda. Položaja reke Krke in enega izmed potokov se razmeroma dobro ujemata z drugimi sloji, največji problem pa so ceste, pri katerih lahko opazimo, da se zelo slabo ujemajo tako z območji kmetijskih površin in gozda, kakor tudi s centroidi hišnih številk. Geodetski vestnik 42 (1998) 3 Slika 3: Detajl pripravljenih podatkov vseh podatkovnih slojev; ceste so črne linije, reka Krka je gosto rastrirana s pikami, potok je označen z dvema vzporednima črtama, centroidi hišnih številk kot pike ter območja kmetijskih površin in gozda kot sivo območje V našem modelu razdelimo napake na dva dela: sistematično komponento (absolutna natančnost) in naključno komponento (relativna natančnost) položajne natančnosti objektov. V splošnem pri modelu napak upoštevamo, da nastane največja relativna napaka pri kartiranju podatkov. Ta napaka znaša 0,2 do 0,5 mm (Drummond, 1995) in vsebuje večino naštetih vgrajenih položajnih napak. Upoštevali smo tudi možnosti velikih sistematičnih (v našem primeru absolutnih) napak, ki nastanejo predvsem zaradi nezadostnih podatkov pri transformaciji digitaliziranih podatkov v Gauss-Kruegerjev koordinatni sistem. Vse naše ocene za napake, ki jih navajamo in so merodajne za simulacije, smo empirično ocenili pri upoštevanju znanih podatkov Geodetske uprave Republike Slovenije ter poznavanju načina kartiranja, merjenja, porekla, generalizacije, interpolacije, transformacije podatkov itd. (nismo se torej lotili testiranja napak z omenjenimi metodami). eje parcel zemljiškega katastra predstavljajo največji problem za simulacijo, saj so bile določene na različne načine, tako z grafično kot z numerično izmero. Poleg tega so bile novejše meritve vključene (s tem se je zelo zmanjšala absolutna natančnost) v grafični kataster. Torej je absolutna natančnost ( določitev pravih koordinat mejnikov) izredno nestabilna, slaba in neznana, relativna natančnost ( oblika parcelnih mej je približno enaka kot v naravi) pa precej dobra. Natančnost podatkov novejše izmere, ki je bila neposredno vnesena v zbirko podatkov, je od 12 cm, merjena z novejšimi instrumenti, do 20 ali 50 cm ( odvisno od naklona površja) pri merjenju s tahimetrijo ter okoli 90 cm pri merjenju s fotogrametričnimi metodami. V tem primeru bi lahko privzeli natančnost izmere 1 m. Natančnost Geodetski vestnik 42 (1998) 3 grafičnega katastra pa je precej slabša, saj gre za približno transformacijo v Gauss-Kruegerjev koordinatni sistem ter vklop novejših podatkov v obstoječe. Pri napakah grafičnega katastra lahko torej računamo na natančnost digitalizacije, ki ni večja od 0,3 mm (torej 1 m), ter na mnogo manjšo natančnost posameznih točk parcele, ki znaša po grobi oceni 20-30 m. Torej lahko za primeren potek simulacije privzamemo precej visoko vrednost standardnega odklona 30 m ter visok koeficient korelacije koeficienta ( corr - razmerje med absolutno in relativno komponento napake) med sosednjimi zemljiškokatastrskimi točkami 0,96 (približno 1 m za natančnost od skupne vrednosti). Podobno smo določili tudi napake za podatke cest, hidrografije in centroidov hišnih številk, za katere so prikazani parametri simulacije položajnih napak (Preglednica 1). ceste reka Krka 080 30 otoki 15 040 90 hišne številke 15 000 15 O kmeti'sko, ozdovi območ"e 30 0,96 1,2 Preglednica 1: Pregled podatkovnih slojev za simulacijo z vhodnimi parametri simulacije 5 IZVEDBA SIMULACIJE MONTE CARLO o imamo model napak oziroma vrednosti vseh iskanih parametrov, se lahko otimo izvedbe simulacij Mante Carlo (Slika 4). Izdelali smo računalniški program, napisan v GIS-orodju Arc/Info pri uporabi modulov Are in Grid in programskega jezika C. Izvaja simulacije položajnih napak vektorsko podanih podatkovnih slojev, in sicer za točke, linije ter območja po naslednjem postopku (Podobnikar, 1998a): o definiranje vhodnih parametrov s standardnim odklonom cr in koeficientom korelacije med sosednjimi vozlišči za vsak vhodni vektorsko podan podatkovni sloj. o Spodaj navedene korake ponavljamo n-krat (v našem primeru je n = 100) za vsak vektorsko podan vhodni podatkovni sloj: - ustvarimo naključna števila, - z Box-Mullerjevo transformacijo pretvorimo naključna števila v normalno porazdelitev ob upoštevanju podatka standardnega odklona, - podatke vsakega vektorsko podanega podatkovnega sloja zmotimo za transformirana naključna števila pri upoštevanju korelacije med sosednjimi vozlišči, - dobimo nov podatkovni sloj, pri katerem se ohranijo topološka razmerja, - vsak nov vektorsko podan podatkovni sloj rastriramo s primerno ločljivostjo (v našem primeru z 10 m). o Za vsak dobljen rastrsko podan podatkovni sloj izračunamo frekvenco vrednosti (za primerjavo s prvotnimi sloji). D Izvedemo operacije prekrivanja podatkovnih slojev (formula: R = min (A, 100 B), kjer so vrednosti A območja simuliranih kmetijskih Geodetski vestnik 42 (1998) 3 površin in gozdov ter predstavljajo vrednosti B s funkcijo minimuma združene vrednosti slojev cest, vodotokov in hišnih številk). o Rezultate prikažemo z določeno stopnjo zaupanja (zelo pogojno: verjetnosti, značilnosti verodostojnosti). a) korelacija corr = O b) korelacija COIT = 0,5 c) korelacija corr = O, 75 č) korelacija corr = 1 Slika 4: Testna primerjava Mante Carla simulacije cest (n = 5 ponovitev) pri različnih koeficientih korelacije med sosednjimi vozlišči na ožjem območju Novega mesta (1,4x 1,1 km); močnejša linija predstavlja prvotni podatkovni sloj Pri načr_tovanju simulacij upoštevamo nekaj podrobnosti, ki jih je treba posebej navesti: o pravilen način izvedbe operacij določitve območij evklidske oddaljenosti, o pravilen način izvedbe operacij prekrivanja podatkovnih slojev, o izbira primernega števila simulacij, o izbira primerne ločljivosti rastrsko podanega izhodnega podatkovnega sloja, o izbira primerne korelacije ( corr) med posameznimi vozlišči linij in območij pri modelu simulacije napak zato, da se topološki odnosi vsaj bistveno ne spremenijo. Geodetski vestnik 42 ( 1998) 3 6 OVREDNOTENJE REZULTATOV SIMULACIJE ezultate simulacije položajnih napak ovrednotimo z vizualnim prikazom meja simuliranih območij ali simuliranih ploskev položajne natančnosti s predstavitvijo območij zaupanja v dane podatke glede na model napak. Uporabimo lahko tudi statistično obdelavo rezultatov simulacije Monte Carh 6.1 Vizmdno ovrednotenje rezultatov ot rezultat prekrivanja vseh slojev smo dobili ploskev, ki prikazuje posamezne vrednosti verjetnosti za pojavljanje kmetijskih površin skupaj z gozdnimi (Slika 5). Vidi se, da je površin, ki so 100-odstotno gozdovi ali kmetijske, na izrezu ožjega območja zelo malo (črne površine), poleg tega pa je tudi površin, za katere lahko trdimo, da zagotovo niso kmetijske površine in gozdovi, tudi relativno malo (bela barva). :, -· o,,, [';];::: rn.._, ... ,.,.,.., . ., -"·" 25:;_:: Slika 5: Detajl rezultata simulacij za ožje območje Novega mesta (1,4 x 1,1 km); popolnoma bele ploskve (vrednosti O) pomenijo 100-odstotno zaupanje v kmetijske površine in gozdove glede na model napak 6.2 Statistično ovrednotenje rezultatov govornejše podatke dobimo s statističnim ovrednotenjem rezultatov. V tem primeru želimo predvsem na enostaven način potrditi pravilnost simulacije. Pri tem se naslanjamo predvsem na primerjavo prvotnih vrednosti s simuliranimi. Podatki v preglednici 2 obravnavajo primerjavo vrednosti prvotnih slojev z območji zaupanja simuliranih napak na območju osmih katastrskih občin (s površino 40,21 km2), ki ležijo na celotnem testnem območju. Vsi vhodni sloji (stolpec 2) na območju osmih katastrskih občin imajo površino 33,16 km2. Pri tem k skupni vrednosti prispevajo le kmetijske površine z gozdovi ter površina reke Krke. Nepokritih območij ostane tako le 7,05 km2 (18 % ) od skupne površine osmih katastrskih občin. Vrednosti med stolpcema 3 in 5 predstavljajo površine glede na naveden odstotek verjetnosti (stopnjo zaupanja) v posamezna območja. Vidimo, da so te površine pri 1 % verjetnosti že precej večje od površin prvotnega sloja. Za Geodetski vestnik 42 ( 1998) 3 primer si poglejmo že omenjen rezultat simulacije (R), pri katerem znaša vrednost 32,41 km v stolpcu 2. Pri 100 % verjetnosti preostane le 15,18 km2 površine ( 47 % prvotne), pri 90-odstotnem zaupanju se ta poveča na 24,51 km2 (76 % prvotne) ter pri 1 % verjetnosti kar na 39,16 km2 (121 % prvotne). Pri 1 % verjetnosti preostane le še 1,05 km2 (1 % ), kjer ni pričakovati kmetijskih površin ali gozda. V večni obravnavanih primerov lahko z verjetnostjo med 50 % in 60 % pričakujemo enako površino kot na prvotnih območjih. Vidimo tudi, da se območje zaupanja pri simulaciji Mante Carla za kmetijske površine z gozdovi bistveno ne razlikuje od skupnih območij zaupanja (R). Do takega rezultata pridemo zaradi nesorazmerno velike površine kmetijskih površin in gozda proti drugim površinam ter zaradi relativno precejšnje usklajenosti vseh obravnavanih površin med seboj. Največja razlika se po pričakovanju pokaže pri 100-odstotnem zaupanju. V stolpcu 6 so navedene največje srednje vrednosti z zalogo na intervalu [O, 100] na območju osmih katastrskih občin. V stolpcu 7 so navedene srednje vrednosti območja osmih katastrskih občin ter v stolpcu 8 glede na površino osmih katastrskih občin ( 40,21 km2) normalizirane srednje vrednosti. Vidimo lahko, da so po pričakovanju te vrednosti precej podobne vhodnim vrednostim prvotnih slojev (stolpec 2). Posebej primerjamo vrednosti slojev območij med tema dvema stolpcema za reko Krko, kjer znaša vrednost prvotnega sloja 0,75 in simuliranega sloja 0,76 ter kmetijskih površin z gozdovi z vrednostjo prvotnega 32,43 in simuliranega sloja 32,58. Glede na to, da sta si para teh vrednosti zelo podobna, lahko potrdimo, da je bil postopek simulacije Mante Carla izveden zelo solidno. ·••··. j i ·••··. /2 .• 3 ··•····· 4 ..... 5 <6 .> 7 ·•·· 1 > 8 .. ·• .... · · ..... .. . ··•.•· ·.• .. ·· •·· 100% 90% ..... 1% · ... · • . V• ... 1 .... območje pi'votno 1 JWJ~ecja srednja .. norm, sr: ... rkrn2l · .•..• ··••·· (!an'l I < fkrn21 ... .. Tkni21 vrednost ··•vrednost . vred. ceste o o o 1227 46 3 07 1 23 reka Krka O 75 008 042 140 100 188 O 76 votoki o o o 1 36 89 089 036 hišne štev. o o o 5 88 55 097 039 kmet., .rwzd 3243 1714 26 86 3924 100 8102 3258 R 32,41 15,18 24,51 39,16 100 79,78 32,08 Preglednica 2: Primerjava vrednosti območij zaupanja obravnavanih objektov (vrednosti v odstotkih od nič do sto) in območij zaupanja, definiranih kot kmetijske površine in gozdovi, ceste, reka Krka, potoki in hišne številke ter zaupanja v končni rezultat R na območju osmih katastrskih občin 7 ZAKLJUČEK uporabo obravnavanih metod Mante Carlo si lahko uporabnik podatkov enostavno predstavlja, kaj sploh lahko pričakuje od izbranih podatkov glede napak. Za praktično uporabo predlagamo, da se poleg numeričnih podatkov o kakovosti podatkov, ki jih vsebujejo objektni katalogi (ti so izdelek statističnih testov kakovosti podatkov), doda tudi slika simulacije vgrajenih napak, podobno, kot je prikazano na sliki 4. Na enak način lahko te metode uporabimo tudi za prikaz napak podatkov najrazličnejših geodetskih meritev. Rezultati naloge so lahko uporabni tudi za pedagoške namene, za učenje narave napak in njihov vpliv na prostorske podatke, ter še več, proučujemo lahko obnašanje podatkov z znanimi napakami v prostorskih Geodetski vestnik 42 (1998) 3 Opo.n1b2~ 1/etode simulacij hfontc Carlo v številnih zamisli, ki bi jih računalnikih in so jih zato izvajali manjšim trudom_ izvajamo na l'