Uporaba metod strojnega u enja za modeliranje dele a prestre enih padavin na eksperimentalnem pore ju reke Dragonje Luka Štravs, Mojca Šraj, Mitja Brilly 1 Povzetek V okviru raziskave so bile na podlagi izvedenih meritev in analize rezultatov le-teh z metodami strojnega u enja ugotovljene zna ilnosti vpliva zaraš anja opuš enih kmetijskih površin na vodno bilanco pore ja Dragonje. Gozdovi na na novo zaraš enih površinah prestre%ejo skoraj vso vodo padavinskih dogodkov z manj kot 2,5 mm padavin, kar pomeni, da v takih primerih ne pride do površinskega in podpovršinskega odtoka v Dragonjo ali napajanja zalog podzemne vode v pore ju. Za dogodke z ve kot 2,5 mm padavin pa generirani modeli ka%ejo, da novi gozd prestre%e od 42,8 % padle vode pri dogodkih s koli ino padavin od 2,5 do 7,5 mm in 23,2 % padle vode pri dogodkih s koli ino padavin ve jo od 7,5 mm, ko pa imata na vrednost dele%a prestre%enih padavin mo an vpliv tudi povpre na hitrost vetra in intenziteta padavin. Lahko torej ugotovimo, da metode strojnega u enja za generiranje modelov v obliki odlo itvenih dreves predstavljajo zelo uporaben in obetajo pripomo ek pri iskanju novih znanj v podatkovnih bazah. Uvod Hidrološka znanost se ukvarja s kro%enjem vode, njeno pojavnostjo ter distribucijo, gibanjem in njenimi fizikalno-kemijskimi karakteristikami (Chow, 1964). Glavnina raziskav v okviru hidrologije je na podro ju kro%enja vode med atmosfero, zemeljskim površjem in vodnimi sistemi v obliki površinskih ali podzemnih voda (Brilly and Šraj, 2000). Gozdna hidrologija se prete%no ukvarja s kro%enjem vode na obmo jih gozdov; prou uje spreminjanje pojavne oblike in poti vode iz atmosfere preko gozdnega ekosistema v tla, podzemno in površinsko vodo ter njen povratek nazaj v atmosfero. Padavine so glavni vir vode v gozdnem hidrološkem krogu (slika 1). Ve inoma predstavljata padavine de% ali sneg, v obmorskih in goratih obmo jih pa tudi megla. Velik del padavin, ki padejo nad gozdom, prestre%ejo drevesne krošnje, manjši del pa jih pade skozi odprtine med krošnjami in listi naravnost na tla. Znatna koli ina padavin, ki jih prestre%ejo krošnje, izhlapi nazaj v ozra je med ali takoj po nalivu (Ei). Del prestre%enih padavin pade s krošenj oz. listov na tla kot kapljanje, potem ko je kapaciteta krošnje %e zapolnjena. Manjši del prestre%enih padavin pa se steka z listov na veje in z vej po deblu do tal (Sf). Ker padavin, ki padejo skozi odprtine med krošnjami in listi, ter padavin, ki kasneje prikapljajo do tal, ne moremo lo eno meriti, jih obravnavamo skupaj (Tf). Vsota padavin, ki padejo skozi odprtine med krošnjami in listi naravnost na tla, in padavin, ki kasneje prikapljajo do tal (Tf), ter odtoka po deblu (Sf) je navadno bistveno manjša od koli ine padlih padavin. Bilanca je torej naslednja: P = Tf + Sf + Ei Ei = P – (Tf + Sf) Ae intenziteta vseh padavin, ki dose%ejo tla (Tf + Sf), prese%e infiltracijsko kapaciteto zemljine, višek odte e kot površinski odtok. Zaradi zelo velike infiltracijske kapacitete 1 Fakulteta za gradbeništvo in geodezijo, Jamova 2, SI-1000 Ljubljana. organske zemljine v ve ini gozdov je ta vrsta odtoka redka. Infiltrirana voda v tleh predstavlja zaloge podtalnice, ki bogati tudi vodotoke. Na koli ino oziroma dele% prestre%enih padavin (Mikoš et al., 2002) na gozdnih obmo jih vplivata predvsem vegetacija in klimatski faktorji: kapaciteta krošnje, ki je odvisna od vrste, velikosti, oblike in starosti dreves v gozdu, površine listja in njihove orientacije; gostota vegetacije; vrsta, intenziteta, trajanje in frekvenca padavin; klimatske razmere (temperatura, veter, vla%nost) in drugi. Na podlagi raziskav je Ovington (1954) ugotovil, da dele% prestre%enih padavin varira od 6 do 93 % v odvisnosti od razmer oziroma pogojev na posameznih obmo jih. Slika 1 – Komponente hidrološkega kroga v gozdu (Šraj, 2003a). V sodelovanju z Vrije Universiteit iz Amsterdama so bile na pore ju Dragonje izvedene bazi ne raziskave hidroloških procesov. Na obmo ju pore ja reke Dragonje je bilo v zadnjih desetletjih opa%eno intenzivno zaraš anje opuš enih kmetijskih površin. V tem obdobju so se zni%ale vrednosti nizkih in visokih pretokov, ni pa bilo opaznih sprememb v padavinskem in temperaturnem re%imu. Glavni namen te raziskave je bil ugotoviti vpliv zaraš anja opuš enih zemljiš z gozdom in drugo zarastjo na vodno bilanco na pore ju Dragonje in ugotoviti vpliv posameznih klimatskih faktorjev na procese kro%enja vode. Za analizo rezultatov meritev v okviru bazi nih hidroloških raziskav smo uporabili metodi strojnega u enja M5 in J4.8, s pomo jo katerih smo generirali modele v obliki odlo itvenih dreves. Metode strojnega u enja so bile %e ve krat uspešno uporabljene na podro ju hidrologije (Štravs et al., 2004; Solomatine & Dulal, 2003). Karakteristike pore ja Pore je reke Dragonje s prispevnim obmo jem 90,5 km 2 se nahaja na jugozahodnem delu Slovenije oziroma na severnem delu istrskega polotoka. Povpre na letna koli ina padavin je na obalnem delu pore ja 900 mm, v bolj celinskem delu pa letno pade 1200 mm padavin. Za razliko od pravega mediteranskega padavinskega re%ima ni izrazite sezonske razporeditve padavin s sušnimi poletnimi meseci in mokrimi zimskimi, temve so vsi meseci pribli%no enakomerno namo eni (Šraj, 2003b). Povpre na letna temperatura na obalnem obmo ju pore ja je 14 °C, v notranjosti pa 10 °C. Ekonomske razmere v šestdesetih, še bolj pa v sedemdesetih letih prejšnjega stoletja so povzro ile demografske spremembe, kar se je odrazilo v spremembi rabe pašnikov in travnikov, kasneje pa tudi obdelovalnih površin. Hkrati z opuš anjem ekstenzivne kmetijske rabe in depopulacijskimi procesi so se izvajala tudi protierozijska vegetacijsko stabilizacijska dela. Vse to je pospešilo zaraš anje obmo ja in v zadnjih treh desetletjih se je zaraš enost pore ja Dragonje pove ala s povpre no 25 % na ve kot 60 % (Globevnik, 2001). Slika 2 – Pore je Dragonje (Šraj, 2003b). Slovenska obala je dobro znana tudi kot vododeficitarno obmo je, na katerem se še posebej v asu turisti ne sezone uti pomanjkanje razpolo%ljivih kapacitet vodnih virov za oskrbo s pitno vodo. Metode Meritve Za izvedbo meritev posameznih komponent gozdnega hidrološkega kroga sta bili izbrani dve gozdni raziskovalni ploskvi, ki sta medsebojno oddaljeni 400 m in obe na pribli%no 200 m nadmorske višine, v 30- do 35-letnem gozdu nad soto jem Dragonje in Rokave. Prva raziskovalna ploskev s površino 1420 m 2 se nahaja na severno orientiranem pobo ju v pore ju Rokave, druga raziskovalna ploskev s površino 615 m 2 pa na ju%no orientiranem pobo ju v pore ju Dragonje. Na obeh raziskovalnih ploskvah so bile za vsak padavinski dogodek merjene padavine nad krošnjami dreves, koli ina padavin, ki padejo direktno ali pa prikapljajo skozi krošnje dreves, in koli ina odtoka po deblu. Padavine nad krošnjami so bile merjene z ombrografom in totalizatorji z ro nim praznjenjem (slika 3). Koli ina padavin, ki padejo direktno ali pa prikapljajo skozi krošnje dreves, je bila merjena s kovinskimi %lebovi, opremljenimi z avtomatskimi zapisovalci podatkov in premi nimi totalizatorji, katerih lokacija se je po vsakem praznjenju spremenila. Odtok po deblu je bil merjen na gabru ter hrastu na severni ploskvi in jesenu ter hrastu na ju%ni ploskvi; te vrste dreves predstavljajo najbolj pogoste vrste dreves na posameznih raziskovalnih ploskvah. Slika 3 – Meritve koli ine padavin nad krošnjami (levo) in meritev koli ine padavin, ki padejo skozi krošnje dreves (desno). Vse spremenljivke so bile merjene v 10-minutnih intervalih. Temperatura zraka, relativna vla%nost ter smer in jakost vetra so bili merjeni na bli%njih meteoroloških postajah Kubed in Boršt. Ve o meritvah posameznih procesov je mo%no prebrati v Šraj (2003b). Modeliranje Glavna ideja pri generiranju modelov v obliki dreves (angl. tree-like models) je razvoj enostavnih in strukturno transparentnih (za razliko od npr. nevronskih mre%) modelov, ki so enostavni tako z vidika uporabe kot tudi razlage. Za razvoj modelov, ki predstavljajo empiri ne povezave med merjenimi spremenljivkami in dele%em prestre%enih padavin, smo v naši raziskavi uporabili metodi strojnega u enja M5 in J4.8, kot sta implementirani v programskem orodju WEKA, ki je bilo razvito na Univerzi Waikato na Novi Zelandiji (Witten & Frank, 2000). S tem, ko metodi strojnega u enja ponudimo dovolj vhodnih (atributov) in izhodnih podatkov, ki opisujejo modelirani proces, se ta iz posameznih primerov nau i vzorcev obnašanja v okviru modeliranega procesa. Pri tem se celotni podatkovni prostor vhodnih spremenljivk deli na podprostore, katerih meje so v procesu razvoja modela optimizirane, znotraj posameznih podprostorov celotnega podatkovnega n-dimenzijskega prostora pa veljajo dolo eni vzorci, ki se jih lahko aproksimira z npr. nominalno ali konstantno numeri no vrednostjo in linearno funkcijo. Odlo itvena drevesa se generirajo na podlagi iterativnega deljenja podatkov v podatkovne podprostore celotnega podatkovnega prostora, pri emer je cilj, da je razdalja med posameznimi podatkovnimi podprostori im ve ja (Breiman et al., 1984; Quinlan 1986, 1992; Kompare, 1995; Mitchell, 1997; Witten & Frank, 2000; Solomatine & Dulal, 2003). Glavne komponente odlo itvenih dreves so odlo itvena vozliš a, veje in listi. Odlo itveni proces se za ne pri glavnem oziroma zgornjem odlo itvenem vozliš u (na sliki 5 je to atribut 'koli ina padavin', ki lo i drevo v dve veji glede na to, ali je vrednost atributa 'koli ina padavin' ve ja ali manjša od 2,4), v katerem je specificiran razdelitveni kriterij. Glede na odgovor na ta razdelitveni kriterij se odlo itveno drevo razdeli v veje. Vsaka veja lahko vodi do podrejenih vej ali pa zaklju nih delov odlo itvenih dreves, ki se imenujejo listi in predstavljajo vrednost, ki jo zavzame model. Rezultati modeliranja so torej modeli v obliki odlo itvenih dreves, ki predstavljajo zaporedje pravil, ki pripeljejo do vrednosti razreda, numeri ne vrednosti ali linearne funkcije uporabljenih atributnih spremenljivk. Glede na to lahko razdelimo vrste odlo itvenih dreves (angl. decision trees) v: klasifikacijska drevesa (angl. classification trees) z nominalnimi vrednostmi razreda kot listi modela, regresijska drevesa (angl. regression trees) s konstantnimi numeri nimi vrednostmi kot listi modela in modelna drevesa (angl. model trees) z linearnimi kombinacijami oziroma funkcijami uporabljenih atributov kot listi modela. Slika 4 – Primer regresijskega drevesa. Primer regresijskega drevesa, katerega atributa pri razvoju modela sta bila dQ in Q START , modelirana spremenljivka pa k, je na sliki 4 in se tolma i oziroma uporablja na naslednji na in: e je dQ ni%ji od 0,783, Q START pa ni%ji od 23, potem se uporabi vrednost k = – 0,0259; e je dQ višji od 0,783 in ni%ji od 2,78, Q START pa ni%ji od 23, potem se uporabi vrednost k = –0,0372; e je dQ ni%ji od 2,78, Q START pa višji od 23, potem se uporabi vrednost k = – 0,0510; e je dQ višji od 2,78 in ni%ji od 6,84, potem se uporabi vrednost k = –0,0617; e je dQ višji od 6,84, potem se uporabi vrednost k = –0,0938. Podatki V obdobju enega leta je bilo zabele%enih 369 dogodkov; 173 na ju%ni in 196 na severni raziskovalni ploskvi. Lo nica med dvema zaporednima dogodkoma je bilo sušno obdobje, v katerem so se krošnje dreves lahko posušile. Za vsak posamezen dogodek so bili tako zbrani naslednji atributni podatki: orientacija raziskovalne ploskve (severna, ju%na), koli ina padavin (v mm), trajanje naliva (v urah), intenziteta naliva (v mm na uro), povpre na temperatura zraka (v °C), relativna vla%nost (v %) in povpre na hitrost vetra (v m/s). Koli ina padavin za posamezne dogodke je bila v razponu od 0,2 do 100,2 mm, nalivi so trajali od 5 minut do skoraj 40 ur, intenziteta padavin pa je varirala od 0,15 do celo 44 mm na uro. Rezultati S pomo jo metod strojnega u enja M5 in J4.8 smo razvili tri modele v obliki odlo itvenih dreves. V primeru #1 (slika 5) smo razvili klasifikacijsko drevo, katerega atributi so bili orientacija raziskovalne ploskve, koli ina, trajanje in intenziteta padavin, temperatura in relativna vla%nost zraka in povpre na hitrost vetra v asu dogodka. Modelirana spremenljivka je bil odstotni dele% prestre%enih padavin (v odnosu do celotne koli ine padlih padavin nad krošnjami), ki smo ga za potrebe tega primera klasificirali v 7 razredov, in sicer: razred R_0 (slika 5) predstavlja dogodke, ko je bil relativni dele% prestre%enih padavin 0 %, R_1_20 predstavlja dogodke z relativnim dele%em prestre%enih padavin od 1 do 20 % in tako naprej do razreda R_100, ko je bilo v okviru posameznega dogodka prestre%eno 100 % padavin. Slika 5 – Razviti model v obliki klasifikacijskega drevesa za primer #1 (metoda strojnega u enja J4.8). Iz modela (slika 5), ki pravilno klasificira 56 % znanih in 46 % neznanih primerov, lahko razberemo, da je v primeru dogodkov z manj kot 2,4 mm padlih padavin in trajanjem, krajšim od 10 minut, prestre%ena vsa padla voda (razred R_100). V takih pogojih padavine ne dose%ejo gozdnih tal in torej ne pride do procesov napajanja podzemnih rezervoarjev preko infiltracije in ne pride do procesov površinskega ali podpovršinskega odtoka. Na drugi strani pa je pri padavinskih dogodkih z enako koli ino padavin (do 2,4 mm) in trajanjem, daljšim od 10 minut, prestre%eno med 41 in 60 % padavin, e je temperatura ni%ja od 14 °C, in prestre%eno med 81 in 99 % padavin, e je temperatura višja od 14 °C. Razviti model torej za dogodke z manj kot 2,4 mm padavin kot pomembna faktorja, ki vplivata na dele% prestre%enih padavin, opredeli trajanje naliva in povpre no temperaturo v asu dogodka. Pri dogodkih z ve kot 2,4 in manj kot 7,0 mm padavin je prestre%eno med 41 in 60 % (razred R_41_60) padavin, torej pribli%no polovica vseh padavin. Pri dogodkih z ve kot 7 mm padavin se kot faktorja, ki pomembno vplivata na proces, pojavita tudi povpre na hitrost vetra in intenziteta padavin; prestre%enih je do 40 % padavin v odvisnosti od vrednosti obeh spremenljivk pri posameznem dogodku. Zanimivo je, da struktura razvitega modela navkljub pri akovanjem ne ka%e vpliva orientacije pobo ja (severno/ju%no) na proces. To bi lahko bila tudi posledica tega, da so razlike v procesih na severnem in ju%nem pobo ju predstavljene v obliki razli nih vrednosti posameznih atributov dogodkov; torej v povpre ni koli ini padavin, temperaturi zraka, relativni vla%nosti in vetrovni sliki. V primerih #2 (slika 6) in #3 (slika 7) smo razvili dve regresijski drevesi, katerih atributi so bili orientacija raziskovalne ploskve, koli ina, trajanje in intenziteta padavin, temperatura in relativna vla%nost zraka in povpre na hitrost vetra v asu dogodka. Modelirana spremenljivka je bil odstotni dele% prestre%enih padavin, ki za razliko od primera #1 ni bil klasificiran v razrede, temve izra%en v numeri ni obliki v intervalu med 0 in 100 %. Glavna razlika med obema generiranima modeloma je bila kompleksnost le- teh; rezultat v obliki modela v primeru #3 predstavlja obrezano (angl. 'pruned') oziroma manj kompleksno drevo. Manjša oziroma skoraj zanemarljiva je tudi razlika v obnašanju obeh modelov pri verifikaciji na neznanih primerih; srednja absolutna napaka razvitega modela v primeru #2 je 12,58 %, srednja absolutna napaka razvitega modela v primeru #3, ki predstavlja manj kompleksno obliko modela v primeru #2, pa je 14,80 % padavin. Slika 6 – Razviti model v obliki regresijskega drevesa za primer #2 (metoda strojnega u enja M5). Iz obeh razvitih modelov, še posebej pa iz manj kompleksnega regresijskega drevesa v primeru #3 (slika 7), je razvidno, da je pri dogodkih z manj kot 2,5 mm padavin in temperaturo zraka ni%jo od 14,2 °C prestre%enih 81,2 % padavin, e je dogodek krajši od 1,67 ure, in da je prestre%eno 47,2 % padavin, e je dogodek daljši od 1,67 ure. Ae je temperatura v asu dogodka z manj kot 2,5 mm koli ine padavin višja od 14,2 °C, pa je prestre%eno kar 95,5 % padavin nad krošnjami dreves. Pri dogodkih z ve kot 2,5 in manj kot 7,5 mm koli ine padavin drevesne krošnje prestre%ejo 42,8 % padavin, pri dogodkih z ve kot 7,5 mm koli ine padavin nad krošnjami dreves pa je v povpre ju prestre%enih 23,2 % padavin. Generirano regresijsko drevo primera #2 (slika 5) nam v primeru dogodkov z ve kot 7,5 mm koli ine padavin razkriva še dodatne klimatske faktorje, ki vplivajo na proces; to sta povre na hitrost vetra ter intenziteta in trajanje padavin. Pri dogodkih z nad 7,5 mm padavin je v primeru povpre ne hitrosti vetra ni%je od 3,45 m/s prestre%enih pribli%no 10 % manj padavin kot pri dogodkih s povpre no hitrostjo vetra višjo od 3,45 m/s. Slika 7 – Razviti model v obliki regresijskega drevesa za primer #3 (metoda strojnega u enja M5). Zaklju ki V okviru raziskave so bile na podlagi izvedenih meritev in analize rezultatov le-teh z metodami strojnega u enja ugotovljene zna ilnosti vpliva zaraš anja opuš enih kmetijskih zemljiš na vodno bilanco pore ja Dragonje. Gozdovi na novozaraš enih površinah prestre%ejo skoraj vso vodo padavinskih dogodkov z manj kot 2,5 mm padavin, kar pomeni da v takih primerih ne pride do površinskega in podpovršinskega odtoka v Dragonjo ali napajanja zalog podzemne vode v pore ju. Izjema pri dogodkih z manj kot 2,5 mm padavin so le dogodki daljši od 1,67 ure in s temperaturo ni%jo od 14 °C, kar bi lahko predstavljalo tudi vpliv horizontalnih padavin oziroma megle; takrat je namre pretre%enih le pribli%no polovica padavin. Za dogodke z ve kot 2,5 mm padavin pa generirani modeli ka%ejo, da novi gozd prestre%e od 42,8 % padle vode pri dogodkih s koli ino padavin od 2,5 do 7,5 mm in 23,2 % padle vode pri dogodkih s koli ino padavin ve jo od 7,5 mm, ko pa imata na vrednost dele%a prestre%enih padavin mo an vpliv tudi povpre na hitrost vetra in intenziteta padavin. Klasifikacijska in regresijska drevesa, ki smo jih iz rezultatov meritev zgenerirali s pomo jo metod strojnega u enja J4.8 in M5, transparentno ka%ejo stopnje vplivov in interakcij posameznih faktorjev, ki pomembno vplivajo na dele% prestre%enih padavin na gozdnih obmo jih. Ae rezultate z obeh raziskovalnih ploskev ekstrapoliramo na celotno pore je Dragonje, lahko ugotovimo, da je vpliv spremenjene dejanske rabe zemljiš v zadnjih desetletjih na vodno bilanco znotraj pore ja precej visok in nikakor zanemarljiv. Z vidika oskrbe z vodo, ki (zaenkrat) predstavlja velik razvojni problem obalnega obmo ja, lahko na spremembe v vodni bilanci zaradi zaraš anja opuš enih kmetijskih zemljiš gledamo kot na izrazito neza%elen pojav, saj je kar pribli%no tretjina vode na obmo jih, poraslih z gozdom, dobesedno izgubljena. Metode strojnega u enja za generiranje modelov v obliki odlo itvenih dreves predstavljajo zelo uporaben in obetajo pripomo ek za iskanje novih znanj v podatkovnih bazah. Pri tem pa je treba poudariti, da je sam razvoj modela le eden izmed korakov pri iskanju novih znanj, saj izbor, zbiranje in priprava podatkov, nadzor nad razvojem modela in njegova interpretacija, ki pa jih lahko opravi samo podro ni strokovnjak, predstavljajo prav tako pomembne stopnje razvoja novih znanj. Viri in literatura Breiman L, Friedman JH, Olshen RA, Stone CJ. (1984) Classification and regression trees. Wadworth, Belmont. Brilly M, Sraj M. (2000) Osnove hidrologije (Principles of Hydrology). University Textbook, University of Ljubljana, Faculty of Civil and Geodetic Engineering. Chow VT. (1964) Handbook of applied hydrology. McGraw-Hill, New York. Dawson CW, Wilby RL. (2001) Hydrological modelling using artificial neural networks. Progress in Physical Geography 25(1): 80–108. Globevnik L. (2001) Celosten pristop k urejanju voda v povodjih. Doktorska disertacija, Univerza v Ljubljani. Kompare B. (1995) The use of artificial intelligence in ecological modelling. Ph. D. Thesis, Royal Danish School of Pharmacy, Copenhagen, Denmark. Mikoš M, Kranjc A, Mati i B, Müller J, Rakovec J, Roš M, Brilly M. (2002). Hidrološko izrazje. Acta hydrotechnica 20/32: 3–324. Mitchell T. (1997) Machine Learning. MIT Press and The McGraw-Hill Companies, Inc. Ovington JD. (1954) A comparison of rainfall in different woodlands. Forestry London 27, pp 41– 53. Quinlan JR. (1986) Induction of Decision Trees. Machine Learning 1: 81–106. Quinlan JR. (1992) Learning with continuous classes. In: Proceedings of the Fifth Australian Joint Conference on Artificial Intelligence, pp 343–348. Solomatine DP, Dulal KN. (2003) Model trees as an alternative to neural networks in rainfall- runoff modelling. Hydrological Sciences Journal 48: 399–411. Šraj M. (2003) Estimating leaf area index of the deciduous forest in the Dragonja watershed – Part I: Methods and measuring. Acta Hydrotechnica 21/35: 105–127. Šraj M. (2003) Modeliranje in merjenje prestre%enih padavin. Doktorska disertacija, Univerza v Ljubljani. Štravs L, Kobold M, Brilly M. (2004) Modeli kratkoro nih napovedi pretokov visokih voda na Savinji. Zbornik – Miši ev vodarski dan, Maribor. Witten I H, Frank E. (2000) Data mining: Practical machine learning tools and techniques with java implementations. Morgan Kaufmann Publishers, San Francisco, USA.