Testni centri ECDL ECDL (European Computer Driving License), ki ga v Sloveniji imenujemo evropsko računalniško spričevalo, je standardni program usposabljanja uporabnikov, ki da zaposlenim potrebno znanje za delo s standardnimi računalniškimi programi na informatiziranem delovnem mestu, delodaigld^m^a pomeni dokazilo o usposobljenosti. V Evropi je za uvajanje, usposabljanje in nadzor izvajanja ECDL pooblaščena ustanova EGOL Foundation, v Sloveniji pa je kot član CEPIŠ (Council of European Professional Informatics Societies) to pravico pridobilo Slovensko društvo INFORMATIKA. V državah Evropske unije so pri uvajanju ECDL močno angažirane srednje in visoke šole, aktivni pa so tudi različni vladni resorji. Posebej pomembno je, da velja spričevalo v več kot osemdesetih državah, ki so vključene v program ECDL. Doslej je bilo v svetu izdanih že več kot tri milijone indeksov, v Sloveniji okoli 1700 in podeljenih okoli tisoč spričeval. Za testne centre ECDL so se v Sloveniji usposobile organizacije, katerih logotipi so natisnjeni na tej strani. AE>X*1;1A ustvarjalne komunikacije EIRO Simply logical /ČOPA, VSEBINA . ! ' ■ V : . ' UPORABNA INFORMATIKA 2004 ŠTEVILKA 1 JAN/FEB/MAR LETNIK XII B Uvodnik B Razprave Tomaž Dogša: Problematika sistemou za uodenje popravljanja in vzdrževanja Stjepan Pervan, Martina Kern: Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov Miro Ribič, Andrej Kovačič: Sistem za upravljanje delovnih procesov Marko Holbl, Petra Grm, Boštjan Brumen, Tatjana VVelzer, Izidor Golob: Natančnost uvrščanja slovenskih besedil B Poročila Ladislav Mikola: Uporaba desetiških Sl predpon v informatiki Zsuzsana Toszegi: Digitaliziranje madžarske kulturne dediščine B Koledar prireditev 2004- številka 1 - letnik XII uporabna INFORMATIK 5 11 19 30 42 47 50 51 A 1 -" ssammmsMi —B a UPORABNA INFORMATIKA ISSN 1318-1882 Ustanovitelj in izdajatelj: Slovensko društvo INFORMATIKA Vožarski pot 12 1000 Ljubljana Predstaunik Niko Schlamberger Odgovorni urednik: Andrej Kovačič Uredniški odbor: Marko Bajec, Vesna Bosilj Vukšič, Dušan Caf, Aljoša Domijan, Janez Grad, Jurij Jaklič, Milton Jenkins, Andrej Kovačič, Tomaž Mohorič, Katarina Puc, Vladislav Rajkovič, Heinrich Reinermann, Ivan Rozman, Niko Schlamberger, John Taylor, Ivan Vezočnik, Mirko Vintar, Tatjana VVelzer - Družovec Recenzenti prispevkov za objavo v reviji Uporabna informatika: Marko Bajec, Tomaž Banovec, Vladimir Batagelj, Marko Bohanec, Vesna Bosilj Vukšič, Dušan Caf, Srečko Devjak, Aljoša Domijan, Tomaž Erjavec, Matjaž Gams, Tomaž Gornik, Janez Grad, Miro Gradišar, Jože Gričar, Joszef Gyorkos, Marjan Heričko, Jurij Jaklič, Milton Jenkins, Andrej Kovačič, Iztok Lajovic, Tomaž Mohorič, Katarina Puc, Vladislav Rajkovič, Heinrich Reinermann, Ivan Rozman, Niko Schlamberger, Ivan Vezočnik, Mirko Vintar, Tatjana VVelzer - Družovec, Franc Žerdin Tehnična urednica Mira Turk Škraba Oblikovanje Sons Prelom Dušan VVeiss, Ada Poklač Tisk Prograf Naklada 700 izvodov Naslov uredništva Slovensko društvo INFORMATIKA Uredništvo revije Uporabna informatika Vožarski pot 12, 1000 Ljubljana www.drustvo-informatika .si/posta Revija izhaja četrtletno. Cena posamezne številke je 4.500 SIT. Letna naročnina za podjetja 17.800 SIT, za vsak nadaljnji izvod 11.900 SIT, za posameznike 5.900 SIT, za študente 2.800 SIT. Revijo sofinancira Ministrstvo za šolstvo, znanost in šport RS. Revija Uporabna informatika je od številke 4/VII vključena v mednarodno bazo INSPEC. Revija Uporabna informatika je pod zaporedno številko 666 vpisana v razvid medijev, ki ga vodi Ministrstvo za kulturo RS. © Slovensko društvo INFORMATIKA Navodila avtorjem Revija Uporabna informatika objavlja izvirne prispevke domačih in tujih avtorjev na znanstveni, strokovni in informa¬ tivni ravni. Namenjena je najširši strokovni javnosti, zato je zaželeno, da so tudi znanstveni prispevki napisani čim bolj poljudno. Članke objavljamo praviloma v slovenščini, prispevke tujih avtorjev v angleščini. Prispevki so obojestransko anonimno recenzirani. Vsak članek za rubriko Razprave mora za objavo prejeti dve pozitivni re¬ cenziji. O objavi samostojno odloča uredniški odbor. Prispevki naj bodo lektorirani, v uredništvu opravljamo samo korekturo. Po presoji se bomo posvetovali z avtorjem in članek tudi lektorirali. Prispevki za rubriko Razprave naj imajo dolžino do 40.000, prispevki za rubrike Rešitve, Poročila do 30.000, Obvestila pa do 8.000 znakov. Naslovu prispevka naj sledi ime in priimek avtorja, ustano¬ va, kjer je zaposlen in elektronski naslov. Članek naj ima v začetku do 10 vrstic dolg izvleček v slovenščini in angleščini, v katerem avtor opiše vsebino prispevka, dosežene rezul¬ tate raziskave. Abstract se začne s prevodom naslova v angleščino. Članku dodajte kratek avtorjev življenjepis (do 8 vrstic), v katerem poudarite predvsem delovne dosežke. Pišite v razmaku ene vrstice, brez posebnih ali poudarjenih črk, za ločilom na koncu stavka napravite samo en prazen prostor, ne uporabljajte zamika pri odstavkih. Revijo tiskamo v črno-beli tehniki s folije, zato barvne slike ali fotografije kot originali niso primerne. Objavljali tudi ne bomo slik zaslonov, razen če niso nujno potrebne za razume¬ vanje besedila. Slike, grafikoni, organizacijske sheme ipd. naj imajo belo podlago. Po možnosti jih pošiljajte posebej, ne v datoteki z besedilom članka. Disketi z besedom priložite Izpis na papirju, Prispevke pošiljajte po elektronski ali navadni pošti na naslov uredništva revije: ui@drustvo-informatika.si, Slovensko društvo INFORMATIKA, Vožarski pot 12, 1000 Ljubljana. Za dodatne informacije se obračajte na tehnično urednico Miro Turk Škraba. Po odločitvi uredniškega odbora o objavi članka bo avtor prejel pogodbo, s katero bo prenesel vse materialne avtorske pravice na Slovensko društvo INFORMATIKA. Po izidu revije pa bo prejel nakazilo avtorskega honorarja po veljavnem ceniku ali po predlogu odgovornega urednika. 2 uporabna INFORMATIKA UVODNIK Evropa Pričujoča številka revije Uporabna informatika je zadnja pred pridružitvijo Slovenije Evropski uniji. Ob tem se nam porajajo razmisleki, povezani z različnimi predstavami o naši prihodnosti. Spominjamo se navdušenja ob ustanovitvi lastne države, ki smo jo razumeli med drugim tudi kot vrnitev v Evropo, prepričanja, da je naše mesto v Evropski uniji, kar smo dokazali kot priznano najbolje pripravljena država izmed vseh kandidatk za članstvo, pa nekoliko bolj senčnih tonov, ko smo ugotavljali, da ima tudi ta medalja dve plati. Od novega položaja vsi predvsem pričakujemo, da bomo živeli bolje. To je verjetno dokaj idealiziran pogled na prihodnost, ki ga moramo uskladiti z resničnostjo. Kaj pomeni živeti bolje? Upoštevati moramo, da tudi Evropska unija od novih članic marsikaj pričakuje. V novi zvezi gre za bistveno močnejši potencial gospodarstev držav članic in tistih, ki pristopajo. Pristopnice lahko pri tem precej pridobijo, saj bo mednarodna menjava bistveno olajšana. Gre za spretnost in znanje pri izkoriščanju potencialov, ki niso porazdeljeni enakomerno in prav v tem je naša priložnost. Ob tem mislimo tudi na informacijsko družbo. Evropska unija je smer razvoja določila z Bangemannovim poročilom in z dokumenti ter akcijami, ki so mu sledile. Države pristopnice so v času, ko je bilo objavljeno, razumele tak razvoj kot neizogiben, vendar so imele različna izhodišča in zato tudi različne načine, kako se vključiti vanj. Tega so se lotevale bolj ali manj spretno, z več ali manj pomoči razvitejših, ob močnejši ali skromnejši podpori svojih subjektov. Pomembno vlogo, kije bila marsikje spregledana, ima pri tem civilna družba. Slovensko društvo INFORMATIKA, ki se bliža že trideseti obletnici ustanovitve, je ustanova civilne družbe par excellence. Ustanovitelji društva so se zavedali pomena informatike še v času in v družbi, ki take vrste podvigom ni bila naklonjena in zato moramo njihov pogum in vizijo tem bolj ceniti. Pomembna poteza je bila tudi začetek izdajanja znanstvene revije Informatica, kjer so prispevki v angleškem jeziku, s čimer so napravili društvo mednarodno vidno in spoštovano. Organizacijska znanost je spoznala, da se institucije spreminjajo, njihove funkcije pa ostajajo. To lahko vidimo v proizvodnji, izobraževanju in upravi. Proizvodi in storitve nastajajo zdaj tu, zdaj tam, odvisno od možnosti in poslovnih interesov. Izobraževalne ustanove nastajajo, se združujejo in spreminjajo, uvajajo nove načine usposabljanja in učenja, ki jih omogočajo nove tehnologije; spričevala in diplome se bodo podeljevale tudi v prihodnje. Državne institucije izvajajo iste funkcije v različnih organizacijskih kombinacijah in pod različnimi nazivi. Civilna družba je neodvisen sogovornik oblasti. Tako razmerje je pri nas relativno novo in še ne uveljavljeno, vendar telo, ki ga imenuje oblast, tej ne more biti enakopraven sogovornik, kaj šele, da bi jo opozarjalo na slabe rešitve in ji nakazovalo boljše. Tak položaj lahko zavzame le neodvisna entiteta in sčasoma postane enakovredna tradicionalnim trem vejam oblasti. Sedanja negotovost civilne družbe glede lastne vloge in moči je verjetno razlog, da v državah pristopnicah ni bilo pričakovanih rezultatov od forumov za informacijsko družbo, ki so nastali po zgledu Bangemannovega foruma. Skromna denarna sredstva, s katerimi so forumi razpolagali, so gotovo tudi med razlogi za to, vendar ne glavni. Najpomembnejša vloga civilne družbe pa je ohranjevanje kontinuitete naroda, pri čemer je jezik bistveni element. Slovensko društvo INFORMATIKA je to spoznalo in rezultat tega je bila ustanovitev revije Uporabna informatika, ki izhaja že deset let, in sekcije za jezik. Jezik ni samo jezik leposlovja, temveč tudi stroke in znanosti; slediti in spremljati mora tekoča dogajanja in dosežke in jih razumljivo zapisovati, prejemati in ohranjati za sporazumevanje in sporočanje. Kaj imajo torej skupnega naše bližnje članstvo v Evropski uniji, informacijska družba in civilna družba? V družbi razvitejših vedno obstaja nevarnost, da se bodo manj razviti in šibkejši podrejali močnejšim in razvitim. Pri tem ne gre za pritisk in nasilje, dejstvo je, da boljši in učinkovitejši sistemi izpodrivajo slabše in manj učinkovite. Poglejmo npr. amerikanizacijo evropskega življenja: ali se dogaja na silo? Ne, Amerika vstopa v naš svet nenasilno in z našim tihim pristankom, morda celo s sodelovanjem. V podobnem položaju se bomo znašli v Evropi. Informacijska družba, od katere pričakujemo vse ugodnosti industrijske, je zapeljiva in privlačna podoba. Če ne razumemo, da pri tem sicer lahko materialno pridobimo, kulturno pa tudi kaj izgubimo, naša perspektiva naroda, ki se je obdržal dva tisoč let, ni rožnata. Predvsem civilna družba je tista, ki bo vplivala na ohranitev jezika kot bistvenega nosilca narodove kulture in v tem pogledu moramo kot društvo storiti vse, da bo revija privlačna za avtorje in bralce tudi v naši evropski prihodnosti. Pri tem se moramo zavedati svoje dolžnosti do jezika tudi posamezniki. Nedavno sem na tržnici v državi, kjer živi manjšina, sicer mnogo številčnejša od Slovencev, prebral dvojezični napis: Jezik ne izgine zato, ker se ga tisti, ki ga ne znajo, ne učijo, temveč zato, ker ga tisti, ki ga znajo, ne govorijo. Če to razumemo, se nam tudi v družbi najrazvitejših ni treba bati prihodnosti. Niko Schlamberger 2004 - številka 1 - letnik XII uporabna INFORMATIKA 3 Ponovno vas vabimo, da si rezervirate čas za udeležbo na posvetovanju XI. DNEVI SLOVENSKE INFORMATIKE 14.-16. aprila 2004 Kongresni center Grand hotela Emona, Portorož predavanja domačih in tujih strokovnjakov ■ okrogle mize ■ delavnice ■ razstave ■ družabni dogodki Program posvetouanja: poslovna informatika in elektronsko poslovanje ■ informacijske tehnologije in internet ■ informacijska kultura in družba Informacije: www.dsi2004.org 4 uporabna INFORMATIKA 2004 - številka 1 - letnik XII RAZPRAVE B Problematika sistemov za vodenje popravljanja in vzdrževanja Tomaž Dogša cVSA/s Center za verifikacijo in validacijo sistemov Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru, Smetanova 17, 2000 Maribor tdogsa@uni-mb.si Povzetek Vsaka organizacija, ki želi delovati v skladu s smernicami glede kakovosti, mora vzpostaviti sistem, ki bo omogočal beleženje in nadzor nad nepravilnostmi ter spremembami (v nadaljevanju sistem SVPV). Kakovosten sistem SVPV ne omogoča samo nadzora nad zahtevki za spremembo, ampak tudi razne analize, s katerimi lahko ugotavljamo uspešnost oziroma slabosti razvoja. V prispevku je opisana problematika teh sistemov in na kratko komentiran standard IEEE 1044-1993. Abstract Difficulties nf Problem Tracking and Maintenance Systems Each organisation intending to work according to the quality guidelines has to introduce a system of problem tracking and control of changes. The problem tracking system (PTS) of high quality does not support only data capturing, but also enables comparative analysis of effectiveness and weaknesses of softvvare development cycle. In this paper a brief description of issues concerning PTS is presented and IEEE 1044-1993 Standard is also discussed. 1 Uvod Ena izmed značilnosti informacijskih sistemou je, da se pogo¬ sto spreminjajo. Formalni razlog, s katerim se zahteua spre¬ memba komponente ali sistema, bomo poimenovali zahtevek za spremembo ali na kratko zahtevek. U mnogih primerih so obravnavane samo nepravilnosti in je zahtevek za spremem¬ bo v bistvu opažena nepravilnost ali problem. Zahtevki za spremembo so pomemben vir podatkov, na podlagi katerega lahko sklepamo o trenutni kakovosti produkta in razuoja, napovedujemo končno kakovost, razporejamo resurse in napouedujemo datum, ko bo produkt predan naročniku. Ker zahtevek sproži niz aktivnosti, ki lahko po¬ membno vplivajo na stroške, roke in kakovost siste¬ ma, je zelo pomembno, da imamo dober nadzor nad celotno življenjsko dobo zahtevka. Glede na razvojni cikel se spremembe sistema pojavljajo predvsem pri preverjanju in vzdrževanju. Vzroke za spremembo strukture sistema lahko uvrstimo v naslednje katego¬ rije: nepravilno delovanje, izboljšava, prilagajanje spremembam v okolju in nove naročnikove zahteve. Prvi dve kategoriji kakovost dvigujeta, medtem ko jo zadnji dve samo ohranjata. Ko so vzroki za zahtevek odpravljeni, se konča njegov življenjski cikel. Vsaka organizacija, ki želi delovati v skladu s smer¬ nicami glede kakovosti, mora vzpostaviti sistem, ki bo omogočal beleženje in nadzor nad nepravilnostmi ter spremembami. Ta sistem bomo v nadaljevanju ime¬ novali SVPV (sistem za vodenje popravljanja in vzdr¬ ževanja). Ker je kakovost produkta odvisna tudi od kakovosti procesa, se to odraža v nekaterih standar¬ dih, ki so povezani s kakovostjo. ISO 9001:2000 (sekci¬ ja 4.2.4 Obvladovanje zapisov) zahteva od dobavite¬ lja, da mora vzpostaviti in vzdrževati postopke za pre¬ poznavanje, zbiranje, urejanje, dopolnjevanje, shra¬ njevanje, vzdrževanje in odstranjevanje zapisov o ka¬ kovosti. V ISO 9000-3 (Poglavje 5.7.3 Preskušanje) je zahtevano, da mora biti vsaka zaznana težava zapisa¬ na in njen status nadzorovan, dokler ni odpravljena. Tudi zrelostni model CMM (Capability Maturity Mo¬ del) govori o procesiranju zapisov o ugotovljenih ne¬ pravilnostih. Nivo 2 zahteva samo beleženje in nad¬ zor nad odpravo nepravilnosti, medtem ko nivo 3 zahteva še analizo nepravilnosti. Z vzročno analizo 1 najdenih nepravilnosti in napak lahko dobimo vpo¬ gled v slabosti razvojnega procesa (glej zgled na pre¬ glednici 1). Na nivoju 4 je dodana še ocena napovedo¬ vanja zelo verjetnih nepravilnosti. Najvišji nivo (5) zahteva, da morajo biti vzpostavljene tudi aktivnosti za preprečevanje nepravilnosti. 1 Več o tej problematiki glej v članku [CARD, 1998j. 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 5 Tomaž Dogša: Problematika sistemov za vodenje popravljanja in vzdrževanja Slika 1 prikazuje tipični razvojni proces, v katerem sistematično zapisujemo zahtevke. Ker je sistem za zapisovanje zahtevkov ključni element, od katerega so odvisne druge aktivnosti, se bomo v tem prispevku osredotočili predvsem na njegovo problematiko. taciji lastnega sistema SVPV 3 . Mnogo praktičnih na¬ potkov se nahaja v [KANER,1993]. Ker je standard IEEE 1044-1993 eden redkih, ki lahko pomaga orga¬ nizacijam pri vzpostavitvi sistemov SVPV, se bomo v prispevku nanj pogosto sklicevali. smernice, Slika 1 Z vzročno analizo lahko izboljšujemo kakovost razvojnega procesa Na tržišču obstaja niz sistemov 2 SVPV. To so po¬ datkovno podprte aplikacije, ki so namenjene nadzo¬ ru nad popravljanjem in vzdrževanjem. Ker gre za relativno preproste podatkovne baze, so mnoge orga¬ nizacije izdelale svoje sisteme SVPV. V večini prime¬ rov imajo dva ločena sistema za nadzor nad spre¬ membami; prvi se uporablja v fazi razvoja in prever¬ janja, drugi pa v fazi validacije in kasnejšega vzdrže¬ vanja. Za učinkovito obvladovanje kakovosti je smi¬ selno, da vsaj delno združimo oba, saj je mnogo ak¬ tivnosti enakih. Na kratko bomo opisali potek zapisovanja in opo¬ zorili na probleme, ki smo jih srečali pri implemen- Preglednica 1 . Delež odkritih nepravilnosti po posameznih aktivnostih. Primerjava uspešnosti preverjevalnih metod kaže, da je zaradi neučinkovitega testiranja narastel delež odkritih nepravilnosti v fazi uporabe. 2 Povezaua med preverjanjem, popravljanjem in uporabo V razvoju in kasnejšem vzdrževanju se sistem nepre¬ stano spreminja. Namen spremembe sistema lahko uvrstimo v naslednje kategorije: nepravilno delova¬ nje, izboljšava, prilagajanje spremembam v okolju in nove naročnikove zahteve. Preverjanje, popravljanje in nadzor nad konfigu¬ racijo so mnogokrat popolnoma ločene aktivnosti v življenjskem ciklusu, za katerega skrbi skupina za ka¬ kovost (slika 2). Med osebami, ki sodelujejo v teh ak¬ tivnostih, poteka izmenjava številnih informacij v ob¬ liki pisnih ali ustnih sporočil. Glede na stopnjo računalniške podpore in organiz¬ iranosti preverjanja ter popravljanja obstajajo nasled¬ nje stopnje beleženja zahtevkov: preverjevalci vodja projekta predlog, ocene tveganja delovni nalog poročilo popravljalci o popravilu skupina za kakovost poročilo o nepravilnostih poročilo o kakovosti Slika 2: Povezava med preverjanjem, popravljanjem in uporabo 2 A/a internetu jih iščemo z naslednjimi imeni: Problem management system, Bug tracking system, Incident tracking system, Problem tracking system. 3 Podrobnejši opis sistema SVPV, ki temelji na IEEE 1044-1993, je na naslovu: http://saturn.uni-mb.si/č cvv. 6 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Tomaž Dogša: Problematika sistemov za vodenje popravljanja in vzdrževanja ■ Kaotični proces. Ni sistematičnega preverjanja. Avtorji sami preverjajo in sproti popravljajo. Če preverjanje izvaja posebna skupina, je komuni¬ kacija med preverjevalci in popravljalci ustna. Ni nobenih formalnih zahtevkov in pisnih poročil o najdenih neustreznostih in o popravilu. . Papirni proces. Skupina, ki preverja, zapisuje svoje ugotovitve na posebne formularje, ki jih pošiljajo popravljalcem. Vodja ima delni pregled nad obe¬ ma skupinama. Ne analizira se učinkovitost po¬ pravljanja in preverjanja, saj analize zahtevajo do¬ datno delo. Uporabniki sporočajo opažene neus¬ treznosti ustno, po telefonu ali elektronski pošti. • Avtonomno računalniško podprti procesi. Prever¬ jevalci uporabljajo posebna računalniško podprta orodja, ki omogočajo učinkovito preverjanje. Po¬ dobno velja za popravljalce. Vsak ima svojo podat¬ kovno bazo. Med bazami ni neposredne povezave. Uporabniki sporočajo opažene neustreznosti pis¬ no ali po elektronski pošti. Tudi ti podatki se vna¬ šajo v podatkovno bazo. • Centraliziran računalniško podprt proces. Sistem SVPV ima centralni repozitorij, ki ga koristijo vsa orodja, ki jih uporabljamo v razvoju. Uporabniki neposredno vpisujejo opažene nepravilnosti. Vod¬ ja ima zelo dober nadzor nad potekom popravlja¬ nja in preverjanja. Zasledovati je mogoče status vsake vpisane nepravilnosti. Izvajajo se razne ana¬ lize, ki kažejo na kakovost preverjanja, poprav¬ ljanja in tudi samega produkta. Z rezultati anali z lahko prognoziramo trenutne trende in racional¬ neje razporejamo resurse. Slabost: velika odvisnost od centra. Končni (idealni) cilj je računalniško integriran razvoj, ki povezuje vse procese v celoto. Slabost tega pristopa so veliki stroški. V primeru, da že uporabljamo določena razvojna orodja, jih zelo težko vključimo v nov sistem. Potreben je nakup novih orodij in dodatno usposab¬ ljanje. Ker gre za zelo radikalne spremembe, povezane z velikim tveganjem, lahko pričakujemo, da se bodo le redki takoj odločali za centraliziran proces. 3 Tipični potek procesiranja zahteuka Ena izmed zelo pomembnih entitet v podatkovnem modelu sistema SVPV je zahtevek za spremembo. Nanaša se na točno določen objekt ali sistem oziroma na njegovo verzijo. Obstaja več postopkov procesira¬ nja zahtevka. Večina ustreza modelu, ki ga prikazuje slika 3. Zahtevek za spremembo, ki je lahko obravna- Slika 3: Popravljanje oziroma spreminjanje sistema, prikazano z diagra¬ mom prehajanja stanj. Najpogostejša je popolnoma navpična pot. van kot izboljšava, nepravilnost ali sprememba speci¬ fikacij, sproži naslednje štiri aktivnosti: • sprejem in opis zahtevka za spremembo, • analizo zahtevka, ■ odločitev o ukrepih za odpravitev zahtevka, ■ odločitev o končnem statusu zahtevka. Vse te aktivnosti so lahko eksplicitno ločene ali pa so združene in se navzven kažejo kot samo ena ak¬ tivnost. Začetna aktivnost je sprejem zahtevka. Ose¬ ba, ki zahteva spremembo, navede namen zahtevka (izboljšava, odprava nepravilnosti ali sprememba specifikacij), na kratko opiše problem in ga klasificira glede na izbrani taksonomijski sistem. Nato sledi anal¬ iza zahtevka, kjer analitik podrobneje preuči zahtevek in poda predlog o rešitvi ter poišče vzroke, ki so pov¬ zročili nastanek zahtevka. Odločiti se mora, ali gre morebiti za napačno uporabo ali se obravnavani zah¬ tevek že obdeluje, kakšen vpliv ima zahtevek na ka¬ kovost sistema, oceniti mora razna tveganja (po¬ praviti ali ne popraviti). O predlaganih ukrepih od¬ loča pristojna oseba. Sledi izvajanje tega predloga (npr. popravilo) in nato odločitev o končnem statusu 2004 - številka 1 - letnik XII uporabna INFORMATIKA 7 Tomaž Dogša: Problematika sistemov za vodenje popravljanja in vzdrževanja zahtevka (rešen, odložen, združen z drugim zahtev¬ kom, prenesen na drug projekt, vrnjen v popravilo). Če gre za nepravilnost, potem se mora odgovorna oseba odločiti, ali bo ta nepravilnost dobila status hibe (ni popravljanja) ali pa bo priznana kot odpoved, ki zahteva popravilo. Iz tega kratkega opisa je razvidno, da v celotnem procesu nastopajo sporočevalci (pre- verjevalci, uporabniki), analitik, popravljalci in od¬ govorna oseba (npr. vodja projekta). Seveda lahko vse te vloge opravlja samo ena oseba. Pri tem je treba razlikovati med pojmi, kot so na¬ paka ali vzrok za nepravilnost, odpoved, nepravilnost in hiba [DOGŠA,1998]. Uporabniki in preverjevalci opazijo nepravilno obnašanje sistema. Torej zaznajo nepravilnost, ki je posledica ene ali več napak v pro¬ gramu ali dokumentaciji. Napake poiščejo in odpravi¬ jo popravljalci. Če se ne odločimo za popravilo, dobi nepravilnost status hibe, sicer jo klasificiramo kot odpoved. Odpravljanje napak ni nič drugega kot po¬ pravilo 4 . Popravljalec je oseba, ki z ustrezno spre¬ membo sistema odpravi napake. Običajno poprav¬ ljanju sledi preverjanje, ki naj ugotovi, ali so nepravil¬ nosti odpravljene. V vsakem izmed štirih korakov (sprejem, analiza, ukrepi in odločitev o končnem statusu) se izvajajo tri aktivnosti: opisovanje, klasificiranje in ocenjevanje vpliva na kakovost in ocena tveganja. Te aktivnosti se lahko v posameznih korakih ponavljajo oziroma do¬ polnjujejo; npr. ko nepravilnost odkrijemo, približno določimo domnevni vzrok. Kasneje, ko nepravilnost podrobneje analiziramo, lahko tudi natančneje do¬ ločimo te vzroke. Ker vsako spreminjanje sistema zah¬ teva tudi ustrezno zapisovanje sprememb, se ves postopek še bolj zaplete, če vzdržujemo več različnih verzij. Ena izmed najpomembnejših aktivnosti je klasi¬ fikacija nepravilnosti in napak. Pri implementaciji siste¬ ma SVPV je smiselno, da se odločimo za ustrezen eno¬ ten klasifikacijski sistem. Takemu sistemu pravimo tudi taksonomijski sistem. Le če uporabimo enotno klasi¬ fikacijo, lahko izvajamo razne primerjave in analize o učinkovitosti testiranja, popravljanja in kakovosti siste¬ ma (glej preglednico 2). Najbolj znani klasifikacijski sistemi so: ortogonalni klasifikacijski sistem 5 , ki ga je razvil IBM [CHILLAREGE,1992], Hevvlett-Packardov sistem [PFLEEGER.,1998] in sistem, ki ga definira stan¬ dard IEEE 1044 [IEEEstd,1993]. Slednjega bomo v nadaljevanju na kratko opisali. V mnogih primerih podatkovna aplikacija omo¬ goča spreminjanje klasifikacijskega sistema. To pa ne velja za procesni vidik (slika 3), ki je v večini primerov vgrajen v sistem SVPV. 4 Standard IEEE 1044-1993 Standard IEEE 1044-1993 [IEEEstd, 1993] zelo dobro opisuje potek vodenja popravljanja in vzdrževanja in¬ formacijskih sistemov. Kljub temu, da je poudarek na programski opremi, se lahko z majhno prilagoditvijo uporablja tudi za strojno opremo. Standard opisuje postopek, ki smo ga na kratko povzeli v prejšnjem poglavju. Vodenje popravljanja in vzdrževanja siste¬ mov je sestavljeno iz štirih zaporednih aktivnosti: ■ zaznave nepravilnosti (RR Recognition), • analize nepravilnosti (IV Investigation), > ukrepov za odpravitev nepravilnosti (AC Action), > določitve končnega statusa nepravilnosti (DP Dis- position). Glavnina standarda opisuje razne klasifikacijske tabele (preglednica 2), ki so v nekaterih primerih zelo podrobne. Za opis vsakega zahtevka imamo na razpo¬ lago 21 atributov, obveznih jih je 11. Za vsako aktivnost je predvidena posebna neobvezna priloga (npr. ekran- ska slika). Vse priloge so opisane s 113 atributi. Če želi¬ mo uporabiti standard v polnem obsegu, je treba iz¬ polniti približno 6 134 polj. Vrednosti atributov, s kate¬ rimi opisujemo zahtevke, črpamo iz klasifikacijskih tabel. Na ta način je možna primerjava med podatki, ki jih dobimo pri različnih projektih in uporabnikih. Z ve¬ likostjo klasifikacijske tabele se veča natančnost opisa in hkrati manjša preglednost ter veča napor, ki ga je tre¬ ba vložiti v opis zahtevka. Najobširnejša je tabela, s katero opisujemo napako. Zaradi preglednosti je se¬ stavljena iz dveh nivojev. Klasifikacijske tabele, ki so označene poudarjeno (domnevna domena vzroka, o- pis simptoma, dejanska domena vzroka, opis vzroka), so odvisne od vrste sistema. Če gre za strojno ali kom¬ binirano opremo, jih je treba ustrezno spremeniti. V zadnjih štirih kolonah v preglednici 2 je opisano, kdaj naj določen podatek vpišemo oziroma ažuri- ramo. 4 Pogosto se po nepotrebnem uporablja izraz razhroščevanje (angl. debugging). 5 ODC Orthogonal Defect Classification. 6 Všteti niso atributi, ki se nanašajo na procesiranje zahtevka. 8 uporabna INFORMATIKA 2004 - številka 1 - letnik XI! Kategorije Obvezen Velikost Minim. Prevod Komentar Sprejem Analiza Sprejeti Končni (atribut) tabele velikost ukrep status (število tabele atributov) Tomaž Dogša: Problematika sistemov za vodenje popravljanja in vzdrževanja -3 -S -S i ca o ■ ca c: ’ -c ~ ca cd K g ■S si s "O CO o o CL CL -3 Q- _ as 2-8 CD O E h. .S § §>1 OJ CL JO E tu L “ 1 ? CL C o E CL > CD 2004 - številka 1 - letnik XII uporabna INFORMATIKA Preglednica 2 : Najpomembnejše klasifikacijske tabele (standard IEEE 1044-1993) Tomaž Dogša: Problematika sistemov za vodenje popravljanja in vzdrževanja 5 Sklep Najosnovnejši cilj sistema SVPV je nadzor nad od¬ pravljanjem nepravilnosti. Pravilno izbran klasifi¬ kacijski sistem omogoča analize, s katerimi lahko ugo¬ tavljamo uspešnost oziroma slabosti razvoja. Ker zahteva uporaba sistema SVPV dodaten napor sode¬ lujočih, je zelo pomembno, da je le-ta kakovosten v smislu implementacije in vsebine. Le na videz je si¬ stem SVPV zelo preprosta podatkovna aplikacija, ki jo lahko napravimo v accessu v nekaj dneh. Vzdrže¬ vanje sistema SVPV obsega popravljanje in širjenje klasifikacijskih tabel ter spreminjanje postopka pro¬ cesiranja zahtevka (sliko 3). Za slednjega velja, da je izvedljiv samo, če imamo dostop do izvorne kode. To je ena izmed največjih slabosti kupljenih sistemov SVPV. Za konec bomo na kratko opisali najpomem¬ bnejše lastnosti, ki jih mora imeti sistem SVPV. Ponovljivost je lastnost zahtevka, ki omogoča po¬ polno rekonstrukcijo vzroka, zaradi katerega je bil po¬ dan zahtevek. Za zgled poglejmo zahtevek, ki obrav¬ nava opažene nepravilnosti v delovanju modula. Če je na podlagi informacij, ki so v zahtevku, vedno mogoče povzročiti opisano nepravilno delovanje modula, pravimo, da smo zadostili kriteriju ponovljivosti. Če zahtevek ni ponovljiv, je v splošnem zelo težko od¬ praviti njegove vzroke. To še posebej velja, kadar ni materialnih dokazov za nepravilno delovanje. Isto velja za ponovljivost klasificiranja. Neka druga oseba mora isti zahtevek klasificirati popolnoma enako. Uporabnost sistema je merilo napora, ki ga moramo vložiti v to, da lahko sistem učinkovito uporabljamo. Problemi se pojavljajo predvsem pri raznih klasifikaci¬ jah. Podrobnejše kot so klasifikacijske tabele, težja je klasifikacija. S pregrobo granulacijo lahko izgubimo informacije, ki jih potrebujemo pri analizi uspešnosti razvojnega procesa. Problematični so predvsem po¬ reklo, domena in opis vzroka. Če želimo zagotoviti po¬ novljivost klasifikacije, je pri slabo zastavljenem klasi¬ fikacijskem sistemu potreben velik napor. V praksi se zato pogosto dogaja, da je klasifikacija izvedena povr¬ šno. V večini primerov so sistemi SVPV tako zahtevni, da je potrebno posebno izobraževanje. Zelo pomem¬ ben je procesni vidik podatkovne aplikacije, katerega je kasneje težko spreminjati. Ker so zahtevki povezani s stroški, ki nastanejo z odpravljanjem vzrokov, nas zanima, kdo pošilja zah¬ tevek. Avtentičnost je lastnost, na podlagi katere lah¬ ko identificiramo pošiljatelja. V veliki večini primerov firme ne želijo javno objavljati ugotovljene nepravil¬ nosti, saj bi lahko konkurenti te podatke izkoristili. Ker je pri preverjanju in popravljanju potrebna diskretnost, morajo biti podatki zaščiteni pred nepooblaščenim branjem oziroma spreminjanjem. Ker je preverjanje povezano z velikimi stroški, se noben zahtevek ne sme izgubiti. Izgubljen zahtevek pomeni ponovitev preverjanja. To lastnost bomo poi¬ menovali vestnost. Lahko se zgodi, da so nekateri zahtevki na prvi pogled nesmiselni oziroma nepo¬ membni. Ignoriranje zahtevka je resna odločitev, za katero se lahko odloči lahko le odgovorna oseba. Obi¬ čajno je vodja projekta oseba, ki nadzoruje reševanje zahtevkov in tudi nosi odgovornost za potek poprav¬ ljanja. Sistem za vodenje popravljanja in vzdrževanja sis¬ temov bo učinkovit, če bomo z njim zmanjšali stroške vzdrževanja. 6 Literatura [CARD.1998] David N. Card: “Learning from our Mistakes with Defect Causal Analysis", IEEE Softvvare, januar/februar, 1998, str. 56-63. [CHILLAREGE,1992] Ram Chillarege in drugi: “Orthogonal defect classification—A concept for in-proce ss measurment", IEEE Transaction on Softvvare Engineering, VOL 18, številka 11, 1992, str. 943-956. [DOGŠA,1998] Tomaž Dogša: "Gostota napak in odpovedi - problematično merilo kakovosti", Uporabna informatika, štev. 2, letnik VI, 1998, str. 20-25. [IEEEstd,1993] “IEEE Std 1044-1993: IEEE Standard Classification for Softvvare Anomalies", The Institute of Electrical and Electronics Engineering, Inc., 1993. [KANER.1993] Cern Kaner, Jack Falk, Hung Quoc Nguyen: “Testing Computer Softvvare", Van Nostrand Reinhoid, 1993. [PFLEEGER,1998] S. L. Pfleeger: “Softvvare Engineering, Theoryand Practice", Prentice Hall, Inc. Dr. Tomaž Dogša je izredni profesor na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru, kjer predava na dodiplomski in podiplomski stopnji in vodi Center za verifikacijo in validacijo sistemov. Na raziskovalnem področju se ukvarja predvsem z VSA/ tehnologijo oziroma testirnimi orodji. 10 uporabna INFORMATIKA 2004 - številka 1 - letnik XII RAZPRAVE B Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola Stjepan Pervan IskraTEL pervan ©iskratel. si Martina Kern Osnovna šola Staneta Žagarja Kranj martinakern@hotmail.com, martina.kern@guest.arnes.si Povzetek Običajno telekomunikacijsko omrežje zamenjuje nova generacija omrežij, ki slonijo na internetnem protokolu. Velik porast spletnih storitev nas je pripeljal do vse pogostejše uporabe interneta. Trenutna verzija internetnega protokola, imenovanovanega IPv4 (inter¬ netni protokol verzije 4), predstavlja hrbtenico interneta. Zaradi široke uporabe interneta je postalo jasno, da je neprimeren predvsem zaradi problema premajhnega števila prostih mest za naslavljanje, nezadostne varnosti in slabe kakovosti prenosa. V članku je prikazan problem pomanjkanja unikatnih naslovov internetnega protokola Ipv4, trenutni načini reševanja teh težav in kratek opis novega internetnega protokola IPvB z vsemi njegovimi prednostmi, kakor tudi vpliv omenjene novosti na gospodarstvo in nadaljnji razvoj informatike v Sloveniji. Abstract Soluing the Problem of the Lack of Unique internet |irotocol Addresses The common telecommunication netvvorks have been replaced by the new generation of netvvorks based on the internet protocol. A huge increase in the number of web Services has lead us to more and more frequent use of the Internet. The internet protocol we use at present (IPv4 - internet protocol version 4) represents the backbone of the Internet. Increasingly vvider use of the Internet shovvs us that Ipv4 has become inappropriate mainly because of the shortage of available address space, insufficient security and poor transfer quality. This article describes the lack of the unique internet protocol addresses, the ways of solving this problem and a short description of the new internet protocol with ali its advantages as well as the impact on Slovenian economy and further development of informatics. Uvod Le redkokdo si je pred kakimi desetimi leti lahko predstav¬ ljal, da bo internet zaživel v takšnem obsegu. Vedno več pod¬ jetij in posameznikov ga redno uporablja pri svojem delu in večina podjetij si težko predstavlja, kako bi poslovanje us¬ pešno potekalo brez njega. Njegova uporaba se je v zadnjih nekaj letih tako strahovito razmahnila, da ga danes aktivno uporablja že več kot štiristo milijonov uporabnikov po vsem svetu. Ob tem se nam kar samo od sebe zastavlja vprašanje, kako vsem telekomunikacijskim napravam, kot so “pamet¬ ni” telefoni, računalniki, mrežne naprave, igralne naprave, sistemi za nadzor avtomobilov, ladij, letal, zagotoviti dovolj unikatnih globalnih naslovou internetnega protokola. Europ- ska komisija je nedavno sporočila, da bo protokol IPv4 za¬ dostoval predvidoma le še do leta 2005, ko naj bi pričelo pri¬ manjkovati IP naslovov. Ko so pred več kot dvajsetimi leti ob¬ likovali internetni protokol IPv4, so predvideli le nekaj več kot štiri milijarde možnih internetnih naslovov, pa še te so neena¬ komerno porazdelili. Omejitve naslovov v različici !Pv4 so si¬ cer svetovni problem, a za Evropo toliko hujši, ker bi to ome¬ jilo razmah novih generacij brezžičnih tehnologij in komuni¬ kacij. Pri teh oblikah telefonije je Evropa namreč v pred¬ nosti pred ostalim svetom, a ta prednost lahko ob najmanjši oviri hitro skopni. Na tem področju se je torej najprej pojavila potreba po pospešeni pripravi nadgrad¬ nje internetnega protokola IPv4. Kot odgovor na te po¬ trebe je Internet Engeenering Task Force (IETF), odbor, zadolžen za tehnične odločitve za internet protokol (IP) in internet, v juliju 1992 podal zahtevo po predlogih za novo verzijo internetnega protokola Ipng (IP Next generation). Prispelo je veliko število predlogov in leta 1994 je bila dosežena ustrezna oblika protokola. 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 11 Stjepan Pervan, Martina Kern: Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola Glavni mejnik predstavlja publikacija Request For Comments (RFC) 1752 "Recommendation for the IP Next Generation", izdana januarja 1995. V njej so opi¬ sane zahteve za nov IP, določena je oblika protokola, način naslavljanja, usmerjanja in varnost. Številni dru¬ gi RFC dokumenti specificirajo podrobnosti protoko¬ la, sedaj uradno imenovanega IPv6. Omogoča dvesto šestinpetdeset sekstilijonov IP naslovov, obenem pa podpira več kot milijardo uporabnikov. Ta veliko enostavnejši protokol zagotavlja tudi večjo varnost, manjše usmerjevalne tabele, podporo različnim tipom storitev in mobilnim uporabnikom. Trenutno stanje in zahteue za nov internetni protokol IP je v 90-ih postal široko sprejet protokol in obenem edini protokol za prenos podatkov, zvoka in video prometa. Glede na vedno večje število uporabnikov interneta je prišlo do problema, kako zagotoviti dovolj unikatnih globalnih naslovov IP za vse naprave, ki pri svojem delovanju uporabljajo povezavo z internetom. Ustvarjalci IPv4 so namreč menili, da bo IP naslovov zadosti in da bodo zadovoljili vsem potrebam, saj ima¬ mo lahko sedaj teoretično 4.294.967.296 unikatnih naslovov IP. Vendar je dejansko število manjše zara¬ di razdeljenosti naslovov v razrede, ki so namenjeni raznim testiranjem in drugim specialnim namenom. Tako lahko v omrežju uporabljamo le tri razrede - A, B in C: > razred A (125 omrežij) - približno 16 milijonov gostiteljev na omrežje, • razred B (16382 omrežij) - 65534 gostiteljev na omrežje, . razred C (2 milijona omrežij) - 254 gostiteljev na omrežje. Razred D je namenjen za skupinsko naslavljanje, medtem ko je razred E namenjen raziskovalnim na¬ menom. Ti razredi se razlikujejo glede na število omrežij in gostiteljev. Z eksponentno rastjo globalnega interneta in raz¬ vojem novih aplikacij, kot so večpredstavnost, video konference in tretja generacija brezžičnih tehnologij, so se pojavile tudi potrebe po novih karakteristikah internetnega protokola. Pojavljajo se trije poglavitni problemi IPv4: > premajhen prostor za naslavljanje oz. neučinkovi¬ ta shema naslavljanja IP naslovov; . nizka stopnja varnosti; ■ neustrezna, neučinkovita kakovost prenosa infor¬ macij ter slaba podpora novejšim tehnologijam, kot so realni čas prenosa podatkov, avdio in video. Očitna rešitev je bila izdelava novega internetnega protokola, ki naj bi omogočal več razpoložljivih naslo¬ vov in bi zadostil naslednjim zahtevam [12]: ■ podpora več kot milijardi uporabnikov, • povečanje naslovnega prostora in zmanjšanje us¬ merjevalnih tabel, • varnost na nivoju IP, • podpora različnim tipom storitev, « boljša podpora za mobilne gostitelje in multimedijo, » istočasno delovanje IPv6 in IPv4 vsaj še nekaj let, . mora biti robusten in skalabilen, • omogočati mora avtomatsko konfiguracijo. S tem namenom je bil razvit protokol IPv6 ali IPng, vendar bo potrebnih kar nekaj let za njegovo imple¬ mentacijo, saj zahteva določene modifikacije na celot¬ ni internetni infrastrukturi. Mehanizmi za zmanjševanje porabe naslovnega prostora IPv4 Velik problem se pojavi pri aplikacijah, ki delujejo v realnem času in prenosih multimedijskega prometa na IP obstoječih omrežjih. Jasno je, da samo dvo- točkovna komunikacija med dvema IP napravama ne prinaša zaželenega efekta. To dosežemo le z novim protokolom, ki ima dovolj naslovnega prostora. Veliko zaskrbljenost povzroča tudi unikatno na¬ slavljanje domačih naprav, IP telefonov in drugih naprav. Dokler te naprave dobivajo unikatne naslove od ponudnikov internetnih storitev, ni težav. Problem nastane, ko hočemo imeti efektivno rešitev za domače uporabnike, ki potrebujejo več unikatih IP naslov, ki naj bi se ne spreminjali. V ta namen so začeli domači uporabniki uporabljati privatno shemo za naslavljanje in posebne naprave, ki omogočajo komunikacijo iz njihovega omrežja v internet (enosmerna komuni¬ kacija), kar predstavlja globalni problem. Definirano je bilo precej mehanizmov za zmanjšanje porabe naslovnega prostora IPv4, vendar imajo vsi takšne ali drugačne pomanjkljivosti. Ti mehanizmi so: . NAT, . RSIP, . VPN, . Proxy. NAT INetmork Address Translation) NAT se uporablja v napravah, ki predstavljajo mejo med javnim internetom in zasebnimi (notranjimi) lo¬ kalnimi omrežji (slika 1). Notranje omrežje (podjetniško) 12 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Stjepan Pervan, Martina Kern: Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola uporablja privatne IP naslove, zunanje (internet) pa globalne naslove, s katerimi notranjim napravam omogoča, da komunicirajo z zunanjim svetom; obrat¬ no ni mogoče. Ko IP paketi iz zasebnega omrežja prečkajo prehod, NAT prevede zasebni IP naslov in številko vrat v javni IP naslov in številko vrat ter skr¬ bi, da posamezne seje ostanejo ločene. NAT naprave morajo poleg prevajanja IP naslovov in vrat poznati protokole, da lahko izpisujejo, uporabljajo oz. sprem¬ injajo vse potrebne informacije za vzpostavljanje uspešne komunikacije z ostalimi napravami. [4] Vendar ima ta mehanizem tudi nekaj slabih stra¬ ni. NAT mehanizmi namreč onemogočajo dvotoč- kovno (end-to-end) komunikacijo s postavitvijo NAT naprave med dva komunikacijska dela. Na osnovi tega ne moremo implementirati dvotočkovne var¬ nostne sheme. Podpora za nikoli dokončan multi- medijski protokol zahteva konstantne nadgradnje programskih paketov, kar pa tudi vodi v možno ne¬ stabilnost NAT naprav. Prav tako NAT lahko prepreči številne zanimive uporabe računalnikov v omrežjih, kot so igre z več igralci, komunikacije v realnem času in druge storitve "enak z enakim", ki jih vse več upo¬ rabnikov želi uporabljati doma ali v majhnih pod¬ jetjih. Te aplikacije ne bodo delovale, dokler se bodo v javnem internetu uporabljali zasebni naslovi hkrati z isto številko vrat. Uporabljati morajo namreč javni naslov in enolično številko vrat za vsako posamezno sejo. [4] RSIP (Realm Specific IP) Omogoča drugačen pristop k reševanju naslavljanja IP kot NAT. Ena največjih pomanjkljivosti NAT-a je, da IP naslov ne predstavlja končne točke povezave. S pomočjo RSIP-a se ta pomanjkljivost lahko odpravi, tako da omogoča napravam s privatnimi naslovi IP direktno komunikacijo z ostalimi napravami s pomoč¬ jo uporabe začasnih globalnih IP naslovov. IP paketi prehajajo iz izvora do cilja brez kakršnih koli spre¬ memb. Ko hoče naprava komunicirati z javnim IP na¬ slovom, se registrira na strežniku RSIP. Strežnik RSIP dodeli unikaten javni IP naslov in poveže privatni naslov z RSIP gostiteljem na ta globalni naslov. RSIP naprave uporabljajo ta globalni naslov za pošiljanje Slika 1 : Delovanje NAT naprave Slika 2: Delovanje RSIP 2004 - številka 1 - letnik XII uporabna INFORMATIKA 13 Stjepan Pervan, Martina Kern: Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola paketov k drugim globalnim ciljem, dokler najem ne preteče, oziroma dokler se ne obnovi. RSIP naprave ne morejo direktno pošiljati paketov z nizom glo¬ balnih naslovov, ker morajo najprej poslati pakete RSIP strežnikom. Prav tako se lahko RSIP uporablja za prenašanje prometa med več privatnimi omrežji [5]. RSIP naprava lahko najame nekaj različnih naslovov, da doseže različna ciljna omrežja. RSIP za tuneliranje uporablja različne tunelske protokole, kot so IP in IP, Generic Routing Encapsulation (GRE) [7] ali Layer 2 Tunneling Protocol (L2TP) [8]. VPN (Virtual Priuate Netuuork) Navidezno zasebno omrežje je sistem, s katerim vz¬ postavimo varno povezavo za prenos podatkov med dvema ali več točkami, pri katerih za medsebojno po¬ vezavo uporabimo internet (slika 3). Najbolj razširjena protokola, ki se uporabljata v navideznih zasebnih omrežjih sta L2TP in IPSec [18j. Podjetja se srečujejo z vse večjo potrebo po medsebojni povezavi svojih poslovnih enot, obenem pa tudi s potrebo po poveza¬ vi s strateškimi partnerji. Internet je odprto omrežje, zato je neposreden prenos pomembnih podatkov prek le-tega nezanesljiv. Podatke je moč prestreči in zlorabiti. Z namestitvijo VPN sistema se vzpostavi varen kanal med VPN enotami, znotraj katerega se podatki pošiljajo s pomočjo tajnopisja - enkripcije in so tako za nepooblaščeno osebo neuporabni (spreme¬ njeni v neuporaben nabor znakov). Podatki znotraj obeh lokalnih omrežij prosto krožijo. Podatki, namen¬ jeni drugi poslovni enoti, se s pomočjo VPN strežnika kodirajo in se v kodirani obliki prenesejo prek inter¬ neta do VPN strežnika druge poslovne enote, kjer se podatki dekodirajo in jih je mogoče ponovno uporab¬ ljati znotraj drugega omrežja. Kodiranje poteka v re¬ alnem času in ne obremenjuje hitrosti pretoka podat¬ kov. To nam omogoča združitev dveh lokalnih omre¬ žij (LAN) in povezavo le-teh v eno veliko omrežje (IVAN). Proxy (Posredniški strežnik) Še ena izmed rešitev, ki omogočajo reševanje problema naslavljanja, je uporaba proxy strežnikov. Te naprave delujejo podobno kot NAT naprave, a so veliko bolj enostavne, ker podpirajo samo nekatere protokole (HTTP, SIP, H.323). Naprave se obnašajo kot namest¬ niki za aplikacije, tako da izmenjujejo vse podatke z oddaljenim sistemom v njihovem imenu. Globalna rešiteu - IPng oz. IPv6 IPng oz. IPv6 je nov protokol, ki predstavlja zamen¬ javo sedanjega protokola IPv4 in se še vedno razvija. Ima mnogo novosti in izboljšav glede na IPv4, med katerimi so gotovo najbolj opazne večji naslovni pro¬ stor, podpora za promet v realnem času (QoS - Qua- lity of Service), avtomatska konfiguracija naslovov, dvotočkovna varnost (privatnost in overovitev) ter mo¬ bilnost. Zaradi večjega naslovnega prostora je dodeljeva¬ nje naslovov izvedeno hierarhično, kar pripomore k boljšemu usmerjanju in zmanjšanju usmerjevalnih tabel. Slabost tega pa je, da imajo uporabniki (orga¬ nizacije) na razpolago samo toliko naslovov, kolikor jih je dodeljeno na njihovem nivoju hierarhije. Poleg FireVVail + VPN GW VPN GW Slika 3: Navidezna privatno omrežje 14 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Stjepan Pervan, Martina Kern: Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola usmerjenih in skupinskih naslovov so vpeljani »any- cast« naslovi, s pomočjo teh je naslovljen en usmer¬ jevalnik (npr. eden iz skupine usmerjevalnikov, ki se nahajajo v organizaciji). Podpora za promet, ki zahteva posebno obravnavo na svoji poti do cilja (QoS), je izvedena s pomočjo dveh polj v glavi IPv6 paketa. Na podlagi teh dveh polj lah¬ ko usmerjevalniki dodelijo zahtevano QoS določeni obliki prometa (aplikaciji), vendar uporaba teh polj še ni standardizirana. Izredno pomembna je avtomatska konfiguracija naslovov, saj si lahko le težko zamislimo administra¬ torje omrežja, ki bi morali ročno konfigurirati 128-bit- ne naslove na posameznih računalnikih. IPv6 definira avtomatsko konfiguracijo s pomočjo usmerjevalni- ka(ov) in s pomočjo strežnika DHCP (Dynamic Host Configuration Protocol). Prav tako je pomembna ta funkcionalnost v primeru ponovnega oštevilčenja vseh računalnikov v organizaciji, npr. zaradi zame¬ njave ponudnika internetnih storitev. Novi protokol na IP nivoju lahko zagotavlja var¬ nost za vse aplikacije, ne samo za tiste, ki imajo vgra¬ jene varnostne mehanizme. V ta namen IPv6 uporab¬ lja dve dodatni glavi, ki zagotavljata integriteto in za¬ ščito pred ponavljanjem. Ena glava zagotavlja overo¬ vitev, druga pa privatnost podatkov. Pomembna je tudi podpora za mobilnost. Mobilni računalniki že sedaj predstavljajo omembe vreden del uporabnikov interneta in podpora za te uporabnike je zahtevana s strani IPv6, opcijska pa za IPv4. S pomoč¬ jo te podpore se lahko mobilno vozlišče priključi na katerokoli omrežje v internetu, pri tem pa ima nepre¬ trgano komunikacijo z ostalimi vozlišči v internetu. Primerjava med sedanjim protokolom in novo verzijo protokola je prikazana v naslednji tabeli [11]: Primerjava naslavljanja v IPv4 in naslavljanja v IPvG IPv4 uporablja fiksno 32-bitno polje za naslavljanje (npr.123.123.123.123) in dopušča uporabo števil le od 0 do 255. IPv6 naslovi so dolžine 128 bitov, kar pome¬ ni, da je na razpolago približno 10 38 naslovov. Name¬ njeni so za enoumno (lokalno ali globalno) predstavi¬ tev vozlišča na povezavi. Daljši naslovi IPv6 omogo¬ čajo združevanje naslovov glede na hierarhijo omrež¬ ja, ponudnika internetnih storitev in geografsko loka¬ cijo. Takšno združevanje pripomore k zmanjšanju us¬ merjevalnih tabel in omogoča hitrejše pregledovanje le-teh. Obstajajo trije tipi naslavljanja (slika 4), ki jih pod¬ pira IPv6 [2]: ■ Usmerjeno naslavljanje (unicast): Usmerjeni na¬ slov je enoumni identifikator (običajno) enega vmesnika. Paket, ki je poslan na usmerjen naslov, je dostavljen vmesniku, označenim s tem naslo¬ vom. • Neusmerjeno naslavljanje (anycast): Ta oblika naslavljanja označuje skupino vmesnikov (pri¬ padajo različnim vozliščem). Paket, ki je poslan na anycast naslov, je dostavljen na enega izmed vmesnikov, označenim s tem naslovom (naj¬ bližjemu, gledano na metriko usmerjevalnega pro¬ tokola). . Skupinsko naslavljanje (multicast): Skupinsko naslavljanje se uporablja za naslovitev skupine vmesnikov (pripadajo različnim vozliščem). Paket, ki je poslan na skupinski naslov, je poslan vsem vmesnikom, označenim s tem naslovom. Če IPv4 deluje na Ethernet LAN-u, pogosto potrebuje povezavo med IPv4 naslovi in Media Access Control (MAC) naslovi ter obratno. IPv4 izvaja to funkcijo prek dodatnega protokola, imenovanega Address Resolution Protocol (ARP), ki uporablja razpršeno oddajanje na MAC nivoju. Razpršen paket je sprejet na vseh postajah in povzroči prekinitev na vseh postajah, vključno s tis¬ timi, ki ne uporabljajo IP protokola. Ta neučinkovitost je popravljena v IPv6, kjer ni razpršenih naslovov, nji¬ hovo funkcijo so prevzeli skupinski naslovi. V ta na¬ men se na LAN-u uporabljajo metode Neighbour Dis- covery protokola, ki namesto razpršenega uporablja skupinsko oddajanje. 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 15 Stjepan Pervan. Martina Kern: Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola □ skupinsko Naslavljanje _ 1 _^ □ osebni računalnik osebni računalnik -fi-povezava- naslovitev skupine gostiteljev \ s (več kot enega in manj kot vse) □ * osebni računalnik ^ N □ osebni računalnik Slika 4: Oblike naslavljanja IPv6 naslovi so predstavljeni z 32 heksadecimaln- imi besedami, ki so porazdeljene v osem skupin. Te skupine so med seboj ločene z znakom Obstajajo 3 oblike predstavitve IPv6 naslovov [2]: ■ Priporočena oblika je: x:x:x:x:x:x:x:x, kjer je 'x' heksadecimalna vrednost osmih 16-bitnih delov naslova. Primer: ABCD:1298:7CD4:3210:12DC:BA32:A651:C2A0 1A80:0:0:0:C:A800:230C:A17C ■ V primeru, da je v IPv6 naslovu veliko število ničel, je vpeljana posebna sintaksa, ki lahko kompresira te ničle. Uporaba znakaoznačuje več skupin po 16 bitov s samimi ničlami. Lahko pa se uporablja samo enkrat v naslovu. Primer: 1A80::C:A800:230C:A17C ■ Prav tako je na razpolago oblika, ki je bolj primer¬ na v mešanih okoljih IPv4 in IPv6. Predstavljena je v obliki x:x:x:x:x:x:d.d.d.d, kjer "x" predstavlja hek- sadecimalno vrednost šestih najvišjih 16-bitnih delov naslova, ž'd" so decimalne vrednosti štirih spodnjih 8-bitnih delov naslova (standardna pred¬ stavitev naslovov IPv4). Primer: 1A80::C:A800:193.2.49.201 ::193.2.49.252 Varnost V sedanji verziji IP (IPv4) je uporaba šifrirnih in ove- rovitvenih metod izvedena v glavnem prek specifičnih aplikacij, npr. elektronske pošte (Privacy Enhanced Mail, PGP), omrežnega upravljanja (SNMPv3 varnost), dostopa preko WWW (Secure HTTP, Secure Socket Layer) in drugih. Zaradi tega je velik del paketa, ki je poslan prek omrežne povezave, viden v "prosti" obliki in lahko uporabljen za analizo. Z implementacijo var¬ nosti na IP nivoju se lahko zagotovi varno povezovan¬ je ne le za tiste aplikacije, ki imajo vgrajene varnostne 16 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Stjepan Pervan, Martina Kern: Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola □ transportni data tunelski data internet ESP IPv6 header IPv6 header data IPv6 header Slika 5: Primer varnosti v IPvG mehanizme, ampak tudi za mnogo tistih, ki nimajo vgrajenih teh možnosti. IPv6 lahko na tem področju zagotovi overovitev, privatnost in zaščito pred ponav¬ ljanjem paketov s pomočjo dveh dodatnih glav. V splošnem Authentication header [19] priskrbi overo¬ vitev, Encapsulation Security Payload header [9] pa privatnost oz. šifriranje podatkov (slika 5). Mobilnost Pod pojmom mobilnost se razume premik vozlišča iz "domačega" omrežja na "tuje". Ne sme se zamenjeva¬ ti z oddaljenim dostopom, ki je namenjen povezovan¬ ju uslužbencev, poslovnih partnerjev, serviserjev itd. iz dislociranih lokacij prek klicnih linij (analognih ali ISDN). Podpora mobilnosti v IPv6 (Mobile IPv6) je še posebej pomembna, saj bodo (so) postali mobilni računalniki pomemben del uporabnikov interneta. Za IP naslove je značilno, da enoumno predstav¬ ljajo točko priključitve vozlišča v internet. Posledica tega je, da se morajo vozlišča nahajati na omrežju, ki je označen z njenim IP naslovom, če želi sprejemati IP pakete. Takšna situacija pa ni najbolj ustrezna za mo¬ bilno vozlišče, ki neprestano menja točko povezljivo¬ sti v internet in mora zaradi tega neprestano spremi¬ njati svoj IP naslov. Rezultat tega je, da za podporo mobilnosti IPv6 vpelje poleg domačega IP naslova še tuji naslov, ki je bil pridobljen na tujem omrežju s pomočjo tehnik avtomatske konfiguracije naslovov [ 10 ]. Problem komunikacije z mobilnim vozliščem v IPv6 se nanaša na problem upravljanja odvisnosti med domačim in tujim naslovom. Mobilno vozlišče, ki je povezano na tuje omrežje, mora določiti na svojem domačem omrežju usmerjevalnik, ki ga bo predstav¬ ljal v njegovem imenu, ob njegovi odsotnosti. Zato mu mora mobilno vozlišče sporočiti njegov trenutni naslov, da bo lahko preusmeril paket, ki mu je namen¬ jen, na njegov tuji (trenutni) naslov. Posledica tega je, da bo lahko vsako mobilno vozlišče naslovljeno z nje¬ govim domačim naslovom ne glede na njegovo tre¬ nutno točko povezljivosti v internet. Primer komuni¬ kacije je prikazan na sliki 6. Podpora mobilnosti v IPv6 rešuje problem trans¬ parentnega usmerjanja paketov do in od mobilnega Slika 6: Primer komunikacije z mobilnim vozliščem 2004 -številka 1 - letnik XII uporabna INFORMATIKA 17 Stjepan Pervan, Martina Kern: Reševanje problema pomanjkanja unikatnih naslovov internetnega protokola vozlišča, ko se nahaja na tujem omrežju. Kljub temu pa ne poskuša rešiti vseh splošnih problemov, ki se nanašajo na uporabo mobilnih računalnikov ali brez¬ žičnih omrežij (ukvarjanje s povezavami, ki so delno dosegljive - brezžična omrežja - in kontrola dostopa na povezavah, kjer je priključen mobilni računalnik). Sklep Kljub vsem prednostim, ki jih prinaša IPv6, se pojavlja vprašanje, kdaj bodo (bomo) uporabniki interneta pri¬ pravljeni začeti uporabljati nov protokol, saj zamenjava BPv4 z IPv6 ne pomeni zamenjave samo protokolnega sklada, ampak tudi drugih stvari. Seveda pa ne smemo pozabiti, da mora biti omogočeno istočasno delovanje IPv4 in IPv6 vsaj še nekaj let, če ne desetletij. Spremi¬ njanje omrežne programske opreme je podobno spre¬ minjanju verzije operacijskega sistema; ta korak lahko prinese nekatere nekompatibilnosti in povzroči potre¬ bo po posodobitvi tako strojne, kakor tudi programske opreme. Po nekaterih predvidevanjih se bo to zgodilo v času med leti 2005 in 2015. Čeprav novi protokol IPv6 ponuja veliko več, kot le zadosten prostor za naslavljanje, je to najpomemb¬ nejši dejavnik, ki spodbuja njegovo čim hitrejšo im¬ plementacijo. Največji porast novih naslovov je priča¬ kovati na področju brezžične telefonije. Kljub temu, da v nekaterih delih sveta tehnologija te vrste še ni v takšnem razcvetu, se povpraševanje po njej veča iz dneva v dan, kar seveda zahteva večji prostor za na¬ slavljanje in ostale prednosti, ki jih nudi internetni protokol IPv6. Prihajajo vedno nove in nove tehnologije, ki bodo v bližnji prihodnosti potrebovale unikaten naslov IP. Edina praktična rešitev bi bila uporaba novega inter- netnetnega protokola. Vedno več gospodinjstev, pisarn, tovarn, hotelskih sob, bolnišnic ipd. bo oprem¬ ljenih z brezžičnimi napravami in potrebe po pro¬ tokolu, ki nudi avtokonfiguracijo z ustrezno velikim prostorom za naslavljanje, bodo vedno bolj očitne. Literatura [1] S. Bradner, A. Mankin: The Recommendation forthe IP Next Generation Protocol, January 1995. [2] S. Deering, R. Hinden: RFC 2373, IP Version 6 Addressing Architecture, July 1998. [3] D. C. Plummer: RFC 826, An Ethernet Address Resolution Protocol, November 1982. [4] K. Egevang, R Francis, "The IP Network Address Translator (NAT)”, RFC 1631, May 1994. [5] M. Borella, J. Lo, D. Grabelsky, G. Montenegro, “Realm- Specific IP: Framework”, RFC 3102, 0ctober2001. [6] J. Bound, C. Perkins: draft, Dynamic Host Configuratlon Protocol for IPv6 (DHCPv6), June 1998. [7] S. Flanks, T. Li, D. Farinacci, “Generic Routing Encapsulation (GRE)”, RFC 1701, October 1994. [8] W. Townsley, A. Valencia, A. Rubens, G. Pall, G. Zorn, B. Palter, “LayerTwoTunneling Protocol -L2TP”, RFC 2661, August 1999. [9] S. Kent, R. Atkinson: RFC 2406 IP Encapsulating Security Payload (ESP), November 1998. [10] D. B. Johnson, C. Perkins: draft, Mobility Support in IPv6, November 1998. [11] S. Deering, R. Hinden: RFC 2460, Internet Protocol, Version 6 (IPv) Specification, December 1998. [12] T. Aljaž: Internet protokol verzija 6, Zbornik Vitel, maj 1999. [13] http://www.ipv6.org [14] http://6bone.net [15] http://6ren.net [16] T. Narten, E. Nordmark, W. Simpson: RFC 2461, Neighbour Discovery for IPv6 (IPv6), December 1998. [17] S. Thomson, T. Narten: RFC 2462, IPv6 Stateless Address Autoconfiguration, December 1998. [18] S. Kent, R. Atkinson: RFC 2401, Security Architecture for the Internet Protocol, November 1998. [19] S. Kent, R. Atkinson: RFC 2402 IP Authentication Fleader, November 1998. Stjepan Pervan je diplomiral na Fakulteti za organizacijske vede Univerze v Mariboru leta 1996. Trenutno je zaposlen v podjetju IskraTEL kot skrbnik za Windows terminalne strežnike. Je študent magistrskega študijskega programa Management informacijskih sistemov, na smeri Sistemi za podporo odločanja na Fakulteti za organizacijske vede, ■ Martina Kern je leta 2000 diplomirala na Fakulteti za organizacijske vede, kjer nadaljuje tudi podiplomski študij na smeri Sistemi za podporo odločanju. Od leta 1999 je zaposlena v Osnovni šoli Staneta Žagarja v Kranju kot računalnikar - organizator informacijskih dejavnosti. Skrbi za vso strojno in programsko opremo, obenem pa učence in učitelje poučuje računalništvo in jih seznanja z novostmi na področju informacijsko- komunikacijskih tehnologij. 18 uporabna INFORMATIKA 2004 - številka 1 - letnik XII RAZPRAVE B Podatkovna skladišča in kakovost podatkov Krista Rizman Žalik Povzetek Podatkovna skladišča predstavljajo pomembno informacijsko podporo poslovanju in poslovnim odločitvam, saj hranijo podatke o poslo¬ vanju. Poslovne odločitve so natančne le, če so podatki točni, investicija v podatkovno skladišče pa bo poplačana samo, če so podatki zanesljivi. Kakovost informacij iz podatkovnega skladišča predstavlja resno tveganje, ki ga je treba obvladati ob načrtovanju in razvoju podatkovnega skladišča. V prispevku so predstavljene in analizirane metode za merjenje kakovosti podatkov podatkovnega skladišča in metode za zagotavljanje in povečanje kakovosti podatkov. Podana je kratka primerjava med njimi, iz nje pa izhajajo smernice za izbiro metode za zagotavljanje in izboljšanje kakovosti podatkov podatkovnega skladišča. Abstract Data lAfarehouses and Data Quality Data vvarehouses collect data and provide an important information support to produce information for business decision making. It is successful only if complete and accurate data are applied. The investment will be returned only if data are reliable. The information quality provided by data vvarehouses is a serious risk, vvhich should be taken into account during the process of data vvarehouse design and development. In this paper, methods for data quality measurement and methods for providing and increasing the data quality are analyzed, A short comparison of analyzed methods is given. Based on the comparison, directions for choosing a method to provide and improve data quality are given. 1 Uvod Podjetja danes hranijo in sproti obdelujejo transakcije - poslovne dogodke v poslovnem procesu - v sistemih za sprot¬ no obdelavo, ki jih označujemo tudi s kratico OLTP (angl. On- Line Transactional Processing). Za povečanje uspešnosti poslovanja pa gradijo podatkovna skladišča (angl. Data Ware- houses), ki dajejo celovit pogled na podatke posameznega podjetja. Omogočajo izdelavo potrebnih analiz, opazovanj trendov in predvidevanj posameznih kazalcev poslovanja. I\la uoljo so analitikom in upravljalcem, ki potrebujejo informacije za odločanje v sprejemljivem času. Z uporabo analitičnih orodij (angl. OLAP - On-Line Analgtical Processing) in podat¬ kovnega rudarjenja predstavljajo podatkovna skladišča danes vrh informacijske podpore poslovanju, ki je stabilno in zanes¬ ljivo le, če so tudi podatki dovolj zanesljivi, točni in popolni. U nasprotnem primeru iz podatkovnega skladišča ne moremo dobiti zanesljivih informacij. Zato pri izgradnji podatkovnih skladišč ne smemo pozabiti na kakovost podatkov. Podatkom neznane kakovosti in rezultatom analiz, ki na takšnih podat¬ kih temeljijo, ne moremo zaupati. 1.1 Kakšna je danes kakouost podatkov v podatkovnih skladiščih? Kakovost podatkov v obstoječih podatkovnih skla¬ diščih je pogosto slaba zaradi napak pri vnosu, raz¬ ličnih sprememb podatkov in struktur, ki so nastajale skozi čas, napačnih podatkov iz spletnih aplikacij ali iz zunanjih virov, ali pa zaradi združevanja dobrih podatkov z zastarelimi in nezmožnostjo ločevanja med njimi. V poročilu leta 2002 [20], ki ga je izvedel Data Ware~ housing Institute, je skoraj polovica (44 % ) vprašanih poročala, da je kakovost podatkov "slabša, kot si kdor¬ koli lahko predstavlja". 40 % anketiranih je priznalo, da so stroški, problemi in izgube neposredno poveza¬ ni s slabo kakovostjo podatkov. Data Warehouse Insti¬ tute v poročilu ugotaljavlja, da težave povezane s ka¬ kovostjo podatkov trenutno stanjejo ameriška podjet¬ ja 600 milijonov ameriških dolarjev na leto. V poročilu Priceavaterhouse Coopers [9] so ocenili tudi kakovost po¬ datkov v podatkovnih skladiščih. Poročilo z analizo izjav vodilnih direktorjev iz 600 podjetij ugotavlja, da jih je 60 % zmanjšalo stroške poslovanja, več kot 40 % je povečalo prodajo z boljšimi analizami po¬ datkov o strankah in več kot 30 % podjetij je pod¬ pisalo pomembne pogodbe zaradi boljše analize po¬ datkov. To poročilo poudarja pomen kakovosti po¬ datkov in povzema, da imajo podjetja, ki upravlja¬ jo svoje podatke kot strateški vir in investirajo v 2004 - številka 1 - letnik XII UPORABNA NFORMATIKA 19 Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov njihovo kakovost, večji ugled in so bolj dobičkonos¬ na kot tista, ki tega ne počnejo. 1.2 Prenoua podatkounih skladišč Podatkovna skladišča danes hranijo podatke, ki naj¬ večkrat odgovarjajo na splošna vprašanja: kateri izdelki prinesejo največji/najmanjši dobiček, kakšne izdelke in storitve bodo uporabniki želeli v prihodnje, kateri so sedaj in so bili v bližnji preteklosti najbolj prodajani izdelki. Značilni podatki, ki se zbirajo v po¬ datkovnih skladiščih, so: enolična oznaka izdelka, izdelek, trgovina, cena, popust, količina, vrednost, datum. S temi ključnimi podatki lahko analiziramo prodajo po izdelkih, času, skladiščih in področjih. Ti običajni podatki podatkovnih skladišč pa ne povedo nič o kupcu, kaj vse je kupil in koliko, katere izdelke je kupil hkrati in v kakšnem časovnem zaporedju. Podjetja danes dodajajo informacije o svojih strankah v podatkovna skladišča, kar jim prinese konkurenčno prednost. 70-80 % podatkovnih skladišč svetu je na¬ menjenih obravnavi strank. Podjetja težijo k pridobi¬ vanju novih strank - kupcev. Ker pa število le-teh ni neomejeno, so cilji podjetij tudi obdržati svoje stran¬ ke čim dlje, prodati jim čim več stvari in poslovati z njimi na učinkovitejši način. Da lahko te težnje ude- janijo in povečujejo prodajo ter dobiček, si morajo ustvariti jasno sliko obnašanja svojih strank, pravila nakupov in analizirati njihove navade. Podatki o strankah, ki jih dodajajo v podatkovna skladišča, so manj formalizirani, strukturirani in zato tudi manj kakovostni v primerjavi s podatki, ki so že v podat¬ kovnih skladiščih. Z dopolnjevanjem podatkovnih skladišč postane problem kakovosti podatkov za podjetja še večji. 2. Kaj je podatkovno skladišče in kaj kakovost podatkov? Immon definira podatkovno skladišče kot subjektno orientirano, integrirano, stanovitno, časovno raznoli¬ ko zbirko podatkov, ki podpirajo poslovno odločanje [11]. Skladišče ni funkcionalno orientirano ampak so v njem podatki subjektov. V podatkovnih skladiščih CRM (angl. Customer Relationship Management) je subjekt stranka. Podatki so integrirani in poenoteni. Podatki so lahko elementarni ali že integrirani. Podat¬ kovno skladišče hrani podatke stare tudi več let, kar omogoča analize trendov in oblikovanje napovedi gibanja posameznih kazalcev v prihodnje. Kimball [13,14] vidi podatkovno skladišče kot področne shrambe, kjer hranimo podrobne transakcijske podat¬ ke. V virih, kjer so primerjali obe definiciji, ne vidijo bistvene razlike med definicijami in poudarjajo, da se podatkovno skladiščenje razvija in dopolnjuje [1,7]. Obstaja več videnj kakovosti podatkov: . Current Analysis [2] pravi, da je kakovost podatkov preprosto zrcalo točnosti podatkov organizacije. Dobra kakovost podatkov pomeni, da so podatki organizacije točni, popolni, konsistentni, pravočas¬ ni, enoviti in pravilni. Bolj kakovostni so podatki, bolj jasno predstavljajo natančen, usklajen vidik podjetja skozi podsisteme, organizacijske enote in vrste poslovanja. . Kakovost podatkov je stanje popolnosti, veljavno¬ sti, konsistentnosti, pravočasnosti in točnosti, kar dela podatke primerne in uporabne za specifične analize [10]. ■ Kakovost podatkov je često definirana kot proces urejanja informacij, tako da so posamezni zapisi natančni in točni, ažurni in konsistentno predstav¬ ljeni. Kakovost podatkov je težko izmeriti in je dovolj kritičen dejavnik za neuspeh projekta ali neizpolnitev strateškega cilja [3,5,6]. Podatkovna plast organizacije je kritični element, ker je zelo enostavno zanemariti kakovost podatkov ali nare¬ diti preoptimistične ocene. Imeti kakovostne po¬ datke za analizo je velika konkurenčna prednost. 3. Kako merimo kakouost podatkov? Že iz širine zgornjih definicij o kakovosti podatkov je jasno, da bomo poskušali le ovrednotiti kakovost po¬ datkov, ne bomo pa je mogli natančno izmeriti. Me¬ ritev kakovosti podatkov ni delo za perfekcioniste, ampak za ljudi, ki poznajo pomen meritve. Ogledali si bomo dve metodi za merjenje kakovosti podatkov. Prva, opisana v viru [15], zelo poudarja pomen mno¬ žice osnovnih pravil za ocenitev kakovosti vhodnih podatkov, ki so pomembni za uspešnost gradnje po¬ datkovnega skladišča glede na vsebino in pravo¬ časnost. Nekaj primerov pravil: • samo izdelki dodani v zadnjem mesecu nimajo natančnih informacij o prodaji, . vsi izdelki imajo enolične identifikatorje v tabeli prodaj izdelkov, . ni presledkov pred imeni kupcev, • ni posebnih znakov pri imenih kupcev, . vsi identifikatorji izdelkov so enolični, . vse prodaje so med 0 in 100.000.000,00 SIT itn. 20 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov Ko so pravila definirana in so določeni podatki, moremo oceniti kakovost podatkov. Ocenitev bo predstavljala stanje kakovosti podatkov za to pravilo. Celotna ocena bo povprečje ocen izraženo v točkah. Samo povprečje ni tako učinkovito kot sistem, ki da večjo težo pomembnejšim pravilom. Vrednost celot¬ ne ocene (število točk) definira kakovost podatkov. Avtor iz empiričnih izkušenj predlaga ocenitev, ki da naslednje rezultate prikazane v tabeli 1 [15]. Tabela 1: Ocenitve kakovosti podatkov Druga metoda, opisana v viru [10], opravi meritev kakovosti podatkov z opazovanjem vseh lastnosti kakovosti podatkov. V tabeli 2 so primeri meril, kate¬ rih kršenje nam v odstotkih predstavlja nekakovost podatkov. Tabela prikazuje množico skupnih lastnosti za merjenje kakovosti podatkov in navaja primere meril za določanje zahtev za kakovost. 3.1 Primerjava metod merjenja kakovosti Obe obravnavani metodi merjenja kakovosti podatkov temeljita na postavljanju pravil in nato na ocenitvi od¬ stotka primerov podatkov, ki kršijo postavljena pravi¬ la in predstavljajo odstotek nekakovostnih podatkov. Druga metoda oceni kakovost podatkov bolj na¬ tančno, z vseh vidikov definicij kvalitete podatkov podatkovnega skladišča. Najde nekakovostne podat¬ ke, ki kršijo pravila dobre kakovosti podatkov, in zahteva njihovo zmanjšanje. Ni pa merila, ki bi defi¬ niralo, kaj pomenijo odstotki nekakovosti podatkov. Ocena ukrepanja je v rokah razvijalca podatkovnega skladišča. Prva metoda daje empirično merilo za opisno oce¬ no kakovosti podatkov iz povprečja odstotkov neuje¬ manja pravil. Metoda poudarja določitev množice osnovnih pravil za ocenitve kakovosti vhodnih podat¬ kov, ki so pomembni za uspešnost in dobičkonosnost gradnje podatkovnega skladišča glede na vsebinske in časovne omejitve. Meritev kakovosti podatkov lahko izvedemo z orodji (na primer Data Quality Inspector [17]), ki omogočajo definiranje pravil in izbiro podatkovnih množic. Nato analizirajo podatke in poiščejo kršitve pravil ter posredujejo nekakovostne zapise odgo¬ vornim za njihovo kakovost. 4 Možnosti povečanja kakovosti podatkov Obstajajo tri možnosti povečanja kakovosti podatkov: 1. Odložiti aktivnost povečanja kakovosti podatkov na kasneje. Tabela 2 : Množica lastnosti kakovosti podatkov 2004 -številka 1 - letnik XII UPORABNA INFORMATIKA 21 Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov 2. Vgraditi pravila, ki bodo preverjala podatke v ap¬ likacijah, ki zbirajo podatke. 3. Zgraditi podatkovno skladišče in čistiti podatke. Odločitev za eno izmed možnosti za povečanje kakovosti podatkov je odvisna od: • stopnje kakovosti podatkov, • stanja obstoječih transakcijskih sistemov (ali so že potrebni prenove ali pa so to novejši sistemi) in • potreb in želja po poslovanju s kakovostnimi po¬ datki. Prva možnost je nasprotje reka »Kar lahko storiš danes, ne odlašaj na jutri« in se v praksi največkrat slabo obnese. Druga možnost je nujno potrebna, če so podatki zelo slabi, tako rekoč neuporabni. Vgradnja pravil v aplikacijah, ki zbirajo podatke, pa ne poveča kakovo¬ sti starih podatkov. Le-ti pa so v podatkovnih skladiš¬ čih še kako potrebni za izvajanje analiz in primerjanj v daljšem časovnem obdobju in za napovedovanje gibanj posameznih količin v prihodnje. To možnost izvedejo v podjetjih, kjer so transakcijski sistemi zastareli in so potrebni prenove. Tretja možnost je izboljšanje kakovosti podatkov v podatkovnem skladišču. Nalagati in hraniti nekako¬ vostne podatke in jih nato kasneje prečistiti, je veliko večji strošek, kot pa prečistiti podatke in jih čiste hra¬ niti v podatkovnem skladišču. Mesto za zagotavljanje kakovosti podatkov v oko¬ lju podatkovnega skladišča je sam razvoj le-tega. Po¬ datkovno skladišče s še tako izpopolnjenim načrto¬ vanjem, a s podatki, ki niso kakovostni, je malo vred¬ no. Zgrajeno podatkovno skladišče za upravljanje podatkov podatke tudi očisti, kar je pomembna nalo¬ ga, ki je bila poudarjena že ob definiciji podatkovne¬ ga skladišča. Immon, oče podatkovnih skladišč, pravi, da je naloga koraka ETL (angl. Extract Transform Load, slov. pridobivanje, preoblikovanje in nalaganje podatkov) naložiti v podatkovno skladišče integrirane in prečiščene podatke (slika 1). Usklajenost procesa ETL in kakovost podatkov daje možnost za eno¬ stavnejšo upravljanje kompleksnih podatkovnih inte¬ gracij. Z uvedbo kakovosti podatkov v proces ETL sta zagotovljena kakovost podatkov in točnost. Najte¬ žavnejše v procesu ETL je pridobivanje podatkov iz različnih virov, preoblikovanje podatkov v nove for¬ mate in nalaganje podatkov v podatkovna skladišča. Cilj procesa ETL mora biti tudi zajemanje čistih in točnih podatkov. pridobi preoblikuj naloži podatkovno skladišče obstoječi transakcijski sistemi Slika 1: Proces ETL Za izboljšanje kakovosti podatkov v procesu ETL uporabljamo naslednje tehnike: čiščenje podatkov, dopolnjevanje in ujemanje ter usklajevanje. Čiščenje podatkov je odkrivanje in popravljanje nekakovostnih podatkovnih elementov in podat¬ kovnih struktur. S tehniko dopolnjevanja povečujemo obseg infor¬ macij, ki jih lahko dobimo iz podatkov. Na primer, naslov lahko dopolnimo z vljudnostnimi nazivi, ki so odvisni od spola ali pa z geolokacijskimi podatki o pošti in mestu. Z ujemanjem ugotovimo množico ponavljajočih se ujemajočih zapisov. S postopkom združevanja tak¬ šne zapise uskladimo in združimo v en zapis. Pozna¬ mo tri metode ujemanja in združevanja: odpravo pod- vojevanj, združevanje v družine in povezovanje zapi¬ sov. Vsaka izmed njih je uporabna v določenem prim¬ eru. Odprava podvojevanj z ugotavljanjem ujeman¬ ja in združevanjem, odpravi podvojene zapise. Zdru¬ ževanje v družine združi zapise, ki imajo vsaj en enak atribut. Ta atribut je ključ za združevanje. Tipičen pri¬ mer je združevanje podatkov o strankah v skupna gospodinjstva po skupnem naslovu. Povezovanje za¬ pisov je splošnejši primer združevanja v družine. Zapise povezujemo z drugim namenom in ne po skup¬ nem naslovu, ampak na primer po organizacijskem principu. Poznamo mehko, popolno in verjetnostno uje¬ manje. Mehko ujemanje temelji na bolj ali manj na¬ tančnih pravilih za ujemanje in na območjih podat¬ kov, ki niso natančno definirana. Popolno ujemanje daje enako težo različnim atributom zapisa. Verjet¬ nostno ujemanje izkorišča statistično verjetnost, da ujemanje določenega elementa zapisa z določeno ver¬ jetnostjo zagotavlja, da sta zapisa ista. 22 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov Čiščenje, dopolnjevanje, ujemanje in združevanje izvajamo zaporedno. Izvedemo samo tiste tehnike, ki so primerne in ustrezne našim problemom in podat¬ kom. Graditelji podatkovnih skladišč, kot je na primer Oracle VVarehause Builder [19], so orodja, ki nudijo podporo razvoju in avtomatizirajo obravnavane teh¬ nike povečanja kakovosti podatkovnih skladišč. Poleg razvojnih orodij obstajajo tudi razvojne metode, ki poudarjajo povečanje kakovosti [4,10,12,15,18]. Ob¬ ravnavali in primerjali bomo: • pristop k povečanju kakovosti podatkov zasnovan na tveganjih, . pristop k povečanju kakovosti podatkov in ROI, • metodo za razvoj podatkovnih skladišč DWM. 5 Pristop k povečanju kakovosti podatkov zasnovan na tveganjih Ta vključuje štiri ključne aktivnosti za zagotavljanje kakovosti podatkov v razvojni cikel [10]: 1. Določitev pričakovane kakovosti podatkov in metrike za merjenje. 2. Identificiranje tveganja v kakovosti podatkov in predvidevanje, kdaj in kateri podatki iz podatkov¬ nega skladišča ne bodo uspeli zadovoljiti priča¬ kovanj. 3. Zmanjšanje tveganja - določitev akcije za zmanj¬ šanje vsakega večjega tveganja. 4. Opazovanje in ocenitev rezultatov. 5.1 Določitev pričakovane kakovosti podatkov in metrike za merjenje Prvi korak pri zagotavljanju kakovosti podatkov so definicije kakovosti podatkov, ki bodo pomagale ure¬ sničiti poslovne cilje. V primeru poslovnega cilja pov¬ ečanja trga, so pričakovanja za kakovost podatkov osredotočena predvsem na zbiranje podatkov o prodaji strankam in kakovosti agregiranih podatkov. Skupne lastnosti kakovosti podatkov po definira¬ ni metriki (tabela 2) določimo predvsem za podatke, ki povzročajo večje tveganje pri doseganju zastavl¬ jenega poslovnega cilja. Tveganje lahko povežemo s ciljem podatkovnega skladišča. Na primer, za doseg¬ anje poslovnega cilja optimizacije dobave so zelo pomembni podatki o razdeljevanju izdelkov. 5.2 Identificiranje tveganja v kakouosti podatkov Je postopek predvidevanja, zakaj ne bi podatki iz podatkovnega skladišča uspeli zadovoljiti pričako¬ vanj. Tveganje je lahko zunanji dogodek ali poznano stanje, ki povzroči nekakovostne podatke. Izpad raču¬ nalnika je tveganje za pravočasnost podatkov. Na Slika 2: Zagotavljanje kakovosti podatkov po pristopu, zasnovanem na tveganjih 2004 - številka 1 - letnik XII uporabna INFORMATIKA 23 Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov primer, podatki o velikosti dobav izdelkov so obvez¬ ni podatki, toda v primeru izpada sistema kar za nekaj zapisov teh podatkov ne bo. Veliko tveganje je tudi napačna uporaba podatkov. Uporabniki podatkovne¬ ga skladišča v prvem koraku preverijo podatke, ki jih dobijo iz podatkovnega skladišča glede na podatke vi¬ rov in pomagajo oblikovati ustrezna navodila za pra¬ vilno uporabo podatkov. Seveda pa v procesu gradnje sami preverimo podatke in ocenimo njihovo kakovost v skladu z merili, postavljenimi v prejšnjem koraku. Za to lahko uporabimo orodja, kot je na primer Data Quality Inspector [17]. Če ta preverjanja pokažejo, da je kakovost podatkov zajeta v podatkovno skladišče tako majhna, da predstavlja tveganje za dosego pričakovanih rezultatov podatkovnega skladišča, potem moramo oceniti napor za zmanjšanje tveganj in izvesti aktivnosti, ki zagotovijo večjo kakovost vhodnih podatkov. 5.3 Zmanjšanje tveganja Za vsako tveganje definiramo kako in v katerem ko¬ raku razvoja ga bomo odpravili. Procedura za izboljšanje kakovosti podatkov v raz¬ ličnih korakih razvoja podatkovnega skladišča je na¬ slednja: . V koraku definiranja zahtev je poudarek na meta- podatkih, ki so pomembni za podporo analizi do¬ men in integraciji ter pravilnemu pomenu podat¬ kov. Procedura za izboljšanje kakovosti podatkov zgodaj v življenjskem ciklu zmanjšuje tveganje neuspešnega razvoja podatkovnega skladišča. « Analiza in načrtovanje podatkovnega skladišča lahko zmanjšata tveganja, povezana z napačnim razumevanjem podatkov, onemogočita nejasen pomen podatkov in preprečita tveganje neuskla¬ jene predstavitve istih dejstev v podvojenih podat¬ kih podatkovnega skladišča. Podatkovni modeli in ostali metapodatki o načrtovanju podatkovnega skladišča opisujejo podatkovne elemente in njihov natančen pomen - vsebinska pojasnila in navodi¬ la, kako jih dnevno osveževati. Opisana morajo biti poslovna pravila, ki definirajo povezave med ele¬ menti v fizični bazi. Prav ta pravila morajo biti na voljo uporabniku kot pomoč pri iskanju informacij. ■ Izraznost in jasnost načrtovanja povečata stan¬ dardizacija poimenovanj in podatkov. V primerih, ko izvorni sistem ne zagotavlja dovolj kakovostih virov, je smiselno začeti projekt za izboljšanje iz¬ vornega sistema, tako da bo zmanjšano tveganje zaradi nekakovostih podatkov. Iz zahtev za kako¬ vost podatkov razvijemo množico pravil in metri¬ ke kakovosti, načrtamo in razvijemo preverjanja za pravila kakovosti podatkov za ugotavljanje in po¬ ročanje o napačnih podatkih. Onemogočimo vstop nekakovostnih podatkov v podatkovno skladišče. . Razvoj lahko zmanjša tveganje z vključevanjem popravljanj in merjenj kakovosti podatkov v proces ETL. S preverjanjem ugotovimo preveri for¬ mat in tip podatkov, usklajenost vrednosti z dome¬ nami, usklajenost z drugimi povezanimi podatki in usklajenost z metapodatki. Ugotavljanje pravilno¬ sti preverja točnost podatkov, torej natančen opis realnih objektov. Potrjevanje pravilnosti pokaže primernost uporabe podatkov za različne uporabe in zmanjša tveganje napravilne uporabe podatkov. 5.4 Vzriržeuaje podatkounega skladišča - opazovanje, pregledovanje in ocena kakovosti podatkov Kakovost vhodnih podatkov v podatkovno skladišče je potrebno nadzirati. Večkratna merjenja kakovosti vhodnih podatkov nam kažejo, ali se res približujemo zastavljeni kakovosti podatkov. Vzdrževanje pa pred¬ stavlja tudi ocenitev novih uporab podatkov in ugo¬ tavljanje vzrokov slabe kakovosti podatkov in njiho¬ vo odpravljanje. G Pristop k povečanju kakovosti podatkov in RDI Vzporeden pojav izboljšanja kakovosti podatkov je merilo povračila investicije (angl. Return On Invest- ment - ROI), ki se izračuna kot razmerje dobička zmanjšanega za investicijo, in samo investicijo po enačbi: RO i = im d - bi£ek ~ investici i a r%i investicija L J ROI je pri aplikacijah podatkovnih skladišč običaj¬ no velik [8]. Vodstva podjetij hočejo hitro povračilo za sredstva, vložena v izboljšanje kakovosti podatkov. Veliko prednosti izboljšanja kakovosti je nemerljivih: hitrejše analize, samo ena resnica, izboljšano zadovolj¬ stvo strank. Nekatere druge prednosti pa so merljive, kot je na primer povečanje prodaje, ki je posledica analize preteklih podatkov in direktnega oglaševanja. Koraki pristopa k povečanju kakovosti podatkov in ROI so (slika 3) [15,16]: 1. Pregled sistema. V tem prvem koraku pregledamo sisteme podjetja in postavimo prioritete glede upo¬ rabe in potrebe po kakovosti podatkov. Ti sistemi temeljijo na točnosti podatkov in jih lahko najdemo 24 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Krista Rizman Zatik: Podatkovna skladišča in kakovost podatkov med sistemom OLTP, odločitvenimi sistemi in po¬ datkovnimi skladišči. 2. Definiranje pravil. Pravil za kakovost podatkov ne dobimo z določitvijo, kako naj bodo podatki vide¬ ti, ampak z oceno škode sistema, ki jo povzročijo nekakovosti podatki. Meritev vseh pravil daje oceno kakovosti podatkov. Pravilom, ki opisujejo zahteve za kakovost podatkov, ki, če so nekako¬ vostni, povzročijo največ škode, damo največji pomen in težo. Nabor elementov kakovosti, ki jih lahko zagotavljajo pravila, je: ■ Referenčna integriteta, ki se nanaša na integrite¬ to sklicevanja med podatki v različnih tabelah. Kot primer, identifikatorji izdelkov v tabeli prodaje izdelkov morajo biti natančneje opisani v tabeli izdelkov. • Enoličnost nekaterih podatkov, kot so identi¬ fikatorji. Primer kršitve pravila je, če isti identi¬ fikator opisuje dva ali več izdelkov. . Kardinalnost povezav določa količinska razmer¬ ja povezav. Izdelek z enim enoličnim identifika¬ torjem lahko prodamo večkrat ali pa ga še ni¬ smo nikoli prodali, če gre za nov izdelek. • Smiselne vrednosti domen. • Oblikovne pravilnosti, kot npr. nobenega pre¬ sledka pred imeni, imena brez posebnih znakov, uporaba velikih in malih črk in ne samo velikih. 3. Označitev podatkov. Ugotavljanje lastnosti podat¬ kov izvedemo s stavki SQL ali podobnimi pov¬ praševanji, ki kažejo na porazdeljenost vrednosti podatkov in izbiro pomembnih podatkov za gra¬ jeno podatkovno skladišče. 4. Meritev kakovosti podatkov. Merjenje kršitev po¬ sameznih pravil da oceno kakovosti podatkov si¬ stema. Celotna ocena bo povprečje ocen upošte¬ vanja posameznega pravila. Samo povprečje ni ta¬ ko učinkovito kot sistem, ki da večjo težo po¬ membnejšim pravilom. Tabela 2 je empirična pre¬ glednica ocenitve kakovosti podatkov. 5. Ocenitev vpliva nivojev kakovosti podatkov na ROI. V enakih okoljih zahtevajo različni nivoji ka¬ kovosti podatkov različne stroške in omogočajo različno povečanje dobička. Primer iz realnega podatkovnega skladišča prodaje kaže, [16]: . Za kakovost podatkov, ocenjeno z 90 točkami, je projektni ROI (brez stroškov za povečanje kako¬ vosti podatkov) 175 %. ■ Za kakovost podatkov, ocenjeno s 85 točkami, je projektni ROI (brez stroškov za povečanje kako¬ vosti podatkov) 101 %. ■ Za kakovost podatkov, ocenjeno z 80 točkami, je projektni ROI (brez stroškov za povečanje kako¬ vosti podatkov) 64 %. Tako vidimo, da je investicija v podatkovno skladiš¬ če (brez upoštevanja stroškov povečanja kakovosti podatkov) tem bolje poplačana, čim bolj kakovostne podatke obdelujemo. ROI (brez upoštevanja stroškov povečanja kakovosti podatkov) se nelinearno pove¬ čuje in je večji od linearnega prirastka za najbolj kako¬ vostne podatke. 6. Povečanje kakovosti podatkov: Velja, da je ceneje povečati kakovost podatkov v virih kot pa v podat¬ kovnih skladiščih. Če imamo na primer polje, ki ima veliko analitično vrednost in je polovica vred¬ nosti nevnešenih in neuporabnih, potem nobena transformacijska strategija ne more pridobiti zane¬ sljivih informacij iz teh podatkov. V primerih za¬ starelih sistemov povečanje v virih ni možno zara¬ di kompleksnosti in stare tehnologije. Kakovost podatkov povečamo z naslednjo množico aktiv¬ nosti v procesu ETL: • Podatke, ki zelo kršijo pravila kakovosti podat¬ kov, naložimo v vmesne tabele, kjer jih lahko ročno pregledujemo in popravljamo. ■ Kršitve pravil kakovosti podatkov ugotovimo, o njih poročamo, toda podatke naložimo v podat¬ kovno skladišče. Poročila nato pregledajo ana¬ litiki, ki poznajo poslovni pomen podatkov in so zadolženi za kakovost podatkov. . S čiščenjem, popravljanjem in dopolnjevanjem podatkov dosežemo večjo kakovost podatkov. Obseg aktivnosti za povečanje kakovosti podatkov določimo z izbiro ocene kakovosti podatkov, ki jo želi¬ mo doseči. Zelena ocena kakovosti podatkov je poveza¬ na z ROI. Stroški povečanja kvalitete podatkov zmanj¬ šajo povračilo vlaganj ROI: ROI -100 d°biček- investicija - investicija..v..kakovost..podatkov investicija +investicija..v..kakovost..podatkov ROI ne bo največkrat največji za najbolj kako¬ vostne podatke, saj je potem tudi investicija v poveča¬ nje kvalitete podatkov največja. Največji ROI (83 %) dosežemo za kvaliteto podatkov ocenjeno z 90 (tabe¬ la 4 [16]). Za povečanje kvalitete podatkov do 99 % se ROI zmanjša na 72 %. 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 25 Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov * brez stroškov za povečanje kakovosti podatkov Tabela 4: Straški in koristi povečevanja kvalitete podatkov pristop Slika 3: Koraki pristopa k povečanju kakovosti podatkov in BOI 7 Razvojna metoda D1A/M in povečevanje kakovosti podatkov Metodologije za razvoj podatkovnih skladišč na¬ tančno opisujejo vse aktivnosti in procese v razvoju podatkovnega skladišča ter tudi bolj ali manj uspeš¬ no obravnavajo zagotavljanje kakovosti podatkov. Oglejmo si aktivnosti, ki jih poudarja metoda DWM (angl. Data VVarehouse Method) [18] za zagotavljan¬ je in povečanje kakovosti podatkov. V prvem koraku razvoja podatkovnega skladišča (strategiji) je potrebno postaviti tudi strategijo kako¬ vosti podatkov: pristop za sprotno integriteto podat¬ kov v podatkovnem skladišču vključno z upravlja¬ njem podatkov, upravljanjem z napakami in izjema¬ mi, čiščenjem podatkov, opazovanjem in nadzorova¬ njem podatkov. Metoda predlaga izdelavo lastništva podatkov in procese odprave odstopanj podatkov ter definiranje standardov za podatke. Kakovost podatkov in integriteta morata biti obravnavani že v strategiji. Vpliv kakovosti podatkov na rezultirajoče podatkovno skladišče je zelo pomem¬ ben, saj kakovost podatkov določa zaupanje uporab¬ nikov v podatkovno skladišče. Pri tem skrbimo za kakovost podatkov v vseh korakih razvoja. . Pri definicijah določimo obseg zagotavljanja kak¬ ovosti podatkov ter izdelamo načrt. Definiramo naloge, vire in časovne okvirje za zagotavljanje ka¬ kovosti podatkov. • Pri analizi izdelamo plane in postopke za povečanje kakovosti podatkov. Izdelamo natančne zahteve za kakovost podatkov vključno z obravnavanjem na¬ pak in izjem, čiščenjem podatkov in opazovanjem ter nadzorovanjem podatkov. Ustvarimo procedure za sprotno reševanje nekakovostnih podatkov (uporabe podatkov, standardov poimenovanja, for¬ mati, definicije podatkov, lastništva, popravljanje 26 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Krista Rizman Zatik: Podatkovna skladišča in kakovost podatkov napak). Metapodatki opisujejo tudi kakovost po¬ datkov. . V koraku načrtovanja načrtamo module, ki bodo izvedli zahtevane aktivnosti za zagotavljanje kako¬ vosti podatkov, module za čiščenje, za obravnavo napak in izjem ter module za opazovanje in nad¬ zorovanje podatkov. Tabela 3 kaže prisotnost aktivnosti zagotavljanja kako¬ vosti podatkov v vseh korakih razvoja podatkovnega skladišča in odstotek, potreben za proces zagotavljanja kakovosti podatkov v posameznem koraku razvoja [11]. Tabela 3: Kakovost podatkov v DI/VM je ena izmed aktivnosti, ki pokriva večina korakov načrtovanja 8 Primerjava metod Identificirali bomo posamezne elemente metod in pristopov ter izvedli primerjalno analizo med njimi. Za določitev učinkovitega pristopa pri zagotavljanju kakovosti podatkov podatkovnega skladišča, ki bo učinkovito izrabljal vire in nudil najobsežnejše možne analize iz obstoječih podatkov, je potrebno poznavan¬ je lastnosti posameznih pristopov. Primerjali smo: • izhodišča, • način merjenja kakovosti, • razvojni cikel, • druge parametre (pomen metapodatkov, potrebna pripravljenost v večja vlaganja v podatkovna skla¬ dišča). 8.1 Izhodišča Metode za razvoj podatkovnih skladišč in tudi obrav¬ navana razvojna metoda DWM, obravnavajo kako¬ vost podatkov kot pomembno in jo vključujejo v vse korake razvoja podatkovnega skladišča. Zagotavljanje kakovosti podatkov obravnavajo kot pogoj za uspeš¬ no izvedbo projekta. Pristop k povečanju kakovosti podatkov zasnova¬ nem na tveganjih gleda na proces upravljanja podat¬ kov z vidika odprave tveganj za učinkovito zagotav¬ ljanje informacij iz podatkovnega skladišča. V pristopu k povečanju kakovosti podatkov in ROI je izhodišče izboljšati kakovost podatkov tako, da bo učinek podatkovnega skladišča in ROI največji. 8.2 Način merjenja kakouosti Oba primerjana pristopa predlagata za merjenje definiranje pravil in meritev odstopanj podatkov od definiranih pravil. V pristopu k povečanju kakovosti podatkov in ROI določimo pravila za kakovost podat¬ kov na osnovi škode za učinkovito delovanje sistema; večja je le-ta, pomembnejše je pravilo. Pravil za ka¬ kovost podatkov ne dobimo z določitvijo, kakšni naj bodo podatki, ampak z oceno vpliva nekakovostnih podatkov na uspešnost delovanja sistema. Pravilom, ki opisujejo zahteve za kakovost podatkov, ki, če so nekakovostni, povzročijo največjo škodo, damo naj¬ večji pomen in težo. V pristopu k povečanju kakovosti podatkov zasno¬ vanem na tveganjih definiramo pravila glede na skupne lastnosti kakovosti podatkov po definirani metriki (tabela 1) predvsem za podatke, ki povzroča¬ jo večje tveganje. 8.3 Razvojni cikel Ugotovimo lahko, da pa se predstavljeni razvojni cikli obravnavanih metod bistveno ne razlikujejo med sebo (tabela 4). Pristop za povečanje kakovosti podat¬ kov zasnovan na tveganjih, veliko bolj natančno opisuje in poudarja, kako v posameznem koraku raz¬ voja pazimo na kakovost, kot ostale obravnavane metode. To je v skladu z izhodiščem pristopa. Pristop k zagotavljanju kakovosti in ROI pa daje večji pou¬ darek ocenitvi vpliva nivojev kakovosti in stroškom izboljšav kakovosti podatkov, saj izhaja iz drugega izhodišča (tabela 4). 8.4 Drugi parametri Pristop k povečanju kakovosti podatkov zasnovanem na tveganjih daje večji pomen metapodatkom kot pristop k povečanju kakovosti podatkov in ROI, saj natančno opisani metapodatki zmanjšujejo tveganja razvoja in napačnega razumevanja in uporabe dob¬ ljenih podatkov iz podatkovnega skladišča. Tudi raz¬ vojna metoda DWM daje velik poudarek metapodat¬ kom, saj niso pomebni le za kakovost ampak tudi za uspešen razvoj. 2004 - številka 1 - letnik XII uporabna INFORMATIKA 27 Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov Pristop k povečanju kakovosti zasnovanem na tveganju Določitev kakovosti (pravil) Identifikacija tveganja ▼ Zmanjšanje tveganja I Opazovanje in ocenitev rezultatov Pristop k povečanju kakovosti in R0I Pregled sistema 1 Definiranje pravil I Dznačitev podatkov Meritev kakovosti I Ocenitev vpliva nivojev kakovosti na ROI Izboljšanje kakovosti Razvojna metoda DWM Strategija (tudi kakovosti) I Definicije I Analiza Izgradnja I Uvajanje in vzdrževanje Tabela 4: Razvojni cikli Za pristop zasnovan na tveganjih je potrebna pripravljenost podjetja v večja vlaganja v podatkov¬ na skladišča, saj je bolj celovit in dosleden in sam ne poudarja dobičkonosnosti investicije v podatkovno skladišče, tako kot pristop k povečanju kakovosti po¬ datkov in ROI. 8.5 Izbira pristopa povečanja kakovosti podatkov Pomembna razlika med pristopi je v pojmovanju vlo¬ ge podatkovnega skladišča. Pri prvem obravnavanem pristopu k zagotavljanju kakovosti podatkov zasno¬ vanem na tveganjih, mora biti podatkovno skladišče brezhiben in izjemno kakovosten vir ter zelo zanes¬ ljiva informacijska podpora za poslovno odločanje. Pri drugem obravnavanem pristopu, kjer gre za povečanje kakovosti podatkov in ROI, pa je podatkovno skladišče kakovosten vir za podporo odločanju in orodje za po¬ večanje dobička in se mora investicija vanj tudi čim bolje poplačati. Prvi pristop je bolj celovit, drugi pa je usmerjen bolj na dobičkonosnost. Prvi pristop zmanjša tveganja, drugi pa poveča dobiček. Ne glede na izbrani pristop pa moramo upoštevati, da so podatkovna skladišča z nekakovostnimi podatki le hitra rešitev [9,20], ki jo je treba kmalu dograditi. Pro¬ jekt razvoja podatkovnih skladišč mora biti izpeljan s spremenljivimi stroški in mora zadovoljiti zahteve upo¬ rabnikov ter nuditi dovolj kakovostne podatke. Pristop k povečanju kakovosti podatkov, zasno¬ vanem na tveganjih, izberemo, ko obstaja: . zahteva po zelo zanesljivi in brezhibni podpori odločanju, • želja po zelo kakovostni podpori odločanju, ■ z viri dobro podkrepljen projekt. Pristop k povečanju kakovosti podatkov in ROI izbe¬ remo, ko: ■ ni zahtevano podatkovno skladišče z zelo kakovo¬ stnimi podatki, • je zahtevan čim večji izplen (povračilo investicije) izdelanega podatkovnega skladišča. Razvojno metodo DWM uporabimo, ko: ■ problem kakovosti ni posebej pereč, ni zahtevana izjemno velika kakovost podatkov, . kakovost lahko obravnavamo enokovredno z dru¬ gimi razvojnimi procesi in izzivi v standardnem zaporedju aktivnosti razvojnega cikla podatkovne¬ ga skladišča. 9 Sklep Izbira metode za merjenje kakovosti podatkov in me¬ tode za zagotavljanje in povečanje kakovosti podat¬ kov je pomembna za uspešno izdelavo podatkovnega skladišča. Za zagotavljanje kakovostnega podatkovnega skladišča je zelo pomemben korak izbire metode mer¬ jenja, oziroma ocenitve kakovosti. Pomembno je do¬ ločiti pravila, ki jih morajo kakovostni podatki zagotav¬ ljati. Orodja (kot je Oracle Data Quality Inspector [17]) olajšajo merjenje. Za gradnjo celovitega kakovostnega 28 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Krista Rizman Žalik: Podatkovna skladišča in kakovost podatkov podatkovnega skladišča je uporabna obravnavana metoda, ki temelji na tveganjih in nudi metrike za mer¬ jenje vseh vidikov kakovosti. Toda realnost je daleč od idelanega sveta in največkrat je pač potrebno meriti in izboljšati tiste lastnosti kakovosti tistih podatkov, ki so potrebne za uspešnost projekta. Kakovost podatkov, ki je manjša kot 90 %, negativno vpliva na poslovanje. Velik korak pa storimo že s tem, če se zavedamo pom¬ ena kakovosti podatkov in potrebe po merjenju ka¬ kovosti, saj brez merjenja ni možno izvesti izboljšanja in nadzora kakovosti podatkov. Splošna najboljša metoda za zagotavljanje in pove¬ čanje kakovosti podatkov ne obstaja, saj ima vsaka svoje lastnosti. Zato se moramo odločiti za tisto, ki naj¬ bolj ustreza dejavnikom v projektu razvoja podat¬ kovnega skladišča. Za brezhibno in zelo zanesljivo po¬ datkovno skladišče uporabimo pristop k povečan¬ ju kakovosti podatkov zasnovanem na tveganju. Za projekte razvoja podatkovnih skladišč, ki zahtevajo čim večji ROI, izberemo pristop k povečanju kakovo¬ sti podatkov in ROI. Za projekte, kjer lahko kakovost obravnavamo enakovredno z ostalimi razvojnimi izzivi uporabimo metodo DWM. Ne glede na izbran pristop in razvojna orodja za gradnjo podatkovnih skladišč mora biti projekt izpeljan s sprejemljivimi stroški, zadovoljiti trenutne potrebe uporabnikov, zgraditi dovolj prilagodljivo podatkovno skladišče ter nuditi dovolj kakovostne podatke. Literatura [1] Barbusinski, B., Hovvard, S. Kelley, C. (2002): How vvould you characterize the difference between Bill InmorVs philosophy on data vvarehousing and Richard Kimbairs?, DM Revievv. [2] Current Analysis, (2001): Data Quality Product Assessment. [3] Dubois., L. (2002): Business Inteiligence: The Dirty (and Costly) Little Secret of Bad Data, Bi Report. [4] English, L. R (1999): Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits, New York: John Wiley & Sons. [5] English, L. R (2002): The Essentials of Information Quality Management, DM Review. [6] Hacknez, D. (2003): Data Warehouse Delivery: Data Quality Fear, DM Review. [7] Gallas, S. (1999): Kimball Vs. Immon", DM Revievv. [8] Groh, T. (2004): Beyond ROI ... Justifyinga Business Inteiligence Initiative, DM Revievv. [9] Global Data Management Survey (2001): PriceVVaterhouseCooper, http://pwcglobal.com. [10] Hufford, D. (1996): Data VVarehouse Quality: Special Feature from January 1996. [11] Immon, W. H. (1996): Building the data warehouse, Wiley, New York. [12] Kachur, R. J. (2000): The Data VVarehouse Management Handbook, Prentice Hall, 2000. [13] Kimball, R. (1996): The Data VVarehouse Toolkit: Practical Techniques for Building Dimenzional Data VVarehouses, John Wiley & Sons, NewYork. [14] Kimball, R. (1999): The Data VVarehouse Lifecycle Toolkit: Expert Methods for Designing and Deploying Data VVarehouses, Wiley, New York. [15] McKnight, W. (2003): Building Business Inteiligence: Overal Approach to Data Quality ROI, DM Review. [16] McKnight, W.: Overall Approach to Data Quality ROI, VVhite Paper, http://www.mcknight-associates.com/. [17] Oracle Data Quality Inspector: http://www.oracle.com/consulting/offerings/platform/ index.html7dqi.html. [18] Oracle Method (1998): Oracle Data VVarehouse Method Handbook, Oracle. [19] 0racle9i VVarehouse Builder 9.2, Integrated Data Quality, http://www.oracle.com. [20] TDW1 Report Series,(2002): Data Quality and the Bottom Line: Achieving Business Success through a Commitment to High Quality Data. Krista Rizman Žalik ima več kot petnajstletne izkušnje pri analizi podatkov, podatkovnem modeliranju informacijskih sistemov, upravljanju metapodatkov in načrtovanju in razvoju podatkovnih skladišč. Delala je kot projektantka, razvijalka in svetovalka na različnih projektih razvoja informacijskih sistemov in rešitev. V zadnjih petih letih se je posvetila svetovanju, projektiranju in razvoju podatkovnih skladišč. SRC sistemske integracije M R N D Napredna računalniška hiša 2004 - številka 1 - letnik XII uporabna INFORMATIKA 29 RAZPRAVE B Sistem za upravljanje delovnih procesov Miroslav Ribič, Andrej Kovačič, Marjan Lončarič Povzetek Sistem za upravljanje delovnih procesov (WFMS) nudi podporo le podrobno opredeljenim poslovnim procesom, zato je njegova upo¬ raba pogojena s prenovo poslovnih procesov, ki postaja nujna za konkurenčnost katerekoli organizacije. WFMS mora organizaciji zagotoviti učinkovito definiranje, upravljanje in izvajanje tako organizacijskih kot medorganizacijskih delovnih procesov. Za upravljavca procesa je pomembno enostavno koordiniranje delovnih procesov in enostavno dodeljevanje nalog, hkrati pa mora WFMS omogočiti, da se proces po potrebi z uporabo drugih nastavitev in različnih programskih rešitev učinkovito prilagodi. Abstract VUorkflmiu Management System A workflow management system (WFMS) is mainly used for business processes that can be effectively and efficiently specified in detail. As business process reengineering becomes a norm for competitiveness, any future WFMS must be able to respond to organizational changes on an ongoing basis, From the organization’s point of view, WFMS must be able to define, manage and execute Inter-Organizational and Intra-organizational workflows. From the supervisors point of view, workflow management must be able to coordinate easily various workflows, assign the worker's work contents and change the workflow using data and softvvare from different sources. 1 Opredelitev delovnega procesa Upravljanje delovnih procesov pomeni optimizacijo nalog v smislu posredovanja dokumentov in informacij, ki v procesu nastajajo, njihovim izvajalcem, da ti nemoteno opravljajo delo in tako dosegajo poslovne cilje organizacije. Lahko je orga¬ nizirano tradicionalno, lahko pa je delno ali popolnoma avto¬ matizirano. Tradicionalno zasnovan delovni proces temelji na uporabi papirnih dokumentov. Tak pristop je v praksi vedno manj pogost, saj se z informatizacijo poslovanja papirne do¬ kumente nadomesti z elektronskimi. Sodoben delouni proces je računalniško podprt, saj je le tako mogoča optimizacija in/ ali avtomatizacija nalog. Delovni proces torej opredelimo kot računalniško predstauitev poslovnega procesa, s katerim za¬ gotovimo delno ali popolno avtomatizacijo poslovnega proce¬ sa (Hollingsuvorth, 1995). Opredeljen je z vsemi informacijami o poslovnem procesu, ki so potrebne za njegovo izvršitev. Sem sodijo informacije o sprožilnih in zaključnih pogojih procesa, sestavnih aktivnostih in pravilih za krmiljenje procesa, sklici na izvajalce posameznih aktivnosti ter, ker gre za računalniško predstavitev poslovnega procesa, tudi sklici na programske rešitve. 2 Sistem za upravljanje delovnih procesov Delovni proces je neposredno povezan s prenovo poslovnih procesov, ki se ukvarja z analiziranjem, ocenjevanjem in modeliranjem ključnih poslovnih procesov v organizaciji, s čimer neposredno vpliva na njihovo operativno implementacijo. Delovni proces igra pri tem vlogo vmesnega člena med poslovnim procesom in programskimi rešitvami, ki podpirajo njegovo izvajanje. Tako zagotovimo neodvisnost logike poslovnih procesov od programskih rešitev, s čimer postane spreminjanje poslovnih procesov v pri¬ hodnosti bolj enostavno. Računalniško podprto izva¬ janje poslovnega procesa terja torej preslikavo poslov¬ nega procesa v delovni proces. Ta pri tem podeduje vse aktivnosti in pravila poslovnega procesa, vanj je treba prek organizacijskega načrta vgraditi še izva¬ jalce posameznih aktivnosti ter sklice na programske rešitve in parametre, ki so potrebni za njihovo upora¬ bo. Pri tem si pomagamo z računalniško podporo za upravljanje delovnih procesov, ki ji pravimo sistem za upravljanje procesov (angl. Workflow Management System, v nadaljevanju: WFMS). WFMS skrbi za av¬ tomatizirano izvajanje delovnih procesov tako, da v pravilnem zaporedju aktivira ustrezne človeške in informacijske vire. Lahko ga opredelimo kot sistem za modeliranje in krmiljenje delovnih procesov (Keller, Teufel, 2000). Temeljni namen sistema WFMS je torej posredovati pravo nalogo oz. aktivnost pravemu izvajalcu ob pravem času, kar vpliva na bistveno hitrejše izvajanje 30 UPORABNA NFORMATIKA 2004 - številka 1 - letnik XII Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov poslovnih procesov. Tovrstni sistem temelji na upora¬ bi celovitih poslovno-informacijskih rešitev (v nadal¬ jevanju: ERP), ki podpirajo upravljanje notranje vred¬ nostne verige, hkrati pa se vključujejo v zunanjo vred¬ nostno verigo. Sestavljen je iz večjega števila medse¬ bojno povezanih in odvisnih osnovnih modulov. Gle¬ de na njihov nastanek in dosedanji razvoj jih lahko razvrstimo na orodja, ki v večji meri pokrivajo mode¬ liranje, ter orodja, ki so namenjena predvsem učin¬ kovitemu izvajanju (krmiljenju) delovnih procesov. Ločnica med tema dvema značilnostma je vse manj izrazita, saj si proizvajalci orodij prizadevajo priti na tržišče s kar se da celovito ponudbo. Generično ar¬ hitekturo sistema za upravljanje delovnih procesov in medsebojne odnose med posameznimi moduli prika¬ zuje slika 1. Posamezne module sistema za upravljanje de¬ lovnih procesov lahko opredelimo z naslednjimi vse¬ binami: modeliranje in prenova poslovnih procesov, skrbništvo procesov, razvoj programskih rešitev za krmiljenje delovnih procesov, organizacijski načrt, izvajalno okolje in krmiljenje delovnega procesa. 2.1 Modeliranje in prenoua poslovnih procesov Prenova poslovnih procesov je temeljito preverjanje in spreminjanje procesov ter pripadajočih aktivnosti z namenom, da bi dosegli pozitivne rezultate na po¬ dročjih, kot so zniževanje stroškov, povečanje kako¬ vosti proizvodov in storitev, skrajševanje časovnih Slika 1: Generična arhitektura sistema VUFM5 ciklov in podobno (Kovačič, 1998). Na tem področju je velik korak naprej storilo mednarodno združenje BPMI (angl. Business Process Modeling Initiative), ki je v obliki jezika BPML (angl. Business Process Mode¬ ling Language) podalo predlog za standardiziran za¬ pis poslovnih procesov. Ker je BPML formaliziran s shemami XML, je kot nalašč za modeliranje organiza¬ cijskih in medorganizacijskih delovnih procesov ter podporo elektronskemu poslovanju. BPML loči tri tipe aktivnosti, in sicer procese, kom¬ pleksne in enostavne aktivnosti (Assaf, 2003). Enostavne aktivnosti so elementarne in jih vgradimo v kompleksne aktivnosti. Omogočajo izvajanje najbolj osnovnih na¬ log, kot so izvedbe operacij, izvajanje časovnih zank, dodeljevanje vrednosti lastnostim aktivnosti in odzi¬ vanje na spremembe lastnosti v obliki proženja do¬ godkov, signalov in napak, prek katerih se vršijo kli¬ ci drugih aktivnosti. Kompleksne aktivnosti imajo obliko hierarhične kom¬ pozicije. Sestavljene so iz podrejenih kompleksnih in/ ali enostavnih aktivnosti. Omogočajo odzivanje na dogodke, vzporedno in/ali zaporedno izvajanje pod¬ rejenih aktivnosti, izvajanje le-teh v brezpogojni in, z vgraditvijo pogojev, tudi v pogojni zanki. S komplek¬ snimi aktivnostmi je torej mogoče implementirati poslovna pravila. Generično pravilo je sestavljeno iz dogodka, ki ga sproži, kontrolnega mehanizma, v ka¬ terega so vgrajeni pogoji, in aktivnosti, ki se prožijo skladno z kontrolnim mehanizmom. Proces je kompleksna aktivnost, ki se izvaja v speci¬ fičnem kontekstu. To pomeni, da mora biti ob njegovem izvajanju v vsakem trenutku zagotovljena možnost, da se v primeru izjemnega dogodka ali napake, vzpostavi prvotno stanje. V primeru dogodkov, ko se skozi izva¬ janje aktivnosti pojavijo izjemni, vendar ne napačni pogoji, se sproži poseben proces za reševanje izjem, v primeru napačnih pogojev pa se sproži nadomestitveni proces, ki vzpostavi prvotno stanje, to je stanje, kakršno je bilo pred začetkom izvajanja procesa. Za modeliranje poslovnih procesov uporabljamo posebna orodja, ki nudijo poleg zapisa procesnih mode¬ lov v obliki BPML tudi metodološka izhodišča za ugo¬ tavljanje, zbiranje in analiziranje podatkov o izvajanju poslovnega procesa. Zajema tudi dodatke, namenjene prenovi poslovnih procesov oziroma grafični predsta¬ vitvi in ureditvi (poenostavitvi, racionalizaciji in stan¬ dardizaciji) procesov pred njihovo nadaljnjo informa¬ tizacijo. Omogoča modeliranje procesov ter preverjanje njihove celovitosti in povezljivosti, simulacijo izvajanja 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 31 Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov procesov oziroma posameznih aktivnosti v povezavi s potrebnimi podatki ter analiziranje ustreznih vari¬ antnih rešitev izvajanja procesov v smislu dejavnikov, kot so: stroški (ABC analiza), kritične poti in generi- ranje novih modelov delovnih procesov, nastalih ob izbiri najustreznejše rešitve. Na tržišču jih srečamo pod nazivi, kot so: ActionWorkflow, Business Mode- lling Tool, ProcessWise, ARIS, Bonapart, Optima!, In- come ... 2.2 Skrbništvo procesov Skrbništvo procesov nadzira izvajanje procesov, upo¬ rabo virov, časa in stroškov. Podatki, ki jih nadziramo, izhajajo iz poslovnih dokumentov, ki nastajajo v izva¬ jalnem okolju sistema WFMS. Pri tem se največkrat uporabljajo podatki o izva¬ jalcu procesa, ki jih kombiniramo s tako imenovani ča¬ sovnimi žigi (angl. time-stamp), to so podatki, ki ča¬ sovno določajo nastanek in spremembe poslovnih do¬ kumentov in njihovih poprejšnjih verzij. Analiza v Opredelitev poslovnega procesa aktivnost A Izvajanje pripadajočega delovnega procesa, ki je razvidno na podlagi podatkov iz izvajalnega okolja Slika 3: Nadzor nad izvajanjem delavnih procesov 32 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov omenjenih podatkov pokaže, kako učinkovito se izva¬ jajo delovni procesi. Slika 3 prikazuje primer opredelitve poslovnega procesa na levi in njegovega izvajanja skozi pripada¬ joči delovni proces na desni strani. Iz opredelitve pro¬ cesa je razvidno, da je treba ob neuspešno opravljeni aktivnosti B ponovno začeti z izvajanjem aktivnosti A. Skrbnik procesa na podlagi analize izvajanja pripada¬ jočega delovnega procesa ugotovi, da se je pred izva¬ janjem aktivnosti C kar trikrat izvedla zanka z ak¬ tivnostma A in B, kar kaže na priložnost za optimiza¬ cijo poslovnega in/ali delovnega procesa. Tako se je treba s prenovo poslovnega in/ali delovnega procesa čimbolj približati optimalnemu izvajanju, t. j. »Ak¬ tivnost A« —► »Aktivnost B« —> »Aktivnost C«. 2.3 Organizacijski načrt Lipovec opredeli organizacijo kot sestav medsebojnih razmerij med ljudmi, ki zagotavljajo obstoj, družbeno¬ ekonomske in druge značilnosti podjetja in smotrno uresničevanje cilja podjetja. Iz dane opredelitve sledi, da organiziranje pomeni vzpostavljanje organiza¬ cijskih struktur, iz katerih izhajajo razmerja med ljud¬ mi (Lipovec, 1987). Načrt organizacijske strukture se praviloma opre¬ deli na treh nivojih, in sicer makro-, mezo- in mikro- nivoju. Na oblikovanje makroorganizacijske strukture vpliva tehnična delitev dela in situacijski dejavniki, kot so tehnologija, konkurenca, kupci, velikost podjet¬ ja, kadri idr. Rezultat je organizacijska struktura v obliki organizacijskih enot, iz katerih so razvidne os¬ novne funkcije podjetja. Organizacijske enote se skozi oblikovanje mezoorganizacijske strukture razčlenijo na delovna mesta. Delovno mesto je elementarna or¬ ganizacijska enota, kamor je mogoče razporediti ene¬ ga ali več delavcev. Mikroorganizacijska struktura podrobno opredeli posamezno delovno mesto, določi naloge, ki se izvajajo na delovnem mestu, odgovor¬ nosti in pristojnosti, sredstva in pripomočke, ki so potrebni za delo, delovne razmere idr. Učinkovitost delovanja WFMS je pogojena s stop¬ njo integracije z organizacijskim načrtom. Pri tem uporabimo le mezoorganizacijsko strukturo, kjer so opredeljena delovna mesta in razmerja med njimi. Iz načrta je mogoče relativno enostavno ugotoviti, kdo je dodeljen posameznemu delovnemu mestu in kak¬ šna so razmerja med posamezniki. Pri modeliranju procesa se tako sklicujemo na delovno mesto, nalogo pa WFMS dodeli posamezniku, ki delovno mesto zaseda. Tako ostaja delovni proces ob prerazporedit¬ vah ter prihodih in odhodih posameznikov nespre¬ menjen. Potrebe po njegovi spremembi se pojavijo šele, ko se spremeni organizacijski načrt. Učinkovito delovanje sistema WFMS zahteva torej tesno integracijo s sistemom za upravljanje s človeški¬ mi viri (angl. HRMS - Human Resource Management System), kjer se vzdržujejo podatki o zaposlenih in njihovi umeščenosti v organizacijski načrt. Tovrstna integracija omogoča enostavno dodeljevanje vlog posameznikom v delovnem procesu. 2.4 Modeliranje delounih procesou Delovni proces opišemo kot skupek medsebojno po¬ vezanih poslovnih pravil. Poslovna pravila so usme¬ ritve oz. omejitve človekovega delovanja ter delovan¬ ja proizvodnih in informacijskih sistemov. Njihova vsebina mora jasno izražati poslovne zahteve. Vanje je treba vgraditi znanje, pridobljeno iz lastnih iz¬ kušenj, najboljšo prakso drugih organizacij ter ome¬ jitve, ki izhajajo iz zakonodaje in drugih standardov kakovosti (Endl, Knolmayer, Pharer, 1998). Modeliranje delovnih procesov je torej oblikovanje poslovnih pravil in njihovo povezovanje. Poslovna pravila morajo biti na nivoju WFMS jasno izražena, in sicer v obliki deklarativnih stavkov, ki imajo enotno strukturo. V stavek oz. pravilo je treba vgraditi logične gradnike, ki so lahko dogodki, kontrolni mehanizmi ali naloge. Z dogodkom se opredeli, kdaj se poslovno pravilo izvede, kontrolni mehanizem določi, kaj vse mora biti pred tem preverjeno, naloga pa, kaj vse mora biti narejeno. Skladno s tem lahko poslovna pravila in sam proces zapišemo v obliki notacije ECAA (angl. Event, Condition, Action, Alternative action). Iz slike 4 je razvidno, da je modeliranje delovnih procesov preprosto povezovanje poslovnih pravil. Pravila se povezujejo v delovni proces prek dogod¬ kov, ki se zgodijo, ko je neka naloga uspešno zaključe¬ na, ali kako drugače ustavljena. Delovni proces se vedno izvaja na zahtevo, saj bi v nasprotnem prime¬ ru prišlo do nesmiselne porabe virov. Izvajanje se torej sproži, ko se zgodi ustrezen zunanji dogodek, to je dogodek, na katerega sam proces ne more nepo¬ sredno vplivati. Sprožitev pomeni začetek izvajanja prve naloge. Samo izvajanje je treba dokumentirati, saj se s tem doka¬ zujejo rezultati in učinkovitost izvajanja nalog. Tako nastajajo ali pa se spreminjajo poslovni dokumenti. Ob zaključku naloge se torej pripravi nov dokument ali pa 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 33 Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov Slika 4: Z notacijo ECAA zapisana in v delouni proces povezana poslovna pravila se z novo vrednostjo statusnega atributa popravi ob¬ stoječi. Kreiranje novega dokumenta oz. popravek obstoječega je pravzaprav nov dogodek, ob katerem VVFMS sproži naslednje poslovno pravilo. Njegov kontrolni mehanizem preveri izpolnjevanje pogojev, pri čemer se vedno sklicuje na poprejšnje dokumente. Kontrolni mehanizem tako določi izvajanje nasledn¬ je naloge, in sicer glede na podatke, ki iz omenjenih dokumentov izvirajo. Tako različni statusi dokumenta pomenijo izvajanje naslednje naloge z drugačnimi vhodnimi parametri, v primeru izjem ali napak pa se v nadaljevanju izvede popolnoma druga naloga. Vsa¬ ka naloga se sklicuje na metodo implementiranega poslovnega objekta. Pri tem velja, da morajo biti po¬ datki, ki nastanejo ob dogodku, zadostni za klic us¬ trezne metode. Z vidika VVFMS poznamo: . Avtomatizirane naloge, ki se izvajajo v ozadju. To pomeni, da se ob določenem dogodku izvede klic ustrezne metode poslovnega objekta, ki izvede nalogo brez prekinitev. Izvedba naloge je odvisna le od njene kompleksnosti in količine sistemskih virov, ki so na razpolago. . Interaktivne naloge, ki se izvajajo skozi interakcijo z uporabnikom. Pri tovrstnih nalogah je treba poleg sklica na metodo poslovnega objekta opredeliti tudi izvajalca naloge. Za izvajalca se ponavadi opredeli organizacijsko enoto oz. delovno mesto iz organizacijskega načrta. VVFMS v okviru krmilje¬ nja delovnega procesa iz razporeditev na opredel¬ jeno delovno mesto dodeli nalogo najprimer¬ nejšemu izvajalcu. Tako avtomatizirane kot interaktivne naloge so implementirane v obliki programskih rešitev, ki mora¬ jo biti dovolj fleksibilne, da jih lahko sistem VVFMS uporabi pri izvajanju delovnega procesa. Izkušnje zadnjih let kažejo na uporabo objektnega pristopa k modeliranju programskih rešitev. 2.5 Modeliranje programskih rešitev V vsako poslovno programsko rešitev so vgrajena poslovna pravila, ki opredeljujejo poslovne procese. Zaradi nenehnih sprememb, ki se dogajajo na trgu, je treba poslovna pravila nenehno spreminjati. Zato je treba zagotoviti dovolj fleksibilno arhitekturo pro¬ gramskih rešitev, da je upravljanje s poslovnimi pra¬ vili in procesi enostavnejše. Pravi pristop k razvoju tovrstnih sistemov je koncept objektnega modeliranja in objektnega razvoja informacijskih sistemov. Kon¬ cept temelji na razumevanju in modeliranju realnega sveta v obliki poslovnih objektov. Objekt lahko ra¬ zumemo kot preslikavo oz. poenostavitev entitete iz realnega sveta v model, ki vsebuje njene lastnosti in vedenjske vzorce. Medtem ko posamezna stanja ob¬ jekta opišemo z lastnostmi, se vedenjske vzorce vgra¬ di v objekt v obliki metod in dogodkov. Temeljni ele¬ menti objekta so torej: 34 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov • Lastnosti, ki so tiste bistvene karakteristike, ki označujejo entiteto iz realnega sveta. Vsaka last¬ nost ima svoje ime in vrednost. Njen temeljni na¬ men je, da se na podlagi primerjave vrednosti is¬ toimenskih lastnosti lahko identificira in med seboj razlikuje istovrstne objekte. ■ Metode so storitve, ki jih objekt opravlja. Metoda je v tehničnem smislu funkcija, ki vhodne parametre spremeni v izhodne. Njena vsebina je praviloma skrita, medtem ko mora biti njen vmesnik z vhod¬ nimi in izhodnimi parametri znan. Objekt skozi metode izraža svoje vedenje. Pri tem uporablja vrednosti svojih lastnosti kot vhodne parametre. Skozi izvajanje metod se opredelijo vrednosti izhodnih parametrov, ki so nove vrednosti lastnos¬ ti objekta. V samo vsebino metod so lahko vgraje¬ ni tudi klici metod drugih objektov. Tako lahko objekt skozi izvajanje svojih metod spreminja vrednosti tako svojih kot tudi lastnosti drugih ob¬ jektov. ■ Dogodki so po svoji obliki podobni metodam, raz¬ lika je le v tem, da imajo v svojem vmesniku samo vhodne parametre. Dogodki so vedno vgrajeni v metode. To pomeni, da metoda izvede klic dogod¬ ka, ko se skozi njeno izvajanje ustrezno spremeni vrednost lastnosti obravnavanega ali drugih objek¬ tov. Ob klicu dogodka metoda napolni vrednosti vhodnih parametrov in tako sproži dogodek. Ob¬ jekt se torej skozi dogodke odziva na spremembe lastnosti svojih ali drugih objektov. Skozi modeliranje objektov je treba zagotoviti, da so interni elementi objekta, to so lastnosti, metode in dogodki, med seboj čimbolj povezani. V dobro obliko¬ vanem objektnem modelu je poskrbljeno, da so za klic metode vsi potrebni podatki pripravljeni že v obliki lastnosti objekta. S tem se prepreči klice metod drugih objektov, da se pridobijo ustrezni podatki za klic obravnavane metode. Dober objektni model ima torej za klice metod oblikovane enostavne vmesnike. To pomeni, da je stopnja neodvisnosti med objekti različnega tipa visoka, kar se odraža v enostavni up¬ orabi objektov, ki je nujna za implementacijo WFMS. Pri modeliranju objektnih modelov se je za zelo primernega izkazal jezik UML. Namenjen je vizuali¬ zaciji, modeliranju, gradnji in dokumentiranju infor¬ macijskih sistemov, ki so objektno orientirani. Podpira torej celoten cikel razvoja programske opreme, še po¬ sebej pa poudarja izkušnje in potrebe uporabnika. Je¬ zik je enostaven in splošno uporaben, zato ima veli¬ ko izrazno moč. Ker ima jasno definirano strukturo, ga podpirajo mnoga ČASE orodja. Z uporabo metodo¬ logije UML predstavimo vsak sistem s petimi različ¬ nimi pogledi, ki so različne preslikave organizacije in strukture sistema (Sturm, 1999): • Pogled na uporabniške zahteve (angl. Use čase view), ki ga predstavimo skozi diagrame primerov upo¬ rabe (angl. Use čase diagram), diagrame zapored¬ ja (angl. Sequence diagram) in diagrame sodelo¬ vanja (angl. Collaboration diagram). Z njimi opiše¬ mo obnašanje sistema skozi oči uporabnikov. • Načrtovalski pogled (angl. Design view), ki skozi razredni (angl. Class diagram) in objektni diagram (angl. Object diagram) opiše vse funkcijske zahte¬ ve sistema. ■ Procesni pogled (angl. Process view), s katerim se na podlagi diagramov aktivnosti (angl. Activity dia¬ gram) in diagramov načrtovanja stanj (angl. State- chart diagram) zagotovijo mehanizmi hkratnosti in sinhronizacije delovnih procesov. ■ Pogled na komponente sistema (angl. Component View), ki obravnava razdelitev informacijskega sistema na komponente in datoteke, ki so potrebne za njegovo fizično implementacijo. « Pogled na razvrstitev (angl. Deployment View), s katerim predstavimo zahtevano namestitev strojne opreme, ki je potrebna za optimalno delovanje sistema. ČASE orodja, ki podpirajo metodologijo UML, na podlagi omenjenih diagramov s pomočjo generator¬ jev programske kode oblikujejo objektno orientirane programske rešitve. Take rešitve so, če so pravilno načrtovane, dovolj fleksibilne za modeliranje de¬ lovnih procesov in uporabo s strani sistema WFMS. Vendar je na tem mestu treba poudariti, da je kako¬ vost tovrstnih programskih rešitev izrazito odvisna od kakovosti in podrobnosti modeliranja diagramov. 2.6 Izvajalno okolje WFMS izvaja delovni proces skozi proženje program¬ skih rešitev, in sicer v obliki avtomatskih aktivnosti v ozadju ter skozi dodeljevanje interaktivnih nalog, to je nalog, ki se izvajajo skozi interakcijo z uporabni¬ kom. WFMS torej skrbi za pravilno in pravočasno proženje nalog, njihovo dejansko izvedbo pa podpi¬ rajo programske rešitve, na katere se sklicuje delovni proces, ki ga WFMS izvaja. Skozi izvajalno okolje se spreminjajo obstoječi ter nastajajo novi poslovni do¬ kumenti, ki dokazujejo poslovne dogodke. Izvajalno 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 35 Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov okolje predstavlja torej dejansko sliko izvajanja de¬ lovnega procesa skozi očala uporabnika, ki ustvarja in spreminja poslovne dokumente, ter skrbnika procesa, ki na podlagi podatkov, ki izhajajo iz dokumentov, nenehno išče priložnosti za izboljšanje poslovnih pro¬ cesov. 2.7 Krmilnik delovnega procesa Krmilnik (angl. VVorkFlovv Management Engine) pro¬ ži aktivnosti v izvajalnem okolju in nadzoruje izvaja¬ nje delovnega procesa. Posamezni proizvajalci navad¬ no ponujajo krmilnike delovnega procesa kot del nji¬ hovega izvajalnega okolja. Najdemo jih pod nazivi, kot so ActionWorkflow, CSE, EpisWorkflow, Flow- Mark, Oracle VVorkflovv, Staffware, SAP Workflow idr. 3 Arhitektura sistema za upravljanje medorganizacijskih procesov WFMS lahko uporabimo tudi kot sistem, ki prek up¬ ravljanja poslovnih objektov različnih sistemov ERP usmerja medorganizacijske procese. Če pozna poslov¬ ne objekte enega sistema ERP, gre za upravljanje procesa znotraj organizacije, v nasprotnem primeru pa za upravljanje medorganizacijskih procesov. Pri tem opravlja dve temeljni funkciji, in sicer modeliran¬ je in krmiljenje procesov. Obe funkciji se izvajata na podlagi zbirke načrtov poslovnih objektov ter orga¬ nizacijskih načrtov. Zbirka načrtov poslovnih objektov je pravzaprav metapodatkovna zbirka, ki jo WFMS uporablja tako pri modeliranju kot pri koordinaciji iz¬ vajanja procesov. V zbirki so poleg seznama poslovnih objektov, ki pripadajo sistemu(om) ERP, ki jih WFMS upravlja, tudi informacije o uporabi le-teh, torej nabor lastnosti posameznega objekta, njegovih metod in do¬ godkov vključno z natančnimi načrti njihovih vmesni¬ kov (SAP Library - SAP Business VVorkflovv). Na podlagi organizacijskega načrta se dodeljujejo naloge. Sestavni del organizacijskega načrta je načrt organizacijske strukture in razporeditve posamezni¬ kov na delovna mesta, ki so elementarne organiza¬ cijske enote. Medtem ko se načrt organizacijske struk¬ ture uporablja pri modeliranju procesov, se podatki o razporeditvah na delovna mesta, vključno s komuni¬ kacijskimi podatki, uporabijo za krmiljenje procesov. Slika 5: Upravljanje medorganizacijskih delovnih procesov 36 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov 3.1 Modeliranje delovnih procesov Poslovna pravila in njihove logične komponente pre¬ slikamo v podatkovni model sistema WFMS, ki je lah¬ ko podoben idejnemu načrtu iz slike 6. Tako zagotovi¬ mo zbiranje podatkov o organizacijskem načrtu, po¬ slovnih objektih in procesnih modelih, po katerih se izvajajo delovni procesi. Podatkovni model WFMS je torej sestavljen iz treh logičnih sklopov: organizacijski načrt, načrt poslovnih objektov in načrt poslovnih pravil oz. procesnih modelov. Organizacijski načrt, prek katerega WFMS dodeli naloge njihovim izvajalcem. Z uvedbo entitete »Orga¬ nizacija« se razširi delovanje WFMS na upravljanje medorganizacijskih procesov. Tako je vsaka »Orga¬ nizacijska enota« opredeljena tudi s šifro organizacije, prav tako pa se s pomočjo entitet »Organizacijska struktura« ne gradijo razmerja samo med organiza¬ cijskimi enotami ene organizacije, ampak tudi razmer¬ ja med organizacijami. Tako se pridobi nabor vseh potencialnih izvajalcev nalog v oskrbovalni verigi. WFMS jim dodeli naloge prek kontrolnih mehaniz¬ mov, ki so vgrajeni v poslovnega pravila. Tako sta sko¬ zi entiteto »Kontrolni mehanizem« opredeljena orga¬ nizacijska enota, ki je izvajalec naloge, in sama naloga, ki mora biti izvedena, če so pogoji, na katere se kon¬ trolni mehanizem sklicuje, izpolnjeni. Ker organizacij¬ ska enota kot organizacijski pojem ne more biti nepo¬ sredni izvajalec naloge, je treba organizacijski načrt dopolniti z entitetama »Razporeditve« in »Delavec«. Sko¬ zi entiteto »Razporeditve« so na delovna mesta, ki so ele¬ mentarne organizacijske enote, razporejeni delavci. WFMS torej prek entitet »Razporeditve« in »Delavec« pridobi potrebne komunikacijske podatke, npr. upo¬ rabniško ime ali naslov elektronskega predala, ki jih uporabi, da nalogo dodeli konkretnem izvajalcu. Načrt poslovnih objektov je definiran z več entiteta¬ mi. Temeljna entiteta je »Poslovni objekt«, v kateri se vsak objekt opredeli s šifro organizacije, ki ji pripada, in načinom proženja. Vsak izmed objektov ima v us¬ treznih entitetah opredeljene lastnosti, metode in do¬ godke. Za vsako metodo oz. dogodek se prek entitete »Parameter« določijo parametri vmesnika. Vsakemu načrtu parametra je treba določiti podatkovni tip, smer, torej vhodni ali izhodni parameter, ter obveznost upo¬ rabe, ki je lahko obvezna ali opcijska. Načrt poslovnih pravil predstavlja procesne modele, saj so pravila, ki so med seboj povezana prek dogod¬ kov, temeljni elementi procesnega modela. Poslovno pravilo se torej opredeli s pomočjo entitete »Poslovno pravilo«, kjer se določi sprožilni dogodek in nabor kontrolnih mehanizmov, ki obravnavajo podatke, ki ob dogodku nastanejo. Vsak kontrolni mehanizem vsebuje poleg sklica na nalogo, to je metodo »Poslov¬ nega objekta«, in izvajalca, to je šifra organizacijske enote, tudi sklic na enega ali več pogojev, ki morajo biti izpolnjeni, da se naloga dodeli izvajalcu. Vsak pogoj se sklicuje na vhodni parameter sprožilnega dogodka ter na ciljno vrednost parametra, ki jo je tre¬ ba doseči, da je pogoj izpolnjen. Ciljne vrednosti se opredeli prek entitete »Vrednost pogoja«, in sicer s pomočjo operatorjev v obliki posamezne vrednosti ali pa v obliki intervalnega območja. Če vrednosti vseh vhodnih parametrov dogodka ustrezajo njihovim cil¬ jnim vrednostim, to pomeni, da so izpolnjeni vsi pogoji, se sproži metoda poslovnega objekta, ki je opredeljena na nivoju kontrolnega mehanizma. 3.2 Krmiljenje delovnih procesov Krmiljenje delovnih procesov temelji na procesnih modelih, ki služijo kot načrt, sestavljen iz zaporedja poslovnih pravil. Poslovna pravila so med seboj pove¬ zana prek dogodkov poslovnih objektov, ki jih upo¬ rablja WFMS. Pri tem velja, da se izvajanje vsakega poslovnega pravila zaključi z dogodkom, ki je hkrati sprožilni dogodek, ki določa izvajanje naslednjega pravila. Dogodek kot element poslovnega objekta, ki je del sistema ERP, mora imeti v svojem vmesniku opredeljene parametre, ki vsebujejo bistvene podatke, ki so nastali ob dogodku. Te podatke je treba prenes¬ ti do sistema WFMS, ki se mora primerno odzvati in začeti izvajanje ustreznega pravila ter s tem nadalje¬ vati delovni proces. Zato mora dogodek v svoji imple¬ mentaciji vsebovati sklic na spletno storitev ali kak drug komunikacijski vmesnik, prek katerega se prene¬ sejo podatki do sistema WFMS. WFMS s prejetimi po¬ datki najprej zaključi izvajanje predhodnega pravila, in sicer tako, da zapis o izvajanju predhodnega pravila dopolni z zaključnim dogodkom ter njegovimi pa¬ rametri. Nato v procesnem modelu poišče pravilo, ki ga sproži dani zaključni dogodek, ter ga kot nov zapis vstavi v sistem skupaj s parametri predhodno zaklju¬ čenega dogodka. WFMS na podlagi teh parametrov skozi kontrolni mehanizem novega pravila določi po¬ slovni objekt in metodo, ki jo je treba izvesti. Če je me¬ toda interaktivna, skladno z organizacijskim načrtom določi tudi njenega izvajalca in pridobi njegove komu¬ nikacijske podatke. WFMS nato na podlagi podatkov o načinu klica poslovnega objekta pošlje parametre 2004 -številka 1 - letnik XII UPORABNA NFORMATIKA 37 Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov ustreznemu vmesniku do sistema ERP, npr. spletni storitvi. Spletna storitev uporabi prejete parametre za dejanski klic metode poslovnega objekta ter tako sproži njeno izvajanje. Parameter, ki je pri tem vedno prisoten, je identifikacijska številka pravila (v nadal¬ jevanju: ID pravila), ki se trenutno izvaja v sistemu WFMS. Ko je metoda izvršena, se sproži dogodek, ki ima v svoji implementaciji vsebovan sklic na vmesnik do WFMS, npr. spletno storitev. Metoda tako prek dogodka in spletne storitve posreduje sistemu WFMS ID pravila, ki je v izvajanju, ter ostale podatke, ki so nastali ob proženju dogodka. WFMS na podlagi pre¬ jetega ID zaključi izvajanje pravila in začne izvajanje novega, s tem pa je krog sklenjen. Idejni načrt arhitek¬ ture in delovanja sistema WFMS lahko s pomočjo sli¬ ke 7 opišemo v naslednjih korakih: ? « S S -H-OS I l J Ib Hb -H- T -It- -03 -H- T -It- O 6 -Ib - O 7 A_ X —V Slika 6 : Idejni načrt podatkovnega modela WFMS 38 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov Meta Seliškar doda v sistem ERP, kot posledico ugo¬ tovljene neskladnosti, nov dokument v obliki korek¬ tivnega ukrepa. Ob shranjevanju dokumenta se sproži dogodek »Ukrep_izdan«, ki se prek spletne storitve poveže s sistemom WFMS in mu preda številko izdanega ukrepa »1000713«. Ker WFMS ne prejme ID pravila, ki je v izvajanju, obravnava pre¬ jete podatke kot posledico zunanjega dogodka, ki je od WFMS neodvisen, vendar kljub temu vpliva na izvajanje procesa. To pomeni, da WFMS ne more zaključiti pravila neposredno, vendar ker pozna zaključni dogodek, to je »Ukrep_izdan«, poišče v procesnem modelu pravilo, ki ga dani dogodek zaključi, in ga s prejetimi parametri vpiše v sistem in zaključi. Hkrati WFMS v procesnem modelu poišče pravilo, ki ga dani dogodek sproži. To je pravilo »Obrav¬ navanje ukrepa«, ki ga skupaj s parametri predhod¬ no zaključenega pravila, zapiše v sistem. Pravilo brezpogojno sproži, in sicer v obliki izvajanja inter¬ aktivne naloge oz. metode »Obravnavaj_ukrep«. Ker je izvajalec metode organizacijska enota »Vod¬ ja kakovosti«, WFMS v razporeditvah delavcev poišče konkretnega izvajalca, to je »Martin Krpan«, in njegov elektronski naslov. WFMS iz načrta poslovnega objekta, ki mu obravnavana metoda pripada, poišče način njenega proženja. V našem primeru je to naslov spletne storitve. WFMS torej izvede klic spletne storitve, pri tem pa ji preda parametre, to so poslovni objekt, metoda, ID pravi¬ la (»3456788«), številka ukrepa (»1000713«), šifra delavca in njegov elektronski naslov. Klicana splet¬ na storitev, ki predstavlja komunikacijski podalj¬ šek sistema ERP, s prejetimi parametri izvede de¬ janski klic metode poslovnega objekta v sistemu ERP. Metoda kreira nov dokument »Zahteva za obravnavo ukrepa«, v katerega vgradi št. ukrepa »1000713«, šifro delavca, ki mora ukrep obravna¬ vati in sklic na ID pravila »3456788«, hkrati pa na njegov elektronski naslov pošlje obvestilo o zah¬ tevi po obravnavanju ukrepa. Martin Krpan se na podlagi prejetega obvestila prijavi v sistem ERP, kjer opazi nov dokument, to je zahtevo za obravnavanje ukrepa. Dokument se sklicuje na ukrep št. »1000713«. Iz vsebine ukrepa ugotovi, da je treba nabaviti nekaj novih računal¬ nikov, zato pripravi nov dokument tipa »ZNAB«, to je zahtevnica za nabavo, ki ima zaporedno številko »2000432«. Vanjo vgradi sklic na zahtevo za obravnavanje ukrepa, ki vsebuje ID pravila (»3456788«), Zaradi velike nabavne vrednosti novih računalnikov pridobi dokument status »A«. Ob shranitvi zahtevnice se sproži dogodek »Zah- teva_kreirana«, ki prek omenjenega sklica na zahtevnico pridobi ID pravila (»3456788«), ki ga skupaj s tipom (»ZNAB«), statusom (»A«), številko dokumenta (»2000432«) in nazivom dogodka pošlje spletni storitvi sistema WFMS. • WFMS zaključi pravilo »3456788«, hkrati pa v pro¬ cesnem modelu poišče poslovno pravilo, ki ga dani zaključni dogodek, to je »Zahteva_kreirana«, sproži. V sistem vnese novo pravilo, to je »Obravnavanje zahteve«, skupaj z izhodnimi parametri zaključnega dogodka. Novo pravilo vsebuje kontrolni meha¬ nizem, ki preverja dva pogoja, tip in status zahteve. Ker gre za nabavno zahtevnico, tip »ZNAB« s statu¬ som »A«, je treba za izvajalca naloge opredeliti »Vod¬ jo nabave«. WFMS na podlagi razporeditev delavcev določi konkretnega izvajalca, to je »Janez Novak«, nato pa izvede klic spletne storitve, ki ji preda nasled- nje parametre: ID novega pravila (»3456789«), poslovni objekt (»Zahteva za nabavo«) in metodo (»Obravnavaj zahtevo«), tip (»ZNAB«), številko (»2000432«) in status dokumenta (»A«), številko izva¬ jalca in njegov elektronski naslov. Spletna storitev izvede dejanski klic metode, ki v sistemu ERP v na¬ bavno zahtevnico »2000432« vgradi ID pravila in številko izvajalca kot osebo, ki bo dokument obrav¬ navala. Hkrati pošlje izvajalcu na njegov elektron¬ ski naslov obvestilo o zahtevnici za nabavo. « Janez Novak se prijavi v sistem ERP, kjer opazi zahtevnico za nabavo, ki jo je treba obravnavati. Ker se mu vsebina dokumenta ne zdi sporna, ga odobri, s tem pa se spremeni tudi njegov status (»Odobreno«). Pri tem se sproži dogodek »Odo¬ britev«, ki izvede klic spletne storitve sistema WFMS s parametri: naziv dogodka (»Odobritev«), ID pravila (»3456789«), tip (»ZNAB«), številko (»2000432«) in status dokumenta (»Odobreno«), ■ WFMS zaključi pravilo »3456789« in skladno z zaključnim dogodkom poišče naslednjega, to je »kre¬ iranje nabavnega naloga«. Pravilo je brezpogojno, zato WFMS preda ustrezni spletni storitvi naslednje parametre: ID pravila (»3456790«), naziv poslovne¬ ga objekta (»nabavni nalog«), naziv metode (»nov nalog«), tip (»ZNAB«), številko (»2000432«) in status 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 39 Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov WFMS A A A« poslovni —Q objekti dogodki A A A'?“ poslovni —Q objekti dogodki A A At"" Slika 7: Krmiljenje delovnih procesov s sistemom WFMS 40 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Miroslav Ribič, Andrej Kovačič, Marjan Lončarič: Sistem za upravljanje delovnih procesov dokumenta (»Odobreno«). Spletna storitev z danimi parametri izvede klic metode »nabavni_nalog- nov_nalog«, ki ni interaktivna. Metoda torej avto¬ matično na podlagi podatkov iz odobrene zahtevnice kreira nov dokument, to je nabavni nalog, ki mu do¬ datno vgradi ID pravila (»3456790«), Tako nastane dokument tipa »NABN« s številko »3000972« in sta¬ tusom »OK«. Ob tem se sproži dogodek »Nalog kreiran«. Ta izvede klic spletne storitve sistema WFMS, ki ji preda naslednje parametre: ID pravi¬ la (»3456790«), naziv dogodka (»nalog kreiran«), tip (»NABN«), številko (»3000972«) in status dokumen¬ ta (»OK«). WFMS na podlagi prejetih parametrov zaključi pravilo »3456790«. Skozi WFMS je mogoče obravnavani delovni proces nadaljevati kot avtomatiziran medorganizacijski pro¬ ces, in sicer tako, da WFMS posreduje kreirano na¬ bavno naročilo ustreznemu prodajnemu referentu dobavitelja. 4 Uporabna vrednost sistema za upravljanje delovnih procesov WFMS omogoča tako modeliranje delovnih procesov kot krmiljenje njihovega izvajanja, prav tako pa nudi možnost integracije različnih programskih rešitev, da se zagotovi nemoteno izvajanje delovnih procesov. Uporabiti ga je smotrno tudi za modeliranje in izva¬ janje medorganizacijskih procesov, kjer je nerealno pričakovati tolikšno stopnjo enotnosti, da bi vsi part¬ nerji uporabljali popolnoma centraliziran celovit in¬ formacijski sistem oskrbovalne verige. Zato je smisel¬ no uporabiti WFMS kot sistem, ki prek skupne upora¬ be poslovnih objektov avtomatizira ali vsaj pospeši izvajanje medorganizacijskih procesov. Uporabna vrednost sistema WFMS je torej velika, če je le arhitektura obstoječih sistemov dovolj fleksibil¬ na. V idealnih okoliščinah predstavlja WFMS jedro vsake celovite pošlovno-informacijske rešitve, v praksi pa so njegove prednosti le redko v celoti izkoriščene. Organizacija, ki vpelje tovrsten sistem, redko izkoristi vse njegove funkcionalnosti. Tako mnoge poslovne procese še vedno podpirajo stari, neprilagodljivi infor¬ macijski sistemi, ki niso povezani z WFMS. 5 Uiri in literatura [1] ASSAF, Arkin: Business Process Modeling Language - BPMI Proposed Recommendation 2003, (URL: http:// www.bmpi.org), 7. 11. 2003. [2] ENDL, Rainer, KNOLMAYER, Gerhard, PHARER, Marcel: Modeling Processes and Workflows by Business Rules. Bern: University of Bern, 1998. 10 str. [3] H0LL1NGSVV0RTH, David: The Workflow Reference Model. Hampshire: WFMC, 1995. 55 str. (URL: http:// www.wfmc.org), 5.11. 2003. [4] KELLER Gerhard, TEUFEL Thomas: SAP R/3 Process- Oriented Implementation. Harlow: Addison-Wesley Longman Limited, 2000. 845 str. [5] KOVAČIČ, Andrej: Informatizacija poslovanja. Ljubljana: Ekonomska fakulteta, 1998. 214 str. [6] LIPOVEC, Filip: Razvita teorija organizacije. Maribor: Založba Obzorja, 1987. [7] ROZMAN, Rudi, KOVAČ, Jure, KOLETNIK, Franc: Management. Ljubljana: Gospodarski vestnik, 1993. 310 str. [8] SAP Library - SAP Business Workflow. VValldorf: SAP AG. [9] STURM Jake: VB6 UML Design and Development. Wrox Press Ltd, 1999. Mag. Miroslav Ribič je po končani Srednji šoli za računalništvo nadaljeval izobraževanje na Ekonomski fakulteti v Ljubljani, kjer se je usmeril v študij informatike. Med študijem se je ukvarjal tudi z izgradnjo informacijskih sistemov, ki podpirajo upravljanje s človeškimi viri, aktivno pa je sodeloval pri informatizaciji skladov dela. Dodiplomski študij je sklenil z delom Informacijski sistem spremljanja in usmerjanja presežnih delavcev v RS. Kot imetnik Microsoftovih licenc MCP in MCSD se aktivno ukvarja s preučevanjem internetnih tehnologij. S tega področja je tudi uspešno zagovarjal magistrsko delo Implementacija elektronskega poslovanja med podjetji. Trenutno je zaposlen v podjetju IDS Scheer, kjer sodeluje pri uvajanju rešitev podjetja SAP. ■ Mag. Marjan Lončarič je diplomiral leta 1981 na Visoki šoli za organizacijo dela v Kranju. Naziv magistra znanosti je obranil na Fakulteti za organizacijske vede v Kranju leta 1991 z nalogo Dinamični model spremljanja in usmerjanja razvoja kadrov s posebnim ozirom na presežke zaposlenih v lesni industriji. Na FOVje bil v obdobju od 1985 do 1990 tudi redno zaposlen kot samostojni svetovalec in predstojnik konzultantskega centra, kar ga je v nadaljevanju vodilo v ustanovitev lastnega razvojnega, raziskovalnega in svetovalnega podjetja. Med drugim je kot ekspertni svetovalec vladne projektne skupine snoval in udejanjal projekt Skladi dela v Republiki Sloveniji. Sedanje glavno področje njegovega dela je razvoj in upravljanje z organizacijskimi in informacijski sistemi, še zlasti na področju upravljanja s človeškimi viri. ■ Dr. Andrej Kovačič je v zadnjih desetih letih delal kot projektant, razvijalec in svetovalec pri projektih strateške prenove in informatizacije poslovanja. Je izredni profesor s področja poslovne informatike na Ekonomski fakulteti in Fakulteti za upravo ter predstojnik Inštituta za poslovno informatiko pri EF v Ljubljani. Več let je bil predsednik programskega odbora Dnevov slovenske informatike v Portorožu, je član izvršnega odbora Slovenskega društva INFORMATIKA, odgovorni urednik revije Uporabna informatika, svetovalec in veščak s področja vodenja in upravljanja podjetij (PHARE, Zveza ekonomistov) in pooblaščeni revizor informacijskih sistemov. 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 41 RAZPRAVE B Natančnost uvrščanja slovenskih besedil Marko Holbl, Petra Grm, Boštjan Brumen, Tatjana VVelzer, Izidor Golob Fakulteta za elektrotehniko, računalništvo in informatiko, Univerza v Mariboru, Smetanova 17, 2000 Maribor {marko.holbl, petra.grm, brumen, vvelzer, izidor.golob}®uni-mb.si Izvleček V članku predstavljamo meritve natančnosti strojnega uvrščanja slovenskih besedil. Sorodne raziskave na tem področju so bile izvedene predvsem na angleško govorečem področju in na angleških besedilih, prav tako jih je bilo moč zaslediti tudi na ostalih govornih področjih, na primer na nemškem in kitajskem. Na slovenskem govornem področju pa podobnih raziskav ni bilo možno zaslediti. Namen raziskave je ugotavljanje učinkovitosti tujih orodij pri uvrščanju slovenskih besedil, V ta namen smo izbrali IBM-ovo orodje za uvrščanje besedil, imenovano "IBM Intelligent Miner for Text“ [7], Raziskava je potekala v 3 fazah. Najprej smo zbrali množico 270 slovenskih besedil iz dnevnega časopisja in jih razvrstili v 3 kategorije: politika, gospodarstvo in šport. Množico smo razdelili na učni del na testni del. Nato je sledila izgradnja uvrščevalnega modela s pomočjo učne množice. V tretji fazi smo testirali natančnost izgrajenega modela na podlagi testnega dela. Rezultati uvrščanja slovenskih besedil so se izkazali za presenetljivo dobre (natančnost nad 87 %), kljub temu, da smo uporabili orodje, ki ni namenjeno slovenskem govornem območju. Abstract Accuracy of Categorization of a Slovane Text The article presents the topič of automatic text categorization of a Slovene text. Related articles mostly deal with the categorization of an English text; some address other languages like German or Chinese as well. A study of Slovene text categorization has not been carried out yet. We used a tool called "IBM Intelligent Miner for Text" [7] for this task. The research was conducted in three phases. In the first phase we collected 270 articles from daily nevvspapers and divided them into three categories: economics, politics and sports. We split the articles into a learning-group and a test-group. We created a categorization model in the second phase on the basis of the learning-group. Then in the third phase we tested the categorization model on the test-group. In spite of the fact that we used a foreign tool, vvhich is not designed for the Slovene language environment, the accuracy of the tool was very good (average 87 %). 1 UVOD Z razvojem sodobne informacijske družbe in s tem poveza¬ nim ogromnim naborom javno dostopnega pisnega gradiva v elektronski obliki se poraja potreba po samodejnem uvrščanju besedil po kategorijah. To omogoča hitrejše iskanje želenih informacij in hkrati prinaša večjo preglednost nad podatki. Prav zato je raziskovanje področja samodejnega uvrščanja besedil danes zelo aktualno. Zato smo naredili raziskavo natančnosti uvrščanja slovenskih besedil. Ker pa slovenskega orodja ni na voljo, smo nalogo opravili s tujim. Izbrali smo IBM- ovo orodje za uvrščanje besedil "IBM Intelligent Miner for Text" [7]. Orodje nam omogoča uvrščanje besedil v kategorije s pomočjo poprejšnjega nadzorovanega učenja. Članek je razdeljen na šest razdelkov. V razdelku 2 so navedene sorodne raziskave s tega področja, ki pa jih tudi v angleškem prostoru ni prav veliko. Razdelek 3 obravnava opis problema in metodologi¬ jo; 4. razdelek govori o postopku izvedbe uvrščanja besedil v kategorije. V razdelku 5 so podani dobljeni rezultati in obrazložitve le-teh; zadnji, 6. razdelek je zaključek. 2 SORODNE RAZISKAVE Prve javno objavljene raziskave s področja avtomat¬ skega uvrščanja besedil segajo v leto 1990. V tem času se je namreč povečala potreba po samodejnem uvr¬ ščanju tekstov. Največ raziskav s tega področja temelji, kot priča¬ kovano, na angleških besedilih. Zasledili smo tudi raziskave z nemško govorečega področja, medtem ko je uvrščanje besedil v drugih jezikih manj raziskano. 42 UPORABNA NFORMATIKA 2004 - številka 1 - letnik XII Marko Holbl, Petra Grm, Boštjan Brumen, Tatjana VVelzer, Izidor Golob: Natančnost uvrščanja slovenskih besedil Tiskovna agencija Reuters je eno prvih podjetij, ki se je začelo aktivno ukvarjati s tem problemom. Že leta 1990 je uporabljalo ekspertni sistem Construe [2] za avtomatsko uvrščanje besedil in z njim doseglo kar dobre rezultate. Učenje (izgradnja modela) je poteka¬ lo s pomočjo ročno vnesenih pravil, ki so jih pripravili domenski eksperti v podjetju. Razporejanje v katego¬ rije je temeljilo na algoritmu k-tega najbližjega soseda (angl. k-Nearest Neighbor - kNN) [3]. Njihov sistem je na množici 750 testnih primerkov dosegel 90 % na¬ tančnost [2]. Prav tako smo zasledili članke, ki opisujejo primer¬ javo različnih algoritmov samodejnega uvrščanja tek¬ stov. Članek [6] navaja različne algoritme oz. po¬ stopke, ki temeljijo na linearni algebri, teoriji verjet¬ nosti in ostalih postopkih. Najbolj uporabljani med njimi so: > Sistem k-tega najbližjega soseda (angl. k-Nearest Neighbor - kNN) • Podporni vektorski stroji (angl. Support Vector Machines - SVM) • Linearna aproksimacija s pomočjo najmanjših kvadratov (angl. Linear Least Squares Fit - LLSF) • Nevronske mreže (angl. Neural Netvvork - NNet) • Metoda naivnega Bayesa (angl. Naive Bayes - NB) Tudi ta članek obravnava samo primerjavo natan¬ čnosti posameznih algoritmov na angleških besedilih. V članku [1] je bila izvedena raziskava na angleš¬ kih in nemških besedilih. Tudi na nemških besedilih se je sistem Construe izkazal kot zelo perspektiven, čeprav je bila njegova uspešnost manjša kot pri uvr¬ ščanju angleških tekstov. To smo pričakovali, saj gre za angleško orodje. Sistem je uporabljal slovar, ki ga je zgradil v fazi učenja, hkrati s pravili, ki so jih določili uporabniki. Pri tej raziskavi je bila izvedena tudi pri¬ merjava ekspertnega sistema s samoučečim se postop¬ kom, temelječim na odločitvenih drevesih in sistemu z Bayesovo verjetnostjo. Tudi tu se je za najučinkovi¬ tejšega izkazal Construe sistem. Najbližje naši raziskavi je članek [4], kjer je skupi¬ na kitajskih raziskovalcev preučevala natančnost uvr¬ ščanja kitajskih besedil. Za uvrščanje so uporabljali naslednje metode: • Sistem k-tega najbližjega soseda (angl. k - Nearest Neighbor - kNN) . Podporni vektorski stroji (angl. Support Vector Ma¬ chines - SVM) • Adaptivna resonančna asociativna mreža (angl. Adaptive Resonance Associative Map - ARAM) Postopki so se izkazali pri predpostavki, da je bila učna množica dovolj velika, kot relativno dobri, ven¬ dar avtorji ne navajajo konkretnega podatka o dose¬ ženi natančnosti. 3 OPIS PROBLEMA IN METODOLOGIJA Samodejno uvrščanje se s pridom uporablja pri inter¬ netnih iskalnikih, za urejanje elektronske pošte in uvrščanje raznih člankov [8]. Cilj naše raziskave je bil ugotoviti natančnost uvr¬ ščanja slovenskih časopisnih člankov s pomočjo tuje¬ ga orodja. Na začetku raziskave smo bili skeptični glede natančnosti uvrščanja slovenskih besedil, saj smo uporabljali ameriško programsko orodje [7], ki ni na¬ menjeno slovenskemu govornemu področju. Za to orodje smo se odločili zaradi treh poglavitnih razlogov. Prvi razlog je bil ta, da slovenskega orodja za uvrščanje slovenskih besedil ni. Drugi pomemben razlog je dejstvo, da je orodje brezplačno za akadem¬ ske ustanove. Tretji razlog: za že izdelano programsko orodje smo se odločili tudi zato, ker večina vsakdanjih uporabnikov ni dobro podkovana v poznavanju raz¬ ličnih algoritmov uvrščanja, ampak želijo le usluge programa. Zato smo nalogo uvrščanja opravili tako, da smo v orodje vnesli vhodne podatke in opazovali izhodne podatke. Princip, ki je znan kot princip črne škatle, je bil v našem vidiku zelo primeren, saj smo lahko z njim ugotovili dejansko učinkovitost oz. na¬ tančnost orodja, ki ga lahko uporablja tudi o podrob¬ nostih nepoučeni uporabnik. V naslednjem poglavju opisujemo izvedbo eks¬ perimenta. 4 OPIS POSTOPKA 4.1 Pripraua Najprej smo se lotili iskanja primernih besedil za uvrščanje. Odločili smo se, da bomo za raziskavo upo¬ rabili članke iz dnevnega časopisja. Članke smo črpali iz internetnih strani časopisnih hiš in letne zgoščen¬ ke časopisa Večer [15], saj so le-ti laže dosegljivi. Izbrali smo internetne strani časopisov Delo [10], Večer [11], Dnevnik [12], Morel [14] in Primorski dnevnik [13]. Poiskali smo 270 člankov, ki smo jih razvrstili v tri kate¬ gorije. To so bili politika, gospodarstvo in šport. Skup¬ na dolžina vseh člankov je znašala 1.027,3 kilobajtov, povprečna dolžina pa 3,8. Skupno je bilo v člankih 161.400, v povprečju pa 597,8 besed. V kategoriji šport 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 43 Marko Holbl, Petra Grm, Boštjan Brumen, Tatjana Welzer, Izidor Golob: Natančnost uvrščanja slovenskih besedil so bili v povprečju članki dolgi 474,0 besed oz. 2,9 ki¬ lobajtov, v kategoriji politika 796,3 besed oz. 5,1 kilo¬ bajtov in v kategoriji gospodarstvo 523,2 besed oz. 3,4 kilobajtov. Iz navedenega je razvidno, da so bili članki precej kratki (tabela 1). Tabela 2: Standardni odklon Za prvi dve kategoriji smo se odločili iz pred¬ postavke, da je razpoznavanje tako podobnih po¬ dročij, kot sta gospodarstvo in politika, še posebno zahtevno. Na drugi strani se je kategorija šport pov¬ sem razlikovala od prvih dveh omenjenih. Članki in pripadajoče kategorije so na voljo na in¬ ternetni strani http://lpt.uni-mb.si/public/ev/raz-slo- besedil.htm Članke smo razvrstili v dve množici [9]: • 2/3 člankov vsake kategorije je predstavljalo učno množico, na kateri se je orodje učilo, • 1/3 člankov je predstavljalo testno množico član¬ kov, ki smo jih razvrstili in z njimi preverili na¬ tančnost naučenega modela. Razporejanje posameznih člankov v ti dve množici je bilo naključno. Zaradi zahtev IBM-ovega orodja smo vse članke spremenili v tekstovne datoteke. Pri tem je bilo treba ustvariti še datoteko, ki je vsebovala seznam vseh člankov za posamezno kategorijo učne in testne množice. S tem smo zaključili pripravo vhodnih podatkov. 4.2 Izvedba meritve natančnosti Meritve natančnosti uvrščanja besedil so bile iz¬ vedene v dveh korakih: 1. učenje na učni množici (izgradnja modela), 2. testiranje oz. uvrščanje besedil na testni množici. S kazalčnimi datotekami učne množice smo izvedli učenje. Po opravljenem učenju na vseh treh učnih množicah - za vsako kategorijo ena učna množica - smo dobili kategorično shemo. Ta shema je dejansko slovar, ki hrani pomembne besedne statistike za vsa¬ ko kategorijo. Te statistike so bile potem uporabljene za uvrščanje testnih primerov. Podrobnosti principov delovanja algoritma, na katerem temelji učenje oz. izgradnja sheme, zaradi komercialne narave orodja ni poznana. Omenjeni postopek prikazuje naslednja shema (slika 1): Slika 1 : Prikaz postopka učenja in uvrščanja Po opravljenem učenju je sledila druga faza - testi¬ ranje oz. uvrščanje testne množice besedil. Podana je bila kazalčna datoteka za testne primer¬ ke posamezne kategorije. Na podlagi kategorične she¬ me je orodje uvrstilo vse testne datoteke. Rezultat tega procesa je bila izhodna datoteka; primer takšne da¬ toteke je prikazan na sliki 2. Vsebuje posamezni test¬ ni članek, za katerega so navedene točke ujemanja z določeno kategorijo. Članek pripada tisti kategoriji, pri kateri je dosegel največ točk. 44 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Marko Holbl, Petra Grm, Boštjan Brumen, Tatjana VVetzer, Izidor Golob: Natančnost uvrščanja slovenskih besedil Slika 2: Primer izhodne datoteke 5 REZULTATI Iz tabele 3 je razvidno, da je testna množica za vsako kategorijo vsebovala 30 člankov. Iz kategorije gospo¬ darstvo je orodje pravilno razvrstilo 29 člankov, ene¬ ga pa je napačno razvrstilo v razred politika. Tabela 3: Razvrstitev člankov v kategorije Pri politiki je bila natančnost uvrščanja nižja, saj je bilo le 22 od 30 člankov pravilno uvrščenih. V drugi dve kategoriji, gospodarstvo in šport, je bilo uvrščenih skup¬ no osem člankov s področja politike, in sicer sedem v kategorijo gospodarstvo ter eden v kategorijo šport. Članki s športno tematiko so bili uvrščeni bolje kot politični članki. Od 30 testnih primerkov je bilo pravil¬ no umeščenih 28, dva pa sta bila uvrščena kot gospo¬ darstvo. Največje težave pri uvrščanju so se pojavile pri politiki, saj se politika meša z gospodarstvom, kot na primer v članku številka g47-d.txt [16]. Problem izvira iz dejstva, da je politika tematika, ki je v dnevnem časopisju nastopala na različnih po¬ dročjih, med drugim tudi pri gospodarstvu. Veliko¬ krat sta se gospodarstvo in politika prepletala. Kljub težavnemu ločevanju med tema dvema kategorijama se je orodje izkazalo kot uspešno - 73, 3 %. Osnova razpoznavanja je bila kategorična shema, ki temelji na že prej omenjenih besednih statistikah za vsako posamezno kategorijo. Problem se je pojavil, ker so lahko članki različnih kategorij vsebovali enake besede oz. besedne zveze. Tem bolj je bila tematika kategorij različna, tem manjša je bila verjetnost, da nastopajo v člankih različnih kategorij iste besede. V nadaljevanju podajamo tabelo (tabela 4) in graf natančnosti (slika 4) v odstotkih za posamezno kate¬ gorijo. Tabela 4: Natančnost uvrščanja Kot je razvidno iz grafa (slika 4), je natančnost uvrščanja dobra, v povprečju 87,8 %. Tako je bilo orodje uspešno v vseh kategorijah, ki so služile kot testne in učne množice za uvrščanje. Kategorije I I šport PT politika m gospodarstvo Slika 3: Učinkovitost uvrščanja po temah 100 80 S m 60 o c >o ra 40 ra z 20 gospodarstvo politika šport Kategorije I I odstotek natančnosti (%) Slika 4: Natančnosti uvrščanja 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 45 Marko Holbl, Petra Grm, Boštjan Brumen, Tatjana VVelzer, Izidor Golob: Natančnost uvrščanja slovenskih besedil G SKLEP Namen raziskave je bil ugotoviti natančnost uvrščanja slovenskih besedil. Takšna raziskava še ni bila izvede¬ na na slovenskem govornem področju. Raziskovali smo s pomočjo ameriškega orodja, saj v Sloveniji tre¬ nutno ni na voljo ustrezne programske opreme. Kljub temu, da smo razpoznavanje izvedli s pomočjo tuje¬ ga orodja, ki ne podpira slovenskega jezika, smo prišli do spoznanja, da lahko natančno uvrščamo slovens¬ ka besedila s pomočjo omenjenega orodja. Dano orodje uspešno ločuje besedila, ki so si po tematiki podobna. Če bi želeli uvrščati tekste, ki bi se po tem¬ atiki zelo razlikovali, bi dobili uspešnost nad 90 %, ki je primerljiva z natančnostjo uvrščanja angleških be¬ sedil [1], [2]. Že sedanja natančnost uvrščanja je boljša kot natančnost, ki jo je dobil Reuters [2]. Vendar omenjeno ne izključuje možnosti razvoja sorodnega slovenskega orodja. V naši raziskavi smo ugotovili, da je v primeru zahteve po večji natančnosti, potrebno razviti poseb¬ no orodje. V nadaljnjih raziskavah bomo proučili uspešnost orodja z večjim številom kategorij. Prav tako bomo za boljšo oceno natančnosti uvrščanja uporabili metodo navzkrižne validacije. 7 LITERATURA [1] C. Apte, F. Damerau, S. M. VVeiss, Tovvards Language Independent Automated Learning of Text Categorization Models, In Proceedings of the ACM SIGIR Conference, 1994. [2] R J. Hayes, R M. Andersen, I. B. Nirenburg, and L. M. Schmandt. TCS: A Shell for Content-Based Text Categorization. In Proceedings of the Sixth IEEE CAIA, p. 320-326, 1990. [3] T. Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, In Proceedings of the European Conference on Machine Learning, Springer, 1998. [4] Ji He, Ah-Hwee Tan, Chew-lim Tan, A Comparative Study on Chinese Text Categorization Methods, PRICAI VVorkshop on Text and Web Mining, 2000 . [5] Ah-Hwee Tan, Fon-Lin Lai, Text Categorization, Supervised Learning, and Domain Knowledge Integration, In proceedings, KDD’2000 International VVorkshop on Text Mining, Boston, pp. 113- 114, August 2000. [6] Yiming Yang, Xin Liu, A re-examination of text categorization methods, Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99, p. 42- 49), 1999. [7] IBM Intelligent Miner for Text Version 2 Release 3 Text Analysis Tools, Documentation on CD, Third edition, December 1998. [8] IBM Intelligent Miner for Text Version 2 Release 3, http:// www-3.ibm.com/software/data/iminer/fortexV, zadnji obisk 15. 3. 2003. [9] R R. Cohen, Empirical Methods for Artificial Intelligence, The MIT Press, Cambridge, USA, 1995. [10] Delo, 2002, http://www.delo.si, zadnji obisk 15. 3. 2003. [11] Večer, 2002, http://www.vecer.com, zadnji obisk 15. 3. 2003. [12] Dnevnik, 2002, http://www.dnevnik.si, zadnji obisk 15. 3. 2003. [13] Primorski dnevnik, 2002, http://www.primorski.it, zadnji obiskl5. 3. 2003. [14] Elektronski časopis Morel, 2002, http://www.morel.si/, zadnji obisk 15. 3. 2003. [15] CD Večer, ČZP Večer, 2001. [16] Naslov strani s testno in učno množico člankov, http:// Ipt.uni-mb.si/projekti/rsb2002/index.html. Marko Holbl in Petra Grm sta študenta četrtega letnika dodiplomskega študija računalništva in informatike na Fakulteti za elektrotehniko, računalništvo in informatiko Univerze v Mariboru. Zanimata se za inteligentno obdelavo podatkov z metodami strojnega učenja. ■ Boštjan Brumen je doktorski študent na Fakulteti za elektrotehniko, računalništvo in informatiko Univerze v Mariboru, kjer je zaposlen kot asistent za področje informatike. Na raziskovalnem področju se ukvarja s podatkovnimi bazami in podatkovnim rudarjenjem. ■ Tatjana VVelzer je izredna profesorica na Fakulteti za elektrotehniko, računalništvo in informatiko Univerze v Mariboru, kjer predava na dodiplomski in podiplomski stopnji in vodi Laboratorij za podatkovne tehnologije. Na raziskovalnem področju se ukvarja predvsem s podatkovnimi bazami, kakovostjo podatkov in podatkovnim modeliranjem. ■ Izidor Golob je doktorski študent na Fakulteti za elektrotehniko, računalništvo in informatiko Univerze v Mariboru, kjer je tudi zaposlen kot asistent za področje informatike. Na raziskovalnem področju se ukvarja s podatkovnimi bazami, kakovostjo informacij in podatkovnimi skladišči. 46 uporabna INFORMATIKA 2004 - številka 1 - letnik XII POROČILA S Uporaba desetiških Sl predpon in predpon u informatiki Ladislav Mikola Fakulteta za elektrotehniko, računalništvo in informatiko Univerza v Mariboru, Smetanova 17, 2000 Maribor ladislav. mikola @uni-mb. si Povzetek Kljub temu, da je začetek uporabe desetiških predpon k merskim enotam mogoče zaslediti že pred več kot dvesto leti, je v tehniškem komuniciranju, pa tudi tehniških aktih, slovarjih in celo pravopisu mogoče opaziti nedoslednosti in celo napake. V tem članku želimo navesti nekatere najpogostejše, prav tako pa opozoriti na uporabo predpon v informatiki. To področje je že nekaj let urejeno z ustreznim standardom. Abstract The Use of Decimal Sl Prefixes and Prefixes in Information Science Although the practice of adding decimal prefixes to units was introduced some 200 years ago, we can stili find errors and inconsistent usage in engineering communication, technical documents, dictionaries and even in ortography. In this paper we present the most vvidespread examples of incorrect usage and highlight the proper use of prefixes in information Science. This field is regulated by a standard that has come into force a few years ago. Uporaba desetiških Sl predpon Pri podajanju numeričnih vrednosti fizikalnih veličin, npr. rezultatov meritev, bi pogosto morali zapisati zelo majhne ali zelo velike številke, če bi želeli dodati enoto te veličine (npr. V, A, W, F idr.). V takšnih pri¬ merih je praktično in skladno s priporočilom standar¬ da SIST ISO 1000 (3) (slovenski standard, prevzet od International Organization for Standardization), nu¬ merično vrednost zapisati med 0,1 in 1000 in ji dodati desetiško mersko enoto. Ta je sestavljena iz desetiške predpone in imena enote. Predpona predstavlja dolo¬ čen faktor, npr. mega, oznaka M, predstavlja faktor 106. Tako se število številk, to je dolžina numeričnega zapisa, skrajša in ta postane bistveno preglednejši. Predpone mednarodnega sistema merskih enot SI (angl. International System of Units), so mednarod¬ no dogovorjene, navedene pa so v različnih aktih. V Ladislav Mikola: Uporaba desetiških Sl predpon in predpon v informatiki Republiki Sloveniji jih predpisuje odredba o merskih enotah (4). Navajamo jih v tabeli 1, kjer smo sloven¬ skemu dodali tudi angleško ime. Simboli so enaki ne glede na državo ali področje, kjer se uporabljajo. Najpomembnejša pravila za uporabo desetiških Sl predpon . Zapis predpon in enot mora biti pokončen, med¬ tem ko je simbol za veličino pisan poševno. Tako npr. za induktivnost vrednosti 3,2 henrija zapi¬ šemo L = 3,2 H. Pogosto je enota, pa tudi desetiška merska enota, napačno poševno zapisana. ■ Med številčnim zapisom rezultata in enoto je pre¬ sledek. . Med decimalno predpono in simbolom za enoto ni presledka. « Uporabiti smemo le eno predpono. Ne npr. mmF, ampak mF. • Ne smemo zamenjevati pojmov faktorja (npr. 1012) in desetiške predpone (npr. piko, p). ■ Paziti je treba, da pravilno uporabljamo velike in male črke in da ne pride do zamenjav, ki bi pome¬ nile bistveno drugačno vrednost (npr. zamenjava m in M pomeni razliko za faktor 109). Manj prob¬ lematično je, vendar pa nedopustno, zapisati Kg namesto kg. Ta napaka ni redka. ■ Včasih, sicer ne več tako pogosto, zasledimo ozna¬ ko dkg za dekagram. Pomensko je to zapis z dve¬ ma predponama. Pravilno je seveda dag. Iz SIST ISO 1000 povzemamo nekaj primerov neus¬ treznega in ustreznega zapisa. Pri praktični uporabi desetiških predpon je treba upoštevati nekaj pravil, ki izhajajo iz tradicije: npr. pri enoti °C predpon nismo uporabljali, čeprav se že pov¬ sem legalno pojavlja desetiška enota m°C, pri enoti K je uporaba enote mK povsem primerna, neobičajna pa kK. Podobno je npr. pri sekundi, kjer uporabljamo ms, ne pa ks. Vendar so v tem primeru na razpolago večje enote npr. minuta (min), ura (h), ki sicer nista enoti SI. Lahko pa se seveda uporabljata brez omejitev. Uporaba predpon v informatiki V informatiki sta se ustalili informacijski enoti bit (sim¬ bol bit, iz angleških besed binary digit) in bajt (simbol B, iz angleške besede byte). Z rastjo zmogljivosti raču¬ nalniških sistemov se je pojavila potreba, da se infor¬ macijska vsebina izrazi z večjimi enotami, kot kakor sta bit in bajt. Glede na dolgoletno uporabo desetiških SI predpon so začeli uporabljati te, kar pa pripelje do nedoslednosti ali dvopomenskosti. Najbolj očiten je primer uporabe predpone kilo, oznaka k in v informa¬ tiki včasih tudi K, ki pomeni faktor 1000 (npr. kilome¬ ter, km, 1 km = 1000 m), vendar pa tudi 1024 (npr. kilobajt, KB, 1 KB = 1024 B). Tak pristop se je razširil tudi na predponi mega (M) in giga (G). S tem je negi- rano temeljno izhodišče standardiziranja na področju merskih enot, po katerem naj ima vsaka enota le eno vrednost, eno ime in en znak. Tehnični komite TC 25 (angl. Technical Commi- tee), pri mednarodni elektrotehniški komisiji IEC (angl. International Electrotechnical Commission), je z močno podporo mednarodnega odbora za uteži in mere CIPM (fr. Comite International des Poids et Mesures) in ameriške inženirske strokovne organiza¬ cije IEEE (angl. Institute of Electrical and Electronics Engineers), dopolnil standard IEC 60027 (6) in v nje¬ govem drugem delu, poglavju 13: Data processing and data transmission, tabelarično navedel oz. določil veličine, imena, simbole in enote v informatiki. Neka¬ tere od njih navajamo v tabeli 2. Tabela 2: Nekatere veličine in enote v informatiki V poglavju 14 istega standarda [6](6) je navedena tabela s predponami, uporabljanimi v informatiki. Pri njihovi tvorbi se je komisija zgledovala po desetiških SI predponah in je izhajala iz tega, da je 210 zelo bli¬ zu 1000. Lestvico predpon je začela z besedo kilobi- nary, kar pomeni (210)1 in jo poimenovala kibi ter 48 uporabna INFORMATIKA 2004 - številka 1 - letnik XII Ladislav Mikola: Uporaba desetiških Sl predpon in predpon v informatiki Tabela 3: Predpone za binarne mnogokratnike označila s simbolom Ki. Prvi zlog pomensko kaže na zvezo z SI predponami, drugi pa, da gre za binarno tvorbo. Standardizirane predpone, teh je šest, navaja¬ mo v tabeli 3, take kot so v originalu standarda [6] (6). Poudarjamo, da te predpone niso v SI. V tabeli 4 navajamo nekaj primerov predpon za binarne mnogokratnike in primerjavo z doslej upo¬ rabljanimi desetiškimi SI predponami. Tabela 4: Primeri predpon za binarne mnogokratnike in primerjava s Sl predponami Obveznost uporabe predpon Standard IEC 60027 še ni razglašen za slovenski stan¬ dard (SIST), vendar pričakujemo, da se bo to zgodilo v bližnji bodočnosti. Glede na načelo sodobne stan¬ dardizacije, da upoštevanje določil standardov ni ob¬ vezno, dokler z določenim postopkom ali aktom to ne postane, v Republiki Sloveniji predpon standarda IEC 60027 še ni obvezno uporabljati. Gotovo pa se bo to uredilo ob spremembi odredbe o merskih enotah ali pa s katerim drugim meroslovnim predpisom. Primer¬ no pa bi bilo, da se standard začne uporabljati čimprej povsod, predvsem v šolstvu. Sklep V članku smo želeli opozoriti predvsem na stanje in uporabo predpon. Nismo se spuščali v jezikovne dileme, ki so na področju poimenovanja merskih enot in predpon še vedno nerešene, kar je vidno tudi iz primerov. Gre namreč za jezikoslovno opredelitev (7), da imena enot in predpon zapisujemo tako, kot jih izgovarjamo. Kljub temu smo opazili, da v praksi, predvsem med tehnično inteligenco, vladajo tudi drugačna mnenja. Literatura [1] The International System of Units (Sl), Bureau International! des Poids et Measures, 7th edition 1998, Sevres. [2] Brezinščak, M.: Tvorba decimalnih i binarnih mjernih jedinica, Mjeriteljski vjesnik, 18, št. 1-2, september 2000. [3] SIST ISO 1000: Sl units and recommendation for the use of their multiples and of certain other units, third edition 1992. [4] Odredba o merskih enotah, Uradni list RS, št. 26, april 2001 . [5] Thor, A. J.: Prefixes for binary multiples, Metrologia 37, št. 1, 2000. [6] IEC 60027- 2: Letter symbols to be used in electrical technology, Part2: Telecommunications and electronics, 2000 . [7.] Slovenski pravopis, SAZU in ZRC SAZU Ljubljana, 2001. [8] Računalniški slovarček, 3. razširjena izdaja, Cankarjeva založba, Ljubljana, 1993. [9] Pahor, D., Drobnič, M.: Leksikon računalništva in informatike, Pasadena, Ljubljana, 2002. Mag. Ladislav Mikola je višji predavatelj na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru, kjer na visokošolskem strokovnem programu predava na predmetnem področju električnih meritev ter tehničnih In pravnih normativov. Njegovo raziskovalno delo je usmerjeno predvsem v meroslovje. 2004 - številka 1 - letnik XII UPORABNA INFORMATIKA 49 POROČILA Digitaliziranje madžarske kulturne dediščine 1 2 Zsuzsana Toszegi tzs.@neumann-haz.hu Omrežne podatkovne storitve so na razpolago od konca osemdesetih, prve madžarske digitalne publikacije pa so se pojavile v prvi polovici devetdesetih let prejšnjega stoletja. Od leta 1994 so v Madžarski elektronski knjižnici dostopna prek interneta leposlovna in znanstvena dela. Poleg Digitalne knjižnice John von Neumann (John von Neumann Digital Libraryl, ki je bila ustanovljena leta 1997, opravlja omrežne storitve in spodbuja proces digitaliziranja madžarske narodne kulturne dediščine še nekaj sto knjižnic, muzejev in arhivov. Omrežna podatkovna storitev Digitalne knjižnica John von Neumann WebKat.hu je odličen vir za študij in analizo elektronskih dokumentov na madžarskih strežnikih, saj je bilo npr. februarja 2003 na razpolago v WebKat.hu 171.754 dokumentov. Z uporabo OPAC je na madžarskih strežnikih mogoč dostop do vseh monografij, znanstvenih del, člankov, slik idr. dokumentov. Pričujoči prispevek opisuje možnosti informati¬ zirala kulturne dediščine, področja, kjer nas čaka še precej dela. Na Madžarskem je bil internet v uporabi že v času železne zavese, ko so s strogimi predpisi omejevali uvoz modernih orodij informacijske tehnologije (IT). Strokovnjaki na področju visokega šolstva in v knjižnicah pa so vendarle uporabljali računalnik kot pomembno delovno sredstvo; ne le, da so znali pristopati do tujih podatkovnih baz, začeli so razvijati tudi svoje. Prvo knjižnično podatkovno bazo so leta 1975 vzpostavili knjižnjičarji univerzitetne knjižnice v Szegedu. Od leta 1976 so računalnike uporabljali v Madžarski nacionalni knjižnici Szechenyi za ob¬ delovanje in publiciranje madžarske nacionalne bibliografije, V zadnjih petindvajsetih letih je prevedlo kartične kataloge v računalniške podat¬ kovne baze prek sto knjižnic. V začetku leta 2003 je vseboval madžarski nacionalni kataloški sistem podatke petnajst največjih knjižnic s prek 2,5 milijona 3 zapisi. Madžarski seznam (HUNOPAC) obsega skupaj 112 or¬ ganizacij. Nov izziv uporabe IT v knjižnicah je bil digitaliziranje kulturne dediščine. Prve madžarske zgoščenke iz leta 1990 so vsebovale podat¬ kovne baze, prva zgoščenka s popolnim besedilom je bila biblija, prve multimedijska zgoščenka pa je bila izdana leta 1990. Med letoma 1990 in 2000 je bilo na Madžarskem izdanih okoli 2.000 zgoščenk, od katerih se jih 400 uvršča v kategorijo ohranjanja kulturne dediščine. V zgodnjih devetdesetih letih so se pojavila tudi prva digitalna gradiva v mad¬ žarščini. Danes je na razpolago storitev »Naši znanstveniki - virtualna jubilejna razstava«, poleg te pa še madžarski knjižnični portal. S pobudo za ustanovitev Madžarske elektronske knjižnice (MEK) iz leta 1994 so želeli zbrati vse pomembne intelektualne dosežke v digi¬ talni obliki in javnosti omogočiti brezplačen pristop do njih. Pobudo je po petih letih uresničila madžarska narodna knjižnica. Digitalna knjižnica John von Neumann je bila ustanovljena leta 1997. Glavna področja njenega delovanja so digitaliziranje madžarske kulturne dediščine, koor¬ diniranje projektov digitaliziranja, katalogizirale madžarskih internetnih virov in razvijanje podatkovne baze madžarskih knjižnic, muzejev in arhi¬ vov, pa tudi organiziranje podiplomskega študija in sodelovanje pri raz¬ voju standardov. Danes je v knjižnici okoli 50.000 literarnih del. Edinstvena ustanova te vrste je Digitalna literarna akademija, ki zbira opus najpomembnejših madžarskih pisateljev, dobitnikov Kos- suthove nagrade in lovorjevega venca. Opus obsega vsa v madžarščini objavljena dela. Število članov Digitalne literarne akademije stalno raste in poleg časti prinaša članstvo v akademiji tudi denarne koristi, s čimer država pomaga kulturnikom: samo v letu 2003 z več kot 15D milijoni forintov, Trenutno obsega zbirka 24.290 del 61 avtorjev. Storitev so od leta 2000 uporabili že trije milijoni virtualnih bralcev, ki so npr. leta 2002 odprli več kot 440.000 del in prepisali več kot 97.000 dokumen¬ tov. Upoštevaje vso zbirko je bilo leta 2002 dnevno povprečje 1.205 obiskov in 226 prepisov dokumentov. Danes je v okviru programa Bib- liotheca Hungarica Internetiana na internetu dostopen celotni opus vid¬ nih madžarskih avtorjev od stare madžarske literature do največjih klasikov zgodnjega 20. stoletja. Digitalne knjižnice omogočajo hiter odziv na aktualne dogodke; v počastitev Nobelove nagrade za literaturo leta 2003 Imreju Kerteszu je izšla zgoščenka z zbirko dvanajstih Kerteszevih del prav na dan slovesnosti ob podelitvi nagrad. Ena najpomembnejših storitev Neumannove knjižnice je obveščanje o madžarskih elektronskih dokumentih v omrežnem katalogu Web- Kat.hu. Dokumenti so obdelani na analitični ravni, kar pomeni, da je vsak intelektualni produkt posebej, npr. esej, pesem, članek, slika, poseben zapis v podatkovni bazi skupaj s svojim URL. Model za vzpostavitev tega kataloga so vodilni svetovni internetni projekti katalogiziranja. Pravila katalogiziranja digitalnih knjižnic upoštevajo mednarodne trende. WebKat.hu je izdelan skladno s standardoma ISBD(ER) in MARC. Opisi so opremljeni z zaglavjem naslova za iskanje po vsebini in za prepis zapisov v formatu MARC. Februarja 2003 je obsegal katalog WebKat.hu 171.754 zapisov. Za slovenske bralce je zanimiv podatek, koliko dokumentov je razpoložljivih o slovenski kulturi in zgodovini; 28, februarja 2003 je bilo v madžarščini 200 takih dokumentov. O Sloveniji (149 zadetkov), Slo¬ vencih (39 zadetkov) in s tem povezanimi stranmi (201 zadetek) je pre¬ cej zanimivih gradiv, med njimi npr. dokument o dvestoti obletnici rojstva Franceta Prešerna. Ponudniki vsebin objavljajo na internetu vse več javnih zbirk, od enostavnih domačih strani do več tisoč zapisov obsegajočih katalogov. Neumannova knjižnica zbira podatke knjižnic, muzejev, arhivov in galerij. Stalno ažurna javna podatkovna baza je v začetku leta 2003 obsegala podrobne podatke o 1.850 zbirkah, od katerih jih je 1.500 dostopnih prek interneta. Med institucijami je 817 knjižnic, 89 arhivov in 921 muzejev. Del podatkovne baze WebKat.hu je baza metapodatkov o madžarskih javnih zbirkah, ki je februarja 2003 obsegala 1.850 zapisov o različnih ustanovah. To so knjižnice, muzeji, arhivi in komunalni centri. V letu 2002 so podatkovno bazo razširili z vsemi dosegljivimi podatki o projektih digitaliziranja javnih zbirk. Na koncu naj omenimo še sodelovanje med dvema organizacijama, ki nosita ime Johna von Neumanna: Digitalna knjižnica John von Neu¬ mann in Društvo informatikov John von Neumann. Obe si prizadevata na Madžarskem razvijati družbo znanja, ki bo dostopna najširši javnosti. V zadnjih nekaj letih je bil najpomembnejši cilj Društva John von Neumann razširjati računalniško pismenost. Društvo informatikov je aktivno pri uvajanju sistema izobraževanja mednarodno priznanega spričevala ECDL. Rezultat njunega sodelovanja je več kot 50.000 udeležencev, ki so se usposobili v 260 testnih centrih in prek 100.000 kandidatov, ki opravljajo izpite. Priložnost za afirmacijo madžarske digitalne kulturne dediščine je bila tudi stoletnica rojstva Johna von Neumanna, enega največjih matematikov dvajsetega stoletja. Več podatkov o njegovi intelektualni dediščini je mogoče najti na lokaciji www.neumann-centenarium . Podrobnejši podatki in informacije so na voljo na naslednjih naslovih: [1] www.neumann-centenarium.hu [2] www.webkat.hu [3] www.irodalmiakariRmia hn [4] www.neumann-ha7 hn Dr. Zsuzana Toszegi je podpredsednica madžarskega Društva John von Neumann in direktorica Digitalne knjižnice John von Neumann. 1 Referat avtorice Z. Toszegi na posvetovanju Dnevi slovenske informatike 2003je z njenim privoljenjem prevedel in priredil Niko Schlamberger. 2 URL angleške lokacije je http://www.mokka.hU/e index.html. 50 UPORABNA NFORMATIKA 2004 - številka 1 - letnik XII KOLEDAR PRIREDITEV «<:3) CD E 8 S CD CO C- >* co E o CJ E <3 O _ £T) in m > E E CD CD D- $ ° o CD cr o CD :=* CD cm E E e E Ig CD O cz Co E C CD O _o E -šj- o E a .S ^ "c/3 - co CZ O CZ) 03 C —) O CU C — CD CJ b ^ 'c 1 o co CJ o Sl ^ cc 2 o ■S s CD CJ E a E cu is CD , o g '4-3 O CD 43 < co ° ~E CD CD E g Datum: Podpis: Članarina SIT 6.700,- [plačljiva v dveh obrokih) vključuje tudi naročnino za revijo Uporabna informatika. Študenti imajo posebno ugodnost: plačujejo članarino SIT 2.900,- in za to prejemajo tudi revijo. Izpolnjeno naročilnico ali pristopno izjavo pošljite na naslov: Slovensko društvo INFORMATIKA, l/ožarski pot 12,1000 Ljubljana. Lahko pa izpolnite obrazec na domači strani društva: http://www.drustva-inforniatika.si Naročilnica na revijo UPORABNA INFORMATIKA Revijo naročam(o) EU □ □ s plačilom letne naročnine SIT 5.900 izvodov po pogojih za podjetja SIT 17.800 za eno letno naročnino in SIT 11.900 za vsako nadaljnjo naročnino po pogojih za študente letno SIT 2.800 , 1 1 * i " - m Billll 1! Naročnino bomo poravnali najkasneje v roku 8 dni po prejemu računa. Vse bralce revije obveščamo, da lahko najdete domačo stran društva na naslovu http://www.drustvo-informatika.si Obiščite tudi spletne strani mednarodnih organizacij, v katere je včlanjeno naše društvo: IFIP www.ifip.or.at, ECDL: www.ecdl.com, CEPIŠ www.cepis.com Popoln E-Business Suite Trženje Prodaja Naročanje baza podatkov Nabava Oskrbovalne verige Projekti Finance in računovodstvo Kadri Storitve Proizvodnja Vse aplikacije zasnovane enotno. Vse informacije na enem mestu. ORAČ www.oracle.si Copyright ©2002 Oracle Corporation. Ali rights reserved. Oracle is a registered trademark of Oracle Corporation. Other names may be trademarks of their respective owners. Razprave Tomaž Dogša Problematika sistemov za vodenje popravljanja in vzdrževanja ■ l! ■ j iJP Ji" iS JjiF n> m . ■» 5| 1 ir « ** Stjepan Pervan, Martina Kern Reševanje problema pomanjkanja unikatnih naslovov internetnega T?iJ.vv TfjSfepp EV iF afr Krista Rizman Žalik ] -i j? f|5 jS ji| j Podatkovna skladišča in kakovost podatkov Miro Ribič, Andrej Kovačič, Marjan Lončarič Sistem za upravljanje delovnih procesov * filsjit STi m jfjsij melisi iJLiVil K! :s I Marko Holbl, Petra Grm, Boštjan Brumen, Tatjana VVelzer, Izidor Golob Alatannnnci mmpr'ini'1 p I mm n n I/ i li Im p n rji I Natančnost uvrščanja slovenskih besedi Ladislav Mikola Uporaba desetiških Sl predpon v informatiki Zsuzsana Toszegi ne dediščine Koledar priredi issn ma-iaas a ?7i3ia laaooi