Organizacija znanja, 30 (1–2), 2025, številka prispevka, https://doi.org/10.3359/oz2530002 Strokovni članek / Professional article Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin How are web archives created? T echnical aspects of web content capture Janko Klasinc 1 IZVLEČEK: Spletni arhivi so zbirke podatkov, ki so rezultat prizadevanj knjižnic in drugih sorodnih ustanov za trajno ohranjanje spletne dediščine. Pogosto vsebujejo velike količine gradiva, ki je s spleta shranjeno z uporabo spletnih robotov, s stališča uporabe pa so spletni arhivi pogosto nepredvidljivi, netransparentni in nekonsistentni viri podatkov, ki vsebujejo številne vsebinske vrzeli. Poleg različnih družbenih, zakonodajnih in institucionalnih okoliščin, v okviru katerih nastajajo, njihove specifične lastnosti v veliki meri opredeljuje tudi heterogena, efemerna in fluidna narava svetovnega spleta. Ker uporabnikom spletni arhivi predstavljajo številne izzive, je pomembno, da se ti zavedajo okoliščin, ki vplivajo na naravo spletnih arhivov ter posledično na priložnosti in pasti uporabe arhiviranih podatkov. Da bi osvetlili ozadje teh relativno slabo poznanih virov podatkov, v prispevku na osnovi pregleda temeljne in druge relevantne literature opisujemo predvsem tehnične vidike nastajanja spletnih arhivov. Pri tem se osredotočamo na temeljne značilnosti svetovnega spleta v kontekstu ohranjanja, na različne pristope k zajemanju spletnih vsebin, njihove omejitve in vpliv teh okoliščin na naravo spletnih arhivov, ki se kot viri podatkov v marsičem razlikujejo od bolj tradicionalnih in uveljavljenih zbirk. KLJUČNE BESEDE: spletni arhivi, arhiviranje spleta, spletna dediščina ABSTRACT: Web archives are collections produced by libraries and other heritage institutions to permanently preserve online heritage. They often contain large amounts of material stored from the web through the use of web crawlers. From a usage perspective, they are often unpredictable, non- transparent and inconsistent data sources that contain numerous content gaps. In addition to the various social, legislative and institutional circumstances under which they are created, their specific characteristics are largely defined by the heterogeneous, ephemeral and fluid nature of the world wide web. Because they present numerous challenges to their users, it is important for them to be aware of the circumstances that influence the nature of web archives and, consequently, the opportunities and pitfalls of using archived data. To shed light on the background of these relatively poorly understood data sources, this paper, through a review of foundational and other relevant literature, describes primarily the technical aspects of web archives creation. It focuses on the fundamental characteristics of the world wide web in the context of preservation, different approaches to capturing web content, their limitations and the impact of these circumstances on the nature of web archives, which differ in many ways from more traditional and established data sources. KEYWORDS: web archives, web archiving, web heritage 1 Uvod Trajno ohranjanje kulturne, znanstvene in druge pisne dediščine je eno od temeljnih poslanstev knjižnic, arhivov in drugih sorodnih ustanov. Razvoj novih tehnologij, predvsem 1 Janko Klasinc, univ. dipl. bibl., Narodna in univerzitetna knjižnica, Ljubljana, Slovenija, janko.klasinc@nuk.uni-lj.si. Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 2 / 16 tistih s področja informacijske tehnologije, botruje neprestanemu razvoju postopkov pridobivanja, ohranjanja in dajanja v uporabo raznovrstnih vsebin, ki v različnih kontekstih veljajo za kulturno dediščino. Tako so v preteklosti dediščinske ustanove poleg skrbi za gradivo na papirju in sorodnih nosilcih morale razviti tudi ustrezne postopke za zbiranje in varovanje gradiva na magnetnih in optičnih nosilcih ter gradiva v različnih digitalnih oblikah. Čeprav smo gradivo v digitalni obliki poznali že pred svetovnim spletom, sta s pojavom slednjega zapisovanje in razširjanje informacij ter znanja dosegla nove dimenzije. Od sredine devetdesetih let prejšnjega stoletja svetovni splet igra vedno večjo vlogo v številnih družbah in predstavlja enega od glavnih temeljev današnje komunikacijske infrastrukture (Brüger in Laursen, 2019). Čeprav so se v preteklosti pojavljali pomisleki o smiselnosti sistematičnega ohranjanja vsebin na spletu, ki so bili utemeljeni z vprašljivo kakovostjo spletnih objav, prepričanjem, da je splet medij, ki se lahko arhivira sam (angl. self-preserving medium), ali z neizvedljivostjo naloge zaradi obsežnosti spleta in potencialnih avtorskopravnih omejitev (Masanès, 2006), je danes arhiviranje spleta prepoznano kot ena od pomembnih, čeprav še vedno relativno obrobnih dejavnosti za ohranjanje pisne dediščine. V prispevku osvetljujemo bistvene značilnosti svetovnega spleta kot medija, ki pogojujejo pristope k njegovemu ohranjanju. Preučujemo tudi različne metode sistematičnega shranjevanja vsebin s spleta, pri katerih se osredotočamo na najbolj razširjen pristop zajemanja z uporabo spletnih robotov. Opisali smo tudi nekatere bistvene značilnosti spletnih arhivov 2 , po katerih se razlikujejo od drugih, bolj uveljavljenih zbirk podatkov. 2 Svetovni splet v kontekstu ohranjanja Bibliotekarski terminološki slovar (Kanič et al., 2009) definira svetovni splet kot »porazdeljen internetni informacijski sistem, v katerem so spletne strani, spletni dokumenti povezani s hiperpovezavami«. Splet je unikaten informacijski vir, ki vsebuje več milijonov spletnih mest in povezuje skupnosti ter posameznike z vsega sveta. Od svojega začetka, ko je predstavljal relativno omejeno storitev, ki so jo uporabljali predvsem raziskovalci, se je v le nekaj desetletjih razvil v globalni informacijski medij. Danes ne predstavlja več le sredstva za komuniciranje, pač pa unikaten vir informacij o življenju v 21. stoletju. Hitrost njegovega razvoja hkrati predstavlja grožnjo naši kulturni, družbeni in tehnični dediščini v digitalni obliki (Pennock, 2013). Človeštvo namreč še nikoli v zgodovini ni proizvajalo toliko informacij kot danes in te še nikoli niso bile tako široko dostopne, hkrati pa še nikoli do zdaj nismo imeli opravka s tako veliko količino izgubljenih informacij. Živimo v obdobju preobilja informacij in pomanjkanja spomina (Gomes et al., 2021). Osnovni razlog za trajno ohranjanje informacij v kakršni koli obliki je spoznanje, da imajo različni informacijski objekti ne glede na namen, za katerega so bili ustvarjeni, tudi določeno trajno vrednost. Poleg tega je eden od glavnih razlogov za prizadevanja za ohranjanje spletnih virov, predvsem v okviru dediščinskih ustanov, relativno hitro izginjanje tovrstnih vsebin – splet je vseprisoten, vendar so posamezne spletne strani minljive (Pennock, 2013). Za 2 Izraz spletni arhiv je prevod angleškega izraza web archive in je v Sloveniji najbolj uveljavljen izraz za tovrstne zbirke. Kljub temu je ta izraz zaradi slabe prepoznavnosti področja arhiviranja spleta pogosto narobe razumljen, tako strokovna kot širša javnost pa ga zamenjujeta z digitaliziranimi arhivi, digitalnimi knjižnicami in drugimi digitalnimi zbirkami. Kljub temu da bi bil morda ustreznejši izraz arhiv spleta, v besedilu uporabljamo bolj uveljavljeni spletni arhiv. Po mnenju Terminološke svetovalnice pri ZRC SAZU z dne 5. 7. 2024 sta sicer ustrezna oba izraza, za najboljšo rešitev pa bi bila gotovo smiselna širša razprava strokovnjakov z različnih področij (Atelšek et al., 2024). Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 3 / 16 izginjanje celotnih spletnih mest obstaja več razlogov. Eden od najpogostejših je namerno ali nenamerno zanemarjanje, zaradi katerega poteče veljavnost spletne domene, hkrati pa ni poskrbljeno za varnostne kopije vseh relevantnih datotek. Zanemarjanje je pogosto povezano s pomanjkanjem finančnih sredstev za vzdrževanje spletnega mesta ali z upadom motivacije lastnika za dopolnjevanje in vzdrževanje vsebine spletnega mesta. Razlogi so lahko tudi tehnične narave in vključujejo okvare strojne opreme, viruse in zlonamerno programsko opremo ter nenamerno brisanje datotek. Podobno kot velja za fizično gradivo, tudi računalniško opremo ogrožajo naravne nesreče, kot so požari in poplave ter burne družbeno- politične situacije, v katerih je lahko gradivo umaknjeno s spleta zaradi ideoloških ali političnih razlogov. Zaradi tržnih bojev med spletnimi podjetji se lahko pojavijo prevzemi spletnih storitev, ki so včasih potem ukinjene ali priključene večjim platformam (Barone, 2015; Milligan, 2019). Major (2021) navaja tudi opustitev spletnih mest, kadar lastniki komercialnih storitev ugotovijo, da te ne prinašajo (več) pričakovanega dobička, nekatera spletna mesta pa izginejo, ker ne izpolnjujejo več svojega osnovnega namena, na primer spletna mesta političnih kampanj, ki so aktualna samo v določenem časovnem obdobju. Poleg izginevanja celotnih spletnih mest sta zelo pogosta tudi spreminjanje lokacije posameznih vsebin, ki vodi v odmiranje hiperpovezav (angl. link rot 3 ), in izginevanje ali spreminjanje zgolj posameznih delov spletnih mest. V tem kontekstu Masanès (2006) kot eno od bistvenih lastnosti spleta, po katerem se razlikuje od gradiva na fizičnih nosilcih, navaja kardinalnost 4 . Arhivi in muzeji večinoma hranijo gradivo, ki obstaja v enem primerku (unikatu), medtem ko imajo knjižnice, predvsem od izuma tiska dalje, opravka z gradivom, pri katerem obstaja več kopij istega dela (npr. vsi izvodi določene izdaje publikacije). Ta lastnost zvišuje verjetnost za ohranitev vsebin, saj lahko knjižnice pridobijo izvod določene publikacije tudi dolgo po njenem izidu, večje število kopij pa zmanjšuje možnost, da bi določeno delo povsem izginilo. Po drugi strani je možno kopije spletnega gradiva ustvarjati v praktično neomejenem obsegu, preprosto in z nizkimi stroški, vendar se lahko te bolj ali manj razlikujejo med seboj in od originala. Prikaz določene vsebine je namreč lahko prirejen določenemu spletnemu brskalniku ali pogojen s časom dostopa, geografsko lokacijo in drugimi značilnostmi uporabnika. S stališča ohranjanja to pomeni, da je pogosto možno zajeti in shraniti le eno ali omejeno število vseh pojavnosti (kopij) določene vsebine. Praktično delovanje spleta v največji meri opredeljujejo standardi URI 5 , HTTP 6 in HTML 7 , zaradi katerih je možno prek vsakega računalnika, ki je povezan z internetom, objavljati vsebine na spletu. Zaradi široke dostopnosti in enostavnosti objavljanja ter brisanja raznovrstnih vsebin na spletu se je izredno povečalo število ljudi, ki ustvarjajo in razširjajo informacije, in posledično tudi količina teh informacij. Če ob tem upoštevamo tudi hipertekstovno naravo spleta, s katero so heterogene vsebine na globalni ravni med seboj povezane na različne načine, lahko ugotovimo, da je ohranjanje spletnih vsebin možno le v omejenem obsegu. 3 Angleški izraz link rot pomeni odmiranje hiperpovezav, ki zaradi prenehanja obstajanja ali premika strani, na katere kažejo, ne delujejo več (Kanič, I. et al., 2020). 4 V kontekstu spletnega gradiva se pojem nanaša na številčnost instanc oziroma možnih pojavnosti iste vsebine. 5 URI (Uniform Resource Identifier) je enotni identifikator vira, ki določa ime ali lokacijo fizičnega ali logičnega vira, ki ga uporabljajo spletne tehnologije (Kanič, I. et al., 2020). 6 HTTP (HyperText Transfer Protocol) je protokol za izmenjavo hiperteksta ter grafičnih, zvočnih in drugih večpredstavnostnih vsebin na spletu (Kanič, I. et al., 2020). 7 HTML (HyperText Markup Language): označevalni jezik za oblikovanje večpredstavnostnih dokumentov, ki omogoča povezave znotraj dokumenta ali med dokumenti (Kanič, I. et al., 2020). Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 4 / 16 Arhiviranje spleta neizogibno vsebuje tako ali drugačno obliko selekcije, spletni arhivi pa bodo vedno vsebovali le izsek živega spleta v določenem času (Masanès, 2006). Izkušnja uporabe svetovnega spleta izhaja iz interakcije dveh njegovih temeljnih komponent – spletnega strežnika in odjemalca, kot je na primer spletni brskalnik. Na strežniku je vsebina shranjena v obliki datotek, kot so HTML-dokumenti in slike. Strežnik na podlagi zahtevkov brskalnika slednjemu dostavi ustrezne datoteke, ta pa prejete datoteke prikaže uporabniku. Interakcija med strežnikom in brskalnikom je enako pomembna kot komponente. Praviloma za komunikacijo med strežnikom in brskalnikom skrbi protokol HTTP (Brown, 2006). V kontekstu shranjevanja spletnih vsebin je pomembno upoštevati, da so posamezne spletne strani ali njihovi deli lahko statični ali dinamični, saj to pomembno vpliva na možnost njihove shranitve. Statično spletno mesto sestavljajo različne spletne strani, na vsako od katerih vodi povezava vsaj z ene druge spletne strani. Vsaka spletna stran je običajno sestavljena iz enega ali več posameznih elementov. Struktura spletne strani in njena besedilna vsebina je običajno vsebovana v HTML-datoteki, ki vsebuje povezave do drugih elementov (npr. slik) in drugih spletnih strani. Vsi elementi spletne strani so na strežniku shranjeni v hierarhični strukturi map in podmap, URL posameznega elementa pa opisuje lokacijo tega elementa v strukturi (Brown, 2006). Tovrstna spletna mesta zaradi enostavne izvedbe običajno ne predstavljajo večjih težav za shranjevanje. Na dinamičnih spletnih mestih se posamezne spletne strani generirajo sproti iz manjših vsebinskih elementov. Postopek se lahko izvede na strežniku, ki ob prejemu zahtevka posamezne elemente sestavi v spletno stran in jo pošlje odjemalcu. Če se postopek izvede na strani odjemalca (brskalnika), ta s strežnika pridobi skript 8 , ga požene in tako sestavi spletno stran iz preostalih pridobljenih datotek. Dinamično generirane vsebine so pogosto vsebovane v bazah podatkov, iz katerih je možno vsebino pridobiti le z iskalnimi poizvedbami, ki sprožijo postopek pridobitve vsebine iz baze in njen prikaz. Druge pogoste oblike dinamično generiranih vsebin so na primer vsebine, dostopne prek različnih multimedijskih predvajalnikov, spletna mesta, ki uporabnikom omogočajo objavljanje in urejanje vsebin v različnih vdelanih aplikacijah, vsebine, ki so pridobljene iz drugih virov in so vdelane v spletno stran (npr. zemljevidi Google maps), personalizirane spletne strani itd. Dinamično generirane vsebine so izvedene na različne načine in so vedno pogostejše, vsem pa je skupno, da predstavljajo težavo za shranjevanje. Če se skripti, ki poskrbijo za generiranje vsebin, ne prenesejo k odjemalcu, jih ni možno shraniti, niti ni možno z njimi pridobiti vsebine spletnega mesta. Pri vsebinah, ki se generirajo na strani odjemalca (brskalnika), je s spletnimi roboti sicer možno shraniti potrebne skripte, vendar jih roboti ne morejo poganjati, saj delujejo popolnoma drugače kot spletni brskalniki, ki so namensko izdelani za odpiranje in prikazovanje spletnih vsebin. Dinamično generirane vsebine predstavljajo del globokega spleta (angl. deep web), ki se od površinskega (angl. surface web) razlikuje predvsem po tem, da ni dostopen spletnim robotom. Izraz globoki splet je prvič uporabil Michael K. Bergman, ko je ugotovil, da spletni iskalniki spregledajo veliko količino dinamično generiranih informacij. Tradicionalni spletni iskalniki ustvarjajo indekse spletnih vsebin s sledenjem povezavam in lahko zato odkrijejo le tiste spletne strani, ki so statične in povezane z drugimi spletnimi stranmi. Poleg dinamično 8 Skript (angl. script) je program, napisan v skriptnem jeziku (Kanič, I. et al., 2020). Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 5 / 16 generiranih vsebin v globoki splet spadajo tudi vsebine, ki so plačljive ali dostopne samo z uporabniškim imenom in geslom. Bergman je leta 2001 ocenil, da je globoki splet od 400- do 550-krat večji od spleta, kot ga pojmujemo običajno, in vsebuje 40-krat večjo količino podatkov kot površinski splet (Bergman, 2001). Hatta (2020) ocenjuje, da se je globoki splet zaradi individualnih dogovorov, ki jih je Google sklenil z lastniki različnih baz podatkov za potrebe indeksacije vsebin v kontekstu, kot ga obravnava Bergman, v zadnjih 20 letih precej skrčil. To seveda ne vpliva bistveno na omejitve spletnih robotov in drugih orodij, ki so v uporabi za zajem in shranjevanje teh vsebin. 3 Pristopi k arhiviranju spleta Ko govorimo o arhiviranju spleta v kontekstu ohranjanja dediščine, za kar skrbijo ustanove, kot so knjižnice in arhivi, imamo največkrat v mislih zajemanje vsebin z uporabo spletnih robotov. Gre za najbolj razširjen način arhiviranja spleta, s katerim je shranjenih največ podatkov in se tudi največkrat pojavlja v področni literaturi. Poleg tega obstajajo tudi drugi pristopi in metode, ki so bili razviti za različne potrebe shranjevanja spletnih vsebin. Ti pristopi in metode se med seboj razlikujejo glede na predvideni tip izvajalca (posameznik, dediščinska ustanova, lastnik spletnega mesta) in glede na to, ali se zajem izvaja prek strežnika ali odjemalca. Za najbolj osnovne pristope arhiviranja, ki jih lahko uporabi vsak posameznik, nista potrebna posebno tehnično znanje in oprema. Ena od najbolj enostavnih metod je izdelovanje statičnih posnetkov zaslona. Rezultat je slika dela ali celotne spletne strani, ki je shranjena v slikovni ali PDF-datoteki 9 . Podobna metoda je izdelovanje gibljivih posnetkov zaslona oziroma ustvarjanje videoposnetkov dogajanja na zaslonu, kar lahko zajema snemanje premikanja po spletnem mestu, igranja spletnih iger ali predvajanega spletnega pretočnega videoposnetka. Za obe metodi je značilno, da posnetki verodostojno ponazarjajo videz spletne strani v določenem trenutku, vendar ne vsebujejo aktivnih hiperpovezav. Preprosta metoda je tudi shranjevanje posameznih datotek s spleta, kar lahko pomeni shranjevanje HTML-datotek, vključno s celotno pripadajočo kodo, ali shranjevanje drugih posameznih datotek, ki sestavljajo spletno mesto, kot so npr. slike, videoposnetek, zvok (Brügger, 2018). Tovrstne metode so večinoma uporabljene pri dokumentiranju za potrebe raziskovanja ali pri arhiviranju za osebne potrebe, manj pa so primerne za shranjevanje večjih količin podatkov. Lastniki spletnih mest, ki imajo neposreden dostop do strežnikov, lahko uporabljajo tudi drugačne metode. Ena od teh je transakcijsko arhiviranje, s katerim je možno dokumentirati dejansko uporabo spletnega mesta, ne pa tudi shraniti njegove celotne vsebine. Metoda je bila razvita za primere, ko mora lastnik spletnega mesta dokazovati, da je bila na določen datum na njegovem spletnem mestu dostopna določena vsebina ali tudi, da je bila na določen datum obiskana. V nekaterih državah so namreč podjetja in organizacije zakonsko odgovorni za vsebino, ki jo objavljajo na spletu in morajo biti zmožni dokazati, kakšne so bile stare verzije njihovih spletnih mest (Masanès, 2006). Glavna omejitev tega pristopa s stališča trajnega ohranjanja spletne dediščine predstavlja shranjevanje zgolj tistih vsebin, ki so bile dejansko obiskane (Brown, 2006). Enostaven, vendar dokaj omejen pristop predstavlja tudi neposredno kopiranje spletnega mesta s strežnika brez odjemalca in uporabe protokola HTTP. Enako kot 9 Primer zajema spletne strani z zaslonskim posnetkom: https://web.archive.org/web/20130202005324/http:/web.archive.org/screenshot/http:/blog.dshr.org/ Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 6 / 16 pri transakcijskem arhiviranju je tudi ta pristop za potrebe trajnega ohranjanja spletnih vsebin, za kar skrbijo dediščinske ustanove, večinoma neustrezen, saj zahteva neposreden dostop do spletnega strežnika in posledično sodelovanje lastnika spletnega mesta (Brown, 2006). V primerih nekaterih spletnih mest je možno večje količine gradiva z njih pridobiti in shraniti z uporabo aplikacijskih programskih vmesnikov 10 (angl. application programming interface, API). To metodo pogosto uporabljajo spletne platforme (predvsem družbena omrežja), ki neprestano ustvarjajo podatke, ti pa so lahko uporabni za različne analize. Z uporabo programskega vmesnika ni možno pridobiti vsebin, kot se prikažejo v spletnem brskalniku, pač pa zgolj posamezne elemente spletnih mest, kot so podatki iz uporabniških profilov, slike, všečki, podatki o geolokaciji itd. (Brügger, 2018). Če lastnik spletnega mesta razpolaga s programskimi vmesniki in zunanjim uporabnikom omogoči tovrstno pridobivanje podatkov iz njegove baze, je možno s to metodo zajeti in shraniti njeno vsebino ali vsaj del nje. Uporabnost tega postopka za trajno ohranjanje je omejena, saj z njim ni možno pridobiti izvornega uporabniškega vmesnika in njegovih funkcionalnosti, pač pa zgolj surove podatke. Še večja pomanjkljivost je, da je izvajalec arhiviranja odvisen od tega, ali lastnik spletnega mesta sploh omogoča tovrsten dostop do podatkov in če ga, kako dolgoročno zanesljiv je in kakšne funkcionalnosti vključuje (Laska, 2019). Vsi opisani pristopi k arhiviranju spletnih vsebin so lahko uporabni le v specifičnih okoliščinah in za določene posameznike ali organizacije. Nekaterim je skupno, da terjajo neposreden dostop do strežnika, ki gosti spletno mesto, večini pa, da omogočajo shranjevanje relativno omejene količine podatkov ob precejšnjem časovnem vložku. Te omejitve pomenijo, da nobeden od pristopov ni ustrezen za sistematično arhiviranje večje količine spletnih vsebin za namene ohranitve nacionalne ali drugače opredeljene spletne dediščine. V nadaljevanju podrobneje opisujemo še zadnji pristop, ki sicer ne odpravlja vseh do zdaj opisanih pomanjkljivosti, vendar je glede na rezultate, ki jih omogoča, in načine, kako pridemo do njih, daleč najučinkovitejši in najprimernejši za arhiviranje spleta, ki ga izvajajo dediščinske ustanove. To je arhiviranje z uporabo spletnih robotov. 4 Arhiviranje z uporabo spletnih robotov 4.1 Kratka zgodovina arhiviranja spleta z uporabo robotov Zajemanje z uporabo robotov je najbolj kompleksna in avtomatizirana ter hkrati najprimernejša metoda arhiviranja spleta za shranjevanje večjih količin podatkov. Namenski roboti 11 za tovrstno zajemanje delujejo enako kot programi, ki jih spletni iskalniki uporabljajo za indeksacijo spleta (Brügger, 2018). Začetek arhiviranja z uporabo spletnih robotov sega v leto 1996, ko se je po svetu zagnalo več tovrstnih projektov. Tega leta sta v ZDA dva izmed razvijalcev sistema za indeksacijo spleta WAIS 12 , in sicer Brewster Kahle in Bruce Gilliat, ustanovila podjetje Alexa Internet. Podjetje je za namene beleženja spletnega prometa in 10 Vmesnik, ki zagotavlja, da ima računalniški program na razpolago funkcije operacijskega sistema ali drugega računalniškega programa (Kanič, I. et al., 2020). 11 Tovrstni programi spadajo v družino programske opreme, na splošno poimenovano roboti ali pajki. Roboti so programi, ki so primarno namenjeni zbiranju podatkov in do spletnih vsebin dostopajo na podoben način kot človeški uporabniki. Med najpogostejšimi roboti so orodja, ki jih spletni iskalniki, kot je Google, uporabljajo za zbiranje in indeksacijo spletnih strani (Brown, 2006). 12 WAIS (Wide Area Information Server) je sistem za iskanje po besedilu, ki za iskanje po bazah podatkov na oddaljenih računalnikih uporablja ANSI-standard Z38:50 (The history of domains, 2020). Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 7 / 16 rangiranja spletnih mest slednja tudi shranjevalo (Milligan, 2019). Istega leta je Kahle z namenom vzpostavitve digitalne knjižnice, ki bi omogočala trajen dostop do historičnih zbirk v digitalni obliki, ustanovil tudi neprofitno organizacijo Internet Archive (Brown, 2006). Ta je v naslednjih letih na osnovi zajemov, ki jih je kot donacije prejemala od podjetja Alexa Internet, vzpostavila največji spletni arhiv na svetu (Mohr et al., 2004), ki deluje še danes. Istega leta se je v okviru projekta Kulturaw3 z arhiviranjem nacionalne dediščine na spletu začela ukvarjati tudi Švedska nacionalna knjižnica (Kungliga biblioteket, KB); le-ta je v svoje zajeme uvrstila spletna mesta na vrhnjih domenah .se in .nu ter tista, ki so bila registrirana s švedskimi naslovi ali telefonskimi številkami (Milligan, 2019). Enega od zgodnejših projektov predstavlja tudi Pandora (Preserving and Accessing Networked Documentary Resources of Australia); ta projekt je leta 1996 začela izvajati Nacionalna knjižnica Avstralije. Pristop je bil zelo selektiven, za zajem so v poštev prišla spletna mesta avstralskih avtorjev in tista, ki so se vsebinsko nanašala na Avstralijo (Brown, 2006). V Sloveniji se je zajemanje spleta eksperimentalno začelo v letih od 2002 do 2004 v okviru projekta Metodologija zbiranja in arhiviranja slovenskih elektronskih publikacij na medmrežju, pri katerem sta sodelovala Narodna in univerzitetna knjižnica (NUK) in Institut Jožef Štefan (IJS) (NUK, 2025). Med projektom je NUK razvila teoretični model arhiviranja in trajnega ohranjanja spletnih publikacij, IJS pa je razvil spletni robot WebBird, s katerim je opravil poskusni zajem spletne domene .si (Kavčič-Čolić, 2004). NUK je zakonsko podlago za arhiviranje spleta dobila v letih 2006 in 2007 z novim Zakonom o obveznem izvodu publikacij (2009) in Pravilnikom o vrstah in izboru elektronskih publikacij za obvezni izvod (2007). Po vzpostavitvi ustrezne tehnične infrastrukture je s sistematičnim zajemanjem spletnih mest začela leta 2008. Po letu 2000 se je krog pobud za arhiviranje spleta postopno razširil, predvsem v okviru nacionalnih knjižnic in nekaterih univerz. Razvite so bile različne aplikacije za zajem spletnih mest, ki so jih razvili arhivske ustanove za lastne potrebe ali drugi zainteresirani posamezniki. V tem obdobju se je pojavila potreba po zmogljivem in enostavno nastavljivem orodju, ki bo lahko izvajalo zajeme večjega obsega. Pobuda za razvoj tovrstnega orodja je prišla iz organizacije Internet Archive, ki se je pri tem želela povezati z drugimi ustanovami. Po opravljeni analizi tedanjih odprtokodnih orodij so ugotovili, da nobeno ni dovolj fleksibilno in hkrati zmožno izvajati večje zajeme. Tako so v sodelovanju z razvijalci nekaterih skandinavskih nacionalnih knjižnic, združenih v projekt Nordic Web Archive, v letih 2003 in 2004 razvili odprtokodno orodje Heritrix 13 (Mohr, 2004). Kmalu po tem so številne ustanove s prejšnjih rešitev prešle na Heritrix, ki je bil od svojih začetkov večkrat posodobljen in je še danes najbolj razširjen robot za zajem spletnih mest. 4.2 Delovanje robotov Infrastruktura, ki je potrebna za delovanje spletnega robota, je lahko zelo osnovna. Aplikacijo je treba namestiti na računalnik z internetno povezavo in zadostnimi pomnilniškimi kapacitetami za shranjevanje zajetih podatkov. Pri večini večjih projektov arhiviranja spleta so aplikacije za zajem nameščene na mrežnih strežnikih s pripadajočimi diskovnimi polji (Brown, 2006). Pri interakciji s strežnikom robot posnema uporabo spleta običajnih uporabnikov. Strežnikom pošilja HTTP-zahtevke in shranjuje vsebino, ki jo tako pridobi. Delovanje robota 13 Celotna aplikacija z vso pripadajočo dokumentacijo je dostopna na naslovu https://github.com/internetarchive/heritrix3 Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 8 / 16 usmerja seznam izhodiščnih URL-naslovov (semen 14 ), ki naj bi jih obiskal. Robot obišče prvi URL-naslov na seznamu, shrani spletno stran, ki je na tem naslovu, znotraj nje identificira hiperpovezave in jih doda na seznam URL-jev za nadaljnje zajemanje. Potem postopek ponavlja s pridobljenimi dokumenti, dokler mu ne zmanjka povezav, ki jih lahko obišče in pridobi glede na nastavitve obsega zajema. Tako lahko robot, ki zajem začne na domači strani določenega spletnega mesta, obišče in zajame vse spletne strani znotraj spletnega mesta. S tem postopkom je možno shraniti vsebino na posameznih URL-naslovih, še bolj pogosto pa se ga uporablja za zajem vsebine celotnih spletnih mest ali spletnih domen (Brown, 2006; Masanès, 2006; Brügger, 2018). Delovanje robotov je možno nastaviti glede na številne parametre. Pomemben skupek nastavitev predstavlja določitev obsega in globine zajema. Te nastavitve so pomembne, ker robotu preprečijo preširoko zajemanje, ki se lahko pojavi zaradi medsebojne povezanosti spletnih mest. Obseg zajema je v osnovi določen s številom povezav, ki jim robot sledi od izhodiščnega URL-naslova, in smerjo, v kateri naj se premika (Brown, 2006). Glede na namen zajemanja in razpoložljiva sredstva so lahko zajemi globlji ali plitkejši po vertikalni dimenziji ter širši ali ožji po horizontalni dimenziji. V tem kontekstu nekateri avtorji navajajo ekstenzivno in intenzivno ali široko in fokusirano zajemanje (glej Mohr, 2004 in Masanès, 2006). Čim večja globina je zaželena, kadar je namen zajeti spletna mesta v celoti in čim bolj popolno. Tovrstni zajemi običajno shranijo veliko količino podatkov, kar je lahko problematično, če ima arhivska ustanova na voljo omejena sredstva in čas. Plitkejši zajemi so pogostejši pri tematskih zajemih, kjer cilj ni zajeti celotnih spletnih mest, pač pa le posamezne vsebine, ki se nanašajo na določeno tematiko. V takih primerih so pogosto zajete le posamezne spletne strani. Manj globoki zajemi pridejo v poštev tudi v primerih zajemov celotnih nacionalnih domen ali podobno obsežnih delov spleta. Ker je pri tem cilj zajeti veliko količino spletnih domen, ima širina zajema prednost pred globino. Na splošno so ožji zajemi pogosto globlji, širši pa plitkejši. Čeprav je delovanje robota omejeno že z določitvijo izhodiščnih URL-naslovov in nastavitvijo globine zajema, je obseg zajema običajno omejen tudi glede maksimalne količine zajetega gradiva (v bajtih), števila zajetih datotek ali trajanja. S tem arhivska ustanova poskrbi za racionalno porabo sredstev, ki jih ima na voljo, hkrati pa prepreči tudi negativne posledice morebitnih pasti, v katere se lahko zaplete robot. Pasti so segmenti spletnih mest (npr. koledarji), ki lahko generirajo neomejeno število povezav, katerim mora robot slediti in lahko povzročijo, da se zajem nikoli ne zaključi. Tovrstnim nevarnostim se je možno vsaj do neke mere izogniti tudi z bolj specifičnimi nastavitvami, s pomočjo katerih lahko izvajalec iz zajema izloči posamezne direktorije spletnih mest, določene tipe datotek ali URL naslove, ki vsebujejo določen niz znakov (Brown, 2006). Po drugi strani je možno v zajem vključiti tudi vsebine, ki se ne nahajajo na domeni izhodiščnega URL naslova. Kadar celotna vsebina spletnega mesta ni dostopna na eni domeni, pač pa se nekateri elementi prenesejo z drugih domen, je možno robotu določiti, da sledi določenemu številu povezav, ki z zajetega spletnega mesta vodijo na druga spletna mesta. S tem se zagotovi zajem tudi tovrstnih zunanjih vsebin, če predstavljajo del vsebinske celote spletnega mesta. 14 V angleščini je za tovrstne URL-naslove v uporabi izraz seeds ali seed URLs, kar v slovenščino lahko prevedemo kot izhodiščni URL-naslovi ali semenski URL-naslovi. S pomočjo teh URL-jev robotu določimo, kje naj začne zajem in do neke mere tudi območje, znotraj katerega naj zajame vsebino (npr. posamezna spletna domena, poddomena, direktorij ali zgolj posamezna spletna stran). Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 9 / 16 Spletna mesta so lahko zajeta samo enkrat, še pogosteje pa jih arhivske ustanove zajemajo kontinuirano. Robotu je možno določiti urnik zajemanja in datum, ko naj začne zajemati gradivo z določene lokacije. Frekvenca zajema je lahko dnevna, tedenska, mesečna, letna ali kakršna koli druga, odvisna pa je predvsem od pogostosti spreminjanja vsebin spletnih mest. Po zaključku vsakega zajema je zajeto gradivo lahko shranjeno v enaki drevesni strukturi kot izvorno spletno mesto, kjer so v posameznih mapah in podmapah različne datoteke, še pogosteje pa se ga shranjuje v standardiziranem arhivskem formatu WARC ali sodobnejšem formatu WACZ, ki omogoča shranjevanje različnih virov (digitalnih objektov), sestavljenih iz podatkov in metapodatkov, v eno datoteko (ISO 28500, 2017). 4.3 Omejitve zajemanja z roboti Zaradi tehnične kompleksnosti, prepletenosti in obsežnosti spleta noben pristop k zajemanju ne predstavlja popolne rešitve, ki bi omogočala učinkovito shranitev vseh oblik spletnih vsebin, vendar je zajemanje z roboti glede na druge načine najbolj enostavno, fleksibilno in učinkovito. Postopke je možno vzpostaviti hitro in z relativno enostavno infrastrukturo, pristop pa omogoča zajem velikega števila spletnih mest v kratkem času. Metoda je dodobra preizkušena, na voljo pa so tudi številna orodja, ki jih lahko ob ustreznem uvajanju uporabljajo tudi tehnično manj podkovani uporabniki. Ker pri zajemih ni potrebna participacija lastnikov spletnih mest, ima ustanova, ki izvaja arhiviranje, popoln nadzor nad vsemi postopki (Brown, 2006). Vsak pristop k arhiviranju spleta vsebuje omejitve in zajemanje z roboti pri tem ni izjema. Omejitve so predvsem tehnične narave in so pogojene s številnimi možnostmi, ki so na voljo razvijalcem in oblikovalcem sodobnih spletnih mest. V začetnem obdobju razvoja svetovnega spleta so bila spletna mesta in interakcije uporabnikov z njimi relativno enostavna. Temu ustrezno je bil enostaven tudi klasičen model zajemanja z roboti, ki je bil osnovan na standardih HTTP in HTML ter je primarno vključeval razčlenjevanje (angl. parsing) besedila in identifikacijo ter sledenje povezavam. Takrat je bilo možno z relativno preprostimi metodami v doglednem času in z zmernimi stroški shraniti verodostojne reprezentacije spletnih mest. Nekatere omejitve zajemanja z roboti so obstajale že v tistem obdobju, še več pa se jih je pojavilo z razvojem spletnih tehnologij v zadnjih dveh desetletjih. Te tehnologije so pripeljale do družbenih omrežij in spletnih tehnologij, ki uporabnikom omogočajo ustvarjanje in objavljanje lastnih vsebin ter spletnih mest kot interaktivnih, prepletenih storitev, ki niso več zgolj zbirke datotek v drevesni strukturi, pač pa bolj spominjajo na aplikacije (IIPC, 2012). Vsebine, pri katerih se kažejo najpomembnejše omejitve klasičnih robotov, lahko združimo v naslednje kategorije: • vsebine, ki so v bazah podatkov in jih je možno pridobiti le z iskalnimi poizvedbami; • multimedijske vsebine, dostopne v predvajalnikih in prikazovalnikih; • vsebine, zaščitene z gesli, še posebej, če se URL za prijavo generira dinamično; • vsebine, ki so dostopne prek menijev ali drugih elementov, izdelanih s programskim jezikom JavaScript; • dinamično generirani, spreminjajoči se URL-naslovi, ki postrežejo isto vsebino; • mehanizmi za postopno nalaganje spletnih strani, ki ne zahtevajo hkratnega prenosa vseh virov, uporabljenih za prikaz ali funkcioniranje spletne strani na strani odjemalca; Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 10 / 16 • mehanizmi za filtriranje prikazanih vsebin, ki temeljijo na izpolnjevanju obrazcev; • skripti, ki se ne prenesejo k odjemalcu, pač pa se izvajajo na strani strežnika (Kavčič- Čolić, 2011; International Internet Preservation Consortium, 2012; Pennock, 2013). Navedene težave lahko povzročijo, da se določene vsebine ne zajamejo ali pa se zajamejo, vendar se ne prikažejo na ustrezen način ali se sploh ne prikažejo, ko uporabnik odpre arhivirano verzijo spletnega mesta. Zaradi tovrstnih izzivov se v zadnjih letih pojavljajo rešitve, s katerimi je možno nadgraditi delovanje robotov in vsaj do neke mere izboljšati kakovost zajemov (Sigurðsson, 2016b; Besser, 2017). Ker spletna mesta primarno niso ustvarjena z namenom, da bi jih zajemali roboti, pač pa zato, da bi jih uporabniki odpirali in uporabljali v spletnih brskalnikih, je ena od smiselnih rešitev vključevanje brskalnikov v postopek zajema. Primer orodja, ki za zajem uporablja spletni brskalnik, je Brozzler 15 , razvit pri organizaciji Internet Archive. Brozzler za pridobitev spletnih strani in iskanje povezav znotraj njih uporablja spletni brskalnik brez uporabniškega vmesnika (angl. headless browser) Chromium. Namesto običajnega sledenja povezavam in shranjevanja njihove vsebine, kot je to značilno za klasične robote, Brozzler pred shranitvijo naloži vse vsebine spletnega mesta v spletnem brskalniku in tako bolje kot robot posnema interakcijo uporabnika s spletnim mestom, npr. drsenje, klikanje, uporaba kontrolnih gumbov (Besser 2017; Rollason-Cass, 2022). Podobno orodje je Browsertrix, del paketa orodij, razvitih v okviru projekta Webrecorder, pri katerem sodelujejo različne knjižnice in druge ustanove. Browsertrix poleg orodja za zajem vsebuje tudi uporabniški vmesnik za določanje urnikov zajemov in pregledovanje njihove kakovosti ter s tem predstavlja celostno rešitev za arhiviranje spletnih mest 16 . Uporaba brskalnikov predstavlja bistven napredek pri tehnikah zajemanja sodobnega spleta, verjetno pa ta način ne bo nikoli povsem zamenjal zajemanja z roboti, saj so ti še vedno najprimernejši za izvajanje obsežnejših zajemov. V prihodnosti bomo verjetno priča uporabi različnih kombinacij obeh pristopov (in morda še kakšnega novejšega). Hkrati je treba poudariti, da tudi te naprednejše tehnike ne odpravljajo vseh težav, ki jih predstavlja arhiviranje sodobnega spleta. Ker se spletne tehnologije neprestano razvijajo, bodo metode arhiviranja spleta verjetno vedno vsaj kakšen korak za časom in z njimi nikoli ne bo možno povsem ustrezno zajeti vseh oblik spletnih vsebin. Nekatere pomanjkljivosti so zaradi fluidne in kompleksne narave svetovnega spleta skupne prav vsem pristopom ter predstavljajo neizogibne lastnosti vsakega spletnega arhiva. 5 Splošne omejitve arhiviranja spleta 5.1 Časovna neskladja Časovna skladnost v kontekstu arhiviranja spleta je lastnost določenega skupka arhiviranih spletnih strani, ki nakazuje, da so bile ob določenem času vse prisotne na živem spletu (Ball, 2010). Časovna neskladnost je posledica hipertekstovne narave svetovnega spleta in se lahko pojavi pri vsem gradivu, ki vsebuje hiperpovezave. Časovni soobstoj vira in cilja hiperpovezave se prekine, če je cilj zajet ure ali celo dneve kasneje kot vir, kar se dogaja relativno pogosto (Brügger, 2018). Časovno neskladje se pojavi, ko se v času, ki ga robot porabi za zajem 15 Ime orodja Brozzler je kombinacija angleških besed browser (brskalnik) in crawler (spletni robot) ter s tem nakazuje, da gre za pristop, ki zajemanje z roboti dopolnjuje z uporabo spletnega brskalnika. Več o orodju Brozzler: https://github.com/internetarchive/brozzler 16 Več o projektu Webrecorder in orodju Browsertrix: https://webrecorder.net/ Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 11 / 16 spletnega mesta, določeni deli spletnega mesta spremenijo, vsebina na vrhnjih nivojih izhodiščnega URL-ja (npr. na domači strani) pa se zato časovno več ne ujema z vsebino na globljih nivojih. Tovrstna težava se lahko pojavi že pri manjših spletnih mestih, še bolj pereča pa je pri obsežnejših zajemih (npr. vrhnje nacionalne domene), ki lahko glede na obseg trajajo več tednov ali mesecev. Arhivirane vsebine ne moremo smatrati kot reprezentativno kopijo živega spleta (ali spletnega mesta) v določenem trenutku, pač pa le v določenem časovnem razponu (Pennock, 2013). Rezultat zajema spletnega mesta je lahko njegova kopija, ki morda v taki različici nikoli ni bila dostopna na živem spletu in je povsem unikatna. Glede na vstopno točko (običajno domača stran) lahko zajeta različica vsebuje posamezne spletne strani, ki ob času zajema vstopne točke še niso obstajale in so bile objavljene med zajemom, hkrati pa ne vsebuje spletnih strani, ki so ob zajemu vstopne točke obstajale in so bile med zajemom umaknjene s spletnega mesta, še preden jih je dosegel robot. Brügger (2018) navaja, da so časovna neskladja možna pri vseh spletnih arhivih, hkrati pa je zelo težko oceniti, kje in kako obsežna so. 5.2 Omejitve, ki jih ustvarjajo ustvarjalci spletnih vsebin Globoki splet je svoje ime dobil ravno zaradi svoje nedosegljivosti spletnim robotom. Posamezne vsebine globokega spleta je sicer možno shraniti, vendar so postopki kompleksni, časovno potratni in zahtevajo veliko ročnega dela. Kakršna koli avtomatizirana rešitev je lahko razvita zgolj za vsak posamezen primer, univerzalne rešitve niso možne. Uporabnik zato lahko pričakuje, da v spletnih arhivih ne bo številnih vsebin, ki so na spletu shranjene v bazah podatkov, so dosegljive samo prek iskalnikov ali dostopne le ob registraciji. Tovrstne omejitve niso nastale z namenom omejevanja delovanja robotov, pač pa so tehnične in praktične narave. Ustvarjalci spletnih mest pa lahko delovanje robotov tudi namerno omejujejo. Pogost in uveljavljen način je uporaba datoteke robots.txt, ki se nahaja v vrhnjem direktoriju vsakega spletnega mesta in robotom na osnovi standardnega protokola določa, katere dele spletnega mesta lahko obiščejo in katerih ne, ali celo, da spletnega mesta ne smejo obiskati. Upoštevanje pravil v robots.txt je del pravil dobrega vedenja na spletu, vendar ni obvezno (Sigurðsson, 2016a). Glede na zakonsko podlago, namen zajemanja in politiko arhivske ustanove lahko robot pravila upošteva ali ignorira. Upoštevanje robots.txt je lahko dvorezen meč. Robot ne bo zajel vsega relevantnega gradiva ali celo ne bo zajel nič gradiva, če se je lastnik spletnega mesta tako odločil. Po drugi strani je z upoštevanjem navodil poskrbljeno za vljudnost zajema, robots.txt pa lahko vsebuje tudi koristne izključitve, ki robotu preprečijo nepotrebno zajemanje nevsebinskih delov spletnega mesta. Drug razširjen način omejevanja delovanja robotov so različni testi za ugotavljanje, da je obiskovalec spletnega mesta res človek (npr. Captcha). Ti se uporabljajo predvsem za preprečevanje zlorab spletnih mest s strani zlonamernih robotov in vključujejo različne vrste preizkusov (besedilnih, zvočnih, slikovnih, itd.), ki jih lahko opravi le človek (Guerar et al., 2022). Čeprav se neprestano razvija tudi zlonamerna programska oprema, ki lahko zaobide enostavnejše načine preverjanja, ti mehanizmi učinkovito preprečujejo avtomatizirano shranjevanje spletnih vsebin z roboti. 5.3 Omejitve, ki jih ustvarjajo izvajalci zajemov Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 12 / 16 Vsak zajem je praviloma namenoma zamejen glede na količino zajetega gradiva, število zajetih datotek ali čas zajema; kateri omejevalni parameter je izbran, pa je odvisno od namena zajema in politike arhivske ustanove. Tovrstne zamejitve izvirajo predvsem iz racionalizacije izrabe razpoložljivih sredstev, saj nobena ustanova nima na voljo neomejenega števila zaposlenih, časa in prostorskih kapacitet. Zato so potrebni kompromisi, s katerimi je doseženo optimalno razmerje med razpoložljivimi sredstvi arhivske ustanove in težnji k ohranitvi čim več relevantnih vsebin. To pomeni, da čeprav je namen zajeti določeno spletno mesto v celoti, lahko nekatere vsebine izpadejo iz zajema, ker je robot na določeni točki zaradi nastavljenih omejitev zaključil svoje delo. Kot smo že navedli, je omejitev zajema izražena tudi z globino, ki je odvisna od namena zajemanja v povezavi s sredstvi, ki so na voljo. Pri tematskih zajemih so na primer pogosto zajete le posamezne spletne strani ali segmenti spletišč, ki obravnavajo določeno tematiko. Uporabnik ima tako na voljo le manjše koščke spletnih mest, ki so jih za zajem izbrali kuratorji zbirke. Ker je izbira vsebin za zajem vedno vsaj do neke mere subjektivna in ker je splet tako obsežen, je v zajem nemogoče vključiti čisto vse vsebine, ki so relevantne za določeno temo. Zato so takšne zbirke same po sebi nepopolne. Uporabnikovo zavedanje, kaj zbirka vsebuje in česa ne, pa je odvisno od tega, kako podrobno je arhivska ustanova dokumentirala kriterije in različne druge odločitve, ki so oblikovale vsebino zajema. Tovrstna dokumentacija, če sploh obstaja, uporabniku pogosto ni na voljo. Vsako spletno mesto na živem spletu se lahko uporabniku prikaže na različne načine. Prikaz je lahko odvisen od spletnega brskalnika, geografske lokacije uporabnika ali drugih nastavitev, ki se v obliki piškotkov shranijo na uporabnikov računalnik. Različne verzije istih vsebin ustvarjajo tudi arhivisti. Različne tehnike zajemanja lahko povzročijo, da se kopiji spletnega mesta, ki sta ju ustvarili dve različni arhivski ustanovi, med seboj razlikujeta, nobena od njiju pa ni identična spletnemu mestu, kot je obstajalo v času zajema. Zbirka arhiviranega spleta je v bistvu zbirka različnih verzij, od katerih vsaka predstavlja unikatno rekonstrukcijo izvirnega spletnega mesta, ki verjetno ne obstaja več. Vsaka od verzij je lahko le ena od mnogih in zelo težko je ugotoviti, ali je katera od njih identična izvornemu spletnemu mestu. Prav tako je na podlagi vseh zajetih različic težko ugotoviti, kakšno je bilo izvorno spletno mesto. Arhivirana spletna mesta je zato treba obravnavati kot unikatne različice, ne kot kopije živih spletnih mest. Unikatnost zajetih spletnih mest je drugačna kot na primer pri digitaliziranem gradivu, kjer so posamezni digitalizirani objekti s stališča vsebinske popolnosti veliko bližje ali celo popolnoma identični izvirniku (Brügger, 2018). 6 Nepopolnosti, specifične za spletne arhive Nepopolnost je sestavni del vsake zbirke, vključno z zbirkami digitaliziranega in izvorno digitalnega gradiva, vendar je ta pri spletnih arhivih drugačna. V primeru zbirk digitaliziranega gradiva se nepopolnost lahko pojavi, ker je bila že izvorna fizična zbirka ali primerek nepopoln, pomanjkljivost pa lahko ugotovimo še pred digitalizacijo. Določene sistemske in predvidljive nepopolnosti se lahko pojavijo tudi s postopkom digitalizacije. Ena od bistvenih razlik med arhiviranim spletnim gradivom in digitaliziranim gradivom je, da zaradi neobstojnosti spletnih vsebin uporabnik pri uporabi arhiviranega spletnega gradiva pogosto nima možnosti, da bi preveril, kakšen je bil original. Slednji se je morda spremenil ali pa je povsem izginil s spleta. Po drugi strani pri digitaliziranem gradivu zelo pogosto še vedno obstaja fizični izvirnik, s katerim po potrebi primerjamo digitalizirano verzijo. K netransparentnosti prispeva tudi Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 13 / 16 kompleksnost postopka zajema, ki je lahko pogojen s številnimi odločitvami in specifičnimi nastavitvami uporabljenih orodij. Te modalitete so redko podrobno dokumentirane, zato je težko ugotoviti, do kakšnih nepopolnosti so pripeljale (Brügger, 2018). Nepopolnost pogosto predstavlja nerešljivo težavo tudi za izvajalca arhiviranja. Bolj je postopek kompleksen, večja je možnost za različne človeške ali tehnične napake, ki jih je težko identificirati. V idealni situaciji bi vsak zajem po zaključku podrobno pregledal operater, ki bi po potrebi zajem ponovil z drugačnimi nastavitvami in tako dosegel boljšo kakovost zajetega gradiva. V praksi je to zaradi velike količine gradiva nemogoče. Čeprav je postopke ocenjevanja kakovosti do neke mere mogoče avtomatizirati, je neizogibno, da se bodo v zajetem gradivu pojavljale tudi napake in pomanjkljivosti, ki bi se jih dalo odpraviti, če bi bile zaznane. Hitrost spreminjanja spletnih vsebin in njihovega izginjanja še dodatno poslabšuje možnosti za ponovni, izboljšan zajem prvotno neuspešno pridobljenih vsebin. Najbolj bistvena razlika med spletnimi arhivi in drugimi vrstami zbirk izhaja iz transformativne narave shranjenega gradiva. Kot ugotavlja Masanès (2006), spletno okolje omogoča neprestano spreminjanje, posodabljanje in brisanje vsebin, zaradi česar splet ni stanoviten informacijski prostor, pač pa dinamičen preplet različnih informacijskih sistemov in vsebin. Spletni arhivisti morajo zato gradivo, ki ga zbirajo, izločiti iz tega neprestano spreminjajočega se okolja in poskrbeti za njegovo odpornost proti spremembam, značilnim za svetovni splet. Posledica ločitve gradiva od njegovega izvora (strežnika) je lahko izguba nekaterih funkcionalnosti, ki jih zagotavlja izvorno okolje. Ker so spletne vsebine med postopki zajema in shranitve podvržene različnim spremembam, je ohranitev vseh značilnosti in funkcionalnosti izvornih digitalnih objektov pogosto nemogoča. Brügger (2018) vsebino spletnih arhivov označuje kot digitalno transformirano oziroma preobraženo gradivo in s tem uvaja novo kategorijo digitalnega gradiva, ki se po svoji naravi razlikuje tako od digitaliziranega (angl. digitized) kot od izvorno digitalnega gradiva (angl. born-digital). Uporabnik spletnih arhivov lahko pričakuje odsotnost posameznih elementov, kot so slike, videoposnetki in različne oblike interaktivnosti, ali celo manjkajoče spletne strani in celotna spletna mesta. K temu je treba prišteti tudi selektivno naravo spletnih arhivov, katerih vsebina je periodično zajeta zgolj z izbranih spletnih lokacij. Pri izboru sodelujejo posamezniki z različnimi stopnjami poznavanja spleta, izkušnjami in profili znanj, postopek pa usmerjajo različni zakonski okviri in institucionalne politike. Arhiviranje spleta zato pogosto bolj spominja na vzorčenje kot pa na celosten pristop k ohranjanju dediščine, saj je slednji zaradi obsežnosti, minljivosti in tehničnih značilnosti spleta v praksi neizvedljiv, spletni arhivi pa, kot navaja Hofheinz (2010), pogosto vsebujejo več vrzeli kot vsebine. Kot ugotavlja Brügger (2018), nepopolnost sama po sebi ni posebnost spletnih arhivov, pač pa se ti od drugih zbirk razlikujejo predvsem po tem, da je zelo težko ugotoviti, do kakšne mere so nepopolni, kateri deli vsebine manjkajo in zakaj. 7 Zaključek Ker se je svetovni splet od svojih začetkov razvil v nepogrešljivo globalno komunikacijsko orodje, ki vsebuje veliko količino raznovrstnega znanja in informacij, so prizadevanja za ohranjanje teh vsebin prav tako nujna kot pri drugih digitalnih in fizičnih virih pisne dediščine človeštva. Ena od bistvenih značilnosti svetovnega spleta v primerjavi z drugimi viri informacij je neobstojnost njegove vsebine, kar pomeni, da bi odlašanje s prizadevanji za njeno ohranitev pripeljalo do velikih izgub naše skupne dediščine. Arhiviranje spleta se je na srečo začelo kmalu Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 14 / 16 po njegovem nastanku, vendar se dediščinske ustanove že od začetka soočajo s številnimi izzivi pri ohranitvi vsebine tega dinamičnega, tehnično kompleksnega in izjemno obsežnega prostora. Pristopi k shranjevanju spletnih vsebin se med seboj razlikujejo po kompleksnosti in tehnični dovršenosti, nobeden od njih pa ne zagotavlja celostne shranitve vseh spletnih vsebin. Zajemanje z uporabo spletnih robotov, ki predstavlja najbolj razširjen pristop, je praktično in uporabno, vendar omejeno glede tega, kako daleč v tkivo spleta lahko prodrejo roboti in katere vrste vsebin lahko dosežejo. Kljub nenehnemu razvoju tehničnih rešitev za zajemanje bo velik del vsebine svetovnega spleta tudi v prihodnje ostal neshranjen, spletni arhivi pa bodo verjetno vedno nepopolni. Kot ugotavlja Brügger (2018), je zbirka arhiviranega spletnega gradiva zbirka koščkov preteklega živega spleta, vendar je težko z gotovostjo ugotoviti, koliko relevantnih koščkov je prisotnih v zbirki, ali so vsi iz istega časa in ali so tisti, ki bi morali biti, med seboj povezani. Zaradi pogoste odsotnosti originala in unikatnosti vsake arhivirane različice so spletni arhivi konstitutivno nezanesljivi v smislu zrcaljenja živega, izvorno digitalnega spleta. K temu poleg tehničnih okoliščin prispevajo tudi različni človeški in družbeni dejavniki, ki tako na strani ustvarjalcev spletnih mest kot na strani arhivskih ustanov ustvarjajo omejitve, ki se jim ni mogoče izogniti. Kot navaja Ben-David (2021), je treba pri vrednotenju vsebinske (ne)celovitosti spletnih arhivov poleg tehničnih okoliščin, ki jih oblikujejo, upoštevati tudi družbena okolja, v katerih arhivi nastajajo, ter vrednotne in ideološke pristranskosti, ki jih vsebujejo. Tovrstni razmisleki se dotikajo epistemoloških vprašanj o tem, kakšno znanje vsebujejo spletni arhivi in kako vplivajo na možne načine poznavanja, raziskovanja in razumevanja preteklega spleta. Ker so spletni arhivi nepredvidljivi in netransparentni viri podatkov, je pomembno, da poleg spletnih arhivistov njihove značilnosti dobro poznajo tudi njihovi uporabniki. To še posebej velja za tiste, ki arhivirane podatke uporabljajo za raziskovalno delo, saj morajo pri oceni verodostojnosti rezultatov takšnih raziskav razpolagati s čim boljšimi informacijami o različnih nepopolnostih uporabljenih podatkov. Pri zagotavljanju tovrstnih informacij zagotovo najbolj ključno vlogo igrajo arhivske ustanove z različnimi oblikami izobraževanj in usposabljanj ter z drugimi prizadevanji za ozaveščanje različnih skupin uporabnikov in širše javnosti o pomenu trajnega ohranjanja spletne dediščine ter o številnih izzivih in priložnostih, ki jih predstavlja arhivirani splet. Reference Atelšek, S. et al., 2024. Spletni arhiv. Mnenje Terminološke svetovalnice pri ZRC SAZU. Dostopno na: https://isjfr.zrc-sazu.si/sl/terminologisce/svetovanje/spletni-arhiv [25. 1. 2025]. Ball, A., 2010. DCC State of the art report: web archiving. Edinburgh: University of Edinburgh; UKOLN, University of Bath; HATII, University of Glasgow; Science and Technology Facilities Council. Barone, F., Zeitlyn, D. in Mayer-Schönberger, V., 2015. Learning from failure: the case of the disappearing web site. First Monday, 20(5–4). Dostopno na: https://doi.org/10.5210/fm.v20i5.5852 [25. 1. 2025]. Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 15 / 16 Ben-David, A., 2021. Critical web archive research. V D. Gomes, Demidova E., Winters J. in Risse T. (ur.), The Past Web (str. 181–188). Springer Cham. Bergman, M. K., 2001. White paper: The deep web: surfacing hidden value. Journal of Electronic Publishing, 7(1). DOI: doi:10.3998/3336451.0007.104 Besser, H., 2017. Archiving websites containing streaming media. V Archiving 2017 – Final Program and Proceedings, 2017–May, str. 11–13. Dostopno na: https://doi.org/10.2352/issn.2168-3204.2017.1.0.11 [25. 1. 2025] Brown, A., 2006. Archiving websites: a practical guide for information management professionals. London: Facet. Brügger, N. in Laursen, D., 2019. The historical web and digital humanities : the case of national web domains. London [i. e.] Abingdon; New York: Routledge, Taylor & Francis Group. Brügger, N., 2018. The archived web. London: The MIT Press. Gomes D., 2021. Part 1. The era of information abundance and memory scarcity. V D. Gomes, Demidova E., Winters J. in Risse T. (ur.), The past web (str. 1–3). Springer. Guerar, M., Verderame, L., Migliardi, M., Palmieri, F. in Merlo, A., 2022. Gota CAPTCHA ’em all: a survey of 20 years of the human-or-computer dilemma. ACM Computing Surveys, 54(9), str. 1–33. Dostopno na: https://doi.org/10.1145/3477142 [25. 1. 2025] Hatta, M., 2020. Deep web, dark web, dark net: A taxonomy of “hidden” internet. Annals of Business Administrative Science, 19 (2020), str. 277–292. Hofheinz, A., 2010. A History of Allah.com. V N. Brügger (ur.) Web history (str. 105–135). New York: Peter Lang. International Internet Preservation Consortium, 2012. IIPC future of the web workshop – introduction & overview. International Internet Preservation Consortium. Dostopno na: https://digital.library.unt.edu/ark:/67531/metadc1638392/ [25. 1. 2025] International Organization for Standardization, 2017. Information and documentation — WARC file format (ISO Standard No. 28500:2017). Dostopno na: https://www.iso.org/standard/68004.html [25. 1. 2025] Kanič, I. (ur.) et al., 2020. Islovar. Ljubljana: Slovensko društvo Informatika. Dostopno na: http://islovar.org/ [25. 1. 2025]. Kanič, I., Leder, Z., Ujčič, M., Vilar, P. in Vodeb, G., 2011. Bibliotekarski terminološki slovar. Ljubljana: Amebis. Kavčič-Čolić, A. in Grobelnik, M., 2004. Archiving the slovenian web: recent experiences. V 4 th International Web Archiving Workshop. Dostopno na: https://www.researchgate.net/publication/228413950_Archiving_the_Slovenian_Web_Rece nt_Experiences [25. 1. 2025] Kavčič-Čolić, A. in Klasinc, J., 2011. Arhiviranje spletnih strani v Narodni in univerzitetni knjižnici. Knjižnica, 55(1), str. 209–232. Klasinc, J.: Kako nastajajo spletni arhivi: tehnični vidiki zajemanja spletnih vsebin Organizacija znanja, 2025, 30 (1–2), 2530002 16 / 16 Laska, K., 2019. The pros and cons of using APIs for web archiving (6. 5. 2019). Hanzo. Dostopno na: https://www.jdsupra.com/legalnews/the-pros-and-cons-of-using-apis-for- web-70814/ [25. 1. 2025] Masanès, J., 2006. Web archiving. Berlin; Heidelberg; New York: Springer. Major, D., 2021. The problem of web ephemera. V D. Gomes, Demidova E., Winters J. in Risse T. (ur.), The past web (str. 5–10). Springer. Milligan, I., 2019. History in the age of abundance? Montreal & Kingston; London; Chicago: McGill-Queen’s University Press. Mohr, G., Stack M., Ranitovic I., Avery D. in Kimpton, M., 2004. An introduction to heritrix : an open source archival quality web crawler. V 4 th International Web Archiving Workshop. Dostopno na: http://crawler.archive.org/Mohr-et-al-2004.pdf [25. 1. 2025] NUK, 2025. Zaključeni raziskovalni projekti. Dostopno na: https://www.nuk.uni- lj.si/nuk/raziskovalna-dejavnost-zakljuceni [25. 1. 2025]. Pennock, M., 2013. Web-archiving: DPC technology watch report 13-01 March 2013. Digital Preservation Coalition. Dostopno na: https://www.dpconline.org/docs/dpc-technology- watch-publications/technology-watch-reports-1/865-dpctw13-01-pdf/file [25. 1. 2025]. Pravilnik o vrstah in izboru elektronskih publikacij za obvezni izvod, 2007. Uradni list RS, št. 90/07. Dostopno na: http://www.pisrs.si/Pis.web/pregledPredpisa?id=PRAV8482 [25. 1. 2025]. Rollason-Cass, S., 2022. What is Brozzler? Dostopno na: https://support.archive-it.org/hc/en- us/articles/360000343186-What-is-Brozzler- [25. 1. 2025]. Sigurðsson, K., 2016a. 3 things I shouldn't have to tell you about running a "good" crawler. (24. 2. 2016). Dostopno na: https://kris-sigur.blogspot.com/2016/02/3-things-i-shouldnt- have-to-tell-you.html [25. 1. 2025]. Sigurðsson, K., 2016b. 3 crawlers: 1 writer. (26. 9. 2016). Dostopno na: https://kris- sigur.blogspot.com/2016/09/3-crawlers-1-writer.html [25. 1. 2025]. The history of domains, 2020. Dostopno na: https://www.historyofdomains.com/wais/ [25. 1. 2025]. Weiss, R., 2003. On the web, research work proves ephemeral. Washington Post, 24. 11. 2003. Dostopno na: https://www.washingtonpost.com/archive/politics/2003/11/24/on-the- web-research-work-proves-ephemeral/959c882f-9ad0-4b36-88cd-fb7411db118d/ [25. 1. 2025]. Zakon o obveznem izvodu publikacij, 2009. Uradni list RS, št. 69/06 in 86/09. Dostopno na: http://www.pisrs.si/Pis.web/pregledPredpisa?id=ZAKO3606 [25. 1. 2025].