GOOGLE IN INFORMACIJSKI VIRI ZA PODROČJE BIBLIOTEKARSTVA IN INFORMACIJSKE ZNANOSTI: PRIMERJALNA ANALIZA Marjetka Sluga Oddano: 4. 9. 2007 - Sprejeto: 14. 9. 2007 Izvirni znanstveni članek UDK 004.738.52:02 UDK 001.102:004.659 Izvleček Prispevek vključuje ugotovitve iz raziskave, ki je bila opravljena v okviru diplomske naloge avtorice (Sluga, 2006). Namen raziskave je bil analizirati in primerjati učinkovitost različnih online dostopnih sistemov za iskanje informacij pri iskanju odgovorov na specifična vprašanja iz področja bibliotekarstva in informacijske znanosti. Gre za ekspertno študijo, za katero so bila pripravljena 4 tipična vprašanja iz izbranega področja. Odgovore na ta vprašanja je bilo potrebno poiskati v Googlu, Googlu Scholar in v treh izbranih knjižničnih informacijskih virih. Za primerjavo teh sistemov je bilo uporabljenih 5 kriterijev: relevantnost, kvaliteta, unikatnost in dostopnost dokumentov ter natančnost sistemov. Rezultati primerjalne analize so pokazali določene prednosti in slabosti vsakega od sistemov. Najboljše rezultate so dosegli knjižnični informacijski viri, predvsem glede relevantnosti, kvalitete in unikatnosti dokumentov ter natančnosti iskanja. Pri Googlu pa se je pokazalo, da ni nobenih težav z dostopnostjo, in da nudi veliko unikatnih dokumentov, ki so večinoma dobre ali zadostne kvalitete. Google Scholar se odlikuje predvsem po kvaliteti dokumentov, ki pa so precej težje dostopni. Vsi trije tipi sistemov se na ta način medsebojno dopolnjujejo. Ključne besede: iskanje informacij, spletni iskalniki, informacijski viri, knjižnice, svetovni splet, Google, Google Scholar SLUGA, Marjetka. Google and information resources in library and information science: a comparative analysis. Knjižnica, Ljubljana, 51(2007)3-4, p. 23-40 23 Knjižnica 51(2007)3-4, 23-40 Original scientific article UDC 004.738.52:02 UDC 001.102:004.659 Abstract The article is based on the author’s (Sluga, 2006) research which was the basis for her bachelor’s thesis. The purpose of the research was to analyse and compare the performance of different online based information retrieval systems in answering queries on library and information science. A case study approach which included four carefully selected cases was used. Search was made in Google, Google Scholar and in appropriate library databases and systems. The performance of these systems was assessed in terms of relevancy, uniqueness, quality, accessibility of documents and precision. The findings demonstrate the advantages and disadvantages of each type. Library databases were highly successful in relevancy, quality and uniqueness of the results and have the ability to retrieve a more precise set of documents. With Google, there were no problems with accessibility, and it offers a high proportion of unique documents. Google Scholar is superior in quality but there are more problems with accessibility. Thus, these systems complement each other. Key words: information retrieval, search engines, information resources, libraries, World Wide Web, Google, Google Scholar 1 Uvod Knjižnice in svetovni splet služijo uporabnikom za iskanje odgovorov na njihove informacijske potrebe. Vendar: Ali se lahko popularni spletni iskalnik Google primerja s knjižničnimi viri in doseže kvaliteto ter nivo knjižničnih storitev? Očitno Google ima določene prednosti, s katerimi dosega, da se iz dneva v dan širi krog njegovih uporabnikov. Vse več je predvsem mlajših uporabnikov, ki se zadovoljijo z informacijami, ki jih najdejo na spletu. Postalo je samoumevno, da se vsako iskanje začne z Googlom. Vedno bolj se razvijajo tudi specialni iskalniki, kot je Google Scholar, ki omogočajo uporabnikom zamejitev zadetkov na strokovne vire visoke kakovosti. Rast svetovnega spleta tako predstavlja velik izziv za tradicionalno iskanje informacij, in prvič se dogaja, da so knjižnice soočene z vedno večjo konkurenco. Zaradi aktualnosti te tematike smo se odločili, da preučimo uporabnost Googla in izbranih infomacijskih virov za področje bibliotekarstva in informacijske znanosti, in sicer po zgledu raziskave, katere avtorja sta Jan Brophy in David Bawden (2005). Izvedli smo raziskavo, s katero smo skušali: - opredeliti prednosti in slabosti izbranih informacijskih virov, - ugotoviti, v katerih primerih je bolje uporabljati spletni iskalnik Google in v katerih knjižnične informacijske vire, 24 Sluga, M. Google in informacijski viri za področje bibliotekarstva in informacijske znanosti: primerjalna analiza - odgovoriti na vprašanje, ali moramo kvalitetne dokumente vedno iskati le s pomočjo tradicionalnih knjižničnih informacijskih virov ter - ugotoviti, ali se rezultati pri bolj strokovnih vprašanjih razlikujejo od vprašanj bolj poljudne narave, ki sta jih v svoji raziskavi uporabila Brophy in Bawden. 2 Pregled dosedanjih raziskav V strokovni literaturi obstaja ogromno člankov, ki predstavljajo različne vrste raziskav na temo iskanja informacij na spletu, primerjave spletnih iskalnikov, iskanje po online knjižničnih katalogih in še veliko drugih. Zanimiva sta npr. članka Xie (2004) ter Doldi in Bratengeyer (2005), saj gre pri obeh za poročilo o raziskavi, kjer so vrednotili in primerjali razne podatkovne zbirke in spletne iskalnike. Tematika o Googlu in knjižnicah je zelo obširno predstavljena tudi v prispevkih zbornika Libraries and Google (Miller in Pellen, 2007). Za pričujočo raziskavo pa je predvsem pomemben članek, ki sta ga objavila Brophy in Bawden. Uporabljene metode dela namreč temeljijo na njuni že preizkušeni metodi. Na koncu pa bomo rezultate obeh raziskav tudi primerjali. 3 Metoda dela 3.1 Izbor raziskovalne metode Bistvo te raziskave je primerjava iskalnih rezultatov Googla, Googla Scholar in knjižničnih informacijskih virov (COBIB.SI, LISA in Emerald Fulltext). Za vključitev Googla Scholar v raziskavo smo se odločili naknadno, predvsem zaradi njegove aktualnosti in zaradi tega, ker predstavlja nekakšno vez med Googlom in knjižničnimi informacijskimi viri. V večini gre za kvalitativni pristop, saj vključuje ocenjevanje kvalitete iskalnih zadetkov. S kvalitativnimi metodami smo skušali odkriti prednosti in slabosti naštetih informacijskih virov. Kvantitativna metoda pa je uporabljena za merjenje natančnosti teh sistemov. Gre za ekspertno študijo oz. študijo primera. Da bi se izognili problemom s posploševanjem rezultatov, smo uporabili študijo več primerov (različne teme smo vrednotili neodvisno). Reprezentativnost vzorca je bila dosežena z veliko vnesenimi poizvedbami ter s čimbolj raznolikimi temami iz izbranega tematskega področja bibliotekarstva in informacijske znanosti. Le-te so bolj podrobno predstavljene v naslednjem poglavju. 25 Knjižnica 51(2007)3-4, 23-40 3.2 Izbrane teme oz. tipična vprašanja za področje bibliotekarstva in informacijske znanosti Po podrobnem pregledu literature smo začeli pripravljati in zbirati ideje za tipična vprašanja oz. teme na področju bibliotekarstva in informacijske znanosti. Ker smo se odločili, da morajo biti relevantni dokumenti primerni za dodiplom-skega študenta bibliotekarstva za pripravo seminarske naloge v študijske namene, nam je to služilo kot osnova za izbor tipičnih vprašanj. Pripravili smo jih na podlagi že izdelanih seminarskih nalog na Oddelku za bibliotekarstvo, informacijsko znanost in knjigarstvo. Nekatere ideje pa smo dobili tudi iz diplomskih nalog študentov našega oddelka. Spodaj je predstavljenih vseh 5 v raziskavi uporabljenih tipičnih vprašanj vključno s testnim primerom. Pri vsaki temi smo določili ključne vsebine in pojme (bolj natančna predstavitev je v diplomskem delu avtorice), ki naj bi jih študent predstavil v svoji seminarski nalogi. To nam je v raziskavi služilo kot osnova za iskanje tako v angleškem kot v slovenskem jeziku, za izbor iskalnih nizov in za ocenjevanje relevantnosti zadetkov. Testni primer za pilotsko raziskavo: Promocija v knjižnici (Promotion in libraries) Vprašanja, uporabljena v glavnem delu raziskave: 1. Ugotavljanje uspešnosti delovanja visokošolskih knjižnic (Library performance measurement in academic libraries) 2. Obstoječi načini katalogizacije e-dokumentov (Existing methods of e-docu-ment cataloguing) 3. Elektronski referenčni servisi (Digital (electronic) reference) 4. Razvoj knjižnične zbirke v šolski knjižnici (Collection development in school library) 3.3 Potek raziskave in načini obdelave podatkov Raziskava je potekala v naslednjih fazah: - pregledali smo literaturo, ki je na voljo; - pripravili smo 5 primerov tipičnih vprašanj oz. tem iz področja bibliotekarstva in informacijske znanosti; - na enem od petih primerov smo izvedli pilotsko raziskavo (opravili poizvedbe v vseh sistemih, ocenili relevantnost, kvaliteto ter dostopnost zadetkov); - od 19. do 21. junija 2006 smo izvedli glavni del raziskave, in sicer smo opravili poizvedbe za vse 4 izbrane teme v vsakem od izbranih informacijskih virov; 26 Sluga, M. Google in informacijski viri za področje bibliotekarstva in informacijske znanosti: primerjalna analiza - rezultate smo shranili za kasnejšo obdelavo; - ocenili smo relevantnost za vseh 741 zadetkov ter izračunali natančnost; - vse relevantne in delno relevantne zadetke (skupaj 328) smo ocenili glede na kvaliteto in dostopnost; - pregledali smo unikatnost zadetkov oz. prekrivanje zadetkov med Googlom, Googlom Scholar in knjižničnimi viri; - dobljene rezultate smo obdelali, jih predstavili s pomočjo grafikonov in preglednic ter interpretirali. Odgovore na tipična vprašanja smo iskali s pomočjo Googla, Googla Scholar in izbranih knjižničnih virov za področje bibliotekarstva in informacijske znanosti. Poizvedb nismo pripravili vnaprej, ampak so nastajale sproti med iskanjem. Na ta način smo lahko prilagajali in spreminjali iskalne strategije. Prav zaradi tega števila poizvedb nismo omejili. Iskanje za eno tipično vprašanje smo v vseh sistemih izvedli v enem dnevu. V vsakem od sistemov (npr. v Googlu) pa iskanje ni smelo trajati več kot eno uro. Pri sistemih, ki omogočajo razvrščanje po relevantnosti, smo pri vsaki poizvedbi upoštevali le prvih 10 zadetkov in na ta način omogočili primerljivost naših rezultatov s tistimi iz prejšnjih raziskav. Pri COBIB.SI smo upoštevali vse najdene zadetke, ker razvrščanje po relevantnosti ni omogočeno. Vse najdene zadetke smo potem shranili in tako omogočili kasnejše ocenjevanje. Kot kriteriji za primerjavo vseh treh vrst informacijskih virov nam bodo služili: relevantnost, natančnost, kvaliteta, dostopnost in unikatnost dokumentov. V prvi fazi je bilo potrebno oceniti relevantnost dobljenih zadetkov. Pri tem smo se zgledovali po Brophyjevi in Bawdenu ter upoštevali metodo in kriterije, ki sta jih uporabila v svoji raziskavi. Kriteriji za relevantnost Namen ocenjevanja je bil vrednotiti praktično uporabnost dokumentov in ne zgolj njihovo ustreznost glede na iskalno zahtevo. Zelo pomembno je dejstvo, da smo se pri tem čimbolj skušali vživeti v vlogo našega namišljenega uporabnika. Ker smo se odločili, da bomo raziskavo posvetili področju bibliotekarstva in informacijske znanosti, so morali biti relevantni dokumenti primerni za dodiplom-skega študenta bibliotekarstva, in sicer za pripravo seminarske naloge v študijske namene. Upoštevana jezika sta bila angleščina in slovenščina. Dokumenti v ostalih jeziki so bili nerelevantni. Nerelevantni so bili tudi zadetki, ki so vsebovali premalo podatkov, da bi lahko sklepali o relevantnosti ter duplikati (za duplikate smo smatrali zadetke, ki so imeli enak URL oz. vsebino kot nek predhodni zadetek). Vsak dokument je bil lahko ocenjen kot »Relevanten«, »Delno relevanten« in »Nerelevanten«. Način ocenjevanja relevantnosti je razviden iz Preglednice 1. 27 Knjižnica 51(2007)3-4, 23-40 Stopnjo relevantnosti smo ocenjevali na podlagi treh vidikov oz. kriterijev. - »Tematsko ujemanje«: Dokument se tematsko ujema, če se v kateremkoli pogledu vsebinsko ujema s poizvedbo. - »Koristnost«: Dokument se smatra kot koristen, če je informativen. Dejansko vsebuje bistvene informacije za uporabnika in ni le npr. seznam povezav. Napisan mora biti v jeziku, razumljivem uporabniku, in v takem formatu, da ga lahko uporablja. Negativno oznako dobijo tudi izrazito marketinško naravnane spletne strani in dokumenti, recenzije knjig ter parodično ali humoristično prikazane vsebine ter druge nesprejemljive vsebine. - »Uporabnost«: Dokument se označi kot uporaben, če lahko uporabnik z njim zadovolji svoje informacijske potrebe. Ta dokument lahko npr. uporabi in citira v svoji seminarski nalogi. Preglednica 1: Metoda ocenjevanja relevantnosti. Št. dokumenta Tematsko ujemanje Koristnost Uporabnost Relevanten Delno relevanten Nerelevan-ten 1 D D D X 2 D D N X 3 D N N X 4 D N D X 5 N N N X 6 N N D X 7 N D D X 8 N D N X Izračun natančnosti Za vsak informacijski vir posebej smo izračunali tudi natančnost. Jasno je, da ko sistem poišče zadetke za določeno poizvedbo, poleg relevantnih najde tudi nere-levantne. Ti nerelevantni zadetki vplivajo na uspešnost sistema, saj jih mora uporabnik pregledati in zavreči. S tem izgubi veliko dragocenega časa. Za sistem je torej pomembno, poleg tega da najde relevantne dokumente, da izloči nerele-vantne. Natančnost je torej faktor, ki predstavlja uspešnost sistema pri izločanju neželenih zadetkov. Izračun smo opravili po naslednji formuli: natančnost število vseh relevantnih zadetkov število vseh zadetkov Ocene relevantnosti so seveda zelo subjektivne glede na uporabnikovo znanje, izkušnje, izobrazbo... Dokument se lahko tematsko ujema z informacijsko potrebo uporabnika, vendar pa zanj trenutno ni koristen, ker npr. vsebino pozna že od prej. Uporabnikova subjektivna presoja relevantnosti na ta način vpliva na izračun natančnosti sistema. To je največja slabost pri uporabi natančnosti kot 28 Sluga, M. Google in informacijski viri za področje bibliotekarstva in informacijske znanosti: primerjalna analiza kriterija, saj lahko sistem najde več relevantnih zadetkov, ki pa v določeni situaciji, ob določenem času za nekega uporabnika niso relevantni (Chowdhury, 2004). Kriteriji za ocenjevanje kvalitete Pri ocenjevanju kvalitete smo upoštevali zadetke, ki so bili v fazi ocenjevanja relevantnosti označeni kot relevantni in kot delno relevantni. Vsak dokument smo ocenjevali glede na več različnih kriterijev: »Kontekst (strokovni ugled, izvor, objektivnost)«, »Vsebina (aktualnost, natančnost, izčrpnost)« ter »Vrsta vira (narava samega dokumenta)«. Ko smo pregledali vse dokumente, smo združili vse te tri vidike in ocenili splošno kvaliteto posameznega dokumenta. Ti trije kriteriji so nam pomagali zagotavljati doslednost, zmanjševali subjektivnost ter nam dali nekakšen splošen vtis pri ocenjevanju dokumentov. Zato ni bil naš namen, da bi pri vsakem dokumentu natančno odgovorili na vse kriterije. V realnosti to skorajda ni mogoče. Dokumenti dobre kvalitete so tisti iz uglednejših virov (npr. strokovne revije, ugledne organizacije, izobraževalne ustanove) in vsebujejo podatke o avtorju, datumu objave ter kontaktne informacije. Večjo težo imajo tudi tisti prispevki, ki vsebujejo tudi povzetek in bibliografijo. Kot zadostno kvalitetni dokumenti so ocenjeni tisti, ki so iz bolj splošnih ali komercialnih virov vendar še vedno nudijo ustrezne informacije o avtorstvu, času objave in kontaktih. Slabe kvalitete pa so tisti dokumenti, ki vseh teh informacij ne nudijo in ne vemo, kakšnega izvora so. Enako velja tudi za primere, ko spletna stran vsebuje nedelujoče oz. nedostopne povezave. Kriteriji za ocenjevanje dostopnosti Tudi dostopnost smo razdelili na tri stopnje. Odločali smo se na podlagi spodaj predstavljenih kriterijev. »Takoj dostopen«: - če je celotni tekst dostopen takoj na spletu; - če je pri zadetku direktna povezava na zapis v COBIB.SI (Google Scholar) in ga v knjižničnih virih tudi lahko dobimo; - če je celotno besedilo dostopno preko NUK-ovega Mrežnika ali pa če lahko pridemo do dokumenta v kateri izmed univerzitetnih knjižnic v Ljubljani ali v kateri izmed splošnih knjižnic v Ljubljani. »Težje dostopen«: - če je potrebno dokument, da lahko pridemo do celotnega besedila (ne da bi morali kaj plačati) poiskati poleg v Googlu in Google Scholar še v knjižničnih virih in ga tam tudi dobimo. Npr. Google najde članek iz Emeralda vendar nam ne omogoča vpogleda v celotno besedilo članka; 29 Knjižnica 51(2007)3-4, 23-40 - če je potrebna medknjižnična izposoja oz. se dokument nahaja v ostalih knjižnicah, ki niso v Ljubljani ali pa so v Ljubljani, vendar ne gre za splošno ali univerzitetno knjižnico. »Nedostopen«: - če povezava ne deluje več (ob ocenjevanju relevantnosti je še delovala, zato je bil dokument vključen v nadaljnjo analizo) ali pa če je potrebno za celotno besedilo plačati; - če ni dostopnega izvoda v katalogu in če ni mogoče dostopati do celotnega besedila. Odločili smo se tudi za pilotsko raziskavo, ker smo želeli najprej preizkusiti metode, ki smo jih uporabili v raziskavi. Na ta način smo odkrili težave in dileme ter jih razrešili že med pilotsko raziskavo. Med iskanjem in ocenjevanjem dokumentov smo pridobili znanja in izkušnje, da smo kasneje lažje izpeljali dejansko raziskavo. Metodologijo smo izpopolnili do potankosti, zato da v kasnejših fazah ne bi prihajalo do dilem in nejasnosti. Natančno smo določili kriterije, po katerih smo ocenjevali relevantnost, kvaliteto in dostopnost. Za vse postavke, ki smo jih ocenjevali, smo oblikovali obrazce oz. tabele, ki so nam služili za lažje in bolj pregledno delo. Celotno vrednotenje oz. ocenjevanje je izvedel en sam raziskovalec, zato gre za delno subjektivne ocene. Odsotnost pravih uporabnikov v raziskavi smo skušali nadomestiti tako, da smo točno določili tip uporabnika, ki bi lahko v praksi izvajal takšno iskanje. Tako smo se lahko med iskanjem popolnoma vživeli v vlogo našega uporabnika in se hkrati izognili različnim težavam, ki se pojavljajo pri raziskavah s pravimi uporabniki. 4 Rezultati V celoti smo za vsa 4 tipična vprašanja našli 741 zadetkov. Od tega 255 v Googlu, 221 v Googlu Scholar in 265 v knjižničnih virih. V povprečju smo za vsako tipično vprašanje v vsakem od treh sistemov opravili 6 poizvedb. Za vsako tipično vprašanje smo izmerili uspešnost vseh treh sistemov na treh različnih področjih: relevantnost, kvaliteta in dostopnost. Na koncu pa smo še preverili, v kolikšni meri se prekrivajo zadetki iz različnih virov oz. kolikšen je delež unikatnih zadetkov pri vsakem od sistemov. V nadaljevanju so v obliki grafikonov predstavljeni bistveni rezultati za našo raziskavo. 4.1 Relevantnost Slika 1 prikazuje odstotek najdenih dokumentov glede na tri kategorije relevantnosti. Pri vseh štirih primerih je imel Google Scholar najvišji delež nerelevant- 30 Sluga, M. Google in informacijski viri za področje bibliotekarstva in informacijske znanosti: primerjalna analiza nih dokumentov, najvišji delež relevantnih pa knjižnični viri. Google je imel v vseh primerih najnižji delež relevantnih dokumentov. 80 70 SS 60 i 50 g Š 40 co N S 30 CD Q 20 10 0 I ^IfiR » ¦ Relevantni ¦ Delno relevantni D Nerelevantni \ k ^ jy oP jy f «v Slika 1: Najdeni zadetki po relevantnosti. Natančnost smo računali po že opisanem postopku. Rezultati so razvidni iz Slike 2. Najbolj izstopa v vseh primerih najvišja (več kot 50 %) natančnost knjižničnih informacijskih virov. Google in Google Scholar imata precej nižjo natančnost, s tem da ima Google Scholar pri prvem in zadnjem primeru še nekoliko nižji odstotek natančnosti (27 % in 25 %). Rezultati torej kažejo, da na področju bibliotekarstva in informacijske znanosti knjižnični viri omogočajo višjo natančnost zadetkov, oz. so bolj uspešni pri izločanju nerelevantnih dokumentov. 70 60 50 S? i 40 V) o '§ 30 iS m z 20 10- ? Google ¦ Google Scholar D Knjižnični viri "m I 1. 2. 3. 4. Tipična vprašanja Slika 2: Natančnost. 31 Knjižnica 51(2007)3-4, 23-40 4.2 Kvaliteta Kot že rečeno, smo ocenjevali kvaliteto in dostop,nost le relevantnih ter delno relevantnih dokumentov. V celoti to pomeni 328 dokumentov, in sicer od tega 102 (31 %) iz Googla, 72 (22 %) iz Googla Scholar ter 154 (47 %) iz knjižničnih virov. Slika 3 prikazuje povzetek rezultatov ocenjevanja kvalitete pri vseh štirih primerih. Pri vseh močno prevladuje odstotek dokumentov, ki so dobre kvalitete. V nekaterih primerih so bili dokumenti v celoti dobre kvalitete. Le v zadnjem primeru pri Googlu in Googlu Scholar razlika med tistimi dobre kvalitete in tistimi zadostne kvalitete ni tako očitna. Dokumenti slabe kvalitete so se pojavljali le pri Googlu (vendar v manjšem številu – 8 zadetkov) in sicer v vseh štirih primerih. 100 * 80 Š S 60 N •a o 40 -Q 20- n D Dobra kvaliteta D Zadostna kvaliteta D Slaba kvaliteta "l__ ¦ 1 I ^ . 1 ¦ 1 1 1 V a** ^ Slika 3: Relevantni zadetki glede na kvaliteto. V celoti je bilo 65 % dokumentov, ki jih je našel Google, dobre kvalitete, Google Scholar 92 % ter knjižnični viri 92 %. Pri Googlu je bil najvišji odstotek (27 %) dokumentov zadostne kvalitete ter dokumentov slabe kvalitete (8 %). Knjižnični viri in Google Scholar torej nudijo za naše izbrano strokovno področje kvalitetnejše vire od Googla. 4.3 Dostopnost Pri ocenjevanju dostopnosti se je pokazala največja prednost, ki jo ima Google. Slika 4 kaže, da odstotek takoj dostopnih dokumentov v vseh primerih presega 80 %. Pri četrtem primeru so celo vsi dokumenti takoj dostopni. Tudi rezultati knjižničnih virov so precej enotni. Takoj dostopnih je okoli 80 % dokumentov. 32 Sluga, M. Google in informacijski viri za področje bibliotekarstva in informacijske znanosti: primerjalna analiza Najslabše pa se je glede dostopnosti izkazal Google Scholar. V prvih treh primerih je precej visok odstotek težje dostopnih dokumentov, v zadnjem primeru pa ima Google Scholar kar 33 % nedostopnih dokumentov. V celoti je pri knjižničnih virih 15 % dokumentov, ki niso dostopni, ter 4 % takih dokumentov, ki so težje dostopni ali bi potrebovali medknjižnično izposojo. Pri Googlu Scholar pa je kar 47 % dokumentov, ki so težje dostopni ali nedostopni. > 80 > g H 60 a 3 40 o O 20 ¦ p, ¦ Takoj dostopni ¦ Težje dostopni D Nedostopni 1 ^ i L n Jl L LIL, y Slika 4: Relevantni zadetki glede na dostopnost. 4.4 Unikatnost Najprej smo izračunali delež zadetkov, ki smo jih našli le v enem od sistemov, in so zato unikatni. Postopek je bil sledeč: unikatni dokumenti (relevantni - tisti, ki smo jih našli v katerem od ostalih virov) vsi relevantni za en primer v enem od virov Najnižji odstotek relevantnih zadetkov, ki so unikatni, je v Google Scholar, naj-višji odstotek relevantnih unikatnih zadetkov pa ima v dveh primerih Google in v dveh primerih knjižnični viri. Slika 5 prikazuje deleže, izračunane po naslednjem postopku: število unikatnih dokumentov v enem od virov število vseh unikatnih dokumentov pri enem vprašanju Iz grafikona je torej razviden delež unikatnih dokumentov znotraj vsakega od tipičnih vprašanj. Prikazuje, kolikšen odstotek zadetkov pri vsakem primeru je 33 Knjižnica 51(2007)3-4, 23-40 bilo unikatnih v katerem od treh različnih informacijskih virov. Najvišji delež pri vseh primerih so dosegli knjižnični viri, kar je tudi posledica večjega števila relevantnih zadetkov iz knjižničnih virov. Najmanj unikatnih zadetkov pa je prispeval Google Scholar. 90 80 i 70 g 60 "S SS so 2 40 => 30 20 10 ------- D Knjižnica ¦ Google Scholar ¦ Google ¦ I ¦ ____ 1. vprašanje 2. vprašanje 3. vprašanje 4. vprašanje Slika 5: Delež unikatnih zadetkov po različnih informacijskih virih. V Preglednici 2 je številčno prikazano prekrivanje zadetkov med različnimi informacijskimi viri ter število unikatnih pri vsakemu od virov. Največ enakih dokumentov smo našli v knjižničnih virih in v Googlu Scholar. Na splošno pa obstaja med različnimi viri zelo majhno prekrivanje. Preglednica 2: Prekrivanje zadetkov med informacijskimi viri. Google Google Scholar Knji`nica Google 94 5 4 Google Scholar 60 9 Knji`nica 142 5 Razprava Kot prvi primerjalni kriterij med tremi vrstami informacijskih virov nam je služila relevantnost. Glede na rezultate so nam dali največ relevantnih dokumentov knjižnični informacijski viri, slabše pa sta se odrezala Google in Google Scholar. Uspešnost vsakega od sistemov zelo jasno ponazarjajo tudi podatki o natančnosti. Na tem mestu nas zanimajo predvsem možni vzroki za tako situa- 34 Sluga, M. Google in informacijski viri za področje bibliotekarstva in informacijske znanosti: primerjalna analiza cijo. Pri Googlu in Googlu Scholar je bila precej problematična velika količina enakih zadetkov oz. duplikatov. Ker smo te zadetke upoštevali kot nerelevantne, se je na ta način znižala natančnost obeh sistemov (v knjižničnih virih je bilo duplikatov precej manj). O vplivu duplikatov na rezultate smo se prepričali na ta način, da smo naknadno izračunali natančnost, ne da bi pri tem upoštevali duplikate. Ugotovili smo, da je na ta način natančnost v povprečju pri vseh višja, vendar tudi v tem primeru ostanejo knjižnični viri na prvem mestu z najvišjo natančnostjo. Vzroki za slabše rezultate pri Googlu in Googlu Scholar so lahko zelo različni. Menimo, da je najbolj problematična ogromna količina podatkov na spletu. S tem se namreč tudi zelo uporabni dokumenti izgubijo v množici. Ko pregledamo le prvih deset zadetkov pa se možnost, da bi našli več za nas relevantnih dokumentov, še zmanjša. Sama narava Googla je torej taka, da indeksira ogromne količine dokumentov na spletu in je zato zelo težko, posebej med prvih 10 zadetkov, dobiti tisto, kar potrebujemo. Nadaljnji vzroki za slabšo uspešnost iskanja so lahko tudi možna napačna uporaba strokovnih izrazov v angleščini in neizkušenost pri iskanju. Menimo tudi, da Google dejansko nudi manj strokovnih vsebin kot pa knjižnični informacijski viri. Relevantni kvalitetni strokovni dokumenti pa se lahko skrivajo globlje v množici iskalnih rezultatov. Kot že rečeno, natančnih podatkov o podatkovnih zbirkah, ki jih indeksira Google Scholar, ni. Ob pregledovanju zadetkov pa smo dobili občutek, da Google Scholar indeksira veliko strokovnih podatkovnih zbirk iz naravoslovnih ved, medicine, a manj iz družboslovja. Ravno v tem lahko iščemo vzrok za tako veliko število nerelevantnih dokumentov, ki smo jih našli z Googlom Scholar. Naslednji kriterij je bila kvaliteta relevantnih in delno relevantnih dokumentov. Rezultati so bili pri vseh sistemih presenetljivo dobri, saj v vseh primerih močno prevladujejo dokumenti dobre kvalitete. V manjšem številu so se dokumenti slabe kvalitete pojavili le pri Googlu. Za rezultate, ki jih je dal Google, je predvsem značilno, da se med prvih 10 zadetkov uvrščajo dokumenti iz uglednih izobraževalnih ustanov in različnih organizacij, združenj...(npr. IFLA). Torej spletni iskalnik Google omogoča iskanje tudi po zelo kvalitetnih virih iz področja bibliotekarstva in informacijske znanosti. V primeru, da bi za raziskavo uporabljali le Google, pa bi izpustili množico zelo kvalitetnih dokumentov, ki jih nudijo Google Scholar in knjižnice. Kar 92 % vseh dokumentov pri obeh sistemih je bilo dobre kvalitete. Pri Googlu pa le 65 %, s tem da je kar visok odstotek (v primerjavi z ostalima) dokumentov zadostne kvalitete (27 %). To gre predvsem na račun dokumentov iz bolj komercialnih virov oz. splošnih virov, ki so se pri Google Scholar in knjižničnih virih pojavljali le v manjši meri. Uspešnost sistemov za iskanje smo poleg relevantnosti in kvalitete ocenjevali tudi na podlagi dostopnosti relevantnih dokumentov. Iz izkušenj smo sklepali, da bo Google pri tem kriteriju dosegel najboljši rezultat, Google Scholar in knjižnični viri pa slabšega. Po preverjanju dostopnosti vsakega od relevantnih in delno relevantnih dokumentov se je ta domneva tudi potrdila. V nasprotju s 35 Knjižnica 51(2007)3-4, 23-40 pričakovanji so bili precej uspešni tudi knjižnični informacijski viri. Po našem mnenju lahko ta zadovoljiv uspeh pripišemo celotnim besedilom člankov v Emerald Fulltext ter dobro založenostjo NUK-a in OHK-ja z revijami in drugo literaturo za področje bibliotekarstva in informacijske znanosti. Najslabši rezultat je dosegel Google Scholar. Vzrok lahko iščemo v zapisih iz podatkovnih zbirk, ki jih indeksira Google Scholar, vendar ne omogoča brezplačnega dostopa do celotnih besedil. Do teh lahko pridemo preko NUK-a ali druge visokošolske knjižnice, v katero smo včlanjeni. Predvsem so dobrodošle povezave do zapisa v COBIB.SI, ki jih nudi Google Scholar. V več primerih je namreč zapis v Google Scholar le bibliografska navedba, in če je pod zapisom še povezava v naš vzajemni katalog, je to zelo dobrodošla informacija. Kot zadnji pokazatelj prednosti in slabosti vseh treh sistemov za iskanje informacij smo uporabili unikatnost oz. prekrivanje zadetkov. Pri tem so Google in knjižnični viri nudili približno enak delež unikatnih dokumentov. Slabši rezultat pa je dosegel Google Scholar, pri katerem se pojavlja prekrivanje tako z Goog-lom kot s knjižničnimi viri. To je seveda logično, saj Google Scholar v določeni meri indeksira podatkovne zbirke, ki sodijo med knjižnične informacijske vire. Iz teh rezultatov lahko sklepamo, da se pri raziskovanju izplača uporabljati različne informacijske vire, saj imamo tako več možnosti, da najdemo čimbolj raznolike dokumente. V Preglednici 3 je v odstotkih izračunana celotna uspešnost (za vse 4 primere skupaj) po različnih kriterijih. Glede kvalitete so najboljši knjižnični viri, najlažje dostopni so spletni dokumenti, ki jih indeksira Google, in najbolj natančne rezultate so nam nudili knjižnični informacijski viri. Glede unikatnosti so bili Google in namenski knjižnični informacijski viri boljši od Googla Scholar. Preglednica 3: Celotni prikaz uspešnosti različnih sistemov za iskanje informacij v odstotkih (%). Google Google Scholar Knji`nica Dobra kvaliteta 65 92 92 Zadostna kvaliteta 27 8 8 Slaba kvaliteta 8 0 0 Takoj dostopni 95 53 81 Te`je dostopni 4 40 4 Nedostopni 1 7 15 Natan~nost 40 33 58 Unikatnost 92 83 92 36 Sluga, M. Google in informacijski viri za področje bibliotekarstva in informacijske znanosti: primerjalna analiza Po analizi vseh rezultatov pričujoče raziskave lahko povzamemo nekaj značilnosti posameznih sistemov za iskanje informacij na področju bibliotekarstva in informacijske znanosti. Google: - v vseh primerih iz izbranega področja smo s pomočjo Googla našli najmanjši delež relevantnih dokumentov; - je srednje uspešen pri izločanju nerelevantnih zapisov; - pri večkratnih poizvedbah na isto temo nam poišče veliko enakih dokumentov (duplikatov); - ima najvišji odstotek dokumentov slabe kvalitete in najnižji odstotek dokumentov dobre kvalitete; - z dostopnostjo najdenih dokumentov ni težav; - nudi veliko unikatnih dokumentov. Google Scholar: - zelo slabo izloča nerelevantne dokumente saj je imel v vseh primerih najvišji delež nerelevantnih dokumentov in tudi v celoti najnižjo natančnost; - večina relevantnih in delno relevantnih dokumentov je zelo dobre kvalitete; - zelo malo dokumentov je dostopnih brez težav in dodatnega iskanja v drugih virih; - nudi najmanj unikatnih dokumentov. Informacijski viri v knjižnicah: - z njimi smo našli največ relevantnih dokumentov za izbrano področje; - omogočajo najvišjo natančnost; - enako kot pri Googlu Scholar je večina dokumentov dobre kvalitete; - omogočajo takojšen dostop do precejšnjega števila dokumentov, hkrati pa je kar nekaj takih, ki niso dostopni; - unikatne dokumente nudijo v enaki meri kot Google. Vsak od sistemov ima torej svoje prednosti in slabosti. Eden izmed naših namenov je bil ugotoviti, v katerih primerih je bolje uporabljati spletni iskalnik Google in v katerih knjižnične informacijske vire. Če želimo opraviti poglobljeno in kvalitetno raziskavo ali seminarsko nalogo z našega področja, je najbolje uporabljati namenske knjižnične informacijske vire. V primeru, ko takoj potrebujemo neke bolj splošne informacije, pa zadošča Google, ki se odlikuje predvsem po enostavnosti uporabe in odlični dostopnosti. Ne glede na to pa Google, poleg Googla Scholar in knjižnic, nudi tudi kvalitetne dokumente iz zanesljivih virov in ga zato ne moremo izločiti kot neprimeren sistem za iskanje informacij tudi iz našega knjižničarskega področja. 37 Knjižnica 51(2007)3-4, 23-40 Enostavnost uporabe sicer ni bila vključena med naše kriterije za primerjalno analizo, vendar bi lahko tudi pri taki primerjavi prišli do pomembnejših ugotovitev. Enostavnost uporabe se je namreč že večkrat pokazala kot zelo pomemben kriterij za uporabnike, ko se odločajo o tem, kje in kako bodo iskali odgovore na svoja vprašanja. Iz izkušenj, ki smo jih dobili med izvajanjem naše raziskave, lahko vseeno pridemo do sklepa, da je v nekaterih podatkovnih zbirkah iskanje težje od iskanja z Googlom. Potrebno je biti pozoren na uporabo različnih iskalnih izrazov, na različne možnosti, ki nam jih nudi zbirka, ter imeti nekaj več izkušenj z iskanjem. Z Googlom poteka vse precej enostavneje in tudi uporabniški vmesnik je prijazen do neizkušenih uporabnikov. Opazili smo tudi, da na rezultate vpliva vrsta obravnavane teme. V naših primerih so bile teme bolj strokovne narave, Brophyjeva in Bawden pa sta si zastavila vprašanja bolj poljudne oz. splošne narave. Med dobljenimi rezultati obstajajo opazne razlike, ki so prav gotovo tudi posledica različnih tematskih področij. V njuni raziskavi se ni pokazala tako izrazita razlika med Googlom in knjižničnimi viri. Po kvaliteti so sicer tudi pri njiju izstopali knjižnični viri in po dostopnosti Google. Pri teh dveh kriterijih smo prišli do podobnih rezultatov. V celoti je bilo v njihovi raziskavi 84 % dokumentov iz knjižničnih virov dobre kvalitete, iz Googla le 52 %. Pri nas sta bila rezultata 92 % in 65 %. Glede na dostopnost je, pri raziskavi Brophyjeve in Bawdna, Google omogočil takojšen dostop pri 96 % dokumentov, knjižnični viri pa 65 %. Tukaj se pojavi zanimiva razlika v primerjavi z našimi rezultati. Pri Googlu je bilo takoj dostopnih 95 %, pri knjižničnih virih pa kar 81 %. Očitno bi bilo v britanski raziskavi potrebno veliko več medknjižničnih izposoj kot pri nas. Zanimivi za primerjavo so tudi rezultati glede relevantnosti in natančnosti. Ugotovili so namreč, da nobeden od sistemov ne zagotavlja bolj natančnih rezultatov iskanja. V treh od štirih primerov je bila natančnost obeh sistemov zelo podobna, kar kaže na podobno relevantnost prvih desetih zadetkov iz obeh vrst sistemov. Pri naši raziskavi pa smo prišli do čisto drugačnih zaključkov glede relevantnosti in natančnosti. Kot smo že napisali, je bila v naši raziskavi v vseh primerih natančnost knjižničnih virov višja od ostalih dveh sistemov. Iz tega lahko sklepamo, da je za specifične strokovne raziskovalne probleme bolj primerna uporaba tradicionalnih knjižničnih storitev kot pa Googla. Pri aktualnih splošno poznanih problematikah pa je tudi Google zelo koristno orodje. Za lažje razumevanje bomo navedli primer enega od vprašanj, ki sta ga izbrala Brophyjeva in Bawden. Za področje ekologije sta izbrala temo »ogrožene živali«. Bolj natančno ju je zanimalo npr. koliko je ogroženih živali, zakaj so ogrožene itd. Za tako temo lahko upravičeno pričakujemo, da bomo tudi na spletu našli precej koristnih informacij. Oboji smo na koncu prišli do zaključka, da je dobro, če uporabljamo različne vrste sistemov za iskanje informacij. S tem omogočimo dopolnjevanje, večjo objektivnost in bolj uspešno iskanje odgovorov na naše informacijske potrebe. 38 Sluga, M. Google in informacijski viri za področje bibliotekarstva in informacijske znanosti: primerjalna analiza 6 Sklep Seveda je dobljene rezultate zelo težko posploševati. Ne glede na to upamo, da bo ta analiza prinesla nove argumente za zagovornike in nasprotnike Googla. Kot vir informacij za resno delo ima sicer eno veliko pomanjkljivost: na spletu lahko vsakdo objavi, kar hoče. Informacije torej niso vedno preverjene. Naši rezultati pa so vseeno pokazali, da Googla ne moremo izključiti kot neustreznega, vendar bomo imeli pri raziskovanju več dela z izločanjem nerelevantnih dokumentov v Googlu in Googlu Scholar kot pa v knjižničnih informacijskih virih. Ker je vsak sistem na nekem področju boljši od drugega, si lahko le želimo, da bi ustvarjalci teh sistemov iskali vzgled pri drugih, ki znajo določene stvari delati bolje. Knjižnice bi lahko naredile nekaj na področju enostavnosti uporabe in lažji dostopnosti njenih storitev. V Sloveniji prav gotovo pogrešamo sistem, ki bi hkrati iskal po vseh podatkovnih zbirkah, do katerih nam knjižnice omogočajo dostop. Spletni iskalniki bi lahko bolj sistematično zbirali kvalitetnejše dokumente na enem mestu. Googlu Scholar do neke mere to tudi uspeva, vendar bo potrebno še veliko dela, da bo postal dobro in učinkovito iskalno orodje. Predvsem je problematična premajhna pokritost vsebin in nedostopnost dokumentov. Ker se torej vsi trije tipi sistemov za iskanje informacij medsebojno dopolnjujejo, je zelo pomembno, da naše uporabnike seznanimo z vsemi temi različnimi možnostmi iskanja, ki jih imajo v današnjem času. Uporabiti moramo svoja spoznanja, znanja in izkušnje ter jih posredovati našim uporabnikom. Če poznamo prednosti in slabosti teh sistemov, lahko lažje svetujemo pri iskanju odgovorov na informacijske potrebe uporabnikov. Navedeni viri 1. Brophy, J., Bawden, D. (2005). Is Google enough? Comparison of an internet search engine with academic library resources. Aslib Proceedings: New Information Perspectives, 57 (6), 498-512. 2. Chowdhury, G. G. (2004). Introduction to modern information retrieval (2nd ed.). London: Facet Publishing. 3. Doldi, M. L., Bratengeyer, E. (2005). The web as a free source for scientific information: a comparison with fee-based databases. Online Information Review, 29 (4), 400-411. 4. Miller, W., Pellen, R. M. (Ur.) (2007). Libraries and Google (reprint). Binghamton: Haworth Information Press. 39 Knjižnica 51(2007)3-4, 23-40 5. Sluga, M. (2006). Primerjalna analiza Googla in namenskih informacijskih virov za področje bibliotekarstva in informacijske znanosti. Diplomsko delo. Ljubljana: Filozofska fakulteta, Oddelek za bibliotekarstvo informacijsko znanost in knjigarstvo. 6. Xie, H. (2004). Online IR system evaluation: online databases versus Web search engines. Online Information Review, 28 (3), 211-219. Marjetka Sluga, univ. dipl. bibliotekarka, je zaposlena na Oddelku za izposojo in hranjenje knjižničnega gradiva v Narodni in univerzitetni knjižnici. Naslov: Turjaška 1, 1000 Ljubljana Naslov elektronske pošte: marjetka.sluga@nuk.uni-lj.si 40