COBISS: 1.02 Agris category code: A50 PREGLED SISTEMOV PREDMETNIH OZNAK ZA PODROČJE ZNANOSTI O ŽIVALIH V IZBRANIH BIOTEHNIŠKIH PODATKOVNIH ZBIRKAH Tomaž BARTOL 1 Delo je prispelo 7. marca 2009, sprejeto 24. septembra 2009. Received March 7, 2009; accepted September 24, 2009. Pregled sistemov predmetnih oznak za področje znanosti o živalih v izbranih biotehniških podatkovnih zbirkah Članek obravnava tri najpomembnejše biotehniške/kmetijske podatkovne zbirke Agricola, Agris, in CAB Abstracts (CABA) glede na predmetne oznake o znanosti o živalih (proizvodnja in varstvo živali, veterina). Podan je obsežen pregled zbirk, indeksiranje in klasifikacijske sheme. Predstavljeni so koncepti, kot so ontologije in metapodatki. Prikazane so predmetne kategorije in razlike med zbirkami pri opisovanju vsebin o živalih, akvakulturi in ribištvu. Različni pojmi se uporabljajo za podobne koncepte. Drevesaste strukture, tezavri, ključne besede oz. deskriptorji so predstavljeni glede na ožje in širše pojme, preferenčne pojme, nedeskriptorje in sorodne pojme oz. gesla. Obstajajo različne hierarhične smeri glede na proizvodne ali taksonomske koncepte. CABA ima najbolj kompleksno hierarhično drevo v smislu taksonomije. V različnih zbirkah se uporabljajo različne relacije med deskriptorji, nedeskrip-torji in sorodnimi gesli, zato je kartiranje vsebine odvisno od podatkovne zbirke. Zaslonske slike opisujejo rabo spletnih tezavrov. Prikazane so večjezikovne funkcije tezavra Agrovoc. Portali oz. platforme so obravnavane glede na iskalno sintakso, fraze, boolo-vo logiko, znake za krajšanje ali maskiranje. Razlike med zbirkami vplivajo na natančnost in odziv oz. priklic ter šum. Za učinkovitejšo rabo bi morali uporabniki pridobiti več znanj o učinkovitih rabah podatkovnih zbirk in informacijskih sistemov. Ključne besede: predmetne oznake / kartiranje znanosti / deskriptorji / kategorije / klasifikacija / terminologija / ontologije / tezavri / drevesaste strukture / portali / iskalne platforme / sintaksa / podatkovne zbirke / meta podatki / kmetijstvo / biotehnika / znanost o živalih / proizvodnja / varstvo / zootehnika / veterina Overview of systems of subject headings in the field of animal sciences, production and protection in selected agricultural databases The article tackles three most important agricultural databases (DB) Agris, Agricola and CAB Abstracts (CABA), produced by FAO, NAL, CABI, with regard to subject headings related to animal sciences, production, protection or health-related veterinary issues. The initial part reviews different approaches to DB and respective indexing and classification schemes. Concepts, such as ontologies and metadata, are presented. Animal, aquatic sciences and fisheries subject categories are shown. Inter-database differences are addressed, e.g. employment of different names for similar concepts. Tree-structures, indexing systems of thesaurus-based keywords-descriptors (DE) are analyzed with emphasis on narrow and broader terms, preferential terms (non-descriptors) and related terms. There exist different tree-structures, depending either on production or taxonomy. CABA exhibits hierarchically the most complex tree with regard to taxonomy. In different DB, keywords are used in relations DE vs. non-DE vs. related terms. Mapping of a concept depends on particular DB. Subject headings are assigned by information specialists, indexers, thus possessing an important degree of subjective choice. Original web-based thesauri screenshots are presented. Emphasis is placed on multilingual functionality of Agrovoc. Portals or search platforms are tackled with regard to retrieval, search syntax, priority, phrases, Boolean logic, wildcards and truncation. Inter-database differences affect retrieval precision, recall, and noise. The complex schemas, subject trees, and headings can sometimes account for a less successful retrieval because they may be too sophisticated and can remain disregarded by users. End-users should acquire better expertise in order to use more effectively the existing information systems and databases. Key words: subject headings / mapping of science / descriptors / categories / classification / terminology / ontologies / thesauri / tree structures / portals / search platforms / syntax / queries / retrieval / databases / metadata / agriculture / animal sciences / production / protection / zootechny / veterinary sciences 1 Univ. v Ljubljani, Biotehniška fak., Odd. za agronomijo, Jamnikarjeva 101, SI-1000 Ljubljana, Slovenija, izr.prof., dr., e-mail: tomaz.bartol@bf.uni-lj.si 1 uvod Specializirane podatkovne zbirke veljajo v znanosti za najpomembnejši vir referenčnih informacij ne glede na hitri razvoj različnih spletnih iskalnikov, ki prav tako indeksirajo znanstvene informacije. To velja tudi za bi-otehniko oz. kmetijstvo, kjer se že več kot tri desetletja samostojno razvijajo trije informacijski sistemi in podatkovne zbirke, in sicer Agris, Agricola in CAB Abstracts. Sistemi so bili na začetku razvoja dokaj podobni, kasneje pa so ubrali vsak svojo smer, ki je bila odvisna od usmeritve matičnih organizacij. Vsi ti sistemi še zmeraj nudijo referenčne bibliografske informacije, razvijajo pa tudi številne nove informacijske aplikacije. Iskanje informacij v teh sistemih temelji na dokaj zapleteno strukturiranih sistemih predmetnih oznak, t.j. predmetnih kategorij in deskriptorjih, urejenih po dre-vesastih hierarhičnih načelih. Informacijski strokovnjaki, ki so te zbirke gradili, so pred razvojem interneta za končne uporabnike iskali tudi informacije, saj so precej natančno poznali strukturo in posebnosti zbirk. Z razvojem računalnikov in interneta so ti sistemi postali neposredno dostopni posameznim končnim uporabnikom, zlasti raziskovalcem. Končni uporabniki pa pogosto ne poznajo dovolj dobro strukture sistemov predmetnih oznak, saj so ti sistemi dokaj zapleteni in se od zbirke do zbirke precej razlikujejo. V tem prispevku nameravamo izpostaviti nekatere razlike med zbirkami, in sicer na primeru pregleda obstoječih sistemov predmetnih oznak za označevanje pojmov s področja živalske proizvodnje. Poznavanje razlik je pomembno predvsem zato, da bi uporabniki kompetentno prišli do kar najbolj kakovostnih in tehtnih informacij in da bi tako znali sistematično izločiti informacijski šum, torej tiste podatke, ki zanje niso relevantni. Zbirk ne bomo obravnavali v celoti ali glede na njihove tehnične funkcije, pač pa bomo pregledali in ocenili sisteme za vsebinsko obdelavo. Prispevek sestoji iz začetnega pregleda objavljene literature na temo predmetnih oznak, vsebinske obdelave, tezavrov in značilnosti iskanja informacij v treh osrednjih biotehniških zbirkah ter iz kasnejšega našega pregleda in ocene sistemov predmetnih oznak v teh zbirkah. 2 podatkovne zbirke in orodja za vsebinsko obdelavo Na začetku za lažje nadaljnje razumevanje povzeto predstavljamo vse tri zbirke in njihova orodja za vsebinsko obdelavo, ki so predmet pregleda literature in kasnejše analize posameznih predmetnih oznak. Citirani viri v tem poglavju se nanašajo predvsem na spletne portale zbirk in na domače strani ustanov, ki te zbirke gradijo. Prek naslovov URL, navedenih v virih, je možno dostopati do portalov zbirk, do tezavrov in do klasifikacijskih sistemov. Pri aplikacijah zbirke CAB Abstracts je prost javni dostop možen le do osnovnih spletnih informacij, zbirka v celoti, vključno s tezavri, pa je v Sloveniji trenutno dostopna prek portala Biotehniške fakultete, Fakultete za veterino, Fakultete za kmetijstvo v Mariboru, Kmetijskega inštituta Slovenije in prek osebnih gesel raziskovalcev na teh ustanovah. 2.1 AGRICOLA - NAL THESAURUS Zbirka Agricola nastaja pri ameriški državni kmetijski knjižnici NAL (National Agricultural Library), ki je največja tovrstna knjižnica na svetu (The National, 2009). Za vsebinsko obdelavo in indeksiranje dokumentov uporablja svoj tezaver oz. geslovnik (Agricultural Thesaurus, 2009). Zbirka v zadnjih letih zajema predvsem dokumente iz Severne in Južne Amerike. Dostopna je komercialno prek različnih namenskih iskalnih programov in brezplačno prek portala NAL (Agricola, 2009). 2.2 AGRIS - AGROVOC Zbirka Agris nastaja pri podorganizaciji Združenih narodov za kmetijstvo FAO (2009). Zbirka se gradi kooperativno, tako da vsaka država članica prek svojega nacionalnega centra samostojno prispeva dokumente po skupni metodologiji zbiranja. Za vsebinsko obdelavo se uporablja tezaver Agrovoc (2009). Zbirka je dostopna komercialno prek namenskih iskalnih programov, predvsem prek programa OVID, brezplačno pa tudi neposredno prek portala FAO (AGRIS/CARIS, 2009). 2.3 CAB ABSTRACTS - CAB THESAURUS Zbirka CAB Abstracts (2009), v nadaljnjem besedilu CABA, nastaja pri organizaciji CABI (CAB International, 2009). Gradi se predvsem po komercialnih načelih in je dostopna tako prek namenskih iskalnih programov različnih ponudnikov kot prek lastnega komercialnega portala CAB Direct, kjer pa je potrebno prav tako pridobiti plačljivo geslo za dostop. Zbirka CABA velja za najbolj kakovostno biotehniško zbirko na svetu. 3 razvoj standardiziranih kmetijskih besednjakov Orodja za vsebinsko obdelavo oz. tezavri so že kmalu postala predmet samostojnih scientometričnih raziskav. Tezavri kot specializirani strokovni geslovniki predvidevajo precej natančna pravila za določanje ključnih besed dokumentom, ki jih zbirke zajamejo. Tezaver Agrovoc zbirke Agris in tezaver CAB (CAB Thesaurus) zbirke CABA sta nastala najprej. Zbirka Agricola ameriške knjižnice NAL je na začetku uporabljala tezaver CAB, in sicer tudi v dogovoru z nekaterimi drugimi združenji, npr. American Society for Animal Science, kjer pa je bilo potrebno razreševati tudi rabo t.i. amerikanizmov (Thomas, 1985, saj je tezaver CAB temeljil predvsem na britanski rabi). Pri tem so potekali tudi postopki v zvezi s harmonizacijo aplikacij tezavra CAB s tezavrom Agro-voc. Že takrat se je namreč pokazalo, da razlike med tremi globalnimi sistemi za kmetijske informacije povzročajo nepotrebno izgubo časa pri organizaciji in iskanju informacij (Deselaers, 1986). Kljub podobnosti zbirk pa so bile razlike v zajemanju dokumentov dovolj velike, da so avtorji za učinkovito pridobivanje informacij že takrat svetovali rabo vseh treh zbirk (Chen, 1989). Da bi zmanjšali stroške vzdrževanja tezavrov in bibliografske obdelave je prišlo do pobude, ki naj bi pripomogla k mednarodnemu standardiziranju (angleškega) kmetijskega besednjaka oz. terminologije (Thomas, 1990). To se je še kot posebej potrebno kazalo pri knjižnici NAL, ki je dokumente, sicer indeksirane s tezavrom CAB, pošiljala tudi v zbirko Agris, ki pa je imela nekoliko drugačen sistem indeksiranja (Hood, 1990). Takrat so se pri vseh treh organizacijah, torej CABI, FAO in NAL, začeli resni postopki za poenotenje kmetijskega tezavra oziroma za gradnjo skupnega kmetijskega tezavra UAT (Unified Agricultural Thesaurus) (Andre, 1992), ki pa v praksi kasneje niso zaživeli. Kljub načelni pripravljenosti za sodelovanje so vse tri zbirke dolgoročno ohranile vsaka svoj sistem vsebinske obdelave, saj se je pri potencialnem poenotenju pokazalo kar nekaj težko rešljivih tehničnih problemov (Dextre Clarke, 1996). Od sredine 90-tih let dalje o poenotenju ni bilo več dosti govora. Razvoj internetnih oz. spletnih tehnologij pa je še pospešil razlike pri načinih obdelave podatkov pri teh treh informacijskih službah, ki so se začele razvijati vedno bolj vsaka v svojo smer. 4 vsebinska obdelava in biotehniške zbirke kot predmet raziskav Tri najpomembnejše biotehniške podatkovne zbirke so že zelo dolgo predmet bibliometričnih oziroma sci- entometričnih raziskav, in sicer tako glede vsebinskega zajemanja posameznih tematik kot tudi značilnosti vsebinske obdelave pri posameznih zbirkah. Začetne raziskave so pogosto obravnavale prekrivanje in zajemanje revij, ki so jih te zbirke indeksirale. Avtorji so npr. ugotavljali slabo zastopanost dokumentov iz manj razvitih delov sveta (Longo in Machado, 1981). Posamezni avtorji so obravnavali tudi prekrivanje specializiranih kmetijskih tematik znotraj teh zbirk, npr. področje pašništva (Farget, 1984). Pri teh tematskih raziskavah se je zbirka CABA že kmalu izkazala kot najbolj kakovostna (Longo in Machado, 1981). Pri tem pa je treba povedati, da se načela zbiranja in indeksiranja dokumentov pri omenjenih zbirkah kar precej razlikujejo, namen služb, ki te zbirke gradijo, pa ni tekmovalnost, pač pa komplementarnost. Oide and Moriwaki (1990) sta primerjala predmetne kategorije in deskriptorje zbirk CABA in Agris na modelu sekcije zbirke CAB Dairy Science Abstracts. Weintraub (1992) je analiziral terminologijo ekološkega kmetijstva (alternative agriculture) in potrdil, da se pojavljajo problemi zaradi razlik med tezavri posameznih zbirk. Področje zelišč sta analizirala Chadwick in Craker (1992) in identificirala CAB kot sicer najkvalitetnejši vir, vendar pa je Agris takrat bolje zajemal hortikulturne tematike. Element obravnave so bile tudi posamezne sekcije na kompaktnih diskih (CD-ROM), ki so bile v rabi pred nastankom spletnih aplikacij, kot npr. sekciji za veterino (VETCD ) in živinorejo (BEASTCD) pri zbirki CABA (Lee in Bredderman, 1993). Posamezni avtorji so tudi opažali, da veliki splošni kmetijski tezavri ne kažejo najbolje potreb po indeksiranju na nekem bolj specifičnem področju. Raupp (1994) se je poskusno lotil tudi gradnje še bolj specializiranega tezavra, ki bi dopolnjeval tezaver AGROVOC na področju ekološkega kmetijstva. Bartol (2001) je tezaver Agrovoc uporabil pri vsebinski analizi nacionalnih publikacij s področja zootehnike, Juvan in sod. (2005a, 2005b) pa so poskusno sestavili geslovnik za področje funkcionalnih živil, ki je prav tako temeljil na dopolnitvah obstoječih biotehniških tezavrov. 5 razvoj novejših spletnih aplikacij Kot smo že omenili (Dextre Clarke, 1996), od sredine 90-tih let dalje ni bilo več sistematičnih poskusov poenotenja mednarodnega angleškega biotehniškega besednjaka v smeri enotnega strukturiranega tezavra. Z množično rabo zgoščenk in kasneje s prehodom baz na svetovni splet so se začele razvijati nove aplikacije. Pojavile so se različne platforme, portali oz. namenski iskalni programi, kot npr. SPIRS, WinSpirs in nato OVID (Fremer in Larsson, 1997). Nove tehnične možnosti so omogočile hiter nadaljnji razvoj, kar pa je povzročilo medsebojno tehnično oddaljevanje teh treh informacijskih sistemov, ki so imeli še nekaj let pred tem precej podobno strukturo. Tudi zaradi varčevanja so posamezni ponudniki skrčili obseg dokumentov, ki so jih zajemali oz. indeksirali za vnos v podatkovne zbirke, ali pa so skrčili obseg dokumentov, ki so jih pošiljali v nadaljnjo obdelavo. NAL je pri zbirki Agricola začel razvijati nove aplikacije, zbirka pa se je vedno bolj osredotočala zgolj še na ameriške objave in dokumente. Agricola je tako prej uporabljala tezaver sistema CAB, okrog 2002 pa je NAL začel razvijati svoj lastni tezaver (Lauser in sod., 2008). V podobnem času so nove aplikacije začeli razvijati tako pri FAO oz. informacijskem sistemu Agris/Waicent kot pri CABI. Leta 2002 so na svetovnem srečanju COAIM v Rimu (Consultations on Agricultural Information Management) predstavili nove standarde XML za zbiranje podatkov v sistemu Agris (Agris Application, 2004). Leta 2003 so tudi pri CABI vzpostavili lastno platformo za iskanje informacij, imenovano CAB Direct (Our history, 2009). Organizaciji FAO in NAL sta omogočili dostop do zbirk Agris in Agricola po brezplačnih načelih, oziroma prek javno dostopnih spletnih portalov in namenskih iskalnih programov. Portal CAB Direct organizacije CABI pa je še naprej plačljiva storitev, kar je razumljivo, saj je organizacija CABI komercialni založnik, storitev pa je temu primerno kakovostna in dokaj celovito zajema svetovne biotehniške informacije, zato CABA šteje kot najbolj referenčna zbirka. Poseben pomen novih programskih aplikacij znotraj sistemov Agris oz. WebAgris ni več v tem, da bi zbirka še naprej tekmovala z zbirko CABA in želela celovito zajeti globalne biotehniške informacije, temveč se WebAgris lahko lokalno uporablja tudi kot sistem za upravljanje z bazami podatkov (DBMS -Database Management System) oz. kot prikladno orodje za gradnjo LISAGR (Integrated Library System for Agricultural Libraries), in sicer predvsem v deželah, ki si ne morejo privoščiti komercialnih integriranih knjižnično informacijskih sistemov (Kaloyanova, 2007). 6 prehod elektronskih geslovnikov v novo fazo V zadnjih letih je eksplodirala raba pojmov, kot so metapodatki, ontologije ipd. To so izrazi za pojme, ki so jih računalničarji začeli uvajati še ne tako dolgo nazaj, v tradicionalni informatiki oz. dokumentalistiki in knjižničarstvu pa so z drugimi besedami poznani že zelo dolgo (Šauperl, 2005). Ti pojmi se v smislu podatkovnih zbirk, rečeno nekoliko poenostavljeno, v bistvu nanašajo na že dolgo obstoječe bibliografske podatke (metapodatki) in strukturirane tezavre, drevesaste strukture deskriptorjev in klasifikacijske sisteme (ontologije). V smislu sedanje rabe v podatkovnih zbirkah in spletnih informacijskih sistemih pa so izrazi, kot so metapodatki in ontologije, pojmovani bolj kompleksno in se nanašajo na vsebinske koncepte in njihove medsebojne odnose, ki so definirani bolj natančno kot v tezavrih (Beck in Pinto, 2002), zajemajo pa tudi še vrsto drugih aplikacij. Med obravnavanimi tremi biotehniškimi informacijskimi sistemi je razvoj sistemov za vsebinsko obdelavo in rabe formata XML verjetno šel še najdlje pri FAO, saj so tam močno razširili razvoj aplikacij tezavra Agrovoc in vsebinskih drevesastih struktur v smer ontologij in t.i. semantičnega spleta (Gangemi in sod., 2002). Tezaver Agrovoc je tako začel postajati samostojni terminološki informacijski sistem in kompleksna podatkovna zbirka, in naj ne bi bil namenjen več zgolj potrebam bibliografske zbirke Agris ampak številnim drugim rabam. Na temo raziskav novih semantičnih možnosti na področju biotehnike oz. aplikacij tezavra Agrovoc je izšlo kar nekaj prispevkov (Medelyan in Witten, 2005). Predmet raziskav o razmerjih med ontologijami in tezavri je postal tudi tezaver zbirke Agricola (Kim and Beck, 2006). Ta tezaver je postal orodje za indeksiranje metapodatkov tudi zunaj knjižnice NAL, npr. na nekaterih ameriških univerzah (Straus in Gardner, 2006). Močno pa prevladujejo prispevki na temo ontologij sistemov FAO oz. tezavra Agrovoc, saj je ta tezaver postal pravo globalno orodje za indeksiranje biotehniških dokumentov (Lauser in sod., 2006), katerega možnosti raziskujejo v vedno več deželah. Ta tezaver prevajajo v vedno več jezikov, uporablja-jopa ga zlasti v Aziji, tudi na Japonskem ter Kitajskem, kjer je že v rabi dvojezični CAT (Chinese Agricultural Thesaurus). Liang in Sini (2006) sta raziskala možnosti harmonizacije obeh tezavrov in razvoj tezavra Agrovoc v smeri globalnega standardiziranega orodja za izmenjavo biotehniških podatkov. Končana je verzija v japonščini, ki zajema skoraj 40.000 konceptov (Takezake, 2008). Indeksiranje dokumentov oz. vsebinska obdelava in kartiranje vsebine (mapping) s pomočjo tezavrov in strokovnjakov je relativno drag proces, zato se na primeru tezavra Agrovoc odvijajo tudi raziskave, ki primerjajo učinkovitost avtomatiziranih računalniških procesov kartiranja vsebine in učinkovitost tistih procesov, ki jih usmerjajo ljudje (Lauser, 2008). Agrovoc preizkušajo za rabo v sistemih ontologij na različnih specializiranih področjih, npr. pri metapodatkih s področja ekološkega kmetijstva (Sanchez Alonso in Sicilia, 2009). Pri najnovejših eksperimentih in analizah je tezaver CAB udeležen v nekoliko omejenem obsegu. Znova je treba omeniti, da je zbirka CABA dostopna le prek naročnine in gesla, kar velja tudi za tezaver te zbirke, ki je prav tako licenčni izdelek z omejeno javno rabo. 7 pregled predmetnih oznak Vse tri obravnavane zbirke in večina drugih kvalitetnejših in bolj kompleksno strukturiranih informacijskih sistemov za vsebinsko obdelavo dokumentov oz. objav (in posledično tudi za kasnejše iskanje dokumentov) predvidevajo dve ločeni skupini predmetnih oznak, in sicer predmetne kategorije za označevanje hierarhično višjih in bolj posplošenih tematik ter deskriptorje za bolj natančno oz. bolj specifično označevanje bolj podrobnih pojmov in tematik, ponavadi na hierarhično nižjih ravneh. Te pojme dokumentom priredijo informacijski strokovnjaki, zato izbor zavisi od njihove osebne presoje. 7.1 PREDMETNE KATEGORIJE Predmetne kategorije so namenjene za opremljanje dokumentov s hierarhično "višjimi" oz. bolj splošnimi oznakami. Njihovo vsebinsko območje je odvisno od informacijskega sistema oz. zbirke. V preglednicah 1, 2 in 3 predstavljamo le tiste kategorije, ki so namenjene označevanju dokumentov z živalsko oz. zootehniško tematiko. Za prihranek prostora v preglednicah smo ponavlja-joči-se pojem animal povsod okrajšali s črko a. Preglednica 1: Predmetne kategorije zbirke Agris Table 1: Agris Subject Categories - Category Codes L - animal production L01 a. husbandry L02 a. feeding L10 a. genetics and breeding L20 a. ecology L40 a. structure L50 a. physiology and biochemistry L51 a. physiology - nutrition L52 a. physiology - growth and development L53 a. physiology - reproduction L60 a. taxonomy and geography L70 veterinary science and hygiene L72 pests of a-s L73 a. diseases L74 miscellaneous a. disorders M - aquatic sciences and fisheries M01 fisheries and aquaculture - general aspects M11 fisheries production M12 aquaculture production and management M40 aquatic ecology Zbirke, ki jih obravnava ta pregled, zajemajo dokaj podobne vsebinske sklope znotraj kmetijstva oz. bioteh-nike, zato so kategorije podobne. Same kategorije so v vsaki od zbirk imenovane nekoliko specifično. Opazimo lahko, da je kategorij pri zbirki Agris nekoliko manj (pre-gl. 1), največ pa jih je pri sistemu CABI (pregl. 2), kjer so tudi bolj podrobno razdeljene na ožje sklope. To pomeni, da lahko pri zbirki CABA iščemo bolj natančno, vendar pa je več možnosti, da se naš koncept nekega pojma ne bo skladal s tistim, ki ga je določil informacijski strokovnjak, zato bo informacijski šum (noise) nekoliko višji, priklic oz. natančnost iskanja (precision) pa nižji. Večje število kategorij torej ne pomeni nujno boljših iskalnih rezultatov. Če bi raziskovali natančnejše, bi tudi ugotovili, da zbirka Agris pri vsakem dokumentu predvideva opis z največ tremi kategorijami, medtem ko pri zbirki CABA take omejitve ni. Nek dokument oz. bibliografski zapis ima lahko pri CABA pet ali še več kategorij. Zaradi tega je scientometrično težje primerjati zadetke, pridobljene pri eni ali drugi zbirki, saj so že začetna načela klasificiranja nekoliko različna. Očitno CABA kategorije prireja tudi manj osrednjim oz. manj bistvenim konceptom v nekem dokumentu. Že malo bolj natančna primerjava pokaže, kako pomembna bi bila boljša iskalna usposobljenost uporabnikov teh informacij in njihovo boljše poznavanje nekaterih vsebinskih značilnosti teh informacijskih sistemov. Pri zbirki Agris (pregl. 1) imamo npr. ločeni kategoriji za krmljenje (Feeding) in prehrano živali (Animal Physiology - Nutrition), kjer prva označuje tehnološke druga pa fiziološke procese. Pri zbirki CABA (pregl. 2) te razlike ni, hkrati pa ta zbirka predvideva kar tri različne fiziološke kategorije prehranjevanja. Zbirka Agris dokumente o anatomskih vidikih označi kot Animal Structure, zbirka CABA pa kot Animal Anatomy and Morphology. Vidike obnašanja in varstva živali oz. živalskih interakcij z okoljem Agris označi kot Animal Ecology, CABA predvideva dve kategoriji, in sicer Animal Behaviour in Animal Welfare, prav tako Agricola: Animal Welfare ter Animal Ecology and Behavior. Pri zbirki Agricola lahko izpostavimo relativno zelo visoko število kategorij, namenjenih označevanju pojmov v povezavi z veterino oz. zdravjem živali (pregl. 3). Teh kategorij je 14 oz. več kot polovica, medtem ko so pri zbirki Agris le štiri. Pri zbirki Agricola imajo vse glavne skupine organizmov, ki povzročajo bolezni, svoje lastne kategorije, pri zbirki CABA pa so te skupine združene, vendar pa so pri CABA izrecno navedeni tudi prioni, torej Prion, Viral, Bacterial and Fungal Pathogens of Animals kot skupna kategorija, ti pa pri zbirki Agricola sploh niso posebej omenjeni in lahko le ugibamo, katera kategorija bi tako zajela tudi prione. Preglednica 2: Predmetne kategorije CAB International Table 2: CABI Subject Categories - CABI Codes LL000 - animal science (general) LL010 apiculture LL020 sericulture LL030 other invertebr. culture (not aquac.) LL040 laboratory a. science LL050 game a-s LL060 draught a-s LL070 pets and companion a-s LL075 sport a-s LL080 zoo a-s LL110 dairy a-s LL120 meat producing a-s LL130 egg producing a-s LL145 wool producing a-s LL148 fur-bearing a-s LL180 a. husbandry and production LL190 a. slaughter LL240 a. genetics and breeding LL250 a. reproduction and embryology LL300 a. behaviour LL400 a. anatomy and morphology LL500 a. nutrition (general) LL510 a. nutrition (physiology) LL520 a. nutrition (production responses) LL600 a. physiology and biochemistry (excluding nutrition) LL650 a. immunology LL700 a. tissue and cell culture LL800 a. health and hygiene (general) LL810 a. welfare LL821 prion, viral, bacterial and fungal pathogens of a-s LL822 protoz, helminth, mollusc and arthropod paras. of a-s LL823 veterinary pests, vectors and intermediate hosts LL860 non-communicable diseases and injuries of a-s LL884 a. surgery and non-drug therapy LL886 diagnosis of a. diseases LL950 toxicology and poisoning of a-s MM000 - aquatic sciences (general) MM110 fisheries MM120 aquaculture (a-s) MM130 aquaculture (plants) MM300 aquatic biology and ecology Preglednica 3: Predmetne kategorije zbirke Agricola Table 3: Agricola Subject Categories - Category Codes L000 - animal science L001 entomology related L002 apiculture related L003 sericulture related L100 a. production L105 a. welfare L110 laboratory and experimental a-s L200 a. breeding and genetics L210 a. reproduction L300 a. ecology and behavior L400 a. structure L500 a. nutrition L600 a. physiology and biochemistry L700 a. taxonomy and geography L800 veterinary science L810 veterinary pharmacology, toxicology and immunology L820 Pests of a-s (general) L821 Pests of a-s (insects and other arthropods) L822 Pests of a-s (helminths) L823 Pests of a-s (protozoa) L830 a. diseases (general) L831 a. diseases (fungal) L832 a. diseases (bacterial) L833 a. diseases (viral) L840 a. diseases (physiological) L841 a. disorders and injuries L850 protection of a. products (general) L851 protection of a. products (insects and other ar- thropods) M000 - aquatic sciences M001 aquatic sciences related M110 fisheries M120 aquaculture (a-s) M130 aquaculture (plants) M210 fisheries management M220 aquaculture management M300 aquatic biology and ecology (general) M310 aquatic biology and ecology (a-s) M320 aquatic biology and ecology (plants) M400 oceanography M500 limnology Tudi za specifično področje akvatičnih oz. vodnih organizmov predvideva zbirka Agricola največ kategorij. Agricola in CABA tu zajameta tako živali kot rastline, medtem ko pri zbirki Agris ni posebne kategorije za vodne rastline, ampak to zajame kar splošna kategorija Aquatic Biology and Ecology. Že nekaj primerov pokaže, da je sistematske klasifikacijske sisteme zbirk možno učinkovito uporabljati le, če poznamo vsaj osnovna načela metodike klasifikacije v vsaki posamezni zbirki. Če tega ne poznamo dovolj dobro, bomo seveda kljub temu priklicali neke dokumente, ne bomo pa se zavedali, česa vsega sploh nismo dobili prav zaradi naše šibke iskalne strategije. Pri tem pa ne gre pozabiti še nekaterih drugih zakonitosti vsebinske obdelave na ravni klasifikacijskih kategorij. Poleg specifičnih kategorij, namenjenih označevanju vsebin o živalih, obstajajo še nekatere druge kategorije, ki se na živali nanašajo posredno, a jih ne gre zanemariti. To so npr. kategorije, namenjene označevanju pojmov v zvezi s transportom kmetijskih produktov, kar se nanaša tudi na produkte živalskega izvora ter predvsem kategorije z vsebinskega področja živilstva, torej kategorije, namenjene živilom in prehrani, kjer pa pogosto ni razlike med živili rastlinskega ali živalskega izvora in se vsebine dokumentov tako označijo s splošno kategorijo za živila. 7.2 DESKRIPTORJI Deskriptorji so namenjeni opremljanju dokumentov s hierarhično "nižjimi" oz. bolj specifičnimi oznakami. Zbrani so v specializiranih geslovnikih, imenovanih tezavri, ki lahko zajemajo več deset tisoč deskriptorjev, urejenih v različnih hierarhičnih in asociativnih relacijah. Tudi tu je njihova raba odvisna od informacijskega sistema oz. zbirke. Za razliko od širših predmetnih kategorij, kjer se razhajanja v poimenovanju nanašajo bolj na širino vsebinskega obsega posamezne kategorije, pa se pri deskriptorjih pojavljajo tudi terminološka razhajanja, torej tista, ki so med drugim povzročila, do so zamrli poskusi gradnje enotnega svetovnega angleškega tezavra oz. geslovnika UAT (Unified Agricultural Thesaurus). Poleg tega se pri različnih tezavrih oz. zbirkah dokaj razlikujejo tudi hierarhična drevesa in globina oz. višina hierarhij pri drevesastih strukturah (tree structures). V pregledu izpostavljamo nekaj primerov, in sicer posebej hierarhijo v smeri navzgor, torej širše (Broader Terms) in navzdol oz. ožje (Narrower Terms). 7.3 HIERARHIJA NAVZGOR IN ŠIRŠI POJMI Za primer vzemimo nek pojem, npr. race oz. ducks (pregl. 4). Pri zbirki Agris vidimo, da obstajata dve različni hierarhični skupini, in sicer skupina, ki jo imenujmo "tehnološka", in ki izhaja iz deskriptorja poultry ter "taksonomska" skupina, ki se začne z deskriptorjem An-seriformes. Na peti stopnji se obe skupini zopet združita. Pri zbirki Agricola je hierarhično drevo nekoliko bolj razvejano. Že na začetku se razdeli na skupini poultry ter waterfowl. Prva je tehnološka, na četrti stopnji pa se deli še bolj natančno, ko se skupina livestock razdeli na dve enakovredni skupini, ki se potem združita, in sicer domestic animals ter farmed animal species. Pri zbirki CABA se deskriptor ducks hierarhično nadgrajuje v eni sami taksonomski skupini, ki pa je zelo podrobna in sega najvišje. Kot zanimivost lahko še omenimo, da se pri zbirki CABA sicer obstoječi deskriptor livestock ne uporablja za ptiče in ni del hierarhije za ducks, medtem ko se livestock uporablja v zvezi z racami tako pri zbirkah Agricola kot Agris. Pri zbirki CABA se npr. izraz poultry uporablja le v zvezi s kokošmi. Pri zbirki Agricola se upošteva tudi skupina monogastric livestock, pri zbirki Agris pa za skupino domestic animals obstaja še nadrejena skupina useful animals. Preglednica 4: Hierarhično širši izrazi glede na deskriptor ducks v posameznih zbirkah Table 4: Hierarchically broader terms with regard to descriptor ducks in respective databases Agricola Agris/Agrovoc CAB Ducks ducks ducks poultry waterfowl Anseriformes poultry Anatidae monogastric livestock water birds birds livestock Anseriformes livestock birds Vertebrates domestic animals birds domestic animals | farmed animal species vertebrates Chordata useful animals vertebrates animals animals Chordata organisms organisms animals biological sciences eukaryotes organisms 7.4 HIERARHIJA NAVZDOL IN OŽJI POJMI, SORODSTVENE RELACIJE, NEDESKRIPTORJI Kot pri hierarhični smeri navzgor se glede na deskriptor ducks razlike kažejo tudi pri smeri navzdol oz. k ožjim pojmom (pregl. 5). Pri tezavru Agrovoc oz. zbirki Agris ožji deskriptor posebej označuje race muscovy ducks, torej vrsto Cairina moschata. Tudi pri nedeskrip-torjih, označenih z UF (Used For), vidimo, da je deskriptor namenjen za označevanje rodov Anas in Cairina. Hkrati je desk ducks rabljen tudi za pojme označevanje mladih živali (ducklings) ter označevanje samcev (drakes). Pri sorodnih pojmih, označenih z RT, predvideva Agrovoc pojem waterfowl kot poseben pojem, ki ni del hierarhije pri ducks. Sorodna skupina so tudi lovni ptiči, game birds, ter meso rac, duck meat. Pri zbirki Agricola se kot ožji pojem pojavijo tako drake kot ducklings, nedeskriptorji (UF) pa se nanašajo le na tehnološke pojme v povezavi s prirejo. Sorodni pojmi so tako jajca kot meso, pa tudi družina Anatidae, ki je pri CABA širši deskriptor in kot tak del iste hierarhične skupine. Pri zbirki CABA ožji deskriptor označuje le mlade živali, pojem za samčke (drakes) pa se sicer sploh ne pojavlja v tezavru niti kot nedeskriptor (UF), kot je primer pri tezavru Agrovoc. Tudi pri CABA se nedeskriptorji nanašajo predvsem na tehnološke pojme. Deskriptor poultry se tokrat pojavlja kot sorodni pojem, ki se pri drugih dveh zbirkah sicer uvršča med širše pojme (pregl. 4). Edino pri CABA se kot sorodstveni pojem pojavljajo bolezni rac (duck diseases), kar pa seveda ne pomeni, da se pri drugih dveh zbirkah bolezni rac ne morejo označiti z deskriptorjem. To je seveda možno storiti že s kombinacijo dveh osnovnih deskriptorjev: ducks AND diseases. Ob vseh teh razlikah se pojavlja vprašanje, ali povprečni uporabnik dovolj dobro pozna specifične konota- cije in medsebojne povezave teh pojmov v posameznih zbirkah. Kot lahko vidimo, obstaja več enakovrednih logik gradnje tezavrov, ki pa imajo vse večje ali manjše nedoslednosti in druge pomanjkljivosti. Zdi pa se kar nekako nerealno pričakovati, da bi povprečni končni uporabnik natančneje preučili te posebnosti, zato lahko prezapletene strukture pogosto privedejo do slabšega iskalnega odziva v konkretnih iskalnih situacijah. Pri tem lahko omenimo, da pojem ducks glede na nekatere druge pojme ni preveč zapleten. Nismo se natančneje poglobili v celotno strukturo tezavrov, temelječo na angleški in hkrati še latinski taksonomiji živali, saj bi to zahtevalo samostojno raziskavo. Vseh deskriptorjev je namreč več deset tisoč, k temu pa lahko dodamo še deset tisoč ne-deskriptorjev in iz tega izhajajoče permutacije. Ni tudi odveč komentirati, da se ne zdi več tako nenavadno, da so poskusi gradnje poenotenega globalnega kmetijskega tezavra pred več kot desetletjem zamrli. 7.5 ZASLONSKE SLIKE TEZAVROV V nadaljevanju prikazujemo nekaj izvirnih zaslonskih slik iz računalniških aplikacij prej omenjenih teza-vrov, izhajajočih iz deskriptorja ducks. Slika 1 prikazuje le majhen zaslonski izsek iz tezavra zbirke CABA, podatke v prejšnjih dveh preglednicah pa smo uredili ročno, na podlagi izbranih možnih hiperpovezav navzgor (BT - Broader Term), navzdol (NT - Narrower Term) ali k sorodnim pojmom. Pri tezavru CAB lahko izberemo več deskriptorjev hkrati in iščemo z vsemi temi gesli naenkrat po načelu boolove iskalne unije OR, kjer zadetke prikliče vsaj eno izbrano deskriptorsko geslo. Če želimo preveriti celotno hierarhijo oz. celotno hierarhično drevo, moramo klikniti na vsak posamezen pojem, ki potem na novih zaslonih prikaže svoje lastne hierarhične Preglednica 5: Hierarhično ožji (NT), sorodni (RT) ter nedeskriptorski izrazi (UF) glede na deskriptor ducks v posameznih zbirkah Table 5: Hierarchically narrower terms (NT), related terms (RT), and non-descriptors (UF) with regard to descriptor ducks in respective databases Agricola Agris/Agrovoc CAB Ducks Ducks Ducks NT (Narrower Terms) drakes muscovy ducks ducklings ducklings RT (Related Terms) Anatidae duck meat duck diseases duck eggs game birds duck feeding duck meat waterfowl duck meat poultry UF (Used For) duck fattening Anas duck duck feeding Cairina duck eggs duck finishing drakes duck fattening ducklings Slika 1: Izsek iz tezavra CAB zbirke CABA - primer deskrip-torja ducks s hierarhičnimi povezavami. Figure 1: Detail from CAB Thesaurus - a case of descriptor ducks with hierarchical relations. relacije. Možne so torej številne permutacije, manj vešči uporabnik pa se lahko hitro "izgubi". Kot smo že omenili, lahko do tezavra CAB dosto-pamo le s pridobljeno licenco za rabo same zbirke. Predstavljena zaslonska slika 1 prikazuje tisto obliko tezavra CAB, kot jo ponuja namenski iskalni program OVID, na katerega je vezana raba zbirke. Isti licenčni iskalni program nudi dostop tudi do tezavra Agrovoc, ki pa je sicer dostopen tudi popolnoma brezplačno in javno prek spleta oz. strežnika FAO, kjer je ta tezaver strukturiran kot prava ontološka podatkovna zbirka. To aplikacijo obravnavajo številni znanstveni prispevki, kar smo predstavili v enem od uvodnih poglavij. Izsek zaslonske slike 2 prikazuje tudi večjezične aplikacije, jeziki pa so označeni z dvočrkovnimi kodami, npr. AR (arabsko), CS (češko), ZH (kitajsko), JA (japonsko). V tezaver se vključuje vedno več jezikov, zajema pa npr. tudi slovaški, madžarski in tajski jezik. Celotna hierarhija, predstavljena v preglednicah 4 in 5, je permutirano dostopna v vseh jezikih tezavra. Gre torej za izjemno veliko in zmogljivo relacijsko zbirko, ki v več kot deset jezikih omogoča dostop do več deset tisoč biotehniških ali kmetijskih gesel javno prek svetovnega spleta brez kakršnihkoli omejitev. Brezplačno je dostopen tudi tezaver zbirke Agricola (slika 3), ki je najmlajši med omenjenimi tezavri, saj je Agricola prej uporabljala tezaver CAB. Tudi ta tezaver je hierarhično izjemno široko razvejan, kar smo pokazali že v preglednicah 4 in 5. Pred nekaj leti je tezaver prešel na dvojezično platformo in je zaradi naraščajočega pomena španščine v Ameriki vpeljal tudi ta jezik; zbirka namreč indeksira strokovne in znanstvene dokumente iz Severne in Južne Amerike. Predmetne kategorije so pri vseh treh zbirkah poimenovane podobno, in sicer codes ali categories, za de-skriptorje pa so imena nekoliko različna in določena še bolj podrobno, in sicer po različnih načelih. Pri zbirki Agricola obstajajo splošni oz. vsebinski deskriptorji NAL Subject(s). Večina deskriptorjev te zbirke se uvršča v ta razred. Poleg tega obstajajo tudi posebni deskriptorji, namenjeni označevanju geografskih pojmov NAL Geographic(s), vezanih zlasti na pokrajine, države in ozemlja. Pri zbirki Agris (Agrovoc) obstajajo specifični deskriptorji Indexer-Assigned Descriptors, to so tisti, ki jih dokumentom določi informacijski strokovnjak ter hierarhično širši deskriptorji Computer-Assigned Descriptors; to so tisti, ki se dokumentom priredijo avtomatsko glede na nadrejene pojme v tezavru. Ti dve skupini se pri javno dostopni verziji te zbirke na portalu FAO imenujeta AGROVOC Terms oz. Other subjects (slika 4). Če torej strokovnjak dokumentu priredi pojem ducks, se temu dokumentu nadrejeno prilepijo (up-posting) vsi širši pojmi, predstavljeni v preglednici 4. Pri tem se računalniško priredijo oz. prevedejo še deskriptorji v francoščini in španščini (slika 4). To sta poleg angleščine dva uradna jezika zbirke Agris. Zbirka CAB ima nekoliko bolj zapleten sistem. Tu obstajajo Broad Terms in Descriptors, kjer gre za osnovne ter širše pojme. Poleg tega ima tako kot Agricola CABA - Copyright Information Search term : duckaj KiiowMijc "Organisation Systems © starting with O containing i text exact match Mt W ■ &y Type ■ By Subject area ÉN ; [lucks HI ( sidKlassOf ) : ffiiseriformeB F ft : Cm win! in i subeiAssof ) : Pi hi lit e v ■ su oo est kos Browse classification * schemes ES : PjtO UT ! hwSuBclft** J : (■luät^ovy iliiik^ AH : (IT . DilLkHmis - AGROVOC In ADS ZH : n RI : trirni hi ini". * Ontology relationships - NeOn - Glossary PT : Pnto UT : VVAtWf4ttl CS i kachny ft! : Duck