216 217
Slovenščina 2.0, 2021 (1)
NADGRADNJA ZGODOVINARSKEGA INDEKSA
CITIRANOSTI
Katja MEDEN
Jožef Stefan Institut; Inštitut za novejšo zgodovino
Ana CVEK
Inštitut za novejšo zgodovino; Filozofska fakulteta, Univerza v Ljubljani
Meden, K., Cvek, A. (2021): Nadgradnja Zgodovinarskega indeksa citiranosti. Slovenščina
2.0, 9(1): 216–235.
DOI: https://doi.org/10.4312/slo2.0.2021.1.216- 235
Začetki Zgodovinarskega indeksa citiranja segajo v leto 2003, ko so raziskoval -
ci Inštituta za novejšo zgodovino začeli spremljati in sistematično popisovati
citate za prijave projektov in programov na ARRS. Citatni indeks je doživel ne -
kaj nadgradenj, poskusov harmonizacije podatkov in prečiščevanja relacijskih
baz, vendar je bilo v zadnjih letih ugotovljeno, da sistem ne zadostuje potrebam
indeksatorjev in uporabnikov. Pred nadgradnjo smo izvedli analizo podatkov,
kjer so se identificirale največje težave. Nadgradnja je potekala v dveh delih; v
prvem delu smo nadgradili administrativni del, v drugem delu pa spletno apli -
kacijo. Zgodovinarski indeks citiranja je bil med nadgradnjo tehnično posodo -
bljen in s tem oblikovan tako, da je intuitiven za indeksatorje in uporabnike.
Ključne besede: Zgodovinarski indeks citiranosti, ZIC, nadgradnja, citatni indeksi
Slovenscina_2_2021_1 korekture3.indd 216 Slovenscina_2_2021_1 korekture3.indd 216 30. 06. 2021 07:56:49 30. 06. 2021 07:56:49
216 217
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
1 UVOD
Ocenjevanje uspešnosti raziskovalcev v humanistiki je v primerjavi z drugimi
raziskovalnimi področji, predvsem naravoslovnimi, že od samih začetkov pre -
cej prikrajšano. Med drugim ocenjevanje temelji na frekvenci citiranosti, te
podatke pa pridobimo iz različnih citatnih indeksov, kot sta na primer Web of
Science (v nadaljevanju WOS) in Scopus. Monografije so primarni produkt raz -
iskovalnega dela v humanistiki in družboslovju (Glänzel in Schoepflin, 1999;
Hicks, 2004; Huang in Chang, 2008; Nederhof, 2006). V nasprotju z vredno -
tenjem raziskovalne uspešnosti v naravoslovju se ta področja teže vrednotijo,
predvsem zaradi dejstva, da so monografije po večini bolj obsežne kot znan -
stveni članki (Kousha idr., 2011), in visokih kriterijev vključevanja publikacij
v obstoječe indekse citiranja, na primer WOS in Scopus. Med pomembnejše
kriterije spadajo redno izhajanje serijske publikacije, jezik publikacije, recen -
ziranost, spoštovanje mednarodnih standardov (kot so informativni naslov,
povzetek, popolna bibliografska informacija za vse citirane reference), poleg
pogojev pa težavo predstavlja tudi indeksiranje monografij. Obstoječi citatni
indeksi se namreč bolj osredotočajo na serijske publikacije. Neenakosti pri
vključevanju publikacij v citatne indekse so na Inštitutu za novejšo zgodovino
skušali zamejiti že v letu 2003. Raziskovalci so začutili potrebo po spremljanju
in sistematičnem popisovanju citatov za prijave projektov in programov, kar
predstavlja zametek Zgodovinarskega indeksa citiranja (v nadaljevanju ZIC).
Osnovni namen je bil ustvariti bazo citatov iz slovenskih zgodovinskih mono -
grafij, osrednjih znanstvenih časopisov in revij (Lazarević in Zemljič, 2003).
Začetna shema baze, ki je bila precej enostavna, je ob nastanku dobro zadovo -
ljevala potrebe raziskovalcev, vendar so se sčasoma pokazale pomanjkljivosti
(Pančur idr., 2014), ki so vodile v nadaljnje nadgradnje, poskuse harmonizaci -
je podatkov in prečiščevanja relacijskih baz. ZIC trenutno vsebuje 4.837 vseh
vnosov, od tega 2.901 vnos serijskih publikacij in 1.936 vnosov monografij in
poglavij iz monografij, kar predstavlja razmerje 59,9 % serijskih publikacij ter
39,1 % monografij in poglavij iz monografij.
Zadnja nadgradnja je potekala leta 2012 in predstavlja osnovo in temelj nad -
gradnje, ki je predstavljena v nadaljnjem besedilu članka.
Slovenscina_2_2021_1 korekture3.indd 217 Slovenscina_2_2021_1 korekture3.indd 217 30. 06. 2021 07:56:49 30. 06. 2021 07:56:49
218 219
Slovenščina 2.0, 2021 (1)
2 CITATNI INDEKSI IN HUMANISTIKA
Kot omenjeno, sta humanistika in družboslovje pri vrednotenju znanstve -
ne uspešnosti v nasprotju z naravoslovnimi vedami nekoliko prikrajšana pri
vključevanju raziskovalne produkcije v mednarodne citatne indekse, kot sta
Web of Science (WOS) in Scopus. V Sloveniji vrednotenje raziskovalne uspeš -
nosti poteka prek Informacijskega sistema o raziskovalni dejavnosti (SICRIS),
v katerem je popisana celotna slovenska raziskovalna produkcija in je pove -
zan s prej omenjenima mednarodnima citatnima indeksoma WOS in Scopus
(Curk idr., 2006). Pomembno je poudariti, da so točke, pridobljene prek SI -
CRIS, osnovno merilo za točkovanje raziskovalne uspešnosti in so neposredno
povezane s procesom financiranja raziskovalnih projektov in programov prek
Agencije za raziskovalno dejavnost Republike Slovenije (ARRS).
Z vprašanjem vključenosti humanistike in družboslovja v WOS in Scopus se
je ukvarjalo več raziskav (Ball in Tunger, 2006; Bartol idr., 2014), kjer obsta -
ja konsenz o tem, da je za vključevanje humanistike in družboslovja Scopus
občutno bolj primeren kot pa WOS. Vendar kot omenjeno, je monografija
primarna oblika znanstvene produkcije v humanistiki, ki pa ji citatni indeksi
niso najbolj naklonjeni. Podatki kažejo, da WOS zajema okoli 12.000 znan -
stvenih revij in samo okoli 50.000 monografij, medtem ko Scopus zajema več
kot 21.500 znanstvenih revij in 113.000 znanstvenih monografij. Število mo -
nografij v indeksu Scopus odraža večji obseg monografij v primerjavi z WOS,
pa vendar monografije v primerjavi s številom znanstvenih člankov v revijah
predstavljajo zgolj zanemarljiv del citatnega indeksa (Južnič, 2017).
Podobno stanje je tudi pri vključevanju slovenske raziskovalne produkcije v hu -
manistiki. Južnič in Čadej (2016) v svoji raziskavi ugotavljata, da baza Scopus bi -
stveno bolje zajema slovensko humanistično in družboslovno znanstveno publi -
kacijo v primerjavi z WOS. Razlogi za to so različni: od dejstva, da je Scopus nep -
rimerno bolj naklonjen vključevanju neangleških revij slabše razvitih in manjših
držav vzhodne Evrope, do milejših meril vključevanja publikacij (Pajić, 2015).
Ne glede na dejstvo, da je Scopus bolj primeren za vključevanje slovenskih
znanstvenih revij in monografij v humanistiki, pa še vedno obstaja vrzel pri
vključevanju teh publikacij v Scopus. To pa poskušamo zamejiti s citatnimi
indeksi, kot je npr. ZIC, ki so prilagojeni specifičnim lastnostim področja, ki ga
Slovenscina_2_2021_1 korekture3.indd 218 Slovenscina_2_2021_1 korekture3.indd 218 30. 06. 2021 07:56:49 30. 06. 2021 07:56:49
218 219
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
pokrivajo (v primeru humanistike je torej največje odstopanje v vključevanju
monografskih publikacij).
3 CILJI IN POTEK NADGRADNJE
Pri postopku nadgradnje smo z uporabo sodobnih tehnologij in estetsko pri -
vlačne grafične podobe želeli preoblikovati administratorski spletni vmesnik
in indeksatorju omogočiti prijazno in pregledno izkušnjo pri urejanju podat -
kov. Najpomembnejši cilj nadgradnje je bila postavitev ZIC kot ločene aplika -
cije. Ker je baza MySQL trenutno integralni del portala SIstory in se upravlja
s pomočjo skupne administracije, je treba podatkovno bazo ZIC postaviti kot
ločeno aplikacijo na poddomeni portala SIstory. Razlog za to je načrtovana
postavitev nove digitalne knjižnice portala SIstory kot samostojnega repozito -
rija z ločeno administracijo. Poleg ločene baze in administracije smo pri nad -
gradnji upoštevali naslednje sklope problemov. V prejšnji nadgradnji uvoz in
izvoz podatkov nista bila mogoča, zato smo želeli to omogočiti. Prav tako smo
želeli, da je spletna aplikacija narejena modularno, kar bo omogočalo dodaja -
nje novih funkcionalnih rešitev. Pri uporabniškem vmesniku smo želeli, da je
stran prijazna za mobilne obiskovalce, pri iskalniku pa smo želeli doseči hitro
in pregledno iskanje po podatkih. Nadgrajeni administracijski modul naj bi
omogočal enostavnejši dostop in upravljanje vseh podatkov ter z geslom zašči -
ten dostop do administracije. Izbrani osnovni podatki morajo biti z ustreznim
vmesnikom prosto dostopni strojnemu zajemu podatkov (Pančur, 2019b).
Pri postavljanju ciljev in procesu nadgradnje smo izhajali iz temeljnih načel
Raziskovalne infrastrukture slovenskega zgodovinopisja (v nadaljevanju RI
INZ), ki vključujejo uporabo uveljavljenih in razširjenih tehnologij, ki jih člani
infrastrukture dobro poznajo in obvladajo (načeli enostavnosti in poznava -
nja), modularno nadgrajevanje obstoječih tehnologij (načelo fleksibilnosti) in
uporabo odprtih ali lastniških standardov (načelo odprtosti) (Pančur in Šorn,
2019). V procesu nadgradnje smo tako uporabljali tehnologije, ki jih pripo -
roča RI INZ (Pančur, 2019a) in upoštevajo načeli enostavnosti in poznava -
nja HTML5 in CSS3, najnovejše verzije PHP, MySQL, ElasticSearch engine,
JavaScript in JavaScript knjižnice. Pomemben vidik nadgradnje je tudi vidik
interoperabilnosti, ki se v svojem pomenu prepleta z načelom fleksibilnosti.
Fleksibilnost in interoperabilnost sistema želimo doseči z implementacijo
Slovenscina_2_2021_1 korekture3.indd 219 Slovenscina_2_2021_1 korekture3.indd 219 30. 06. 2021 07:56:49 30. 06. 2021 07:56:49
220 221
Slovenščina 2.0, 2021 (1)
aplikacijskega profila MODS za uvoz in izvoz metapodatkov v različnih for -
matih, ki podpirajo nadaljnjo diseminacijo in izmenjavo podatkov z drugimi
informacijskimi sistemi. Nadgradnja je potekala v posameznih sklopih, ki so
opisani v nadaljevanju besedila.
4 REZULTATI NADGRADNJE
Nadgradnja je potekala v dveh delih: prvi del se nanaša na administrativni sis -
tem SIstory. Nadgradnja v tem delu zajema preoblikovanje mask in njihovih
polj, postavitev nove sheme XML po standardu MODS za uvoz in izvoz podat -
kov, iskalnik, ki temelji na tehnologiji ElasticSearch, ter migracije vrednosti
ločenih polj Avtor(ji). Drugi del se osredotoča na nadgradnjo spletne aplika -
cije in uporabniškega vmesnika. Pri programski nadgradnji smo sodelovali z
zunanjimi sodelavci Infrastrukture.
4.1 Administrativni sistem Sistory
4.1.1 Maske za vnos podatkov
Glavna sprememba v administracijskem sistemu (admin) je prehod s prej
enotne maske na dve ločeni. Enotna maska je vsebovala tri razdelke: Splo-
šni podatki, Podatki o viru in Vsebinska obdelava. Vnos podatkov v maske
poteka ročno, podatkovna polja v enotni maski pa so bila nejasna (npr. po -
navljanje polja za vnos id številke COBISS, imena avtorja idr.), nekatera tudi
brez pomena za potrebe citatnega indeksa. Tako je bil na primer razdelek Vse -
binska obdelava za citatni indeks povsem neuporaben, saj vsak zapis vsebuje
identifikatorje s povezavami na zapise publikacij (COBISS, SIstory) s polnim
metapodatkovnim opisom.
Iz enotne maske sta nastali dve neodvisni maski za vnos podatkov v ZIC V2.
Iz maske za vnos publikacije sta nastali dve: maska za vnos monografij in
maska za vnos serijskih publikacij, ki dovoljujeta natančnejši opis glede na
publikacijo, ki jo indeksiramo. Vsaka izmed mask, tako kot v prejšnji verzi -
ji, vsebuje tudi masko za vnos citatov. Maske so bile oblikovane na podlagi
zaznanih težav v prejšnjem administracijskem sistemu, o katerih so poročali
indeksatorji, ter na podlagi potreb za opis določene publikacije in citatnega
indeksa. Spodnja preglednica (Preglednica 1) prikazuje polja oziroma meta -
podatke za opis posameznih del in citatov.
Slovenscina_2_2021_1 korekture3.indd 220 Slovenscina_2_2021_1 korekture3.indd 220 30. 06. 2021 07:56:50 30. 06. 2021 07:56:50
220 221
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
Preglednica 1: Metapodatki mask za vnos podatkov
Metapodatek
min/max.
št
Podatkovni tip
Maska (Mono,
Serijska, Citat)
Primer
Cobiss ID 0,1 ID M, S, C 3278924
Sistory ID 0,1 ID M, S, C
handle.
net/11686/4320
ISBN 0,1 ID M 987-961-3421-43
ISSN 0,1 ID S 0353-0329
Jezik 1,1 ISO639-2b M, S slv - slovenski
Tipologija 1,1 COBISS tipologija M, S
1.16 – Samostojni
znan. sestavek
Tip 0,1 interni seznam M
Poglavje v
monografiji
Avtorji 1,neomejeno niz M, S, C Marko Zajc
Naslov 1,1 niz M, S, C
Slovenski
intelektualci in ...
Vzporedni
naslov
0,1 niz M, S
Slovenian
Intellectuals ...
Naslov
zbornika
0,1 niz M
Slovenija v
Jugoslaviji
Naslov vira 0,1 niz S
Prispevki za novejšo
zgodovino
Uredniki 0,neomejeno niz M Zdenko Čepič (ur.)
Kraj 0,1 niz M, S, C Ljubljana
Založba 0,1 niz M, S, C Založba INZ
Leto 0,1 številčna vrednostM, S, C 2015
Letnik 0,1 številčna vrednostS, C 57
Številka 0,1 številčna vrednostS, C 1
Zbirka 0,1 niz; št. vrednost M Vpogledi; 10
Stran 0,1 št. vrednost M, S, C 241–256
DOI 0,1 ID S, C 10.1090/019339135
Baza citatov
INZ
0,1 gumb M, S DA
Citat na strani 1,1 št. vrednost C 34
Vir 0,1 niz C
Prispevki za novejšo
zgodovino
Večina elementov, potrebnih za opis publikacij, je ostala nespremenjena. Po
opravljeni analizi elementov mask smo izpostavili ključna polja za potrebe
Slovenscina_2_2021_1 korekture3.indd 221 Slovenscina_2_2021_1 korekture3.indd 221 30. 06. 2021 07:56:50 30. 06. 2021 07:56:50
222 223
Slovenščina 2.0, 2021 (1)
opisa publikacij in njihovih citatov. Večina polj je splošne narave (npr. av -
tor, naslov, leto, kraj itd.), publikacije, ki jih vnašamo (monografije in serijske
publikacije), pa se med seboj razlikujejo v določenih vidikih. Ločeni maski s
prilagojenimi polji omogočata (z indeksatorskega vidika) kakovostnejšo inde -
ksacijo publikacije. Elementi so bili spremenjeni ali prilagojeni, saj določeni
niso bili ažurirani (na primer element Tipologija) ali niso omogočali dovolj
natančnega opisa (element Avtor). Pri poljih Avtor in Urednik smo metapo -
datkovno polje ločili na dve polji: Ime in Priimek. S tem smo zagotovili na -
tančnejši, bolj strukturiran opis in posledično boljše prikazovanje podatkov.
Zaradi nove strukture polja je bilo za povezovanje vrednosti polj treba opraviti
migracijo vrednosti iz starih, neločenih polj v nova, strukturno ločena polja v
obliki Priimek, Ime (za namen prikaza). Nekaterih elementov iz stare maske
v novih maskah nismo vključili, npr. Ključne besede ali Država, saj so bili za
opis publikacij v citatnem indeksu nepotrebni. Dodani so bili tudi novi ele -
menti, ki jih starejša maska za vnos podatkov ni vsebovala, ker ti podatki še
niso bili potrebni. Tu govorimo predvsem o maski za vnos serijskih publikacij
in citatov, kjer smo dodali polji DOI in URL, ki omogočata enoznačno, trajno
identifikacijo, prav tako pa poleg polja Sistory ID uporabniku omogočata hiter
dostop do publikacije.
Pri analizi obstoječih zapisov se je izkazalo, da so pomanjkljivi in neenotni. Do
takšnih napak je prihajalo predvsem zato, ker indeksatorji niso imeli nobenih
konkretnih navodil in so publikacije v maski (glavni vnos in citat) vpisovali
po lastni presoji. Zato smo se pri nadgradnji odločili, da indeksatorjem po -
nudimo pomoč, ki jim bo olajšala vnos podatkov, še bolj pomembno pa je, da
bi s temi navodili oz. pomočjo radi zagotovili čim bolj enotno indeksacijo ter
pravilnejše in natančnejše zapise v indeksu. Ob vsakem polju je pri vseh treh
maskah opis polja z navodili za vnos in primeri, ki naj bi bili indeksatorju v
pomoč oz. oporo pri vpisovanju podatkov. Tu velja poudariti, da se zavedamo,
da se bodo napake kljub pomoči še vedno pojavljale, saj se podatki vpisujejo
ročno. S tem, da dajemo navodila za vnos, poskušamo zmanjšati število pogo -
stih napak.
Slovenscina_2_2021_1 korekture3.indd 222 Slovenscina_2_2021_1 korekture3.indd 222 30. 06. 2021 07:56:50 30. 06. 2021 07:56:50
222 223
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
4.1.2 ElasticSearch iskalnik in filtriranje
Iskalnik ElasticSearch je distribucijsko, odprtokodno in analitično orodje za
vse vrste podatkov, skupaj z besedilnimi, številčnimi, geoprostorskimi, struk -
turiranimi in nestrukturiranimi podatki (What is ElasticSearch, b.d.). Elasti -
cSearch temelji na knjižnici Lucene Apache, ki je odprtokodna Java knjižnica
za besedilno iskanje. ElasticSearch ponuja najrazlične možnosti, kot so pri -
lagodljiva mapiranja podatkovnih polj, shranjevanje vrednosti ključev (ang.
Key Value Store) itd., sam delovni tok pa je sestavljen iz petih korakov (What
is ElasticSearch, b.d.; Divya in Goyal, 2013):
• Zajem podatkov (ang. Data ingestion): Postopek zajema vrednosti
se začne s tako imenovanim data ingestion, v katerem so surovi po-
datki zajeti v iskalnik iz različnih virov. Podatki, ki jih zajamemo, so
lahko v kateremkoli formatu in kakršnekoli velikosti.
• Pretvorba v format JSON : Zajete podatke pretvorimo v format
JSON JavaScript Object Notation), ki omogoča interoperabilnost po -
datkov med različnimi sistemi.
• Tokenizacija : Zajete podatke je potrebno ločiti na posamezne bese -
de, kar dosežemo z uporabo funkcije Tokenizer.
• Indeksacija : V naslednjem delu se oblikuje ElasticSearch index, ki
je zbirka med seboj povezanih dokumentov. Vsak izmed dokumentov
je povezan s ključi (imena, podatkovna polja ali lastnosti) in njihovimi
vrednostmi (niz, številke, Boolovi operatorji, nabor vrednosti …).
• Parsiranje podatkov (Data parsing): Parser bo procesiral iskalno
poizvedbo (ang. search query), preiskal indeksirani dokument in poi -
skal morebitne ustrezne zadetke.
Za implementacijo iskalnika ElasticSearch za ZIC v administrativnem sistemu
podatke zajamemo iz relacijske baze, ki temelji na tehnologiji MySQL ( What is
ElasticSearch, b.d.). Indeksirani ključi so v tem primeru podatkovna polja, ki
bodo namenjena iskalnim poizvedbam, in njihove vrednosti (ki so večinoma
besedilni nizi ali številčne vrednosti). Iskalnik ponuja izvajanje kompleksnih
iskalnih poizvedb, ZIC uporablja funkcijo simple string query:
Slovenscina_2_2021_1 korekture3.indd 223 Slovenscina_2_2021_1 korekture3.indd 223 30. 06. 2021 07:56:50 30. 06. 2021 07:56:50
224 225
Slovenščina 2.0, 2021 (1)
GET /_search
{
»query«: {
»simple_query_string« : {
»«query«: »Mojca + Šorn +
\«Življenje Ljubljančanov
med drugo svetovno vojno\««
»fields«: [»title^5«, »body«],
»default_operator«: »and«
}
}
}
Funkcija uporablja preprosto sintakso za besedilne iskalne poizvedbe, na pod -
lagi katere vrača iskalne rezultate z uporabo parserja.
Za iskalnik v spletni aplikaciji indeksiramo zgolj polji Avtor in Naslov, filtri v
spletni aplikaciji pa imajo indeksirana polja (in njihove vrednosti) Identifika-
tor, Avtor, Naslov, Tipologija, Leto, Kraj in Št. citatov. V administrativnem
sistemu je bil filter nadgrajen. Prej je omogočal filtriranje po naslednjih pa -
rametrih: Avtor, Leto, Naslov, Vir in Kraj. Ti po mnenju indeksatorjev niso
omogočali učinkovitega in natančnega iskanja zapisov znotraj baze. Novi filtri
vsebujejo večje število parametrov: Tip (monografija/serijska publikacija),
ID, Avtor, Naslov, Leto in Vir. Iskalnik ElasticSearch podpira tudi funkcijo
samodokončanja iskalne poizvedbe, poznano tudi pod imenom Autocomplete
ali Completion suggester. Funkcija je optimizirana za hitrost tipkanja, saj se
prilagaja hitrosti tipkanja iskalne poizvedbe, ki jo uporabnik vnese. Podpira
izključno funkcijo type as you go in ni mišljena za samodejno korekcijo iskal -
ne poizvedbe ali funkcije Ali ste mislili (What is ElasticSearch, b.d.). V našem
primeru se na funkcijo samodokončanja, enako kot pri osnovnem iskalniku,
vežeta zgolj polji Avtor in Naslov.
4.1.3 Uvoz in izvoz metapodatkov – MODS aplikacijski profil
XML ali eXtensible Markup Format prihaja iz družine označevalnih jezikov,
kot sta SGML in HTML. Vendar pa se od omenjenih formatov razlikuje pred -
vsem po fleksibilnosti – v primerjavi s HTML omogoča oblikovanje lastnih
označevalcev oz. elementov (angl. tag) in s tem predstavlja enega izmed naj -
pogosteje uporabljenih standardov za izmenjavo podatkov v digitalni huma -
nistiki (Extensible markup language (XML) 1.0 (fifth edition), b. d.). Že v
Slovenscina_2_2021_1 korekture3.indd 224 Slovenscina_2_2021_1 korekture3.indd 224 30. 06. 2021 07:56:50 30. 06. 2021 07:56:50
224 225
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
prejšnjih verzijah baze je izvoz podatkov bil mogoč v formatu XML. Shema
je predpostavljala lastne elemente (npr. OpTipBiblEnote za označevanje ti -
pologije vpisanega vnosa ali OpSistoryUrnId za vnos SIstory identifikatorja)
in ni upoštevala kateregakoli metapodatkovnega standarda, kot je na primer
Dublin Core. Kot je bilo že omenjeno, to pomeni zmanjšano stopnjo interope -
rabilnosti podatkov, saj gre za unikatne elemente oz. označevalce, ki jih dru -
gi (informacijski) sistemi ne uporabljajo. Pri prenosu podatkov lahko zaradi
neujemajočih shem (oziroma elementov) prihaja do izgube določenega dela
podatkov ali celo do izgube konteksta, v katerem so podatki. Čeprav je med
metapodatkovnimi standardi najbolj razširjen in uporabljen standard Dublin
Core ali njegova razširjena različica, DCTERMS, pa imata oba standarda pre -
cej omejen nabor elementov, ki ne zadostuje našim potrebam. Čeprav bi z
implementacijo enega izmed omenjenih standardov dosegli višjo stopnjo in -
teroperabilnosti, pa smo se zaradi omejitev nabora elementov odločili za me -
tapodatkovni standard MODS.
Metadata Object Description Schema (MODS) je shema XML z bibliografski -
mi elementi (oziroma naborom elementov), ki jo lahko uporabljamo za najra -
zličnejše potrebe. Shema izhaja iz standarda za bibliografske zapise MARC21,
vendar za svoje elemente namesto številčnega zapisa (na primer polje 222
za glavni naslov (ang. Key Title) in 210 za skrajšan naslov (ang. Abbreviated
Title) uporablja besedilne označevalce oziroma elemente (ang. language-ba-
sed tags) (MODS User Guidelines, Version 3 (Metadata Object Description
Schema), b.d.).
MODS namreč vsebuje dovolj obsežen nabor elementov, ki ustreza našim po -
trebam, hkrati pa je še vedno dovolj razširjen in zato omogoča zaželeno stop -
njo interoperabilnosti naših podatkov z minimalno izgubo konteksta.
Postopek prenosa podatkov iz interne sheme v metapodatkovno shemo MODS
je vključeval tri faze:
• Pregled elementov stare sheme, ki je za svoje elemente upoštevala
imena, kot so OpTipBiblEnote ali OpSistoryUrnId; del elementa 'Op'
se nanaša na publikacijo, ki jo opisujemo (Op = original publication),
'Pv' pa označuje podatke za vir publikacije, sledi interno poimenova -
nje polja (ki ustreza imenu polja, iz katerega vzamemo podatke).
Slovenscina_2_2021_1 korekture3.indd 225 Slovenscina_2_2021_1 korekture3.indd 225 30. 06. 2021 07:56:50 30. 06. 2021 07:56:50
226 227
Slovenščina 2.0, 2021 (1)
• Preslikava internih polj (poimenovanje po meri) v metapodatkov -
ni standard MODS in komentiranje kode (navodila za programer -
ja, iz katerih polj v stari metapodatkovni shemi se vežejo vrednosti
v nove elemente). Iz ene sheme sta nastali dve novi, upoštevali smo
novo strukturo mask za vnos podatkov, tako kot smo predhodno eno -
tno masko razdelili na masko za monografije in serijske publikacije.
V aplikacijskem profilu v skupnem metapodatkovnem zapisu v for -
matu XML sta ločena zapisa mask definirana z elementom mods in
identifikatorjem ID=pub za oznako zapisa za monografijo ali serijsko
publikacijo (na primer mods ID=pub.224) ali elementom relatedItem
in identifikatorjem za oznako navedenih del, na primer relatedItem
type=referencesID=ref.1.
• Prenos vrednosti iz starih internih polj v polja MODS ima svoje pred -
nosti; poleg dejstva, da tako povečamo interoperabilnost svojih podat -
kov z drugimi sistemi, s tem pridobimo večjo strukturiranost in pogosto
Slika 1: Metapodatkovna polja maske za vnos podatkov pred nadgradnjo.
Slovenscina_2_2021_1 korekture3.indd 226 Slovenscina_2_2021_1 korekture3.indd 226 30. 06. 2021 07:56:51 30. 06. 2021 07:56:51
226 227
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
tudi dodatne podatke, ki jih v stari shemi ne bi mogli implementirati.
Element OpJezik ima za svojo vrednost na primer le številčno vrednost
»21«, kar se navezuje na interni nekontroliran seznam jezikovnih vred -
nosti, novi element pa v svoji strukturi dovoljuje navedbo avtoritete in
tipa poimenovanja. Tako poleg jezikovne kode pridobimo tudi podatek
o standardu oziroma kontroliranem seznamu, ki je bil uporabljen, s
tem pa tudi standardiziramo vrednost zapisa. Slika 1 prikazuje struktu -
ro in del elementov stare, interne metapodatkovne sheme.
Spodaj so prikazani stari in novi način poimenovanja ter primerjava strukture
posameznega zapisa:
Interna shema ZIC (element Avtor):
Hadalin Jurij
Aplikacijski profil v XML:
Priimek Ime avtorja
cre
Avtor
Priimek
Ime
Interna shema ZIC (element Jezik)
21
Aplikacijski profil v XML:
slv
Latin
Interna shema ZIC (element Tipologija):
1
Aplikacijski profil:
101
Slovenscina_2_2021_1 korekture3.indd 227 Slovenscina_2_2021_1 korekture3.indd 227 30. 06. 2021 07:56:51 30. 06. 2021 07:56:51
228 229
Slovenščina 2.0, 2021 (1)
Z novim aplikacijskim profilom, ki izhaja iz metapodatkovnega standarda
MODS, smo namesto internih metapodatkovnih elementov v shemi uporabili
obstoječi in razširjeni metapodatkovni standard MODS. S tem smo naslovili
dve izmed temeljnih načel: poznavanje oziroma uporabo poznanih in razširje -
nih tehnologij ter načelo interoperabilnosti. Format XML nam namreč zago -
tavlja lažje izmenjevanje in diseminacijo podatkov z drugimi sistemi.
4.1.4 Migracija vrednosti polj avtorji
Enega izmed večjih problemov, ki nam ga je delno uspelo rešiti med nadgrad-
njo, predstavlja migracija vrednosti polja Avtor(ji) iz skupnega polja v dve
ločeni. Problem je nastal zaradi neenotnega zapisa oziroma različnih oblik
vrednosti Priimek in Ime (oblike: Priimek, Ime; Ime in Priimek, Ime, Prii-
mek ...) ter naštevanja več avtorjev v enem polju ( Avtor1; Avtor2 ...), ki so
bili med seboj ločeni z različnimi ločili. Ta problem nam je uspelo rešiti zgolj
delno: migracija, ki je potekala strojno, je bila uspešna na poljih, ki so se med
seboj ujemala, pri določenih zapisih pa to ni bilo mogoče (primer Ime Ime,
Priimek), zato zahteva ročne popravke. Te napake bomo lahko odpravili po
začetku procesa prečiščevanja baze, ki pa za zdaj še ni predviden.
4.2 Spletna aplikacija in uporabniški vmesnik
4.2.1 Podatkovna baza Vseh del in podatkovna baza Vseh bibliografskih
navedb
Spletna aplikacija vsebuje dve podatkovni bazi: bazo Vsa dela in podatkovno
bazo Vse bibliografske navedbe. Razlog za dve medsebojno ločeni bazi je v
prikazu rezultatov, še natančneje v prikazu števila prejetih citatov pri določe -
nem zapisu. Pri izpisu rezultatov je na voljo število citatov, ki jih je določeno
delo prejelo, vendar ti podatki morda niso pravilni, ker se število prejetih ci-
tatov določenega dela veže na ujemanje naslova pri glavnem vnosu (maska za
vnos glavnega zapisa) in pri citatu (maska za vnos citata). Kot pa smo omenili
že zgoraj, nemalokrat pride do napak. Zaradi tega je potrebna druga baza Vse
bibliografske navedbe, po kateri je omogočeno brskanje z uporabo filtrov. Ta
baza dovoljuje uporabniku dodaten in bolj natančen vpogled v citate, saj tu
dejansko vidimo vse vnesene citate, indeksatorjem pa predstavlja dodatno
orodje za lažje popravke že obstoječih zapisov (preglednejše iskanje zapisov
slabše kakovosti).
Slovenscina_2_2021_1 korekture3.indd 228 Slovenscina_2_2021_1 korekture3.indd 228 30. 06. 2021 07:56:51 30. 06. 2021 07:56:51
228 229
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
4.2.2 Prikaz iskalnih rezultatov
Iskalni rezultati so prikazani v obliki tabel, ki uporabnikom ponujajo tudi fil -
triranje rezultatov oziroma omogočajo oženje iskalne poizvedbe znotraj tabe -
le. Rezultate je mogoče tudi razvrščati. Poleg filtriranja je uporabniku omogo -
čen izvoz zadetkov na seznamu rezultatov in posameznega zadetka v formatu
PDF. Za uporabnike sta prav tako pripravljeni tudi dve vrsti pomoči: osnovna
razlaga uporabe citatnega indeksa na prvi strani ZIC (iskanje/brskanje) in
manjši namig pri uporabi filtrov s primeri uporabe ločil. Prikaz posameznega
zapisa uporabniku dovoljuje vpogled v osnovne podatke (metapodatke dela),
osnovne podatke vseh del, v katerih je bil citiran, in avtorjev seznam literatu -
re. Podatki so prikazani v dveh ločenih tabelah, Citirano v in Seznam literatu-
re, zapisi so med seboj povezani.
Med oblikovanjem vmesnika so v vmesnih fazah sodelovali raziskovalci/upo -
rabniki, s katerimi smo testirali odzive na novi vmesnik, novo podatkovno
strukturo in nove funkcionalnosti. Največ težav je predstavljala terminologija,
predvsem na podlagi dejstva, da se zgodovinarsko dojemanje terminov litera -
ture in virov precej razlikuje od pojmovanja na področju tehnologije. Nerodna
poimenovanja iz prejšnje verzije vmesnika ( Avtor citira, Citiranost Avtorja) je
bilo treba nadomestiti s terminom, ki bo uporabnikom razumljiv. Kot že ome -
njeno, smo se na podlagi tega odločili za osnovno iskanje in dve ločeni bazi,
ki sta po številnih preimenovanjih pridobili ime Vsa dela in Vsi bibliografski
Slika 2: Trenutni uporabniški vmesnik ZIC-a.
Slovenscina_2_2021_1 korekture3.indd 229 Slovenscina_2_2021_1 korekture3.indd 229 30. 06. 2021 07:56:51 30. 06. 2021 07:56:51
230 231
Slovenščina 2.0, 2021 (1)
navedki. Čeprav sta imeni daljši, smo prednost namenili razlagi terminov, saj
so uporabniki menili, da sta ti poimenovanji najbolj jasni in logični.
Poleg terminologije je problem predstavljala tudi postavitev elementov na
spletni strani (predvsem gumbi). Tu se je izkazalo, da je uporabnike precej
zmedla postavitev gumbov za obe bazi, saj so mislili, da s klikom na npr. Vsa
dela dobijo vsa dela iskanega avtorja. Težavo smo odpravili tako, da smo
ustvarili različne statične verzije uporabniškega vmesnika in s pomočjo upo -
rabnikov določili tisto, ki je najbolj jasna in intuitivna.
4.2.3 Uporaba indeksa citiranosti
Primarni uporabniki citatnega indeksa so raziskovalci, ki lahko v sistemu eno -
stavno preverijo št. prejetih citatov za posamezno avtorsko delo; če je to inde -
ksirano v sistem. Poleg izpisa iz sistema SICRIS (Slovenian Current Research
Information System), ki je osnova za vrednotenje znanstvene uspešnosti na
posameznem raziskovalnem področju, lahko izpis iz ZIC predstavlja dodano
vrednost pri prijavljanju projektov ali programov na področju humanistike in
pri obnavljanju ali napredovanju v višje znanstvene nazive. Poleg raziskoval -
cev si z ZIC lahko pomagajo tudi uredniki revij, ki želijo preveriti, kolikokrat so
bili posamezni članki citirani, in s tem upravičijo obstoj revije. Poleg primarne
naloge, ki je zagotavljanje vpogleda v število prejetih citatov, pa indeks ponuja
tudi druge možnosti, ki jih stari ZIC ni ponujal. Te naj bi uporabniku omogo -
čile prijetnejšo interakcijo s sistemom. Ena izmed takšnih funkcionalnosti je
npr. možnost prijaznega kopiranja, ki uporabniku omogoča lažje navajanje
virov v svojih delih, saj ZIC ponuja skoraj popolne bibliografske podatke, ali
npr. izpis števila citatov v formatu PDF ipd. Indeks ponuja tudi možnost do -
stopa do polnega besedila, če je le-to na voljo na sestrskem spletnem portalu
Zgodovina Slovenije – SIstory.
5 SKLEP
Sistem je bil že v začetni zasnovi izjemno ambiciozen in zaradi načina ob -
javljanja v zgodovinopisju izjemno potreben. Vendar je Zgodovinarski indeks
citiranja zadnja leta nekoliko stagniral. Po pregledu in analizi podatkov smo
ugotovili, da je nadgradnja potrebna, saj sistem ne zadostuje potrebam in -
deksatorjev in uporabnikov. Začeli smo nadgradnjo administrativnega dela,
Slovenscina_2_2021_1 korekture3.indd 230 Slovenscina_2_2021_1 korekture3.indd 230 30. 06. 2021 07:56:51 30. 06. 2021 07:56:51
230 231
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
kjer smo preoblikovali oz. nadgradili nove maske, nadgradili metapodatkovno
shemo oziroma ustvarili nov aplikacijski profil na podlagi metapodatkovne -
ga standarda MODS, filtre in dodali pomoč indeksatorjem, ki naj bi pripo -
mogla k poenotenim zapisom. Poleg administrativnega dela smo nadgradili
tudi uporabniški vmesnik z občasnim testiranjem baze in njenih komponent
z raziskovalci. Z omenjeno nadgradnjo smo rešili večino zaznanih problemov,
od nejasnih in nepotrebnih polj vnosa podatkov in razčlenitve mask, ki in -
deksatorju omogočajo lažje in natančnejše oblikovanje zapisov, oblikovanja
aplikacijskega profila MODS, ki omogoča lažji uvoz in izvoz podatkov, do upo -
rabniku prijaznejšega vmesnika itd. Vseh težav pa zaradi omejitev, povezanih
z ročnim vnosom podatkov, ni bilo mogoče v celoti rešiti. To velja predvsem
za postopek migracije polja Avtorji, kjer bo problem v celoti rešen šele po pre -
čiščenju celotne baze podatkov. Postopek prečiščenja bo pripomogel tudi k
poenotenju zapisov, kar bo omogočalo, da uporabniki v sistemu pridobijo za -
nesljive in kakovostne informacije. Pri nadgradnji Zgodovinarskega citatnega
indeksa smo dosegli zastavljene cilje. Sistem smo tehnično posodobili in ZIC
postavili kot ločeno spletno aplikacijo na poddomeni portala SIstory. Spletna
aplikacija je narejena modularno, zato je mogoče dodajati nove funkcionalne
rešitve, iskalnik s tehnologijo ElasticSearch pa omogoča natančnejše in pre -
glednejše iskanje po podatkih.
V prihodnosti želimo poleg že obstoječih funkcionalnosti dodati še druge
možnosti, ki bi olajšale delo indeksatorjem, uporabnikom pa omogočile pri -
jetnejšo uporabniško izkušnjo. Te možnosti so npr. avtomatizirano vnašanje
osnovnih podatkov iz vnosov, ki so povezani in dostopni na portalu SIstory,
ter možnost samodejnega generiranja citatov po različnih citatnih stilih (npr.
APA, Chicago idr.). Z nadgradnjo Zgodovinarskega indeksa citiranosti smo
tako oblikovali sistem, ki je intuitiven za indeksatorje in uporabnike, s tem pa
zagotovili, da ZIC izpolni svoj namen.
Zahvala
Raziskavo je sofinancirala Javna agencija za raziskovalno dejavnost Republike
Slovenije v okviru programa Raziskovalne infrastrukture slovenskega zgodo -
vinopisja (I0-0013) in slovenske raziskovalne infrastrukture DARIAH SI.
Slovenscina_2_2021_1 korekture3.indd 231 Slovenscina_2_2021_1 korekture3.indd 231 30. 06. 2021 07:56:51 30. 06. 2021 07:56:51
232 233
Slovenščina 2.0, 2021 (1)
LITERATURA
Ball, R., & Tunger, D. (2006). Science indicators revisited-Science Citation
Index versus SCOPUS: A bibliometric comparison of both citation data -
bases. Information Services and Use, 26(4), 293–301.
Bartol, T., Budimir, G., Dekleva-Smrekar, D., Pušnik, M., & Južnič, P. (2014).
Assessment of research fields in Scopus and Web of Science in the view
of national research evaluation in Slovenia. Scientometrics, 98(2),
1491–1504.
Curk, L., Budimir, G., Seljak, T., & Gerkes, M. (2006). Linking the SICRIS-CO -
BISS.SI-Web of Science systems. Organizacija znanja, 11(4), 230–235.
Divya, M. S., & Goyal, S. K. (2013). ElasticSearch: An advanced and quick
search technique to handle voluminous data. Compusoft, 2(6), 171.
Extensible markup language (XML) 1.0 (fifth edition). Pridobljeno https://www.
w3.org/TR/xml/
Glänzel, W., & Schoepflin, U. (1999). A bibliometric study of reference litera -
ture in the sciences and social sciences. V Information Processing & Man-
agement (str. 31–44).
Hicks, D. (2004). The four literatures of social science. V Handbook of quan-
titative science and technology research (str. 473–496).
Huang, M. H., & Chang, Y. W. (2008). Characteristics of research output in
social sciences and humanities: From a research evaluation perspective.
Journal of the American Society for Information Science and Technolo-
gy, 59(11), 1819–1828.
Južnič, P. (2017). Bibliometrijski indikatorji. Pridobljeno s https://www.youtube.
com/watch?v=l9W5glZl97I&feature=youtu.be
Kousha, K., Thelwall, M., & Rezaie, S. (2011). Assessing the citation impact
of books: The role of Google Books, Google Scholar, and Scopus. Journal
of the American Society for information science and technology, 62(11),
2147–2164.
Lazarević, Ž., & Zemljič, I. (2003). Slovenski zgodovinarski indeks citiranosti
– izhodišča in pomisleki. [Neobjavljena dokumentacija.]. Ljubljana: Inšti -
tut za novejšo zgodovino.
MODS User Guidelines, Version 3 (Metadata Object Description Schema).
Pridobljeno s https://www.loc.gov/standards/mods/userguide/introduction.html
Slovenscina_2_2021_1 korekture3.indd 232 Slovenscina_2_2021_1 korekture3.indd 232 30. 06. 2021 07:56:52 30. 06. 2021 07:56:52
232 233
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
Nederhof, A. (2006). Bibliometric monitoring of research performance in
the social sciences and the humanities: A review. Scientometrics, 66(1),
81–100.
Pajić, D. (2015). Globalization of the social sciences in Eastern Europe: genu -
ine breakthrough or a slippery slope of the research evaluation practice?
Scientometrics, 102(3), 2131–2150.
Pančur, A. (2019a). Preprosta raziskovalna infrastruktura za kompleksne
raziskovalne podatke v humanistiki – si4 (Simple research Infrastruc-
ture FOR complex research data in digital humanities). [Neobjavljena
dokumentacija.]
Pančur, A. (2019b). Specifikacije za izvedbo naročila izdelave Zgodovinars-
kega indeksa citiranosti (ZIC). [Neobjavljena dokumentacija.]
Pančur, A., & Šorn, M. (2019). Na začetku je bil SIstory: raziskovalna infra -
struktura slovenskega zgodovinopisja. V J. Hadalin in Ž. Lazarević (ur.),
Inštitut za novejšo zgodovino: 60 let mislimo preteklost (str. 47–58).
Ljub ljana: Inštitut za novejšo zgodovino.
Pančur, A., Šorn, M., & Hadalin, J. (2014). Slovenski indeks citiranosti (SICI):
Načrt izgradnje in delovanja. Tehnično poročilo. Pridobljeno s https://www.
sistory.si/11686/36153
What is ElasticSearch. Pridobljeno s https://www.elastic.co/what-is/elasticsearch
Slovenscina_2_2021_1 korekture3.indd 233 Slovenscina_2_2021_1 korekture3.indd 233 30. 06. 2021 07:56:52 30. 06. 2021 07:56:52
234 235
Slovenščina 2.0, 2021 (1)
THE HISTORIOGRAPHY CITATION INDEX
UPGRADE
The fields of humanities and social sciences are often deprived of inclusion
within the international citation indexes such as Scopus and Web of Science
(WOS). The reason for this offshift in the indexes are commonly associated with
the format of published works, e.g. the most common type of published works
in humanities are monographs (though the scientific journals are on the rise),
which are not typically included in WOS and Scopus. Even though Scopus is
far more inclusive of such types and fields in comparison to WOS, there is still
a gap to be filled. As a response to this predicament the Institute of Contem -
porary History developed its own citation index – the Historiography Citation
Index (HCI), which was first meant to only track the research production with -
in the institution, but has since been expanded to cover the production of the
whole field of Slovene historiography. Over the years HCI was a subject of sev -
eral upgrades and data harmonization attempts. Even with the upgrades, sever -
al shortcomings of the systems were apparent, and therefore, another upgrade
was taken into consideration, and after the extensive analysis was performed,
we identified the most problematic aspects of the index and began working on
another upgrade.
The upgrade was performed in two parts – in the first one, we took upon our -
selves to improve the administrative system in which we implemented the Elas -
ticSearch technology to improve our search engine and filtration system, as well
as improving the data masks to increase the precision and accuracy of the data
input into the index. As a part of the administrative system upgrade we also
modeled the MODS application profile to increase the interoperability of our
data and therefore, enabling the exchange of our data between different infor -
mation systems without losing data and its context. In the second part, we up -
graded the user interface of the citation index to be more user friendly. In order
to increase the coherence of the data display, we implemented a table-like de -
sign of the search result, equipped with filters in each column. To increase the
visibility of the most important factor of the citation index, number of citations
the work has received, we included additional column just for that information.
The index aims to enable researchers access to the information on the number
of citations, cited works ect. It is also recognised by the Slovenian Research
Agency (ARRS) as a valid source of citations and could be used to provide proof
Slovenscina_2_2021_1 korekture3.indd 234 Slovenscina_2_2021_1 korekture3.indd 234 30. 06. 2021 07:56:52 30. 06. 2021 07:56:52
234 235
K. MEDEN, A. CVEK: Nadgradnja Zgodovinarskega indeksa citiranosti
of the researchers achievements and scientific excellency, though it is still not
recognised as equal to the SICRIS information system.
With the upgrade we increased the efficiency of the citation index, as well as
its usability, and with it ensured a more intuitive system to its indexators and
users.
Keywords : the Historiography Citation Index, HCI, upgrade, citation indexes
To delo je ponujeno pod licenco Creative Commons: Priznanje avtorstva-Deljenje pod enakimi
pogoji 4.0 Mednarodna. / This work is licensed under the Creative Commons Attribution-Share -
Alike 4.0 International.
https://creativecommons.org/licenses/by-sa/4.0/
Slovenscina_2_2021_1 korekture3.indd 235 Slovenscina_2_2021_1 korekture3.indd 235 30. 06. 2021 07:56:52 30. 06. 2021 07:56:52