Samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science in Scopus za obdobje 1996-2013 Self-citations of publications by Slovenian researchers in Web of Science and Scopus from 1996 to 2013 Gordana Budimir, Luka Juršnik, Philip Rachimis Oddano: 5.4.2016- Sprejeto: 13. 5.2016 1.01 Izvirni znanstveni članek 1.01 Original scientific paper UDK 001.891:303.82-057.4(497.4) Izvleček Namen: V članku so prikazani rezultati raziskave, katere namen je primerjati samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science (WoS) in Scopus za različne definicije samocitatov in ugotoviti razlike in podobnosti med samocitiranostjo po metodologiji Javne agencije za raziskovalno dejavnost Republike Slovenije (ARRS) in samocitiranostjo po drugih definicijah samocitatov. Metodologija/pristop: Raziskava je bila narejena za vse članke slovenskih raziskovalcev, registriranih v sistemu SICRIS, v podatkovnih zbirkah WoS in Scopus, ki so hkrati v sistemu COBISS in so objavljeni in citirani v obdobju 1996-2013. Definirane in preizkušene so tri vrste samocitatov, ki se med seboj razlikujejo po naboru avtorjev pri primerjanju članka in njegovega citata: skupni samocitati, avtorjevi samocitati in COBISS samocitati, ki se upoštevajo v metodologiji agencije ARRS. Podrobneje so analizirane kumulativne vrednosti za celotno obdobje objav in za posamezna leta citiranosti. Rezultati: Raziskava je pokazala, da bistvenih razlik med vzorci samocitiranja objav slovenskih raziskovalcev v podatkovnih zbirkah WoS in Scopus ni ter da je primerljivost samocitiranosti po metodologiji agencije ARRS s samocitiranostjo ob upoštevanju samo prvega avtorja dosti večja kot pa s samocitiranostjo ob upoštevanju vseh soav-torjev člankov. Omejitve raziskave: Raziskava je omejena na analize in primerjave samocitiranosti za izbrane vrste samocitatov na nacionalnem makro nivoju. Za podrobnejšo analizo samocitiranosti objav slovenskih avtorjev bi bilo treba raziskavo razširiti na nižje nivoje rp 45 Gordana Budimir, Luka Juršnik, Philip Rachimis (npr. po posameznih znanstvenih vedah) ter na dodatne indikatorje (npr. samocitira-nost glede na število avtorjev). Izvirnost/uporabnost raziskave: Posebnost raziskave je izbira in primerjava treh različnih algoritmov izračuna samocitatov na skoraj celotni slovenski znanstveni produkciji v obdobju 1996-2013. Ključne besede: samocitiranost, analiza citiranja, WoS, Scopus, COBISS, SICRIS Abstract Purpose: The article presents the results of a study with the aim of comparing self-citations of Slovenian researchers in Web of Science (WoS) and Scopus for various definitions of self-citations, and establishing the differences and similarities between self-citation according to the methodology of the Slovenian Research Agency (ARRS) and self-citation according to other definitions. Methodology/Approach: The study was conducted for all articles by Slovenian researchers registered in the SICRIS system in the WoS and Scopus databases that are also in the COBISS system and were published and cited in the time period between 1996 and 2003. Defined and tested were three types of self-citations that differ in the set of authors when comparing the article and its citation: total self-citations, author's self-citations and COBISS self-citations according to ARRS methodology. The cumulative values for the entire publication period and individual years of citation were analyzed in more detail. Results: The study showed that there are no significant differences between the self-citation patterns of Slovenian researchers in WoS and Scopus, and that the comparability according to ARRS methodology with self-citation when taking into account the only first author is significantly larger than with self-citation when taking into account all of the articles' co-authors. Research limitation: The study was limited to analyses and comparisons of self-citations according to the selected types of self-citation calculation on the national macro level. For a more detailed analysis of self-citation for Slovenian authors the study would have to be extended to the lower levels (e.g. by scientific disciplines) and additional indicators (e.g. self-citation according to the number of authors). Originality/Practical implications: A special feature of this study is the selection and comparison of three different algorithms for self-citation calculation for almost the entire Slovenian scientific production in the time period 1996-2003. Key words: self-citations, citation analysis, Web of Science, Scopus, COBISS, SICRIS 1 Uvod Evalvacija znanstvene uspešnosti raziskovalcev je danes prisotna predvsem na univerzah in raziskovalnih institucijah, kjer se različne kvantitativne bibliomet-rične in scientometrične metode uporabljajo kot podpora pri odločanju glede 46 Knjižnica, 2016, 60(1), 45-60 Samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science in Scopus .. financiranja znanstvenoraziskovalnega dela njihovih raziskovalcev (Panare-tos in Malesios, 2009). Eden preprostejših indikatorjev za merjenje znanstvene uspešnosti je odmevnost avtorja oziroma citiranost njegovih publikacij v znanstvenih publikacijah drugih avtorjev. Medtem ko na področju citiranosti obstaja veliko raziskav, pa jih manj obravnava samocitiranost kot enega od indikatorjev pri merjenju znanstvene uspešnosti. To še posebej velja za raziskave, ki zajemajo veliko število publikacij, npr. pri nacionalnih znanstvenih produkcijah določene države. Za samocitiranost so raziskovalci že v 70. letih prejšnjega stoletja ugotovili, da je pomemben indikator pri evalvaciji znanstvenih publikacij in revij. Eno od pomembnih vprašanj v raziskavah samocitiranosti je, ali je samocitiranost zaželen ali nezaželen pojav. Je pa eden od večjih problemov, s katerimi se raziskave ukvarjajo še danes, definicija samocitata (Garfield, 1972; Tagliacozzo, 1977; Garfield, 1979; Lawani, 1982; Snyder in Bonzi, 1998; Aksnes, 2003; Costas, van Leeuwen in Bordons, 2010; Carley, Porter in Youtie, 2013; Ioannidis, 2015). Sam način definiranja samocitata je zelo pomemben za razlago in primerjavo rezultatov posameznih raziskav, v katerih so samocitati lahko analizirani z različnih aspektov in za različne nivoje združevanja publikacij in njihovih citatov, npr. za določeno revijo, znanstveno področje, institucijo itn. Vir podatkov v večini raziskav s področja citiranosti je večinoma eden od sistemov Web of Science (WoS) ali Scopus. Malo je raziskav, ki se pri evalvaciji znanstvene uspešnosti ukvarjajo z ugotavljanjem pomembnosti obeh sistemov hkrati, še posebej s stališča citiranosti večjega števila raziskovalcev, kakršna je na primer raziskava za slovensko nacionalno znanstveno produkcijo, v kateri sta bili narejeni analiza in primerjava citiranosti cca. 10.000 slovenskih raziskovalcev v podatkovnih zbirkah WoS in Scopus v obdobju 1996-2011 po posameznih znanstvenih področjih (Bartol, Budimir, Dekleva-Smrekar, Pušnik in Južnič, 2014). Podobnih raziskav, ki bi oba sistema uporabile kot vir podatkov za analizo samocitiranosti, pa tako rekoč ni. Edina večja raziskava samocitiranosti objav slovenskih raziskovalcev je narejena na področju medicine za članke v podatkovni zbirki WoS v obdobju 1986-2007 (Blagus, Leskošek in Stare, 2015). V tej raziskavi so opazovane spremembe v razvrstitvi raziskovalcev glede na različne bibliometrične indikatorje, z upoštevanjem samocitatov in brez tega, ugotovitve pa so pokazale, da se avtorji z manjšim deležem samocitatov uvrščajo višje po indikatorjih, ki upoštevajo citate brez samocitatov, kot pa po indikatorjih, ki upoštevajo vse citate. Glavni cilj naše raziskave je analizirati samocitiranost slovenskih raziskovalcev, registriranih v Informacijskem sistemu o raziskovalni dejavnosti v Sloveniji (SICRIS), glede na različne definicije samocitatov, in ugotoviti razlike med uporabo definicije, ki se upošteva pri evalvaciji znanstvene uspešnosti po metodologiji agencije ARRS, in bolj »standardnimi« definicijami, ki se danes uporabljajo tudi v drugih raziskavah. Za evalvacijo slovenskih raziskovalcev se upoštevajo njihovi Knjižnica, 2016, 60(1), 45-60 47 Gordana Budimir, Luka Juršnik, Philip Rachimis članki, objavljeni v revijah, ki jih indeksirata sistema WoS in Scopus, zato lahko implicitno primerjamo tudi vzorce samocitiranosti objav naših raziskovalcev v teh sistemih. Izsledki raziskave, ki se nanaša na skoraj celotno slovensko znanstveno produkcijo, se lahko uporabijo kot temeljne informacije pri načrtovanju metodologije evalvacije slovenskih raziskovalcev in za spremljanje njihovega znanstvenega komuniciranja. Raziskava predstavlja preizkus uporabe nekaterih definicij samocitatov na nacionalnem nivoju, kar se lahko šteje za slovenski prispevek na področju raziskav samocitiranosti, saj do zdaj ni zaslediti veliko podobnih raziskav. 2 Pregled literature Nivo raziskave samocitiranosti glede na združevanje publikacij in njihovih citatov ločimo na: makro nivo, ki zajema širši nabor publikacij, npr. norveško nacionalno znanstveno produkcijo (Aksnes, 2003; Fowler in Aksnes, 2007) ali vse publikacije iz podatkovne zbirke WoS v obdobju 1992-2001 (Glanzel, Thijs in Schlemmer, 2004); mezo nivo, ki zajema publikacije, omejene na določeno revijo (Leydesdorff, 2008), določeno institucijo (Costas idr., 2010) ali določeno znanstveno področje (Shah, Gul in Gaur, 2015); in mikro nivo, ki predstavlja nivo posameznega avtorja. Večina raziskav se nanaša na mezo nivo, manj pa je raziskav na makro nacionalnem nivoju. Eden od razlogov za to je težavnost priprave tako velikega in primerno kvalitetnega vzorca za analizo, saj potrebnih podatkov ni tako lahko pridobiti (Blagus idr., 2015). Pri zajemanju podatkov za analize direktno iz podatkovnih zbirk velikih sistemov velikokrat nastajajo napake, na primer, ko zaradi nepopolnih ali neobstoječih podatkov o avtorjih, npr. države v avtorjevem naslovu, ni mogoče zajeti vseh bibliografskih podatkov avtorjev določene države (Vieira in Gomes, 2009; Jacso, 2009). Problemi nastajajo tudi pri prepoznavanju imen avtorjev zaradi različnih oblik (npr. polna imena in priimki ali pa priimki in začetnice imen) ali pa zaradi različnih napak v podatkih o avtorjih, o katerih poročajo raziskovalci (Glanzel idr., 2004; Shah idr., 2015). Tudi Fowler in Aksnes (2007) za norveške raziskovalce s publikacijami v podatkovni zbirki WoS v obdobju 1981-2000 poročata o problemih s homonimi (različni avtorji z enakim imenom) ali s spremembami imen (npr. zaradi porok), zaradi česar so iz raziskave izločili cca. 700 avtorjev, katerih imena so bila problematična. Problemi pri prepoznavanju imen avtorjev lahko nastanejo tudi zaradi transli-teracije, npr. iz ruske cirilice (Zibareva in Soloshenko, 2011). Rezultati raziskav samocitiranosti in njihova primerjava pa so zelo odvisni od definicije samocitata. Ioannidis (2015) tako definira neposredni samocitat kot citat, s katerim določen avtor citira kakšnega od svojih predhodnih del. Podobno 48 Knjižnica, 2016, 60(1), 45-60 Samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science in Scopus .. neposredne samocitate določa tudi za posamezno revijo, znanstveno področje, državo itn. Definira tudi soavtorske samocitate, ki nastanejo, ko eden ali več soav-torjev avtorja Y objavi(jo) drugo publikacijo brez avtorja Y, ta publikacija pa citira njihovo skupno publikacijo. To so pravzaprav neposredni samocitati za soavtorje, kadar določen avtor neposredno ne citira samega sebe. Na mikro nivoju oziroma na nivoju posameznega avtorja se neposredni samocitat avtorja A pojavi vedno, ko je A tudi (so)avtor publikacije, ki jo citira publikacija, katere (so)avtor je A. (Glanzel, Debackere, Thijs in Schubert, 2006). Te definicije pa ni mogoče uporabiti na višjih nivojih, ko se publikacije in citati združujejo za skupine različnih (so)avtorjev. Najpogosteje uporabljena definicija samocitatov na mezo in makro nivoju je definicija, po kateri samocitat nastane, ko množici soavtorjev citiranega članka in soavtorjev člankov, ki citirajo ta članek, nista disjunktni oziroma kadar imata skupnega vsaj enega avtorja (Snider in Bonzi, 1998). Fowler in Aksnes (2007) ločujeta samocitate na nivoju avtorja (avtorski samocitati), ki ustrezajo definiciji neposrednih samocitatov, ter samocitate na nivoju publikacije, ki ustrezajo definiciji po Snider in Bonzi (1998). Podobno Costas in drugi (2010) ločujejo samocitate na avtorske, ki ustrezajo definiciji neposrednih samocitatov, in skupne samocitate na nivoju dokumenta (dokumentni samocitati); ti vključujejo vse samocitate, ki jih prejme publikacija od vseh svojih soavtorjev (neposredni in soavtorski samocitati skupaj). Mogoče so tudi druge definicije samocitatov, kot je najbolj restriktivna definicija, po kateri se primerjajo samo imena prvih avtorjev publikacij (Aksnes, 2003). V sistemu Scopus so samocitati definirani kot dokumentni samocitati, v sistemu WoS pa načeloma kot neposredni samocitati (Ioannidis, 2015). Sicer pa ta definicija samocitatov v sistemu WoS ni tako trivialna in za samocitate nekega članka določa članke, ki citirajo ta članek in so v seznamu zadetkov vhodne iskalne zahteve (Carley idr., 2013). Na ta način je število citatov odvisno od iskalne zahteve in edini način, da določimo vse samocitate nekega avtorja, je, da z eno iskalno zahtevo zajamemo vse njegove publikacije, kar pogosto ni mogoče zaradi omenjenih problemov s podatki o avtorjih v sistemih, kot je WoS. Najbolj sistematične analize na nacionalnem nivoju so narejene na Norveškem. Raziskava, ki jo je izvedel Aksnes (2003), vključuje več kot 46.000 člankov norveških avtorjev iz podatkovne zbirke WoS v obdobju 1981-1996. Od tega je do leta 2000 citiranih 71 % člankov (povprečno 13,7 citata na članek), 21 % pa je avtorskih samocitatov, ki so določeni samo na osnovi imen prvih avtorjev citiranih in citira-jočih člankov. Delež samocitatov je največji, 36 %, v zadnjem triletnem obdobju citiranosti in se zmanjšuje z večanjem tega citatnega okna. Ugotovljena je močna pozitivna relacija med številom samocitatov in številom avtorjev člankov na nacionalnem nivoju, na nižjih nivojih pa avtor svetuje izključitev samocitatov ter preverjanje njihovega vpliva na posamezne indikatorje znanstvene uspešnosti. Knjižnica, 2016, 60(1), 45-60 49 Gordana Budimir, Luka Juršnik, Philip Rachimis V drugi raziskavi Fowler in Aksnes (2007) ugotavljata vpliv samocitiranosti objav avtorjev na to, koliko jih citirajo drugi avtorji, na množici cca. 65.000 člankov norveških avtorjev, objavljenih in citiranih v podatkovni zbirki WoS v obdobju 1981-2000, pri čemer so samocitati določeni glede na imena vseh avtorjev člankov in ne samo glede na imena prvih avtorjev. Povprečno je v tem obdobju vsak avtor objavil sedem člankov in jih desetkrat samocitiral, drugi avtorji pa so jih citirali 85-krat. Ugotovljeno je, da članki, ki imajo več samocitatov, prejmejo tudi več citatov drugih avtorjev in da se za vsak dodatni samocitat število citatov poveča za ena v naslednjem letu in za okoli tri v naslednjih petih letih. Enako velja tudi za avtorje z največjim številom samocitatov, kar pomeni, da zaradi samoci-tiranosti objav avtorjev ne prihaja do negativnih efektov drugih avtorjev. 3 Metodologija V raziskavi so zajeti vsi članki slovenskih raziskovalcev, registriranih v sistemu SICRIS, ki so indeksirani in citirani v podatkovnih zbirkah WoS in Scopus v obdobju 1996-2013 in so hkrati obdelani v vzajemni bibliografski podatkovni zbirki sistema COBISS.SI (COBISS) ter se upoštevajo pri evalvaciji znanstvene uspešnosti po metodologiji agencije ARRS. Sistem SICRIS vsebuje podatke o slovenskih raziskovalcih, o raziskovalnih organizacijah, skupinah, programih in projektih, njihove bibliografije pa se vodijo v sistemu COBISS in so od leta 1997 za raziskovalce obvezne pri prijavi na razpise za (so)financiranje iz javnih sredstev, ki jih vodi agencija ARRS (Demšar in Južnič, 2014). Za ustreznost podatkov o nacionalni znanstveni produkciji v sistemu COBISS skrbijo Osrednji specializirani informacijski centri. Za evalvacijo raziskovalne uspešnosti so še posebej pomembni članki raziskovalcev, ki so indeksirani v citatnih podatkovnih zbirkah WoS (Science Citation Index Expanded (SCIE), Social Sciences Citation Index (SSCI), Arts & Humanities Citation Index (A&HCI)) in Scopus ter podatki o dejavnikih vpliva revij, v katerih so ti članki objavljeni: SNIP (Source Normalized Impact per Paper, Leiden University's Centre for Science & Technology Studies) in JCR (Journal Citation Reports®, Thomson Reuters). To je velika količina podatkov in informacij, ki se hitro dopolnjujejo in spreminjajo, zato se v okviru portala COBISS/SciMet bibliografski zapisi za članke slovenskih avtorjev v podatkovnih zbirkah WoS in Scopus dnevno samodejno povezujejo z ustreznimi bibliografskimi zapisi v vzajemni bibliografski podatkovni zbirki sistema COBISS. Izvajajo se zajemanje, agregacija, obdelava in priprava podatkov iz vseh informacijskih virov za potrebe vrednotenja del slovenskih raziskovalcev ter za različne analize objavljanja in odmevnosti/citiranja slovenskih avtorjev (Budimir in Juršnik, 2015). Na ta način so nam vedno na voljo ažurirani podatki o citiranosti in samocitiranosti objav slovenskih raziskovalcev v podatkovnih zbirkah WoS in Scopus, ki so uporabljeni tudi v tej raziskavi. 50 Knjižnica, 2016, 60(1), 45-60 Samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science in Scopus .. Vsak raziskovalec ima v sistemu SICRIS svojo šifro raziskovalca, ki se sistematično vnaša tudi v bibliografske zapise za njegove članke v sistemu COBISS. Ti zapisi v okviru portala COBISS/SciMet so povezani z ustreznimi zapisi v podatkovnih zbirkah WoS in Scopus, zato lahko članke in podatke o citiranosti določenega raziskovalca v podatkovnih zbirkah WoS in Scopus na preprost način pridobimo na osnovi njegove šifre, pri tem pa se lahko omejimo tudi na določeno obdobje objave in citiranosti člankov. Na tak način so v naši raziskavi za vse raziskovalce, ki imajo šifre v sistemu SICRIS, zajeti vsi članki iz podatkovnih zbirk WoS in Scopus, ki so objavljeni v obdobju 1996-2013 in so povezani z ustreznimi zapisi v sistemu COBISS. Za te članke so s portala COBISS/SciMet pridobljeni podatki o njihovih citatih in določeni samocitati na nivoju dokumentov po najširše uporabljeni definiciji samocitatov (Snyder in Bonzi, 1998). Skupni avtorji člankov in njihovih citatov niso ugotovljeni na osnovi njihovih imen, pač pa na osnovi enakosti identifikatorjev, ki so avtorjem dodeljeni v sistemih SICRIS, COBISS, WoS in Scopus: šifre raziskovalcev v sistemu SICRIS, identifikacijske številke avtorjev v normativni podatkovni zbirki osebnih imen sistema COBISS (CONOR.SI) ter številke avtorjev v sistemih WoS in Scopus. V sistemu WoS nimajo vsi avtorji svoje identifikacijske številke, zato so za avtorje brez njih kreirani enotni identifikatorji z normalizacijo njihovih imen. Na ta način so v raziskavi vsi avtorji člankov in vsi avtorji njihovih citatov dobili enotne identifikatorje, da bi se izognili problemom pri uparjanju imen avtorjev, o katerih poročajo raziskovalci in zaradi katerih v raziskavah prihaja do neupoštevanja vseh (samo)citatov določenih avtorjev. V raziskavi je za samocitat nekega članka štet citat tega članka, če imata citirani in citirajoči članek vsaj enega skupnega avtorja oziroma vsaj en skupni identifikator avtorja. Po tej definiciji so v raziskavi tako definirane naslednje vrste samocitatov za tri različne nabore avtorjev, ki so upoštevani pri primerjanju članka in njegovega citata: (1) skupni samocitati (SA), ki se ugotavljajo s primerjanjem identifikatorjev vseh soavtorjev članka v podatkovni zbirki WoS oziroma Scopus z identifikatorji vseh soavtorjev njegovega citata v tej podatkovni zbirki; (2) avtorjevi samocitati (AA), ki se ugotavljajo s primerjanjem identifikatorja prvega avtorja članka v podatkovni zbirki WoS oziroma Scopus z identifikatorji vseh soavtorjev njegovega citata v tej podatkovni zbirki; (3) COBISS samocitati (CA), ki se ugotavljajo s primerjanjem identifikatorjev vseh soavtorjev članka v sistemu COBISS, z identifikatorji vseh soavtorjev njegovega citata v sistemu COBISS; ker pa so se do leta 2014 v bibliografske zapise v sistemu COBISS vnašali samo podatki o prvem avtorju in največ 10 soavtorjev, predvsem slovenskih, se tako primerja največ 11 avtorjev članka in njegovega citata; če določen citat ni obdelan v sistemu COBISS, se ta citat avtomatsko ne šteje za samocitat članka. Knjižnica, 2016, 60(1), 45-60 51 Gordana Budimir, Luka Juršnik, Philip Rachimis V evalvaciji znanstvene uspešnosti po metodologiji agencije ARRS se uporabljajo COBISS samocitati (CA) (Budimir, 2006), v okviru portala COBISS/SciMet pa skupni samocitati (SA) tako kot v večini raziskav na področju samocitiranosti, zlasti v novejših. Avtorjevi samocitati (AA) pa so tukaj definirani kot posebna, restriktivna vrsta samocitatov, podobno kot v starejših raziskavah o samocitiranosti. Glede na razlike v naboru avtorjev, ki se upoštevajo pri posamezni definiciji, za vsak posamezni članek velja, da je število AA manjše ali enako številu CA, to pa je manjše ali enako številu SA. Članki imajo vsaj enega avtorja (prvi avtor), zato se razlike v številu samocitatov po teh definicijah lahko pojavijo samo pri člankih z več kot enim avtorjem, za članke z več kot 11 soavtorji pa se lahko pojavijo razlike med številom CA in SA. V raziskavi so za vse tri vrste samocitatov narejene primerjave naslednjih indikatorjev: števila samocitatov in njihovega deleža glede na skupno število citatov, števila člankov s samocitati in njihovega deleža glede na skupno število člankov s citati ter povprečno število samocitatov na članek glede na vse članke, ki so zajeti v raziskavi. Ti indikatorji nam na makro nivoju omogočajo ugotavljanje razlik med samocitiranostjo za definirane vrste samocitatov. Primerjave so narejene na osnovi kumulativnih vrednosti indikatorjev za vse zajete članke v obdobju 1996-2013 in za članke po posameznih letih citiranosti v tem obdobju. Narejena je tudi primerjava teh indikatorjev za podatkovni zbirki WoS in Scopus, da bi se ugotovile razlike ali podobnosti med samocitiranostjo objav naših raziskovalcev v teh sistemih. Pričakovane so podobne razlike kot pri citiranosti, ki so ugotovljene v raziskavi citiranosti slovenskih raziskovalcev po vedah v obdobju 1996-2011 (Bartol idr., 2014). Na nivoju celotne slovenske znanstvene produkcije pa je pričakovano večje ujemanje samocitiranosti po metodologiji agencije ARRS, ki upošteva COBISS samocitate, s samocitiranostjo ob upoštevanju avtorjevih samocitatov kot pa s samocitiranostjo ob upoštevanju širše uporabljene definicije za skupne samocitate. Raziskava je omejena na analize in primerjave samocitiranosti po izbranih indikatorjih za definirane vrste samocitatov na makro nivoju, za podrobnejšo analizo samocitiranosti objav slovenskih avtorjev v podatkovnih zbirkah WoS in Scopus pa bi bilo treba raziskavo razširiti na mezo nivo, npr. na primerljivost samocitira-nosti objav naših avtorjev po posameznih vedah, ki se upoštevajo pri vrednotenju znanstvene uspešnosti po metodologiji agencije ARRS, ter na dodatne indikatorje, npr. na citiranost in samocitiranost glede na število avtorjev člankov ali h-indeks, da bi vzorce samocitiranosti na slovenskem nacionalnem nivoju lažje primerjali z vzorci na nacionalnih nivojih drugih držav. 52 Knjižnica, 2016, 60(1), 45-60 Samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science in Scopus .. 4 Rezultati Od skupno 52.598 člankov v podatkovni zbirki WoS in 64.011 člankov v podatkovni zbirki Scopus za slovenske raziskovalce, ki so zajeti v raziskavi, je od leta 1996 do leta 2013 v podatkovni zbirki WoS citiranih 38.054 člankov (72,35 %), v podatkovni zbirki Scopus pa 44.355 člankov (69,29 %). Skupno so imeli ti članki 590.126 oziroma 715.708 citatov v podatkovnih zbirkah WoS oziroma Scopus, tako da je povprečno število citatov, glede na skupno število člankov, za članek v podatkovni zbirki WoS 11,22 citata, za članek v podatkovni zbirki Scopus pa 11,18 citata. Skupno število člankov v podatkovnih zbirkah WoS in Scopus se razlikuje za 11.413, število citiranih člankov za 6301, v deležu citiranih člankov pa je ta razlika majhna (3,06 %). Razlika med povprečnim številom citatov na članek v podatkovnih zbirkah WoS in Scopus je zelo majhna (0,04 citata na članek), kar kaže na podoben vzorec citiranja slovenskih raziskovalcev v obeh podatkovnih zbirkah. Za citirane članke slovenskih raziskovalcev v podatkovnih zbirkah WoS in Scopus so v raziskavi samocitati določeni glede na tri različne definicije: avtorjevi samocitati (AA), skupni samocitati (SA) in COBISS samocitati (CA). V prvi analizi so ugotovljene razlike med temi vrstami samocitatov glede na kumulativne vrednosti izbranih indikatorjev za celotno obdobje 1996-2013 (Sliki 1 in 2), v drugi analizi pa glede na vrednosti po posameznih letih citiranosti v tem obdobju (Slika 3). I | Število samocitatov H Število člankov s samocitati 167.454 8 5.45 0 6 24.878 ■ 5.94 7 19.801 ■ 13 31.291 ■ 4.9 70 9 25.790 ■ 8.03 0 8 26.822 ■ 3.29 8 23.062 Scopus WoS Avtorjevi (AA) Scopus WoS Skupni (SA) Scopus WoS COBISS (CA) Slika 1: Število samocitatov (AA, SA, CA) ter število pripadajočih člankov za slovenske raziskovalce v podatkovnih zbirkah WoS in Scopus 1996-2013 Slika 1 za vsako posamezno vrsto samocitatov (AA, SA, CA) v podatkovnih zbirkah WoS in Scopus prikazuje število samocitatov in število člankov s temi samo-citati, Slika 2 pa deleže teh samocitatov glede na skupno število citatov, deleže člankov s temi samocitati glede na skupno število citiranih člankov ter povprečno Knjižnica, 2016, 60(1), 45-60 53 Gordana Budimir, Luka Juršnik, Philip Rachimis število samocitatov na članek glede na vse članke, ki so zajeti v raziskavi. Čeprav se vrednosti za WoS in Scopus po številu samocitatov in številu člankov s samoci-tati dokaj razlikujejo za posamezne vrste samocitatov (npr. na Sliki 1 se števili SA za podatkovni zbirki Scopus in WoS razlikujeta za 32.484, razlika med številom člankov s SA v teh podatkovnih zbirkah pa je 5501), so ustrezni deleži glede na skupno število citatov oziroma na skupno število citiranih člankov v obeh podatkovnih zbirkah primerljivi (npr. na Sliki 2 je delež samocitatov SA za Scopus 23,40 %, za WoS 22,87 %, razlika v deležu člankov s SA pa je 2,78 %), kar kaže na podobnost vzorca samocitiranja raziskovalcev v obeh podatkovnih zbirkah. Še največja razlika je med deležem člankov z AA, ki je za 4,06 % večji v podatkovni zbirki Scopus kot v podatkovni zbirki WoS. Pri tem so deleži samocitatov, deleži člankov s samocitati in število samocitatov na članek v podatkovni zbirki Scopus večji kot deleži v podatkovni zbirki WoS za AA in SA, za CA pa so te vrednosti večje v podatkovni zbirki WoS kot Scopus (Slika 2). □ Delež samocitatov Delež člankov s samocitati 70,55 67,77 Število samocitatov na članek 56,09 60,47 60,60 52,03 11,94^ 11,18 11,33 Scopus WoS Avtorjevi (AA) Scopus WoS Skupni (SA) Scopus WoS COBISS (CA) Slika 2: Delež samocitatov (AA, SA, CA) ter delež pripadajočih člankov in povprečno število samocitatov na članek za slovenske raziskovalce v podatkovnih zbirkah WoS in Scopus 1996-2013 V obeh podatkovnih zbirkah je za vse vrste samocitatov tudi povprečno število samocitatov na članek relativno majhno (Slika 2). Še največje število samocita-tov na članek je v podatkovni zbirki Scopus za SA in znaša 2,62 samocitata na članek, najmanjše pa je v podatkovni zbirki WoS za AA in znaša 1,25 samocitata na članek. Podobno kot pri deležu samocitatov in deležu člankov s samocitati lahko ugotovimo primerljivost povprečnega števila samocitatov na članek v obeh podatkovnih zbirkah za posamezne vrste samocitatov, saj so razlike zelo majhne. Največje število samocitatov je v podatkovnih zbirkah WoS in Scopus pričakovano ugotovljeno za SA (Slika 1). Podobno je ugotovljeno za število in delež člankov 54 Knjižnica, 2016, 60(1), 45-60 Samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science in Scopus .. s temi samocitati ter povprečno število samocitatov na članek, ki so največji za SA in najmanjši za AA (Slika 2). Vrednosti za CA so med vrednostmi za SA in AA, kar je pričakovano glede na samo definicijo samocitatov: pri SA se upoštevajo samocitati vseh soavtorjev, pri AA samo za prvega avtorja, pri CA pa največ za 11 soavtorjev članka v sistemu COBISS. Za ugotavljanje razlik oziroma primerljivosti med posameznimi vrstami samocitatov (AA, SA, CA) v določeni podatkovni zbirki pa so analizirane razlike med številom (deležem) samocitatov različnih vrst in razlike med številom (deležem) zapisov s temi samocitati (Preglednica 1). Manjša razlika med temi vrednostmi za določene vrste samocitatov pomeni večjo primerljivost med temi vrstami samocitatov. Preglednica 1: Razlike med številom (deležem) samocitatov različnih vrst in razlike med številom (deležem) člankov s temi samocitati za slovenske raziskovalce v podatkovnih zbirkah WoS in Scopus1996-2013 WoS skupni (SA) -avtorjevi (AA) skupni (SA) -COBISS (CA) COBISS (CA)-avtorjevi (AA) Število samocitatov 69.023 (11,70%) 51.672 (8,76%) 17.351 (2,94 %) Število člankov s samocitati 5.989 (15,74%) 2.728 (7,17 %) 3.261 (8,57 %) Scopus skupni (SA) -avtorjevi (AA) skupni (SA) -COBISS (CA) COBISS (CA)-avtorjevi (AA) Število samocitatov 82.004 (11,46%) 69.424 (9,70 %) 12.580 (1,76 %) Število člankov s samocitati 6.413 (14,46 %) 4.469 (10,08 %) 1.944 (4,38 %) Iz Preglednice 1 so razvidne razlike med številom (deležem) samocitatov za različne vrste samocitatov in razlike med številom (deležem) člankov s temi samocitati v podatkovnih zbirkah WoS in Scopus. Razlika med številom (deležem) samocita-tov je v obeh podatkovnih zbirkah največja za SA in AA, nato za SA in CA, daleč najmanjša pa za CA in AA. Podobno velja za razlike v številu (deležu) člankov s temi samocitati v podatkovni zbirki Scopus. Iz tega je razvidno, da so v podatkovni zbirki Scopus za slovenske raziskovalce vrednosti vseh indikatorjev za CA bolj primerljive z vrednostmi za AA kot pa z vrednostmi za SA. V podatkovni zbirki WoS pa je razlika med številom (deležem) člankov s samocitati najmanjša za SA in CA, nato za CA in AA in največja za SA in AA. Knjižnica, 2016, 60(1), 45-60 55 Gordana Budimir, Luka Juršnik, Philip Rachimis Zato je narejena dodatna analiza samocitatov za objave slovenskih raziskovalcev v obeh podatkovnih zbirkah po letih citiranosti za obdobje 1996-2013, v kateri so primerjane razlike med številom samocitatov za različne vrste samocitatov ter razlike med številom člankov s temi samocitati po posameznih letih citiranosti (Slika 3). Samocitati v podatkovni zbirki WoS - CO ^ o ^ ^ ^ ^ o ^ ^ ^ ^ o 0000000000?00 skupni- avtorjevi - skupni- COBISS ---COBISS- avtorjevi Članki s samocitati v podatkovni zbirki WoS ^ N O) d O ^ ^ ^ ^ O ^ ^ ^ ^ O skupni-avtorjevi - skupni-COBISS ---COBISS- avtorjevi Samocitati v podatkovni zbirki Scopus Članki s samocitati v podatkovni zbirki Scopus ^ N O) Oi O ^ ^ ^ ^ O ^ ^ ^ ^ O skupni-avtorjevi - skupni-COBISS ---COBISS- avtorjevi skupni-avtorjevi - skupni-COBISS ---COBISS- avtorjevi Slika 3: Razlike med številom samocitatov različnih vrst oziroma med številom člankov s temi samocitati, določenih za slovenske raziskovalce v podatkovnih zbirkah WoS in Scopus po letih citiranosti za obdobje 1996-2013 Določen članek ima lahko samocitate v različnih letih, zato je upoštevan pri vsakem letu, v katerem ima vsaj en samocitat, v zbirnih podatkih na Sliki 1 pa je vsak samocitat upoštevan samo enkrat v celotnem obdobju 1996-2013. Zato je prosti seštevek člankov s samocitati za vsa leta na Sliki 3 lahko večji od skupnega števila člankov s samocitati na Sliki 1. Iz grafičnega prikaza na Sliki 3 je razvidno, da razlike med številom samocitatov za SA in AA, SA in CA ter CA in AA z leti rastejo za obe podatkovni zbirki in so, kot pri zbirnih vrednostih v Preglednici 1, največje za SA in AA, najmanjše pa za CA in AA. Razlika med številom samocitatov za CA in AA v podatkovni zbirki Scopus ostaja na podobni ravni za vsa leta, v podatkovni zbirki WoS pa od leta 2007 hitreje narašča. Podobne ugotovitve za različne vrste samocitatov veljajo tudi za razlike med številom člankov s temi samocitati, z izjemo v podatkovni zbirki WoS za leto 2009, ko je zaznati blag upad razlike med 56 Knjižnica, 2016, 60(1), 45-60 Samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science in Scopus .. vrednostmi za SA in CA (1067 člankov), ki je manjša kot razlika med vrednostmi za CA in AA (1238 člankov). To odstopanje pa je minimalno (171 člankov, kar je 0,45 % vseh citiranih člankov v podatkovni zbirki WoS), zato lahko posplošimo, da so načeloma za vsa leta v obeh podatkovnih zbirkah vrednosti teh indikatorjev za CA bolj primerljive vrednostim za AA kot vrednostim za SA. 5 Razprava V raziskavo so zajeti članki slovenskih raziskovalcev, registriranih v sistemu SICRIS, iz citatnih podatkovnih zbirk WoS in Scopus, ki so hkrati v vzajemni bibliografski podatkovni zbirki podatkov sistema COBISS, z namenom ugotoviti razlike med različnimi vrstami samocitatov in jih primerjati s samocitati po metodologiji agencije ARRS, ki se upoštevajo pri vrednotenju znanstvene uspešnosti slovenskih raziskovalcev. Tako je, v nasprotju z večino podobnih raziskav, ki so izvedene na omejenih množicah člankov in za krajše citatno obdobje, naša analiza narejena na makro nivoju, na skoraj celotni nacionalni znanstveni produkciji v daljšem časovnem obdobju in večjem citatnem oknu (1996-2013). Samocitati so določeni na nivoju dokumentov po najširše uporabljeni definiciji samocitatov (Snyder in Bonzi, 1998) z ugotavljanjem skupnih avtorjev člankov in njihovih citatov. V izogib napakam pri identifikaciji avtorjev (Vieira in Gomes, 2009; Jacso, 2009; Glanzel idr., 2004; Shah idr., 2015; Fowler in Aksnes, 2007; Zibareva in So-loshenko, 2011) so uporabljeni normativni podatki avtorjev: šifre raziskovalcev v sistemu SICRIS, normativna podatkovna zbirka avtorjev CONOR.SI, identifikacijske številke avtorjev v podatkovnih zbirkah WoS in Scopus ter normirana imena avtorjev, ki nimajo identifikacijske številke v podatkovni zbirki WoS. Na ta način so lahko za vse avtorje člankov in vse avtorje njihovih citatov primerjani njihovi enotni identifikatorji in lahko je ugotovljeno število samocitatov, brez izločanja avtorjev s problematičnimi imeni (Fowler in Aksnes, 2007). Zato je model iz te raziskave bolj celovit od modelov nekaterih drugih raziskav na nacionalnem nivoju, glede na uporabo bolj kvalitetnih bibliografskih podatkov iz sistema COBISS, ki so podvrženi različnim kontrolam, in glede na uporabo normiranih podatkov o avtorjih. Zanimiva je primerjava rezultatov citiranosti norveških raziskovalcev, objavljenih v obdobju 1981-1996 in citiranih do leta 2000 v podatkovni zbirki WoS (Asknes, 2003), ki za podoben nabor člankov, kot je v tej raziskavi, kaže podobno število citatov na članek (13,7 citata za objave norveških raziskovalcev, 11,22 citata za objave slovenskih raziskovalcev) in podoben delež skupnih samocitatov (21 % za objave norveških raziskovalcev, 22,87% za objave slovenskih raziskovalcev). Rezultati raziskave kažejo, da je v podatkovni zbirki Scopus številčno več samocitatov in člankov s samocitati kot v podatkovni zbirki WoS, po deležu samocitatov Knjižnica, 2016, 60(1), 45-60 57 Gordana Budimir, Luka Juršnik, Philip Rachimis in po povprečnem številu samocitatov na članek pa med tema podatkovnima zbirkama ni pomembnih razlik; podobno je ugotovljeno za citate objav slovenskih raziskovalcev v podatkovnih zbirkah WoS in Scopus (Bartol idr., 2014). Ugotovitve veljajo ne glede na vrsto samocitatov, ki se razlikujejo po naboru upoštevanih avtorjev pri primerjanju članka in njegovega citata: avtorski samocitati (AA) upoštevajo samo prvega avtorja članka, skupni samocitati (SA) upoštevajo vse soavtorje članka, COBISS samocitati (CA), ki ustrezajo samocitatom po metodologiji agencije ARRS, pa upoštevajo največ 11 avtorjev iz sistema COBISS. Se pa razlike med temi vrstami samocitatov pojavijo v posamezni podatkovni zbirki in so največje med vrednostmi opazovanih indikatorjev za AA in SA ter veliko manjše med vrednostmi za AA in CA, kar kaže na večjo primerljivost samocitira-nosti objav slovenskih raziskovalcev po metodologiji agencije ARRS, s samoci-tiranostjo ob upoštevanju samo prvega avtorja članka. Ta ugotovitev načeloma velja tudi za posamezna leta citiranosti z zanemarljivo izjemo za leto 2009, za katero je v podatkovni zbirki WoS število člankov s samocitati po CA za malenkost bližje številu člankov s samocitati po SA. Tako lahko potrdimo predvidevanja, da bistvenih razlik med vzorci samocitiranja objav slovenskih raziskovalcev v podatkovnih zbirkah WoS in Scopus ni in da je samocitiranost po metodologiji agencije ARRS, ki upošteva COBISS samocitate (CA), bolj primerljiva s samocitiranostjo ob upoštevanju avtorjevih samocitatov (AA), ki se večkrat uporabljajo v starejših raziskavah, kot pa s samocitiranostjo ob upoštevanju skupnih samocitatov (SA), ki ustrezajo bolj »standardni« definiciji samocitatov iz novejših raziskav. Te ugotovitve se lahko uporabijo kot temeljne informacije v metodologiji agencije ARRS za evalvacijo slovenskih raziskovalcev, za podrobnejše primerjave pa bi bilo treba narediti analize na mezo nivoju, npr. analizo samocitiranosti po posameznih vedah ter analizo dodatnih indikatorjev, kot je samocitiranost glede na število avtorjev, h-indeks ali vpliv samocitiranosti na citiranje drugih avtorjev. 6 Zaključek Naša raziskava predstavlja preizkus uporabe določenih vrst samocitatov na nacionalnem nivoju za daljše časovno obdobje. Z uporabo podatkov o delih slovenskih raziskovalcev iz sistema COBISS, ki jih normirajo in kontrolirajo avtorizirani strokovnjaki, in ne direktno iz sistemov WoS in Scopus, so premoščeni klasični problemi nekvalitetnih podatkov, s katerimi se soočajo v podobnih raziskavah. Na ta način je model v tej raziskavi bolj celovit, saj omogoča natančen izračun samocitatov s primerjanjem identifikacijskih številk avtorjev namesto s primerjanjem njihovih imen. V raziskavi so za definirane vrste samocitatov podrobneje analizirane kumulativne vrednosti izbranih indikatorjev za celotno obdobje zajetih objav ter vrednosti za posamezna leta citiranosti. Narejena je tudi primer- 58 Knjižnica, 2016, 60(1), 45-60 Samocitiranost objav slovenskih raziskovalcev v podatkovnih zbirkah Web of Science in Scopus .. java med vzorci samocitiranosti objav slovenskih raziskovalcev v podatkovnih zbirkah WoS in Scopus, ki je pokazala, da med tema podatkovnima zbirkama ni pomembnih razlik, ker so deleži samocitatov in povprečno število samocitatov na članek v podatkovni zbirki WoS zelo podobni ustreznim vrednostim v podatkovni zbirki Scopus za isto vrsto samocitatov. Razlike med vrednostmi za različne vrste samocitatov v posamezni podatkovni zbirki pa kažejo dosti večje ujemanje samocitiranosti objav slovenskih raziskovalcev po metodologiji agencije ARRS, ki upošteva samo avtorje iz sistema COBISS, s samocitiranostjo ob upoštevanju samo prvega avtorja člankov kot pa s samocitiranostjo ob upoštevanju vseh so-avtorjev člankov. Ta primerljivost velja tudi za posamezna leta citiranosti, z zanemarljivo izjemo v letu 2009, ko je v podatkovni zbirki WoS samocitiranost po agenciji ARRS za malenkost bolj primerljiva s samocitiranostjo ob upoštevanju vseh soavtorjev. Izsledki te raziskave so lahko dodaten vir informacij pri evalvaciji slovenskih raziskovalcev in spremljanju njihovega znanstvenega komuniciranja. Navedeni viri Aksnes, D. W. (2003). A macro study of self-citation. Scientometrics, 56(2), 235-246. doi: 10.1023/A:1021919228368 Bartol, T., Budimir, G., Dekleva-Smrekar, D., Pušnik, M. in Južnič, P. (2014). Assessment of research fields in Scopus and Web of Science in the view of national research evaluation in Slovenia. Scientometrics, 98(2), 1491-1504. doi: 10.1007/s11192-013-1148-8 Blagus, R., Leskošek, B. L. in Stare, J. (2015). Comparison of bibliometric measures for assessing relative importance of researchers. Scientometrics, 105(3), 1743-1762. doi: 10.1007/ s11192-015-1622-6 Budimir, G. (2006). Vzpostavitev povezave med COBIB.SI in WoS. Maribor: IZUM. Budimir, G. in Juršnik, J. (2015). COBISS/SciMet. Organizacija znanja, 20(2), 68-74. doi: 10.3359/oz150268 Carley, S., Porter, A. L. in Youtie, J. (2013). Toward a more precise definition of self-citation. Scientometrics, 94(2), 777-780. doi: 10.1007/s11192-012-0745-2 Costas, R., van Leeuwen, T. N. in Bordons, M. (2010). Self-citations at the meso and individual levels: effects of different calculation methods. Scientometrics, 82(3), 517-537. doi: 10.1007/s11192-010-0187-7 Demšar, F. in Južnič, P. (2014). Transparency of research policy and the role of librarian. Journal of librarianship and information science, 46(2), 139-147. doi: 10.1177/0961000613503002 Fowler, J. H. in Aksnes, D. W. (2007). Does self-citations pay?. Scientometrics, 72(3), 427437. doi: 10.1007/s11192-007-1777-2 Garfield, E. (1972). Citation analysis as a tool in journal evaluation. Science, 178(4060), 471-479. doi: 10.1126/science.178.4060.471 Garfield, E. (1979). Is citation analysis a legitimate evaluation tool?. Scientometrics, 1(4), 359-375. doi: 10.1007/BF02019306 Knjižnica, 2016, 60(1), 45-60 59 Gordana Budimir, Luka Juršnik, Philip Rachimis Glänzel, W., Debackere, K., Thijs, B. in Schubert, A. (2006). A concise review on the role of author self-citations in information science, bibliometrics and science policy. Sciento-metrics, 67(2), 263-277. doi: 10.1556/Scient.67.2006.2.8 Glänzel, W., Thijs, B. in Schlemmer, B. (2004). A bibliometric approach to the role of author self-citations in scientific communication. Scientometrics, 59(1), 63-77. doi: 10.1023/B:SC IE.0000013299.38210.74 Ioannidis, J. P. A. (2015). A generalized view of self-citation: direct, co-author, collaborative, and coercive induced self-citation. Journal of psychosomatic research, 78(1), 7-11. doi: 10.1016/j.jpsychores.2014.11.008 Jacsó, P. (2009). Errors of omission and their implications for computing scientometric measures in evaluating the publishing productivity and impact of countries. Online information review, 33(2), 376-385. doi: 10.1108/14684520910951276 Lawani, S. M. (1982). On the heterogeneity and classification of author self-citations. Journal of the American Society for Information Science, 33(5), 281-284. doi: 10.1002/ asi.4630330506 Leydesdorff, L. (2008). Caveats for the use of citation indicators in research and journals evaluations. Journal of the American Society for Information Science and Technology, 59(2), 279-297. doi: 10.1002/asi.20743 Panaretos, J. in Malesios, C. (2009). Assessing scientific research performance and impact with single indices. Scientometrics, 81(3), 635-670. doi: 10.1007/s11192-008-2174-9 Shah, T. A., Gul, S. in Gaur, R. (2015). Authors self-citation behaviour in the field of library and information science. Aslib journal of information management, 67(4), 458-468. doi: 10.1108/AJIM-10-2014-0134 Snyder, H. in Bonzi, S. (1998). Patterns of self-citation across disciplines. Journal of information science, 24(6), 431-435. doi: 10.1177/016555159802400606 Tagliacozzo, R. (1977). Self-citation in scientific literature. Journal of documentation, 33(4), 251-265. doi: 10.1108/eb026644 Vieira, E. S. in Gomes, J. A. N. F. (2009). A comparison of Scopus and Web of Science for a typical university. Scientometrics, 81(2), 587-600. doi: 10.1007/s11192-009-2178-0 Zibareva, I. in Soloshenko, N. (2011). Russian scientific publications 2005-2009 in the science citation index, Scopus, and chemical abstracts databases. Scientific and technical information processing, 38(3), 212-223. doi: 10.3103/S0147688211030178 mag. Gordana Budimir Institut informacijskih znanosti, Prešernova ulica 17, 2000 Maribor e-pošta: gordana.budimir@izum.si Luka Juršnik Institut informacijskih znanosti, Prešernova ulica 17, 2000 Maribor e-pošta: luka.jursnik@izum.si Philip Rachimis e-pošta: ph.rachimis@gmail.com 60 Knjižnica, 2016, 60(1), 45-60