Ana Slavec in Andrej Srakar Z obcansko znanostjo do validacije podatkov o COVID-19 v Sloveniji - primer skupnosti Sledilnik Abstract Validating Data on the COVID-19 Pandemic in Slovenia Through Citizen Science - The Sledilnik Example In early 2020, the world found itself in the middle of the COVID-19 pandemic. In Slovenia, the first confirmed infection was recorded on the 4th of March 2020, and the numbers increased in the following weeks. The National Institute of Public Health (NIPH) published aggregated data on the number of infected individuals and later also the number of deaths caused by the disease. However, data users, including a number of leading Slovenian researchers, noticed that this data was often inconsistent in comparison with publications in other sources. They created an informal community called COVID-19 Sledilnik (COVID-19 Tracker) that established a direct connection with the NIPH and health care institutions and published, validated and transformed structured data into a format suitable for visualisations and further analysis, and also the development of models and forecasts. The article presents the Sledilnik community as an example of a comunity science initiative, as well as its origin, structure and results. In the second part, the authors present guidelines for COVID-19 data management that were prepared by a working group at the Research Data Alliance. The article also evaluates the data management in the Sledilnik community. We find that the community, although unaware of these guidelines, has largely followed principles of openness and transparency. The authors provide suggestions on how their work could be upgraded and implemented within public institutions and how it could leverage Slovenia's existing data services infrastructure. Keywords: citizen science, data management, COVID-19 pandemic, COVID-19 Tracker Slovenia project Ana Slavec is a sociologist and holds a PhD in statistics. She is a member of the Research Data Alliance and previously served as its ambassador for the field of technology, more 137 Ana Slavec in Andrej Srakar | Z občansko znanostjo do validacije podatkov o COVID-19 specifically renewable materials. ,4s part of the COVID-19 Sledilnik team, she participated in the collection and analysis of data from public opinion polls related to the coronavirus epidemic. She is employed as a postdocotoral researcher and consulting statistician at the InnoRenew CoE Centre of Excellence (ana.slavec@innorenew.eu). Andrej Srakar holds a PhD in enonomics and is a doctoral student of mathematical statistics. He is a founding member of the Tracker scientific society and one of the earliest members of the COVID-19 Sledilnik team, playing an active role in modeling the epidemic and presenting it to the scientific community. He is the initator and coordinator of the international project YoungStatS af FENStatS. He is employed as a research associate at the Institute for Economic Research (IER), and is also an assistant professor of economics and quantitative methods at the Faculty of Economics, University of Ljubljana (andrej. srakar@ier.si). Povzetek V začetku leta 2020 se je svet znašel sredi pandemije bolezni COVID-19. V Sloveniji smo prvo potrjeno okužbo zabeležili 4. 3. 2020, v naslednjih tednih pa je število okuženih naraščalo. Nacionalni inštitut za javno zdravje (NIJZ) je objavljal agregi-rane podatke o številu okuženih in kasneje tudi umrlih, ko so se ti začeli pojavljati. Vendar so uporabniki podatkov, med njimi vrsta vodilnih slovenskih raziskovalcev, opazili, da so ti velikokrat nekonsistentni z objavami v drugih virih. Povezali so se v neformalno skupnost COVID-19 Sledilnik, ki je vzpostavila neposredno povezavo z NIJZ in zdravstvenimi zavodi ter strukturirane podatke objavljala, validirala in preoblikovala v format, primeren za vizualizacije, nadaljnjo analizo ter razvijanje modelov in napovedi. Prispevek skupnost Sledilnik predstavi kot primer pobude občanske znanosti, njen nastanek, strukturo in rezultate. V drugem delu predstavimo smernice za ravnanje s podatki COVID-19, ki jih je pripravila delovna skupina Združenja za raziskovalne podatke, ter primerjavo in ovrednotenje načina ravnanja s podatki v skupnosti Sledilnik. Ugotovimo, da je skupnost, čeprav teh smernic ni poznala, v veliki meri sledila podobnim načelom odprtosti in transparentnosti. Podamo predloge, kako bi lahko njeno delo nadgradili, implementirali v okviru javnih institucij ter uporabili obstoječo infrastrukturo podatkovnih storitev, ki je na voljo v Sloveniji. Ključne besede: občanska znanost, ravnanje s podatki, pandemija COVID-19, CO-VID-19 Sledilnik Ana Slavec je sociologinja in doktorica statistike. Je članica Združenja za raziskovalne podatke RDA in njegova nekdanja ambasadorka za področje tehnike - obnovljivih materialov. V okviru projekta COVID-19 Sledilnik sodeluje pri zbiranju in analizi podatkov javnomnenjskih raziskav, povezanih z epidemijo koronavirusne bolezni. Zaposlena je kot podoktorska raziskovalka in svetovalka za statistiko v centru odličnosti InnoRenew CoE (ana.slavec@innorenew.eu). Andrej Srakar je doktor ekonomskih znanosti in doktorski študent matematične statistike. Je ustanovni član Znanstvenega društva Sledilnik in skoraj od samih začetkov eden izmed članov ekipe COVID-19 Sledilnik (aktiven pri modeliranju epidemije in predstavljanju Sledilnika znanstveni skupnosti). Je pobudnik in koordinator mednarodnega projekta YoungStatS pri združenju FENStatS. Zaposlen je kot znanstveni sodelavec na Inštitutu za ekonomska raziskovanja (IER) ter docent za ekonomijo in kvantitativne metode na Ekonomski fakulteti Univerze v Ljubljani (andrej.srakar@ier.si). 138 Časopis za kritiko znanosti, domišljijo in novo antropologijo | 282 | Odprta znanost Uvod Čeprav smo sredi maja 2020 v Sloveniji kot prvi v Evropi razglasili konec epidemije bolezni COVID-19, smo v drugi polovici leta 2020 doživeli drugi val, ki je bil veliko hujši od prvega. Tudi ponovna uvedba ukrepov in razglasitev epidemije sredi oktobra nista bistveno pomagali pri zajezitvi epidemije. V začetku leta 2021, ko je nastal ta prispevek, število primerov še vedno stagnira, do bistvenega upada torej ni prišlo. Prvemu in drugemu valu je skupno, da so ju odgovorne javne institucije pričakale nepripravljene. Čeprav imamo organizacije, ki zbirajo podatke o zdravju prebivalcev Slovenije, te niso bile zmožne pripraviti javnih in zanesljivih podatkov o prisotnosti in širjenju te bolezni ter jih na jasen in transparenten način predstaviti odločevalcem in javnosti. Informacije iz različnih virov namreč pogosto niso bile konsistentne, zato so se nekateri uporabniki podatkov iz različnih okolij, od strokovnjakov za analizo podatkov do raziskovalcev z različnih področij znanosti, povezali v neformalni skupnosti COVID-19 Sledilnik (v nadaljevanju Sledilnik). Skupnost je vzpostavila neposredno povezavo z Nacionalnim inštitutom za javno zdravje (NIJZ) in zdravstvenimi zavodi. Pridobljene podatke validira1 in objavlja v formatu, primernem za nadaljnjo analizo in modeliranje. V predstavitvah rezultatov kot eno osnovnih načel svojega delovanja navaja podatkovno odličnost (Jakulin in Renko, 2020), kar je v statutu novoustanovljenega Znanstvenega društva Sledilnik (2020) zapisano tudi kot njegov namen in cilj. Z izzivi glede dostopa do podatkov in ravnanja z njimi pa se ne soočamo samo pri nas, ampak je to globalni problem. S tem področjem se posebej aktivno ukvarja Združenje za raziskovalne podatke (Research Data Alliance - RDA), leta 2013 ustanovljena mednarodna organizacija, ki z različnimi aktivnostmi skrbi za zmanjšanje socialnih in tehničnih ovir pri izmenjavi raziskovalnih podatkov. Člani so raziskovalci, znanstveniki in drugi strokovnjaki za podatke iz različnih držav po svetu, ki so organizirani v interesne in delovne skupine. Marca 2020 se je v okviru združenja vzpostavila interdisciplinarna delovna skupina, ki je aprila objavila prvo različico priporočil in smernic za ravnanje s podatki o COVID-19 za različne skupine deležnikov, od raziskovalcev in podatkovnih analitikov do oblikovalcev politik, pa tudi državljanov (RDA, 2020). Slednji v teh procesih nastopajo bodisi le kot subjekti analize bodisi kot prostovoljci v okviru pobude občanske znanosti (ang. citizen science). 1 Postopki validacije podatkov so predstavljeni v okviru pogosto zastavljenih vprašanj na spletni strani projekta (https://covid-19.sledilnik.org/), nekaj besed pa jim namenimo tudi v nadaljevanju prispevka. 139 Ana Slavec in Andrej Srakar | Z občansko znanostjo do validacije podatkov o COVID-19 Skupnost Sledilnik je v okviru proučevanja odprte znanosti v Sloveniji zanimiva tako kot primer dobrih praks ravnanja s podatki kot tudi primer občanske znanosti. V članku predstavimo nastanek in delovanje skupnosti, nato pa jo ovrednotimo, najprej s pomočjo načel občanske znanosti, kot jih je oblikovalo Evropsko združenje za občansko znanost (European Citizen Science Association - ECSA), in nato v luči smernic Združenja za raziskovalne podatke. V tem delu se osredotočimo predvsem na koncept načel FAIR (Wilkinson idr., 2016), ki presega razumevanje odprtosti podatkov2 kot preprosto odprtodostopne objave podatkovnih datotek na spletu, ampak skuša podati smernice, kako izboljšati najdljivost (ang. Findability), dostopnost (ang. Accessibility), interoperabilnost (ang. Interoperability) in ponovno uporabnost (ang. Reusability) podatkov prek ustreznega ravnanja z njimi. V kolikšni meri se delo Sledilnika, ki se ponaša s spodbujanjem razvoja podatkovne odličnosti, sklada s temi načeli? Kaj lahko Sledilnik stori, da podatke naredi bolj najdljive, dostopne, interoperabilne in predvsem ponovno uporabne? Nastanek in delovanje skupnosti Sledilnik Zametke skupnosti COVID-19 Sledilnik lahko najdemo v preglednici v orodju Google Sheets, ki jo je 11. marca, teden po prvem primeru potrjene okužbe v Sloveniji, ustvaril Luka Renko, v njej zbral do takrat znane podatke o epidemiji ter jo odprto delil na družabnih omrežjih Twitter in Facebook (Renko, 2020a). Že v prvih nekaj dneh mu je pri dopolnjevanju preglednice na pomoč priskočilo več ljudi (ibid.). Med njimi je bil Andraž Vrhovec, ki je naslednji dan, 12. marca, dodal skripto za avtomatski izvoz v format z vejico ločenih vrednosti (ang. Comma-separated values ali CSV) ter objavo v repozi-toriju, ki gostuje v okviru storitve GitHub (Slika 1). Pet dni pozneje, 17. marca, je bil postavljen delovni prostor v spletnem orodju Slack (Renko, 2020a), ki je po skoraj desetih mesecih delovanja še vedno glavna platforma za organizacijo dela in interno komunikacijo članov ekipe. Pri tem ne gre le za komunikacijo v sklopu delovnih procesov, ampak 2 Pri odprtih podatkih gre za idejo o prosti dostopnosti (nekaterih) podatkov vsem za ponovno uporabo in objavo, brez omejitev avtorskih pravic ter prepovedi kopiranja in objavljanja. Podatki so lahko odprti, a ne sledijo načelom FAIR (najdljivost, dostopnost, interoperabilnost in ponovna uporabnost). In obratno, načela FAIR ne zahtevajo popolne odprtosti podatkov, ampak zadostuje odprtost metapodatkov. Za neagregirane mikropodatke pogosto obstajajo utemeljeni razlogi, zakaj ne morejo biti dostopni vsakomur. Velja načelo »toliko odprti, kot je mogoče, toliko zaprti, kot je potrebno« (ang. as open as possible, as closed as necessary). Z vidika odprte znanosti je skladnost z načeli FAIR pomembnejša od same odprtosti. 140 Časopis za kritiko znanosti, domišljijo in novo antropologijo | 282 | Odprta znanost Slika 1: Podatki in koda Sledilnika v repozitoriju GitHub, https://github.com/sledil-nik. Vir: Zaslonska slika, 10. januar 2021. je Slack za člane tudi prostor druženja, kjer razpravljajo o različnih temah, povezanih z epidemijo COVID-19 v Sloveniji. Pogovori potekajo na 54 različnih kanalih, od katerih so po številu članov, ki so karkoli objavili, največji #team-intro (uvodne predstavitve), #general (za obvestila in komunikacijo na ravni celotne skupnosti), #random (namenjen razpravam, ki se ne tičejo neposredno dela), #modeling (modeliranje) in #dataviz (vizualizacije podatkov) (Slack, 2021a). V začetku januarja, ko je bil ta članek zaključen, je bilo v orodju Slack registriranih kar 276 članov. Skoraj tretjina se jih je pridružila že marca (84), do konca aprila pa je imel že več kot polovico članstva celotnega leta (145). Kot prikazuje Slika 2, je bilo v delovnem okolju Slack v času od konca marca do konca maja (konec prvega vala epidemije) tedensko aktivnih 60 do 90 uporabnikov. Sporočila je objavljalo manj uporabnikov, od 40 do 60. V poletnih mesecih je prišlo do upada aktivnosti, z drugim valom pa je število uporabnikov naraslo in decembra doseglo vrh pri okrog 110 tedensko aktivnih uporabnikih ter od 60 do 70 takih, ki so objavili vsaj eno sporočilo (Slack, 2021b). 141 Ana Slavec in Andrej Srakar | Z občansko znanostjo do validacije podatkov o COVID-19 R Active members See how many people ire active — meaning tfvey potted a trie tug* Of redd At t09$t 0«C chanrWH Or direct mcvAigc. Weekly Dally ua a H»17 As. t if 2* M* 16 Ain5 Jun25 Jul» t- 1*4 AujH Sw !J Oil] O.I 23 Nijv i J Dec 3 Dn 22 B?J 3BI0 3030 SOB 2020 2020 JOIQ 30m 30» ffl.M 2020 3030 3030 303O 3020 • Wee!