BIBLIOMETRIČNE ŠTUDIJE STATISTIČNIH METOD NA PODROČJU BIOMEDICINE KOT PODPORA NAČRTOVANJU PEDAGOŠKEGA PROCESA BIBLIOMETRIC RESEARCH ON STATISTICAL METHODS IN BIOMEDICINE AS AN AID TO CURRICULUM DEVELOPMENT Gaj Vidmar1, Janez Stare1 Prispelo: 29.11.2002 - Sprejeto: 17.1.2003 Izvirni znanstveni ~lanek UDK 311:61 Izvleček Uvod: Na In{titutu za biomedicinsko informatiko Univerze v Ljubljani poučujemo različne predmete s področja biostatistike v okviru dodiplomskega {tudija na Medicinski fakulteti, interdisciplinarnega podiplomskega {tudija Biomedicina, dodiplomskega {tudija na Visoki {oli za zdravstvo ter sodelujemo z In{titutom za varovanje zdravja RS. Programi segajo od najosnovnejših metod do multivariatne analize, pri čemer cilje in vsebine pedago{kega procesa vseskozi prilagajamo potrebam in predznanju slu{ateljev. V okviru stalnega posodabljanja programov in prizadevanj za zagotavljanje kakovosti {tudija izvajamo tudi bibliometrične raziskave. Metode: Članek združuje dva pregleda statističnih metod, uporabljenih v člankih, nedavno objavljenih v relevantnih znanstvenih časopisih: {tudijo izbranega letnika časopisa New England Journal of Medicine ter {tudijo {tirih revij s področja javnega zdravja, ki so v celoti dostopne v elektronski obliki za uporabnike z na{e univerze. Pri obeh {tudijah smo izhajali iz lastne taksonomije statističnih metod, ki temelji na statistično-konzultantski praksi. Rezultati: Poleg pogostnosti uporabe različnih metod smo analizirali tudi prikaz podatkov ter uporabo statistične programske opreme. Izsledke bomo uporabili predvsem pri dopolnjevanju vsebine podiplomskega predmeta Sodobne statistične metode v medicini, predlagamo pa tudi nabor tem za vključevanje v pouk oziroma tečaje analize podatkov na področju javnega zdravja. Zaključek: Bibliometrične analize so zahtevne in terjajo kombinacijo kvantitativnih in kvalitativnih metod. Če so korektno izvedene, lahko s posodabljanjem {tudijskih programov brez finančnih vlaganj pomembno prispevajo h kakovosti {tudija. Na In{titutu bomo z bibliometričnimi {tudijami {e naprej spremljali razvoj statistike. Ključne besede: statistika, statistične metode, biomedicina, biostatistika, javno zdravje Original scientific article UDC 311:61 Abstract Background: Several courses in biostatistics are taught at the Institute of Biomedical Informatics of the University of Ljubljana as part of undergraduate and graduate study at the Faculty of Medicine, undergraduate study at the School of Public Health and in collaboration with the Institute of Public Health. The topics covered range from fundamentals to multivariate methods, and course objectives and contents are constantly adjusted to students' profile. One of our efforts aimed at keeping the curriculum up-to-date and ensuring quality of education is a regular bibliometric research. Methods: Two surveys of statistical methods applied in scientific papers were carried out: one in the New England Journal of Medicine and one in four journals from the field of public health, accessible in full-text electronic form from our university. For this purpose, a taxonomy of statistical methods based on consulting practice was designed. Results: A summary of findings is presented, including data presentation issues and software usage. Implications are discussed focusing on our graduate course in contemporary statistical methods in medicine. Possible topics for courses and summer schools in data analysis in public health are proposed. Conclusion: Bibliometric analyses are demanding and call for a combination of quantitative and qualitative methods, 'Univerza v Ljubljani, Medicinska fakulteta, Inštitut za biomedicinsko informatiko, Vrazov trg 2, SI-1004 Ljubljana Kontaktni naslov: e-mail: gaj.vidmar@mf.uni-lj.si, janez.stare@mf.uni-lj.si but if carried out correctly, they can markedly improve the quality of education via curriculum development. At our institute, we will continue to follow new developments in statistics through bibliometric studies. Key words: statistics, statistical methods, biomedicine, biostatistics, public health Uvod Statistika je izjemno hitro razvijajoča se veda, ki z informatizacijo družbe prežema vsa področja empiričnega raziskovanja in tehnološkega razvoja, vse bolj pa je prisotna in pomembna tudi pri odločanju v vsakdanjem življenju. Zato je nujno potrebno stalno posodabljanje in izpopolnjevanje statističnega izobraževanja na vseh ravneh, še posebej pa seveda v okviru visokošolskih študijskih programov. Na Inštitutu za biomedicinsko informatiko Medicinske fakultete Univerze v Ljubljani (IBMI) poučujemo številne predmete s področja biostatistike v okviru različnih izobraževalnih programov: • dodiplomskega študija na Medicinski fakulteti, smer Medicina in Stomatologija (sklop Temelji biostatistike v okviru predmeta Biomedicinska informatika); • univerzitetnega podiplomskega študijskega programa Biomedicina (predmeta Sodobne statistične metode v medicini in Temelji biostatistike); • dodiplomskega študija na Visoki šoli za zdravstvo, smer Fizioterapija (predmet Uvod v raziskovalno delo); • specialističnega podiplomskega študija družinske medicine z Inštitutom za varovanje zdravja Republike Slovenije (predmet Temelji biostatistike). V zadnjih letih je na institucionalni in neformalni ravni zaznati poudarjeno skrb za kakovost študija na Univerzi v Ljubljani (1, 2). Bibliometrične raziskave, o katerih poročamo, sodijo v okvir tovrstnih prizadevanj. Članek združuje izsledke dveh istovrstnih bibliometričnih študij uporabljenih statističnih metod: • študije New England Journal of Medicine (NEJM) in • študije izbranih znanstvenih časopisov s področja javnega zdravja. Metodologijo in rezultate zaradi preglednosti predstavljamo za vsako študijo posebej. Pri obeh pa smo izhajali iz taksonomije statističnih metod, ki je razvidna iz pregleda rezultatov prve študije (tabeli 3 in 4). Študija časopisa NEJM Metodologija NEJM je v svetu medicine najbrž najbolj prestižna znanstveno-strokovna periodična publikacija. O njenem pomenu pričajo podatki o faktorju vpliva (Impact Factor, IF), prikazani na sliki 1. Poleg podatka za NEJM (vrednosti se gibljejo med 25 in 30) so za leta od 1996 do 2000 prikazani značilni kvantili porazdelitve vseh vrednosti IF v bibliografski podatkovni zbirki Journal Citation Reports - Sciences Edition (JCR SE) korporacije ISI (Institute of Scientific Information), navedena pa sta tudi rang NEJM in število vseh publikacij s podatkom o faktorju vpliva za posamezno leto. N=4730 I N=4919 ; N=5411 ; N=5498 ; N=5632 (NEJM9.) I (NEJM6.) I (NEJM6.) I (NEJM6.) I (NEJMS.) 1996 1997 1998 1999 2000 100,0 Slika 1. Faktor vpliva časopisa NEJM (romb) v primerjavi s porazdelitvijo vseh publikacij, obravnavanih v zbirki JCR SE (maksimum: kratka vodoravna črta; 3. in 1. kvartil: belipravokotnik; mediana: debela vodoravna črta; minimum, ki ni prikazan, je za vsa leta 0). Navedena sta tudi število vseh publikacij z IF (N) in rang NEJM. Na ordinatno os smo nanesli faktor vpliva v logaritemskem merilu. Figure 1. Impact factor (IF, logarithmic scale) of the New England Journal of Medicine (NEJM, rhomboid marker) within IF distribution of all periodicals in the Journal Citation Reports Science Edition database (maximum: short horizontal line; 3'd and 1st quartile: white rectangle; median: thick horizontal line; minimum 0 for all years - not displayed; N: number of publications in the database; NEJM rank in parentheses). Želeli smo obravnavati aktualne objave, zato smo izbrali letnik 344 iz leta 2001. Bibliometri~no smo analizirali vseh 26 {tevilk, pri ~emer smo se omejili na izvirne znanstvene ~lanke (Original Articles) in izpustili kratka raziskovalna poro~ila (Brief Reports), ker dejansko ne vsebujejo informacij o statisti~nih analizah. Skupaj smo analizirali 100 ~lankov. Rezultati in razprava O predhodni analizi mo~i testa oziroma oceni potrebne velikosti vzorca poro~a 19 ~lankov (19%), kar kaže, da se raziskovalci vse bolj zavedajo obstoja oziroma pomena napake ß pri statisti~nem zaklju~evanju. Delež razli~nih metod oziroma oblik statisti~ne analize v ~lanku povzema tabela 1. Skoraj dve tretjini ~lankov poro~ata o uporabi vsaj ene multivariatne metode, preostalih 34 ~lankov pa ne. Tabela 1. Število različnih metod oziroma oblik statistične analize v članku (NEJM, letn. 344). Table 1. Number of different methods (types)of statistical analysis within article (NEJM, Vol. 344). Število / Number Odstotek člankov/ % of articles 1 19,0 2 36,0 3 30,0 4 13,0 5 2,0 V tabeli 2 so navedeni podatki o uporabljenih statističnih programskih paketih. Vsota deležev v tabeli presega 100%, ker je {est člankov kombiniralo dva programska paketa (SAS+Stata, SAS+SPSS dvakrat, SAS+specializiran paket in SPSS+specializiran paket dvakrat). Ker programsko opremo, uporabljeno pri analizi podatkov, navajajo le pri slabi tretjini (32%) člankov, imajo ocene deležev seveda zgolj informativen pomen. Prevlada sistema SAS je sicer pričakovana, z vidika Univerze v Ljubljani kot licenčne uporabnice pa je posebej pomembno uveljavljanje programskega paketa SPSS v biostatistični podpori vrhunskemu raziskovalnemu delu na področju biomedicine. Tabela 2. Uporabljeni statistični programski paket (NEJM, letn. 344). Table 2. Statistical software packages used (NEJM, Vol. 344). Statistični programski paket/ Statistical software package Odstotek člankov/ % of articles ni navedeno / Not specified 68,0 SAS 18,0 Stata 6,0 SPSS 6,0 drugo / Other 8,0 Okvirni pregled uporabljenih metod oziroma oblik statistične analize podaja tabela 3, v tabeli 4 pa so podrobneje razčlenjene multivariatne metode, ki so posebej pomembne za načrtovanje na{ega pedago{kega procesa. Tabela 3. Uporabljene metode oziroma oblike statistične analize (NEJM, letn. 344). Table 3. Applied methods (types) of statistical analysis (NEJM, Vol. 344). Metoda / Method Št. pojavljanj / No. of occurrences Študija primera (brez statistične analize) / Case study (no statistical analysis) 2 Opisne statistike (brez ocenjevanja parametrov oziroma zaključevanja) / Descriptive statistics (no parameter estimation or inference) 6 Univariatne metode / Univariate methods 35 Bivariatne metode / Bivariate methods 117 Multivariatne metode / Multivariate methods 80 Skupaj / Total 240 Tabela 4. Uporabljene multivariatne statistične metode (NEJM, letn. 344). Table 4. Applied multivariate statistical methods (NEJM, Vol. 344). Multivariatna metoda / Multivariate method Odstotek pojavljanj / % of occurrences Logistična regresija / Logistic regression 31,3 Coxova regresija (vključno s stratifikacijo in časovno odvisnimi kovariatami), 25,0 parametrični regresijski modeli preživetja / Cox regression (including stratification and time-dependent covariates), parametric regression models of survival (Cochran-)Mantel-Haenszelov postopek / (Cochran) Mantel-Haenszel procedure 11,3 Analiza variance - od tega / Analysis of variane - compris ing 8,8 ANCOVA , dvo- in večsmerna / Two- or multi-way ANOVA 7,5 MANOVA 1,3 Linearna regresija (navadna, lahko z interakcijskimi členi) / 5,0 Linear regression (simple, including interaction terms) Splošne ocenjevalne enačbe / GEE 5,0 Zahtevnejše vrste regresije (ponovljene meritve, mešani modeli, Poissonova r.) / 3,8 Advanced regression (repeated measures, mixed models, Poisson) Iskanje strukture - od tega / Search for structure - comprising 3,8 Faktorska analiza, analiza glavnih komponent / FA, PCA 1,3 Združevanje v skupine / Hierarchical clustering 1,3 Večrazsežnostno lestvičenje / MDS 1,3 Analiza časovnih vrst / Time-series analysis 1,3 Klasifikacijska drevesa / Classification trees 1,3 Drugo (specializirane metode v genetiki in farmakokinetiki) / Other (specialised methods in genetics and pharmacokinetics) 3,8 Trenutno podiplomski predmet Sodobne statistične metode v medicini obsega ponovitev temeljev biostatistike, multiplo linearno regresijo, logistično regresijo in analizo preživetja (Kaplan-Meierjevo metodo, log-rank test in osnovni Coxov regresijski model sorazmernih tveganj). Rezultati študije kažejo, da bi bilo v prihodnje smiselno v program vključiti {e osnove analize variance in nekaj več vsebin s področja prikaza statističnih podatkov. Študija časopisov s področja javnega zdravja Metodologija Analizirali smo štiri znanstvene časopise, v celoti dostopne v elektronski obliki za uporabnike z Univerze v Ljubljani. Časopise in njihove značilnosti navaja tabela 5, za katero smo podatke o merah odmevnosti dobili iz zbirk JCR (Sciences Edition, SE, oziroma Social Sciences Edition, SSE) za leto 2000. Število člankov in merila izbora navaja tabela 6. Skupno smo pregledali 92 člankov. Tabela 5. Analizirani znanstveni časopisi s področja javnega zdravja. Table 5. Analysed journals from the field of public health. Časopis / Journal Faktor vpliva / JCR Dostop preko servisa / Impact Factor Full-text access via American Journal of Public Health (AJPH) 1,494 SE EBSCO Australian and New Zealand Journal of Public 1,074 SSE ProQuest Health (ANZJPH) Scandinavian Journal of Public Health (SJPH) 0,340 SE OCLC Social Science and Medicine (SSM) 1,691 SSE ScienceDirect Tabela 6. Analizirani članiki v časopisih s področja javnega zdravja. Table 6. Analysed articles in the public health journals. Časopis Člankov/ Merilo izbora / Selection criteria Številke / Issues Journal Articles AJPH 20 članki razdelka Research (16) ter članki razdelka Dec 2001, Vol. 91, No. 11 Research&Practice (4) s kvantitativno metodologijo / Dec 2001, Vol. 91, No. 12 Research section (16), Research&Practice section if Jan 2002, Vol. 92, No. 1 quantitative methodology (4) ANZJPH 28 razdelek Articles (vključuje Brief Reports) / Articles Aug 2001, Vol. 25, Iss. 2 section (including Brief Reports) Aug 2001, Vol. 25, Iss. 3 Aug 2001, Vol. 25, Iss. 4 SJPH 25 Original Articles (24), Brief Report (1) 2000, Vol. 28, No. 2 2000, Vol. 28, No. 3 2000, Vol. 28, No. 4 SSM 19 Articles brez Review Articles in tistih z izključno Dec 2001, Vol. 53, Iss. 11 kvalitativno metodologijo / Articles section excluding Dec 2001, Vol. 53, Iss. 12 Review Articles and qualitative methodology only Rezultati in razprava Navajanje vseh zbranih bibliometričnih podatkov bi bilo pri tej študiji nepregledno in preobsežno, zato raje navajamo ugotovitve, ki smo jih povzeli na podlagi pregleda člankov: • Vsi članki navajajo opisne statistike; poleg najosnovnejših (M, SD, SE(M), %) se zelo pogosto pojavljata tudi razmerje obetov (OR) in razmerje tveganj (RR); za vse statistike se praviloma navaja ocene intervala zaupanja. • Praktično vse opisne statistike spremljajo grafični prikazi, ki se med seboj zelo razlikujejo glede kakovosti in ustreznosti (3, 4); prevladujejo strukturni krog, stolpčni diagram, histogram, črtni diagram (slednji trije često s prikazano variabilnostjo oziroma oceno standardne napake aritmetične sredine), razsevni diagram ter diagram tipa zaboj z ročaji (box&whiskers plot). Pogosta je uporaba Mantel-Haenszelovega postopka za stratificirano oceno razmerja obetov. Pri diagnostičnih postopkih je praviloma navedena občutljivost in/ali specifičnost, analiza krivulj ROC pa je izjema. Najbrž pogosteje kot sicer v znanstveno-strokovni periodiki s področja medicine se uporabljajo korelacijske metode (x2-test povezanosti, Pearsonov koeficient in rang korelacije). • Približno v tretjini člankov se primerja centralna tendenca spremenljivke med dvema ali več skupinami; poleg t-testa (za neodvisne ali odvisne vzorce) in njegovih "neparametričnih" alternativ (Mann-Whitney, Wilcoxon) je zelo pogosta tudi enosmerna analiza variance (praviloma za neponovljene, redkeje za ponovljene meritve), nekoliko manj prisotni pa sta njeni alternativi na podlagi rangov (Kruskal-Wallis, Friedman). Nekaj je primerov tudi primerjave več vzorcev z medianskim testom ter primerjave dveh stanj istega vzorca z McNemarovim testom. • Med tremi v medicini najbolj uveljavljenimi multivariatnimi metodami (linearna regresija, logistična regresija, Coxov model sorazmernih tveganj) izrazito prevladuje logistična regresija, pri kateri ima interpretacijski poudarek ocena popravljenega razmerja obetov. Pri linearni in logistični regresiji često nastopajo interakcijski členi; presenetljivo pogosto se uporabljajo metode postopnega vključevanja in/ali izločanja prediktorjev; nekaj je primerov uporabe hierarhične linearne regresije. • Analiza preživetja se v splošnem uporablja nekoliko redkeje kot sicer v medicinskih raziskavah; poleg Kaplan-Meierjeve metode se pojavljajo tabele preživetja za različne populacije; za primerjavo skupin se namesto sklepanja na podlagi log-rank testa včasih uporablja zgolj stratificirana ocena krivulj oziroma tabel preživetja; grafični prikazi preživetja so kakovostni (vsebujejo dodatne informacije, najpogosteje interval zaupanja). • Nekaj je primerov uporabe metodologije časovnih vrst; ob grafičnih prikazih ostajajo analize na ravni gibljivega povprečja (MA) ali kvečjemu linearne regresije, avtoregresijsko modeliranje (ARMA, ARIMa) je izjema. • Le v enem ali dveh člankih se pojavljajo naslednje metode: analiza linearnih strukturnih enačb (vzročno modeliranje ali vsaj analiza poti), analiza glavnih komponent (PCA), združevanje v skupine (hierarhična clusterska analiza), večnivojsko modeliranje, Poissonova regresija in kvantitaivna meta-analiza. Med navedenimi sta za raziskovanje na obravnavanem področju najbrž najbolj temeljni oziroma najmanj pogrešljivi PCA (oziroma faktorska analiza v širšem pomenu besede) in meta-analiza, prej ali slej pa se bo zagotovo bolj uveljavila tudi metodologija strukturnih enačb. Posebna oblika uporabe sicer preprostih statističnih postopkov, prisotna skoraj v vseh člankih, so epidemiološke metode (stratificirano ocenjevanje prevalence, razmerje pogostosti ipd.). Za raziskovalno metodologijo na področju javnega zdravja sta pomembni še dve spoznanji: • izrazito pogosta je uporaba standardne družboslovne metodologije oziroma psihometričnih metod; razvoj in aplikacijo vprašalnikov spremlja analiza merskih značilnosti (vključno s koeficienti zanesljivosti), pogosto so uporabljene tudi različne tehnike razvoja in vrednotenja stališčnih lestvic; • za kvantitativno analizo kvalitativnih podatkov (besedil, najpogosteje dobljenih z intervjuji) se pogosto uporablja analiza vsebine. Na podlagi zgornjih ugotovitev smo oblikovali širši nabor tem, ki predstavlja okvir za izbor vsebin za pouk statistične analize podatkov za raziskovalce s področja javnega zdravja (npr. v okviru mednarodne poletne šole). Temeljne vsebine: 1. temelji statističnega sklepanja (vzorčne porazdelitve, intervali zaupanja, preizkušanje hipotez); 2. načela in načini prikaza univariatnih, bivariatnih in multivariatnih podatkov; 3. primerjava povprečij (t-test za en vzorec, t-test za neodvisna in odvisna vzorca, enosmerna analiza variance); 4. korelacija (Pearsonov koeficient korelacije, korelacijsko razmerje, korelacija rangov) in preprosta regresija; 5. osnove analize opisnih spremenljivk (x2 -test ujemanja, x2-test povezanosti, McNemarov test, Fisherjev eksaktni test); 6. izbrane metode za analizo kontingenčnih tabel 2x2 (razmerje obetov in relativno tveganje, Mantel-Haenszelov test, občutljivost in specifičnost, skladnost med ocenjevalci); 7. najpogostejši neparametrični testi srednje vrednosti (Mann-Whitneyev, Wilcoxonov, Kruskal-Wallisov in Friedmanov test); Zahtevnejše vsebine: 1. multipla linearna regresija; 2. logistična regresija; 3. analiza preživetja (krivulje preživetja, Kaplan-Meierjeva metoda, log-rank test, osnove Coxovega regresijskega modela sorazmernih tveganj); 4. analiza longitudinalnih podatkov (prikaz longitudinalnih podatkov, osnove analize časovnih vrst, metoda primerjave ploščin, ANOVA za ponovljene meritve); 5. merjenje v družboslovju (klasična testna teorija, analiza postavk, zanesljivost in veljavnost merjenja); 6. izdelava stališčnih lestvic; 7. izbrane multivariatne metode in metode odkrivanja znanja v podatkovnih zbirkah (faktorska analiza, analiza glavnih komponent, diskriminantna analiza, združevanje v skupine, klasifikacijska in regresijska drevesa, asociacijska pravila, orodja in postopki za podatkovno rudarjenje). Zaključek Opravljeni študiji sta prinesli neposredno uporabna spoznanja. Tovrstne analize pa dobijo dodatno vrednost, če jih vključimo v obsežnejše spremljanje izsledkov skozi čas. Bibliometrične analize zahtevajo veliko dela in premišljeno kombiniranje kvantitativne in kvalitativne analize. Če pa so korektno izvedene, lahko s posodabljanjem študijskih programov brez kakršnih koli finančnih vlaganj pomembno prispevajo h kakovosti študija. Za analizo s področja javnega zdravja smo izbrali štiri znanstveno-strokovne časopise, ki so v celoti dostopni v elektronski obliki. S tem smo hkrati opozorili na premajhno izkoriščenost bogastva informacijskih servisov, ki so na voljo zaposlenim na Univerzi v Ljubljani. Članek predstavlja nadaljevanje naše usmerjenosti v sprotno in sistematično spremljanje najsodobnejših spoznanj in dogajanj na področju statistike. Podobnih bibliometričnih študij se bomo na IBMI lotevali tudi v prihodnje. Literatura 1. Mihevc B, Marentič-Požarnik B, Kejžar I. Za boljšo kakovost študija: pogovori o visokošolski didaktiki. Ljubljana: Center za pedagoško izobraževanje Filozofske fakultete, Slovensko društvo za visokošolsko didaktiko, 1998. 2. Mihevc B. Povežimo se v skrbi za boljšo kakovost študija. Vestnik 1999;30(5-6):5-7. 3. Bertin J. Graphics and graphic information-processing. NewYork, Berlin: Walter de Gruyter, 1981. 4. Tufte, ER. The visual display of quantitative information. 12th print. Cheshire: Graphics Press, 1992.