1 6 Leskošek: Statistično učenje za napovedovanje možnih součinkovanj med zdravili ■ Izvirni znanstveni članek Branimir Leskošek Statistično učenje za napovedovanje možnih součinkovanj med zdravili Povzetek. Strojno napovedovanje součinkovanj (interakcij) med zdravili je relativno novo raziskovalno področje na preseku farmakologije in ved o življenju ter računske statistike. V prispevku obravnavamo in ovrednotimo nekatere postopke statističnega učenja za napovedovanje možnih součinkovanj med zdravili. Slednje smo predstavili kot kompleksno omrežje, v katerem se vozlišča nanašajo na zdravila, povezave med vozlišči pa na možna součinkovanja med zdravili. Za napovedovanje potencialnih novih povezav smo uporabili metodologijo napovedovanja povezav v kompleksnih omrežjih. Natančneje, proces napovedovanja povezav smo predstavili kot nalogo uvrščanja na omrežjih možnih součinkovanj. Učinkovitost napovedovanja novih povezav smo ovrednotili s serijo eksperimentov nad naslednjimi omrežji: DrugBank, KEGG, NDF-RT, SemMedDB in Twosides. Za napovedovanje povezav smo uporabili nenadzorovane in nadzorovane postopke statističnega učenja, med drugim klasifikacijsko drevo, k-najbližjih sosedov, metodo podpornih vektorjev in slučajne gozdove. Atribute smo konstruirali na osnovi topoloških in semantičnih mer podobnosti med vozlišči. Najboljši napovedni model v smislu ploščine pod ROC krivuljo (AUC) smo dosegli s slučajnimi gozdovi nad omrežjem Twosides (AUC = 0,93). Predstavljena metodologija lahko služi kot primerno orodje za napovedovanje možnih součinkovanj med zdravili, tako na ravni teoretičnega raziskovanja kot tudi v klinični praksi. Statistical Learning for Predicting Potential Drug Interactions Abstract Machine prediction of drug-drug interactions (DDIs) is relatively new research field at the intersection of pharmacology as well as life sciences and computational statistics. In this paper, we deal with selected statistical learning algorithms for predicting possible DDIs. We represent DDIs as a complex network in which nodes refer to drugs and links refer to their potential interactions. We implemented the process of link prediction as a binary classification task on networks of potential DDIs. We used link prediction techniques for predicting unknown interactions between drugs in five large-scale DDIs databases, namely DrugBank, KEGG, NDF-RT, SemMedDB, and Twosides. We estimated the performance of link prediction using a series of experiments on DDIs networks. We performed link prediction using unsupervised and supervised approach including classification tree, k-nearest neighbours, support vector machines, random forest, and gradient boosting machine classifiers based on topological and semantic similarity features. Supervised approach clearly outperforms unsupervised approach. The Twosides network gained the best prediction performance regarding the area under the precision-recall curve (AUC = 0.93). The applied methodology can be used as a tool to help researchers to identify potential DDIs. (korespondenčnem avtorju). ■ Infor Med Slov 2018; 23(1-2): 12-17 Institucije avtorjev / Authors' institutions: Medicinska Fakulteta, Univerza v Ljubljani; ELIXIR Slovenija. Kontaktna oseba / Contact person: dr. Branimir Leskošek, Medicinska fakulteta, Univerza v Ljubljani, Vrazov trg 2, 1000 Ljubljana, Slovenija. E-pošta / E-mail: brane.leskosek@mf.uni-lj.si. Prispelo / Received: 10. 7. 2018. Sprejeto / Accepted: 26. 11. 2018. izdaja / published by SDMI ■ http://ims.mf.uni-lj.si/ Informatica Medica Slovenica; 2018; 23(1 -2) 13 Uvod Sočasna uporaba več zdravil hkrati (polifarmakoterapija) je v sodobni klinični praksi čedalje bolj pogosta, zlasti pri starejši populaciji bolnikov,1 kjer je pogosto hkrati prisotnih tudi več bolezni (polimorbidnost).2 Odstotek populacije v ZDA, ki uživa tri ali več zdravil hkrati, se je zvišal iz 12 % v letih 1988-1994 na 21 % v letih 2007-2010.3 V takih pogojih lahko pride do součinkovanj (interakcij) med zdravili (DDI). DDI je dogodek, v katerem eno zdravilo s farmakodinamičnega, farmakokinetičnega ali farmacevtskega vidika vpliva na farmakološki učinek drugega zdravila, ko bolniku apliciramo obe zdravili hkrati. V kliničnih študijah se ne identificirajo vsi neželeni učinki zdravil (NUZ) in vse DDI. Liu4 poroča, da okoli 10 % vseh možnih parov zdravil lahko izzove NUZ zaradi DDI. Sistematičen pregled zbirk DDI (npr. DrugBank, Drugs.com) je pokazal, da so te nepopolne oz. da vsebujejo veliko število klinično nerelevantnih DDI.5 DDI lahko preprosto predstavimo kot omrežje, v katerem se vozlišča nanašajo na zdravila, relacije med vozlišči pa na njihova součinkovanja.6 Na področju farmakologije so bile doslej že opravljene nekatere raziskave, ki so uporabile metodologijo kompleksnih omrežij, vključno z napovedovanjem DDI.7, 8 Prav tako so bili za napovedovanje DDI v preteklosti razviti različni statistični postopki. Obstoječe pristope k napovedovanju DDI lahko razvrstimo na: (i) pristope, ki temeljijo na podobnosti med vozlišči, (ii) klasifikacijski pristope in (iii) pristope rudarjenja besedil. Prvi pristop predpostavlja, da bodo podobna zdravila součinkovala s podobnimi zdravili; npr. dve zdravili bosta součinkovali, če bosta imeli podobno molekulsko strukturo. Klasifikacijski pristopi predstavijo napovedovanje DDI kot dvojiško nalogo klasifikacije. Pari zdravil so predstavljeni kot vektorji primerov; razred primera označuje prisotnost oz. odsotnost součinkovanja. Pristopi rudarjenja besedil temeljijo na uporabi metodologije procesiranja naravnega jezika (npr. iz MEDLINE zapisov). V prispevku se ukvarjamo z napovedovanjem povezav v smislu napovedovanja potencialnih DDI. Glavna cilja prispevka sta: (i) predstaviti proces odkrivanja potencialnih DDI kot dvojiški klasifikacijski izziv in (ii) ovrednotiti učinkovitost metod strojnega učenja za napovedovanje potencialnih DDI. Naš prispevek je inovativen v štirih vidikih: (i) uporabimo veliko množico podatkovnih zbirk vključno z zbirkami DrugBank, KEGG, NDF-RT, SemMedDB in Twosides, (ii) poleg značilk izpeljanih iz topologije omrežij uporabimo tudi semantične značilke, kot so npr. MeSH termini in ATC shema, (iii) poleg nenadzorovanega učenja uporabimo tudi nadzorovano učenje in nenazadnje (iv) rezultate statistično ovrednotimo. Metode Omrežja součinkovanj zdravil Omrežja DDI smo konstruirali na osnovi petih podatkovnih zbirk: DrugBank, KEGG, NDF-RT, SemMedDB in Twosides. Podatkovne zbirke so na kratko predstavljene v nadaljevanju razdelka. DrugBank je spletno skladišče, ki združuje relevantne biokemijske in farmakološke podatke o zdravilih. Večina informacije je kurirana iz znanstvene literature. DrugBank trenutno vsebuje 10.376 vnosov zdravil in 577.712 usmerjenih DDI. V raziskavi smo uporabili DrugBank različico 5.0, ki smo jo pridobili s spletne strani https://www.drugbank.ca 1. 8. 2017. KEGG (angl. Kyoto Encyclopedia of Genes and Genomes) je eden od najbolj popularnih virov presnovnih/signalnih poti za različne organizme. Del KEGG je tudi zbirka KEGG DRUG, ki vsebuje seznam, informacije o kemijski strukturi, tarčnih molekulah in terapevtskih kategorijah za zdravila, registrirana v Evropi, ZDA in na Japonskem. Zbirko smo prenesli s KEGG FTP strežnika (ftp://ftp.genome.jp/pub/kegg/medicus/drug/) 1. 8. 2017. KEGG DRUG vsebuje 10.340 entitet in 500.254 usmerjenih DDI. S preslikavo na DrugBank smo pridobili 1.194 zdravil in 52.609 relacij. NDF-RT (angl. National Drug File Reference Terminology) je zbirka DDI, za katero jo do nedavnega skrbela Ameriška veteranska administracija. Najprej smo pripravili seznam součinkovanj s pomočjo storitve NCBI SPARQL (http://sparql.bioontology.org/sparql). Na ta način smo pridobili 10.530 usmerjenih DDI. V naslednjem koraku smo jih preslikali na DrugBank identifikatorje z uporabo UMLS Metatezavra. Tako preslikana zbirka je vsebovala 701 DrugBank identifikatorjev in 8.044 DDI. SemMedDB je zbirka semantičnih predikatov (tj. relacij subjekt-relacija-objekt), izluščenih iz zbirke MEDLINE s pomočjo orodja SemRep. V raziskavi smo uporabili različico SemMedDB v.30. Kot vir potencialnih DDI smo uporabili vse relacije tipa »INTERACTS_WITH«. Tako pripravljena zbirka je vsebovala 1.447.792 usmerjenih DDI med UMLS koncepti, ki se nanašajo na različna zdravila. Nato smo s pomočjo UMLS Metatezavra preslikali UMLS published by / izdaja SDMI ■ http://ims.mf.uni-lj.si/ 1 6 Leskošek: Statistično učenje za napovedovanje možnih součinkovanj med zdravili koncepte v DrugBank identifikatorje; končna zbirka je vsebovala 1.688 zdravil in 37.287 DDI. Twosides zbirka je na voljo v obliki tekstovne datoteke na http://tatonettilab.org/. Za preslikavo identifikatorjev Twosides na DrugBank identifikatorje smo uporabili storitev PubChem (https://pubchem.ncbi.nlm.nih.gov/). Končna zbirka je vsebovala 340 zdravil in 19.020 DDI. Predstavitev podatkov Denimo, da obravnavamo neusmerjeno in neuteženo omrežje, ki ga predstavimo s preprostim grafom G(V,E). Graf sestavljata množica vozlišč V, ki se nanaša na zdravila, in množica povezav E, ki se nanaša na DDI. Z U označimo množico, ki vsebuje vse možne relacije. U — E je potem množica neobstoječih povezav oz. povezav, ki se pojavijo kasneje v času. Izziv napovedovanja povezav je napovedati te manjkajoče relacije. Množico dejanskih povezav E smo razbili na: učno razbitje ET in testno razbitje Ep, tako da je ET UEP =E in ET nEp = 0. Za delitev smo uporabili razmerje 66/33 v prid učni množici. Za vse pare vozlišč v učni množici smo izračunali mere podobnosti, ki odražajo verjetnost, da bo par vozlišč povezan v testni množici podatkov. V jeziku strojnega učenja vsak par vozlišč služi kot pozitivni oz. negativni primer, odvisno od tega, ali par sestavlja povezavo v testnem omrežju. Celotno omrežje smo nato predstavili kot seznam relacij. Vsak element seznama sestavljata podatkovni vektor in oznaka relacije (slednja ima vrednost 1, ko je par vozlišč povezan, in 0 sicer). Podatkovni vektor sestavljata dve podmnožici, kot je opisano v nadaljevanju prispevka. Naša glavna predpostavka je, da bodo topološko bolj podobna vozlišča z večjo verjetnostjo generirala DDI. Za vsak neobstoječ par (x,y) v testni množici podatkov naš algoritem izračuna podobnost s{x,y) E.U — Et, ki je ocena verjetnosti povezanosti vozlišč x in y. Podatkovni vektorji Priprava ustrezne množice podatkovnih vektorjev je eden od ključnih elementov statističnega učenja. Večina obstoječih pristopov k napovedovanju povezav v DDI omrežjih uporablja zgolj topološke mere podobnosti. V naši raziskavi smo ta nabor razširili s štirimi semantičnimi merami. Bralca opozarjamo, da zaradi pomanjkanja prostora podrobnosti mer ne navajamo; podroben pregled in opis bo našel v razširjenem članku.9 Med topološkimi merami smo uporabili naslednje mere podobnosti: skupne sosede, Jaccardov koeficient, Adamic/Adarjev koeficient, prednostno povezovanje, alokacijo virov ter mero WIC, ki meri podobnost med vozliščema na osnovi gruč v omrežju. Poleg naštetih smo uporabili še štiri semantične mere podobnosti, in sicer: podobnost na osnovi ATC razvrščanja zdravil, podobnost kemijske strukture, podobnost MeSH deskriptorjev in podobnost na osnovi NUZ. Statistično učenje Za učenje smo uporabili nenadzorovan in nadzorovan pristop. Za slednjega smo uporabili pet klasifikatorjev, in sicer klasifikacijska drevesa, ^-najbližjih sosedov, metodo podpornih vektorjev, slučajne gozdove in stohastični gradientni boosting. Za nenadzorovano učenje smo uporabili kombinirano mero podobnosti, ki smo jo dobili s standardizacijo mer podobnosti in njihovim povprečkom. Par vozlišč je povezan, če je vrednost mere nad izbrano pražno vrednostjo t. Nizka pražna vrednost vrne večje število potencialnih DDI in obratno. V naših nastavitvah smo kot pražno vrednost uporabili 90. percentil. Ovrednotenje učenja Natančnost algoritmov statističnega učenja smo ovrednotili z uporabo standardne sheme učna/testna množica. Statistične modele smo zgradili z uporabo paketa caret v R. Za vzporedno procesiranje smo uporabili paket doMC. Izbor ustreznega modela smo opravili na osnovi 10-kratnega prečnega preverjanja na učni množici podatkov; model z največjo klasifikacijsko točnostjo smo uporabili za napovedovanje DDI v testni množici podatkov. Učinkovitost učenja smo predstavili s standardnimi merami, ki se uporabljajo na področju statističnega učenja; uporabili smo natančnost, priklic, F1 mero, ploščino pod ROC krivuljo (AUROC) in ploščino pod krivuljo natančnost-priklic (AUPR). Slednjo mero smo uporabili predvsem zaradi tega, ker klasična ROC krivulja kaže vrsto pomanjkljivosti pri uporabi nad neuravnoteženimi podatkovji.10 Programska orodja Za pripravo podatkov smo uporabili skriptna jezika AWK in Python. Mere podobnosti so bile implementirane z uporabo knjižnice NetworkX v Pythonu. Ostale računske operacije smo opravili s programskim jezikom R. Celotna programska koda je prosto dostopna na naslovu https://github.com/akastrin/ddi-prediction. izdaja / published by SDMI ■ http://ims.mf.uni-lj.si/ Informatica Medica Slovenica; 2018; 23(1 -2) 15 Rezultati Lastnosti omrežij Povzetek topoloških mer omrežij je prikazan v tabeli 1. Za vsa omrežja je značilna kratka povprečna dolžina poti; z drugimi besedami, med dvema vozliščema sta v povprečju le dobri dve povezavi. Povprečni koeficient zgoščanja znaša C = 0,46. Povprečni premer omrežja znaša šest povezav. V naslednjem koraku smo pripravili povzetek skupnih povezav med pari vozlišč v omrežjih (tabela 2). Delež preseka je določen kot razmerje med prekrivajočimi povezavami in manjšim številom povezav v paru omrežij. Rezultati kažejo, da ima večina parov nizek delež prekrivanja. To kaže na komplementarnost uporabljenih omrežij. Učinkovitost učenja V tem razdelku najprej predstavimo rezultate nenadzorovanega učenja, nato pa še rezultate nadzorovane klasifikacije. Rezultati nenadzorovanega učenja so povzeti v tabeli 3. Med vsemi podatkovnimi viri najbolj izstopa omrežje Twosides, ki se ponaša z največjo natančnostjo in hkrati z najmanjšim priklicem. Z izjemo omrežij DrugBank in Twosides kaže nenadzorovana klasifikacija vzorec "majhna natančnost — visok priklic". To pomeni, da obstaja večja verjetnost napačno pozitivnih zadetkov in manjša verjetnost pogreškov. Rezultati nadzorovanega učenja so predstavljeni v tabeli 4. Najboljše rezultate na testnih podatkih dosežemo z omrežjem Twosides, ki mu sledijo omrežja DrugBank, KEGG, SemMedDB in NDF-RT. Omrežji DrugBank in Twosides dosegata najboljše rezultate tako pri natančnosti kot pri priklicu, medtem ko je pri ostalih omrežjih vzorec izraženosti obraten. S primerjavo skupin označenih vozlišč smo ugotovili, da je povprečna podobnost pozitivno označenih DDI parov vozlišč statistično značilno višja (p < 0,001) kot povprečna podobnost negativno označenih DDI parov v vseh petih omrežjih. Ta ugotovitev potrjuje našo domnevo, da imajo podobne učinkovine (kjer podobnost merimo s topološkimi in semantičnimi merami nad omrežjem DDI) večjo verjetnost za DDI. Razprava V prispevku smo predstavili računski pristop k identifikaciji potencialnih DDI z uporabo metodologije napovedovanja povezav v kompleksnih omrežjih. Napovedovanje povezav smo opravili na petih izbranih kompleksnih omrežjih DDI. Naši rezultati potrjujejo domnevo o primernosti nadzorovanega napovedovanja povezav za napovedovanje DDI. Napovedna moč je visoka, ne glede na izbrano omrežje. V sodobni farmakologiji obstaja velik interes za učinkovito in zanesljivo identifikacijo DDI. Zaradi visoke cene eksperimentalnih podatkov in posledično pomanjkanja empirične evidence je uporaba računskih pristopov za določevanje DDI zelo dobrodošla. Pri tem je seveda potrebno poudariti, da računska analiza potencialnih DDI lahko pripelje do pomembnih odkritij, ne more pa še v popolnosti nadomestiti farmakološke introspekcije. V prihodnje bi bilo v analizo smiselno vključiti tudi genomske kovariate in prosto besedilo. Naša analiza je sicer zasnovana na vseh pomembnejših zbirkah, kljub temu pa smo izpustili nekatere, zlasti klinično relevantne zbirke (npr. Drugs.com, Medscape Multi-Drug Interaction Checker, RxList). Slednjih ni bilo moč vključiti, ker ne ponujajo prostodostopnega API vmesnika. Zaključek Napovedovanje povezav v omrežjih je učinkovita metodologija za študij kompleksnih omrežij v različnih znanstvenih disciplinah, vključno s farmakologijo. V prispevku smo prikazali pristop k napovedovanju potencialnih DDI na osnovi metodologije napovedovanja povezav. Študirali smo napovedno točnost nenadzorovanega in nadzorovanega učenja na petih izbranih velikih omrežjih DDI. Kljub temu, da obstaja mnogo različnih pristopov k napovedovanju povezav, pa zanesljivo napovedovanje še zmeraj predstavlja velik izziv. Računski pristop, ki ga predstavljamo v prispevku, omogoča raziskovalcem učinkovito napovedovanje potencialnih DDI. published by / izdaja SDMI ■ http://ims.mf.uni-lj.si/ 1 6 Leskošek: Statistično učenje za napovedovanje možnih součinkovanj med zdravili Tabela 1 Osnovne lastnosti DDI omrežij. Omrežje W\ El c D L C GC DrugBank 2.551 577.712 452,93 6 2,27 0,52 1,00 KEGG 1.194 52.609 88,12 7 2,51 0,37 1,00 NDF-RT 701 8.044 22,95 8 3,30 0,16 0,99 SemMedDB 1.688 37287 44,18 6 2,58 0,44 1,00 Twosides 340 19.020 111,88 3 1,68 0,83 1,00 Oznake: \V\ — št. vozlišč; |_E| — št. povezav; c — povprečna stopnja; D — premer; L — povprečna dolžina poti; C — koeficient zgoščanja; GC — velikost glavne komponente. Tabela 2 Prekrivanje povezav med omrežji. Omrežje DrugBank KEGG NDF-RTSemMedDB Twosides DrugBank 296.656 0,36 0,45 0,30 0,53 KEGG 11.961 33.474 0,14 0,04 0,04 NDF-RT 1.790 576 4.010 0,10 0,05 SemMedDB 8.603 1.077 390 28.924 0,08 Twosides 7.411 691 199 1396 17.219 Oznake: Vrednosti na glavni diagonali predstavljajo št. neusmerjenih povezav v vsakem od omrežij. Vrednosti v spodnjem trikotniku predstavljajo število prekrivanj med dvema omrežjema. Vrednosti v zgornjem trikotniku predstavljajo delež prekrivanja med paroma omrežij. Tabela 3 Učinkovitost nenadzorovanega napovedovanja v testni množici. Omrežje_Prec_Rec_Fi AUROC AUPR DrugBank 0,63 0,68 0,65 0,93 0,70 KEGG 0,28 0,64 0,39 0,91 0,35 NDF-RT 0,08 0,56 0,14 0,84 0,11 SemMedDB 0,17 0,83 0,28 0.95 0,45 Twosides 0,96 0,30 0,45 0,89 0,82 Oznake: Prec — natančnost; Rec — priklic; F1 — mera F1; AUROC — ploščina pod ROC krivuljo; AUPR — ploščina pod krivuljo natančnost-priklic. izdaja / published by SDMI ■ http://ims.mf.uni-lj.si/ Informatica Medica Slovenica; 2018; 23(1 -2) 17 Tabela 4 Učinkovitost nadzorovanega napovedovanja v testni množici. Omrežje Klasifikator Prec Rec F1 AUROC AUPR DrugBank DT 0,83 0,55 0,66 0,84 0,63 kNN 0,83 0,66 0,74 0,94 0,81 SVM 0,83 0,58 0,69 0,93 0,78 RF 0,83 0,55 0,66 0,98 0,92 GBM 0,83 0,65 0,73 0,96 0,82 KEGG DT 0,66 0,32 0,43 0,79 0,42 kNN 0,68 0,35 0,46 0,88 0,51 SVM 0,72 0,21 0,33 0,80 0,47 RF 0,66 0,32 0,43 0,96 0,69 GBM 0,67 0,37 0,48 0,95 0,55 NDF-RT DT 0,60 0,12 0,20 0,70 0,20 kNN 0,25 0,03 0,06 0,79 0,17 SVM 0,56 0,07 0,13 0,87 0,21 RF 0,60 0,12 0,20 0,91 0,36 GBM 0,63 0,15 0,24 0,90 0,27 SemMedDB DT 0,73 0,25 0,38 0,75 0,36 kNN 0,68 0,30 0,42 0,86 0,45 SVM 0,69 0,29 0,41 0,89 0,50 RF 0,73 0,25 0,38 0,96 0,55 GBM 0,68 0,31 0,43 0,96 0,53 Twosides DT 0,83 0,82 0,82 0,90 0,80 kNN 0,85 0,77 0,81 0,93 0,90 SVM 0,86 0,80 0,83 0,95 0,92 RF 0,83 0,82 0,82 0,96 0,93 GBM 0,86 0,83 0,85 0,95 0,93 Oznake: Prec — natančnost; Rec — priklic; Fi — mera Fi; AUROC — ploščina pod ROC krivuljo; AUPR — ploščina pod krivuljo natančnost-priklic. Reference 6. 1. Lu Y, Shen D, Pietsch M, et al:. A novel algorithm for analyzing drug-drug interaction from MEDLINE 7 literature. Sci Rep 2015; 5. 17357. https://doi.org/10.1038/srep1 7357 2. Juurlink DN, Mamdani M, Kopp A, Laupacis A, Redelmeier DA. Drug-drug interactions among elderly patients hospitalized for drug toxicity. JAMA 2003, g 289(13). 1652-1658. https://doi.Org/10.1 001 /iama.289.13.1652 3. Percha B, Altman RB. Informatics confronts drug-drug interactions. Trends Pharmacol Sci 2013, 34(3). 178184. https://doi.org/10.1016/j.tips.201 3.01.006 9. 4. Liu R, AbdulHameed MDM, Kumar K, Yu X, ' Wallqvist A, Reifman J. Data-driven prediction of adverse drug reactions induced by drug-drug interactions. BMC Pharmacol Toxicol 2017, 18. 44. https://doi.org/10.! 1 86/s40360-017-01 53-6 10. 5. Ayvaz S, Hom J, Hassanzadeh O, et al:. Toward a complete dataset of drug-drug interaction information from publicly available sources. J Biomed Inform 2015, 55, 206-217. https://doi.org/10.1 01 6/j.jbi.2015.04.006 Hopkins AL. Network pharmacology. the next paradigm in drug discovery. Nat Chem Biol2008, 4(11). 682-690. https://doi.org/10.1038/nchembio.1 1 8 Lu Y, Figler B, Huang H, Tu YC, Wang J, Cheng F. Characterization of the mechanism of drug-drug interactions from PubMed using MeSH terms. PLoS One 2017; 12(4). e0173548. https://doi.org/10.1371/iournal.pone.01 73548 Zhang W, Chen Y, Liu F, Luo F, Tian G, Li X. Predicting potential drug-drug interactions by integrating chemical, biological, phenotypic and network data. BMC Bioinformatics 2017; 18. 18. https://doi.org/10.1 1 86/s12859-016-1415-9 Kastrin A, Ferk P, Leskosek B. Predicting potential drug-drug interactions on topological and semantic similarity features using statistical learning. PLoS One 2018; 15(5). e0196865. https://doi.org/10.1371/iournal.pone.0196865 Lobo JM, Jimenez-Valverde A, Real R. AUC. a misleading measure of the performance of predictive distribution models. Global Ecol Biogeogr 2008; 17(2). 145-151. https://doi.org/10.1111 /i.1466-8238.2007.00358.x. published by / izdaja SDMI ■ http://ims.mf.uni-lj.si/