22 Kastrin et al.: Odkrivanje zakonitosti iz literature na področju znanosti o življenju ■ Pregledni znanstveni članek Matevž Kastrin, Dimitar Hristovski, Andrej Kastrin Odkrivanje zakonitosti iz literature na področju znanosti o življenju Povzetek. Odkrivanje zakonitosti iz literature (OZL) je razvijajoče se znanstveno področje, ki se ukvarja s samodejnim odkrivanjem novega znanja iz bibliografskih podatkov. V prispevku najprej naredimo kratek pregled problematike znanstvene ustvarjalnosti, ki je neločljivo povezana s področjem OZL. OZL naslonimo na Mednickovo teorijo ustvarjalnosti in Koestlerjev koncept bisociacij. V nadaljevanju predstavimo glavne teoretične modele OZL. Največji del prispevka posvetimo pregledu aplikacij s področja OZL, ki jih razdelimo glede na osnovni mehanizem odkrivanja novega znanja: aplikacije, ki temeljijo na načelu sopojavnosti, in aplikacije, ki temeljijo na semantičnih povezavah med biomedicinskimi koncepti. Literature-Based Discovery in the Field of Life Sciences Abstract. Literature-based discovery (LBD) is a growing scientific field that deals with automatic discovery of new knowledge from bibliographic data. We first make a brief overview of the problem of scientific creativity, which is inextricably associated with the field of LBD. We base LBD on Mednick's theory of creativity and Koestler's concept of bisociations. Next, we present the main theoretical models of LBD. The largest part of the paper is devoted to a comprehensive review of LBD applications. We categorise LBD applications according to the main mechanism that provides knowledge discovery: applications based on the co-occurrence principle, and applications based on semantic relations among biomedical concepts. ■ Infor Med Slov 2017; 22(1-2): 22-31 Institucije avtorjev / Authors' institutions: Klinični oddelek za travmatologijo, Kirurška klinika, Univerzitetni klinični center Ljubljana (MK); Inštitut za biostatistiko in medicinsko informatiko, Medicinska fakulteta, Univerza v Ljubljani (DH, AK). Kontaktna oseba / Contactperson: dr. Andrej Kastrin, Inštitut za biostatistiko in medicinsko informatiko, Medicinska fakulteta, Univerza v Ljubljani, Vrazov trg 2, 1000 Ljubljana, Slovenija. E-pošta / E-mail: andrej.kastrin@mf.uni-lj.si. Prispelo / Received: 18. 4. 2017. Sprejeto / Accepted: 18. 1. 2018. izdaja / published by SDMI ■ http://ims.mf.uni-lj.si/ Informatica Medica Slovenica; 201 7; 22(1 -2) 23 Uvod Pozornost raziskovalcev na področju znanosti o življenju se je pred dobrima dvema desetletjema tudi na eksperimentalni ravni preselila iz zanimanja za posamezne biološke koncepte (npr. gene in proteine) k poskusu razumevanja celih bioloških sistemov. Rezultat tega preskoka je med drugim vedno večja količina podatkov, ki jo je potrebno ne le analizirati, pač pa tudi smiselno interpretirati. To zahteva sposobnost integracije podatkovnih virov z obstoječim znanjem, ki je dostopno v literaturi. Informacijski viri na področju biomedicine so zelo obsežni in v veliki večini primerov tudi prosto dostopni. MEDLINE, najobsežnejša bibliografska zbirka na področju biomedicine, obsega že več kot 25 milijonov bibliografskih zapisov, s prirastkom od 2.000 do 4.000 zapisov dnevno. Pred raziskovalci je zato zahtevna naloga. Integracija podatkovnih virov z eksperimentalnimi podatki zahteva dobro poznavanje in redno spremljanje različnih raziskovalnih smeri, kar je za človekov spoznavni aparat prehud zalogaj. Orodja, ki omogočajo (pol)samodejno rudarjenje po besedilih znanstvenih člankov so zato primarnega pomena za nadaljnji razvoj znanosti o življenju. Orodja za rudarjenje besedilnih podatkov nam v grobem pomagajo pri štirih, zaporednih in medsebojno povezanih procesih.1,2 Prvič, raziskovalcu omogočajo identifikacijo ustreznih virov znanja oz. priklic informacij (angl. information retrieval). Drugič, olajšajo identifikacijo (bioloških) entitet oz. konceptov (npr. genov in proteinov) v besedilu (angl. entity récognition). Tretjič, pomagajo pri esktrakciji preddoločenih entitet in relacij (npr. eksplicitnih relacij med geni) iz besedila (angl. information extraction). Četrti sklop procesov se nanaša na sisteme za odkrivanje zakonitosti iz literature (OZL), ki temeljijo na prepoznavi posrednih relacij med posameznimi biološkimi koncepti (angl. literature-based discovery). Za razliko od prvih treh, je področje OZL najmanj razvito, polno raziskovalnih izzivov in zato glavni predmet tega pregleda. Znanstvena ustvarjalnost Ustvarjalnost je pomembna intelektualna aktivnost, pri kateri tvorimo nove ideje in povezave med njimi, ter obenem temeljno gonilo človeškega razvoja. Stari Grki so sicer zasejali seme dvoma, da je ustvarjalnost povezana z norostjo, vendar take popreproščene definicije danes nihče več ne jemlje resno. Brez ustvarjalnosti bi človek ostal lačen napredka in bi pri reševanju problemskih nalog ponavljal vedno enake vzorce vedenja. Znanost običajno opredelimo v smislu sistematičnega preučevanja naravnih in družbenih pojavov. Hipotetično-deduktivni pristop, ki se dandanes večinoma uporablja v znanosti, je sestavljen iz več medsebojno povezanih korakov:3 (i) opredelitev problema, (ii) identifikacija raziskovalnega vprašanja, (iii) formulacija raziskovalne domneve, (iv) oblikovanje pričakovanega rezultata, (v) izvedba poskusa, (vi) primerjava pričakovanega in dejanskega rezultata ter (vii) oblikovanje sklepa. Odkritje je pogoj sine qua non v znanosti in predstavlja vrh človekove ustvarjalne misli. Odkritja omogočajo raziskovalcem spoznavanje sveta okoli sebe, osmišljajo realnost in prestavljajo meje mogočega. Odkritje se lahko nanaša na rešitev znanega problema ali pa se nanaša na problem, ki se šele kasneje izkaže za pomembnega. Pomembna odkritja se običajno dogajajo na mejah znanega, v prostoru brez domenskih ekspertov in ustreznega raziskovalnega instrumentarija. Možgani raziskovalca v tem prostoru delujejo po principu selektivnih poskusov in napak ter na osnovi hevrističnih pravil, ki so osnovana na preteklih izkušnjah.4 Generiranje novih idej je ključni element ustvarjalnega procesa znanstvenega spoznavanja realnosti.5,6 Sodobno znanstveno raziskovanje je ena od najbolj kompleksnih človeških aktivnosti, ki zahteva različne tipe sposobnosti. Znanstveno ustvarjalnost tako lahko vidimo kot skupek kognitivnih in računskih konceptov, med katere uvrščamo (i) motivacijo za raziskovalno delo, (ii) sposobnost pravilne formulacije raziskovalnega problema znotraj obstoječe zakladnice znanja, (iii) sposobnost konstrukcije izčrpnega iskalnega prostora za rešitev raziskovalnega problema, (iv) sposobnost implementacije hevristik za redukcijo prostora iskanja ter (v) potrpljenje in vzdržljivost.7 Kljub neustavljivi želji, da bi bili sposobni razumeti dinamiko znanstvenih odkritij ali bili celo sposobni njihovih napovedi, je naše znanje o tem še zelo skopo.8 Nekatera odkritja so zaradi vidne akumulacije teoretičnih spoznanj in empiričnih dokazov kot na dlani. Dober primer je npr. nedavna potrditev obstoja gravitacijskih valov. Po drugi strani se zdijo nekatera odkritja popolnoma nepredvidljiva; tak primer je npr. odkritje penicilina. Element novosti je glavni sestavni del znanstvene ustvarjalne misli, vendar je za nas ključnega pomena spoznanje, da so sestavni bloki novih idej pogosto že vključeni v obstoječem znanju. Uzzi9 namreč na osnovi obširne bibliografske analize dobrih 18 milijonov znanstvenih člankov ugotavlja, da sodobna znanost temelji na novih, a močno konvencionalnih kombinacijah obstoječega znanja. Posledično published by / izdaja SDMI ■ http://ims.mf.uni-lj.si/ 24 Kastrin et al.: Odkrivanje zakonitosti iz literature na področju znanosti o življenju ugotavlja, da bo znanstveni članek, ki je zmes novega in konvencionalnega, imel zelo visoko verjetnost, da bo visoko citiran. Znanstveno ustvarjalnost si zato lahko predstavljamo kot kontinuum, kjer na enem koncu domuje novost, na drugem pa konvencionalnost. Teoretičnih modelov, ki pojasnjujejo človekovo ustvarjalnost, je ogromno, njihov pregled pa bi presegal okvire tega prispevka. Za naše potrebe je dovolj, da iz zgodovinskega spomina obudimo Mednickovo10 teorijo ustvarjalnosti in Koestlerjev11 model bisociacij. Mednick je zasnoval teoretičen model ustvarjalnosti, v katerem je izpostavil pomen asociacij pri porajanju novih idej. Proces ustvarjalnega mišljenja definira kot povezovanje asociacijskih elementov v nove kombinacije, ki so na svojstven način uporabne. Bolj kot sta si elementa v asociacijskem prostoru oddaljena, bolj ustvarjalen je proces oziroma njegova rešitev. Do novega odkritja po Mednicku lahko pridemo po slučaju ali pa zaradi podobnosti asociacijskih elementov. Koestlerjev osnovni koncept bisociacij je predstavljen na sliki 1. Diagram predstavlja dve domeni znanja Mi in M2, kot ravnini, ki sta pravokotni druga na drugo. Vsaka od ravnin se nanaša na svoj asociativni kontekst. Koestler definira ustvarjalnost kot bisociacijo, povezavo med elementi iz dveh različnih asociativnih kontekstov. Z drugimi besedami je bisociacija nov kos znanja, ki povezuje dve domeni znanja na doslej še nepovezan način. Formalno, med dvema konceptoma obstaja bisociacija, če: (i) nista koncepta evidentno neposredno povezana, (ii) vsak koncept prihaja iz svoje domene in (iii) nova povezava odkriva nov, še nepoznan, pogled na problemsko domeno. Iz zgodovine je najbolj znan primer Arhimeda, ki je poskušal ugotoviti, ali je zlatu v kroni primešano srebro, ne da bi krono kakorkoli poškodoval. Prvi asociacijski kontekst je predstavljal problem, kako izmeriti prostornino nepravilno oblikovanega predmeta. Drugi asociacijski kontekst je bila Arhimedova ugotovitev, da je prostornina vode, ki se prelije iz kadi, enaka prostornini kopalca. S tem spoznanjem Arhimedu ni bilo težko rešiti naloge s krono, tako da je vzpostavil bisociacijo med obema asociacijskima kontekstoma in tako razkril zlatarjevo goljufijo. Do podobnega »heureka« momenta je prišlo ob iznajdbi metode verižne reakcije s polimerazo, katere odkritju je botrovala premetena kombinacija dotedanjih dobro poznanih tehnik v biokemiji. Dolgo časa je veljalo, da je racionalen model odkrivanja znanja nemogoč. Raziskovalci na področju umetne inteligentnosti so si prizadevali proces odkrivanja znanja natančno opisati s pomočjo algoritmov in ga čim bolj avtomatizirati. Na nekaterih področjih jim je to celo uspelo. V okviru Microsoftovega projekta Adam so npr. raziskovalci razvili avtomatiziran sistem za prepoznavo slik, ki temelji na metodi globokega učenja (angl. deep learning).12 Pasmo psa je Adam sposoben prepoznati na podlagi enega samega posnetka. Na področju bibliometrije so raziskovalci s pomočjo računalnika poskušali simulirati pomembna zgodovinska odkritja, drugi pa so se usmerili v računsko odkrivanje novega znanja.13 Čeprav že sam termin »računsko odkrivanje znanja« implicira avtomatiziran proces, bolj podroben pregled literature razkriva, da pri praktično vsakem uspešnem poskusu človek igra pomembno vlogo. Proces računskega odkrivanja znanja lahko podobno kot pri človeku opišemo z naslednjimi koraki: (i) formulacija problema, (ii) reprezentacija problema, (iii) manipulacija podatkov, (iv) manupulacija algoritmov ter (v) filtriranje rezultatov in njihova interpretacija. Slika 1 Ravnini predstavljata nepovezana asociacijska konteksta (domeni znanja) M1 in M2. Koestler definira ustvarjalnost kot bisociacijo, povezavo med dvema elementoma iz različnih asociativnih kontekstov. Znanstvena skupnost je danes kompleksen ekosistem, s stotinami bolj ali manj prepletenih raziskovalnih področij, desettisoči raziskovalcev in vrtoglavim številom znanstvenih publikacij. Znanstveni napredek bi bil seveda idealen, če bi imel raziskovalec pregled nad vso relevantno literaturo s svojega znanstvenega področja. Wyatt14 je že v devetdesetih letih prejšnjega stoletja ugotovil, da se število biomedicinskih revij podvoji približno na vsakih 20 let. Vpogled v PubMed npr. razkriva, da je danes o diabetesu napisanih dobrih 575.000 znanstvenih člankov. Predstavljajte si diabetologa, ki bi vsak dan prebral 20 člankov. Da bi se prebil čez celo to skladovnico člankov, bi potreboval kar 80 let! Danes velja, da je praktično nemogoče biti odličen ekspert na več področjih hkrati. Znanosti o življenju čedalje bolj stremijo k podatkovno intenzivnemu raziskovanju. Kljub temu se še vedno zanašajo na tradicionalne metode izdaja / published by SDMI ■ http://ims.mf.uni-lj.si/ Informatica Medica Slovenica; 201 7; 22(1 -2) 25 raziskovanja, ki med drugim slonijo na ročnih interpretacijah domenskega eksperta, v upanju, da bo našel uporabne vzorce v podatkih. Avtomatizacija znanstvenega procesa je zato ne samo teoretično, pač pa tudi povsem praktično vprašanje.15 Glavna predpostavka avtomatskega odkrivanja zakonitosti iz literature je uporabniku omogočiti samodejno iskanje novega, potencialno uporabnega in razumljivega znanja. Swanson in odkrivanje zakonitosti iz literature Zelo površno rečeno je znanstvena literatura na področju znanosti o življenju nestrukturiran skupek konceptov, kot so npr. ključne besede, imena genov, zdravil, terapevtskih postopkov in relacij med njimi. Akumulacija znanja temelji na njihovi učinkoviti prepoznavi, ekstrakciji in transformaciji v dobro strukturirano in semantično stabilno obliko. V sredini 80. let prejšnjega stoletja je Swanson16 sprožil novo vejo interdisciplinarnega raziskovanja. Pri OZL je šlo za slučajno odkritje, ki je prineslo nov veter v jadra tehnološko osveščenih raziskovalcev na področju znanosti o življenju, po drugi strani pa priložnost za razvoj novih računalniških aplikacij. Podrobnejši opis Swansonovega odkritja sledi v naslednjem razdelku. Formalno OZL opredelimo kot avtomatiziran proces iskanja komplementarnih (vsebinsko dopolnjujočih) struktur med disjunktnimi množicami znanstvene literature.17 Teoretično ozadje Swansonovega pristopa k OZL lahko navežemo na Mednickovo10 teorijo ustvarjalnosti, s posebnim poudarkom na medkontekstnih asociacijah, ki jim Koestler11 pravi bisociacije. Če bi iz množice člankov po slučaju potegnili dva, bi z veliko verjetnostjo ne bila komplementarna. Za ta namen zato potrebujemo avtomatiziran iskalni proces, ki bo karseda dobro izkoristil človekovo znanje in sposobnost presoje ter ju kombiniral s hitrostjo računalnika in njegovo učinkovitostjo pri obdelavi velikih količin podatkov. Koncept OZL je osnovan na treh medsebojno povezanih predpostavkah:16 (i) količina znanstvene literature je prevelika, da bi jo en sam raziskovalec lahko pregledal, (ii) raziskovalci so običajno specializirani za eno področje, brez dobrega vpogleda v druga raziskovalna področja in (iii) znanost je fragmentirana, sestavlja jo večje število bolj ali manj tesno povezanih skupnosti. OZL je bilo doslej, z redkimi izjemami,18 uporabljeno zgolj na področju znanosti o življenju; Swanson16 pravi, da bržkone zaradi goste povezanosti konceptov v njem, sami pa pristavljamo, da je glavni vzrok temu predvsem prosta dostopnost in enostavnost strojne manipulacije bibliografske zbirke MEDLINE. Swanson16 pojmuje OZL primarno kot človeško aktivnost, ki pa nujno potrebuje računalniško podporo. OZL zato vidi predvsem kot orodje za spodbujanje raziskovalčeve ustvarjalnosti pri tvorjenju plavzibilnih in preverljivih domnev. Najbolj znan in v aplikacijah najpogosteje uporabljen je Swansonov17 ABC model odkrivanja znanja. Model je zasnovan na preprosti ideji, da lahko novo znanje odkrijemo med neposredno nepovezanima konceptoma (A) in (C) preko vmesnega koncepta (B). Shematsko je model prikazan na sliki 2. Visoka viskoznost krvi Prehrambeno ribje olje Raynaudjev sindrom Slika 2 Swansonov ABC model odkrivanja znanja. Novo znanje predstavlja povezava med neposredno nepovezanima konceptoma (A) in (C) preko vmesnega koncepta (B). Model ABC se uporablja v dveh izpeljankah:19 odprti in zaprti. Pri odprtem iskanju je glavni namen generiranje raziskovalne domneve. Običajno imamo na voljo raziskovalni problem. Proces iskanja začnemo z enim konceptom (A), kateremu priredimo množico konceptov (B). Postopek iskanja ponovimo za vsakega ob (B) konceptov. Dobljeni zadetki predstavljajo koncepte (C). Te filtriramo tako, da izločimo vse neposredne povezave s konceptom (A). Postopek odprtega iskanja je shematsko prikazan na sliki 3. Pri drugi obliki, zaprtem iskanju, raziskovalno domnevo le preverjamo. Začetni (A) in ciljni (C) koncept poznamo, iščemo pa vmesne koncepte (B). Tudi model zaprtega iskanja je shematsko prikazan na sliki 3. Čeprav je model ABC največkrat uporabljen, pa ni edini. Wilkowski20 je predlagal razširitev modela ABC tako, da je enovozliščne (B) koncepte nadomestil z večvozliščnimi vmesnimi koncepti. Model ima published by / izdaja SDMI ■ http://ims.mf.uni-lj.si/ 26 Kastrin et al.: Odkrivanje zakonitosti iz literature na področju znanosti o življenju oznako AnC, kjer je n = (Bi, B2, ..., Bm). Van der Eijk21 je za OZL prvi predlagal uporabo modela omrežja ob predpostavki, da koncept sopojavnosti (angl. cooccurrence) zagotavlja celosten pogled na kompleksnost povezav med koncepti. Slika 3 Odprt (levo) in zaprt (desno) proces odkrivanja novega znanja. Polne povezave vodijo do potencialno zanimivih konceptov, črtkane povezave pa do konceptov, ki so se ob naknadnem preverjanju izkazali za nezanimive. Pregled sistemov za računalniško odkrivanje zakonitosti iz literature Pristopi, osnovani na načelu sopojavnosti Swanson22 je do svojega prvega odkritja prišel po naključju ob študiju literature o inuitski prehrani. Inuiti so staroselsko ljudstvo, ki prebiva na Grenlandiji, severnih obalah Kanade, Aljaski ter skrajnovzhodnem koncu Sibirije. Ob branju več kot 4.000 naslovov člankov v zbirki MEDLINE je prišel do spoznanja, da prehrambeno ribje olje znižuje viskoznost krvi, zmanjšuje strjevanje krvnih ploščic in inhibira odziv žilne stene. Hkrati je ugotovil, da zmanjšana viskoznost krvi in strjevanja krvnih ploščic ob hkratni inhibiciji odziva žilne stene preprečuje nastanek Raynaudovega sindroma. Pri Raynaudovem sindromu gre za občasna skrčenja manjših žilnih odvodnic, najpogosteje v prstih rok, lahko pa tudi na prstih nog, jeziku in nosu. Motnja v prekrvavitvi traja navadno nekaj minut do nekaj ur. Swanson je tako postavil domnevo, da prehrambeno ribje olje preprečuje nastanek Raynaudovega sindroma. Kasnejši klinični eksperiment je povezavo dejansko potrdil.23 Kasneje je sam oz. s sodelavci opisal še več primerov odkritij. Večino od njih si ogledamo v nadaljevanju prispevka. Pri iskanju citatov si je Swanson22 pomagal z iskalnikom Dialog SciSearch, s katerim je preiskal naslove in povzetke bibliografskih zbirk MEDLINE in Embase (Excepta Medica). Okoli 1.000 bibliografskih zapisov se je nanašalo na Raynaudov sindrom, 3.000 zapisov pa na prehrambeno ribje olje. Množico člankov je prečistil in izdvojil 489 citatov, od katerih so le štirje povezovali obe iskalni domeni. Še več, le dva citata sta govorila o Raynaudovem sindromu in ribjem olju, vendar ne v kontekstu Swansonovega odkritja. Swanson je zato skoval termin »neodkrito javno znanje« (angl. undiscovered public knowledge), s katerim je opisal fenomen nepovezanih, a logično komplementarnih delov znanja, ki se skrivajo v literaturi. Dve leti kasneje je Swanson24 opisal povezavo med migreno in magnezijem, temu pa je dodal še povezavo med somatomedinom C in argininom.25 S Smalheiserjem26 je opisal povezave med pomanjkanjem magnezija in različnimi možganskimi funkcijami, med indometacinom in Alzheimerjevo boleznijo,27 estrogenom in Alzheimerjevo boleznijo28 ter med od kalcija neodvisno fospolipazo A2 in shizofrenijo.29 Swanson in Smalheiser30 sta bila prva, ki sta strokovni javnosti ponudila orodje Arrowsmith, prostodostopno aplikacijo za interaktivno OZL. Gordon in Lindsay31 sta poskušala sistematično ponoviti Swansonovo domnevo "Raynaudov sindrom ^ prehrambeno ribje olje" s pomočno avtomatiziranega postopka odprtega odkrivanja. Pomagala sta si z metodami leksikalne statistike, tako da sta uporabila različne mere, kot so frekvenca posameznih besed, frekvenca dokumentov, v katerih nastopa posamezna beseda, in mera TFxIDF.32 Za razliko od Swansona sta uporabila celoten zapis, vključno s povzetkom, in ne samo naslova zapisa v MEDLINE. Potrdila sta, da je avtomatizirano odkrivanje znanja na primeru Swansonove domneve možno. Za razliko od sistema Arrowsmith daje njun pristop večjo težo posameznim besedam in ne le dokumentom. Kasneje sta poskušala enako metodologijo uporabiti tudi za potrditev domneve "migrena ^ magnezij", vendar jima je spodletelo.33 Uspešna sta bila šele z novim pristopom, kjer sta uporabila model n-gramov. Gordon in Dumais34 izhajata iz predpostavke, da so v procesu OZL dobri kandidati tisti koncepti, ki so karseda podobni (semantično in statistično) z izhodiščnim konceptom. Kot metodo za odkrivanje podobnih konceptov predlagata latentno semantično indeksiranje (angl. latent semantic indexing, LSI). LSI definira vektorski prostor, v katerem semantično sorodni termini ležijo bolj skupaj. Proces iskanja izdaja / published by SDMI ■ http://ims.mf.uni-lj.si/ Informatica Medica Slovenica; 201 7; 22(1 -2) 27 začnemo tako, da izhodiščnemu konceptu (A) s pomočjo LSI poiščemo karseda podobne koncepte (B). Urejeni seznam konceptov (B) ovrednoti domenski ekspert in izbere ožjo množico konceptov. Proces iskanja nato ponovimo še za iskanje konceptov (C). Z izjemo metodologije avtorja ne ponujata ničesar novega. Odkrivanje novega znanja na problemski nalogi odprtega tipa ovrednotita tako, da svoje rezultate primerjata z eksperimentom, ki sta ga izvedla Gordon in Lindsay,31 in potrdita komplementarnost obeh pristopov. Weeber, Klein, denBerg in Vos19 so kot pomoč uporabniku pri odkrivanju znanja razvili dvostopenjski sistem DAD (angl. Disease — Adverse drug reaction — Drug), ki omogoča odprti in zaprti način odkrivanja znanja. DAD po mnenju njegovih avtorjev pomaga raziskovalcu na treh področjih: (i) močno zmanjša prostor iskanja novega znanja, (ii) pomaga pri interpretaciji rezultatov iskanja s pomočjo semantične analize in (iii) omogoča vpogled v tekstovni kontekst dane domneve. Eksperimentalno okolje predstavlja celotna zbirka MEDLINE zapisov. DAD uporablja sistem MetaMap,35 ki prosto besedilo naslova in povzetka bibliografskega zapisa preslika v biomedicinske koncepte iz metatezavra UMLS. Glavna prednost uporabe konceptov je, da se različne jezikovne različice, sinonimi in izpeljanke preslikajo na eno entiteto; npr. simboli in termini IL12, IL-12 in interleukin 12 se vsi preslikajo v koncept Interleukin-12. DAD prav tako omogoča filtriranje konceptov po semantičnih tipih, kot jih najdemo v orodju UMLS Semantic Network. Mero povezanosti med koncepti (AB) in (BC) predstavlja število sopojavnosti danih konceptov v posameznih stavkih besedila. Sistem so ovrednotili s pomočjo Swansonovih domnev "Raynaudov sindrom ^ ribje olje" in "migrena ^ magnezij", vendar niso predstavili statističnih mer ustreznosti sistema. Glavna slabost sistema DAD je problem razreševanja dvoumnih konceptov; MetaMap npr. zmotno preslika termina »mg« (miligram) in »Mg« (magnezij) v koncept »magnezij«. Stegmann in Grohmann36 sta bazo znanja zgradila na podlagi sopojavnosti MeSH terminov. MeSH je kontroliran geslovnik, ki vsebuje biomedicinske izraze (deskriptorje) na različnih nivojih specifičnosti. Za odkrivanje posrednih povezav med koncepti sta uporabila metodologijo strateškega diagrama, ki jo je prvi predlagal Callon.37 Dvojice MeSH terminov najprej po podobnosti razvrstita v skupine, nato pa za vsako skupino izračunata njeno gostoto (moč povezav med MeSH termini znotraj ene skupine) in središčnost (moč povezav med MeSH termini med različnimi skupinami). Na primerih domnev "Raynaudov sindrom ^ ribje olje" in "migrena ^ magnezij" sta odkrila, da vmesni koncepti (B) nastopajo v območju pod mediano gostote in središčnosti. Na novo sta tako odkrila povezavo med prioni in manganom, pri kateri kot vmesni koncept nastopijo fuzijski proteini. Pratt in Yetisgen-Yildiz38 sta predstavila sistem LitLinker, ki za odkrivanje novega znanja uporablja kombinacijo tehnik procesiranja naravnega jezika in algoritmov rudarjenja podatkov. Njun cilj je bil ponuditi sistem za odprto odkrivanje znanja, ki bo čim bolj avtomatiziran in neodvisen od uporabnika. Za ekstrakcijo znanja sistem uporablja le naslove citatov, katerih besede s pomočjo sistema MetaMap preslika v UMLS koncepte. Sistem množico konceptov nato prečisti, tako da odstrani (i) neinformative koncepte, (ii) pomensko preveč sorodne koncepte ter (iii) koncepte, ki z vidika preučevanjega problema niso zanimivi. Slednje naredi s pomočjo orodja UMLS Semantic Network, tako da za nadaljnjo analizo uporabi le tiste biomedicinske koncepte, ki ustrezajo podanemu semantičnemu tipu. Za razliko od prejšnjih sistemov, LitLinker za identifikacijo povezav med koncepti uporablja asociacijska pravila, natančneje algoritem Apriori. Ciljne koncepte grupira glede na število vmesnih konceptov. Dobljena skupina konceptov prevzame ime koncepta, katerega ime je najkrajše. Namen tega koraka je grupirati podobne koncepte tako, da lažje poiščemo ciljne koncepte. Za ovrednotenje sistema sta avtorja uporabila Swansonovo domnevo "migrena ^ magnezij", vendar brez statističnega ovrednotenja. Glavna prednost sistema je iskanje vmesnih (B) konceptov, kjer uporabnikova pomoč ni potrebna. Srinivasan39 namesto surovih UMLS konceptov za odkrivanje znanja uporabi MeSH termine. Glavni namen njenega pristopa je čim bolj avtomatizirati proces odkrivanja novega znanja, brez pomoči uporabnika. Za izbran izhodiščni koncept (A) algoritem sestavi MeSH profil za izbrane semantične tipe. Profil predstavlja relativno pomembnost različnih MeSH terminov za množico izbranih semantičnih tipov. Za vsak semantični tip nato izberemo n najbolj zanimivih MeSH terminov; ti termini predstavljajo koncepte (B). Termine (C) dobimo tako, da enak postopek neodvisno ponovimo nad vsakim od terminov (B). Avtorica je uspešno ponovila iskanje nad dvema odprtima in petimi zaprtimi problemi. Glavna očitka temu pristopu sta: (i) nekateri, zlasti pa novi, bibliografski zapisi (še) nimajo pripisanih MeSH terminov in (ii) MeSH termini so pogosto bolj splošni od prostega besedila v naslovih in povzetkih bibliografskih zapisov ter od published by / izdaja SDMI ■ http://ims.mf.uni-lj.si/ 28 Kastrin et al.: Odkrivanje zakonitosti iz literature na področju znanosti o življenju UMLS konceptov, kar lahko močno ovira odkrivanje znanja. Van der Eijk in sodelavci21 so uporabili preslikavo iz omrežja sopojavnosti v asociativni prostor konceptov (angl. associative concept space). Gre za večrazsežni evklidski prostor, v katerem so koncepti s pomočjo Hebbovega učnega algoritma razvrščeni tako, da so pri visoki sopojavnosti koncepti narisani skupaj in obratno, koncepti, ki redko nastopajo skupaj, pa so narisani daleč vsaksebi. Kombinacija omrežja sopojavnosti in prostorske predstavitve omogoča hitro iskanje poti v omrežju, saj lahko dolžino poti med dvema vozliščema ocenimo na podlagi evklidske razdalje v prostoru. Daljše poti (več kot en skok med konceptoma) kažejo na posredne relacije med koncepti in predstavljajo kandidatke za nove raziskovalne domneve. Sestavni del pristopa je vizualizacija rezultatov, kar predstavlja pomembno prednost pred ostalimi predhodno razvitimi pristopi. Avtorji so uspešnost algoritma pri odkrivanju novega znanja preverili na simuliranih in realnih podatkih iz bibliografske zbirke MEDLINE. Podobno kot pri ostalih, tudi tukaj pogrešamo poglobljeno statistično evalvacijo sistema. Wren in sodelavci40 izhajajo iz predpostavke, da je število konceptov (C) v klasičnem odprtem modelu odkrivanja znanja običajno zelo veliko. Relacije (A) ^ (C) so zato rangirali s pomočjo modela slučajnega omrežja, tako da so izračunali razmerje med številom dejanskih povezav in pričakovanim številom povezav. Relacije, katerih količnik je presegel pražno vrednost, so predstavljale nove raziskovalne domneve, potencialno novo znanje. Omrežje povezav so zgradili tako, da so izdvojili koncepte, ki se nanašajo na gene, bolezni, fenotipe in kemične učinkovine. Z uporabo opisanega pristopa so avtorji predpostavili domnevo o obstoju vzročne povezave med srčno hipertrofijo in klorpromazinom. Klinični eksperiment na miših je domnevo potrdil. Statistične evalvacije sistema avtorji ne podajo. Hristovski s sodelavci41 namesto besed iz naslovov in povzetkov bibliografskih zapisov za odkrivanje novih relacij uporabi MeSH deskriptorje. Za opisovanje znanih in napovedovanje potencialnih novih relacij avtorji uporabijo asociacijska pravila. Kot prvi v vrsti sistemov za OZL predstavijo tudi izčrpno statistično evalvacijo nad 10 izbranimi boleznimi. Kasneje Hristovski s sodelavci42 predstavi spletno aplikacijo BITOLA za interaktivno odkrivanje zakonitosti iz literature. Sistem je posebej prilagojen odkrivanju kandidatnih genov za bolezni, vendar se ga lahko uporablja tudi kot splošni generator novih raziskovalnih domnev na področju biomedicine. Baza znanja je zgrajena na osnovi naslovov in povzetkov člankov, pripadajočih MeSH terminov ter imen genov. Število relacij (A) ^ (C) je omejeno s filtriranjem po semantičnih tipih in kromosomski lokaciji gena. Statistične evalvacije sistema avtorji ne podajo, predstavijo pa praktični primer odkrivanja genov, kandidatov za polimikrogirijo. Sistem Telemakus bazo znanja zgradi na osnovi ekstrakcije UMLS konceptov iz biomedicinske literature, tako da uporabi podatke iz tabel in slik polnih dokumentov.43 Prednost sistema je velika natančnost, saj je del konceptov ekstrahiran ročno. V tem pa se skriva tudi slabost pristopa, saj je ročna ekstrakcija počasna in draga. Poleg tega je sistem omejen le na dve domeni: na omejevanje kalorij in biologijo staranja, vendar je po zagotovilih avtorjev razširljiv tudi na druge domene. Na koncu tega razdelka ne smemo pozabiti na metodo RaJoLink, ki je plod domačega znanja.44 Metoda implementira Swansonov model ABC tako, da samodejno predlaga kandidatne koncepte (A), ki so logično povezani s proučevanim fenomenom (C). Kandidatne koncepte izbira po načelu redkosti pojavljanja. Avtorji žal ne podajo statistične evalvacije sistema, prav tako ni dostopna računalniška aplikacija. Pristopi osnovani na semantičnih povezavah Doslej so vsi predstavljeni sistemi kot glavni mehanizem odkrivanja novih relacij uporabljali preprosto mero sopojavnosti. Sopojavnost ima vrsto pomanjkljivosti, med drugim (i) generira veliko število napačno pozitivnih relacij (A) ^ (C) ter hkrati (ii) ničesar ne pove o vsebini relacije. Raziskovalce namreč poleg golega obstoja interakcije med koncepti zanimajo tudi mehanizmi, ki ležijo v ozadju ter vzročno-posledični odnosi med koncepti.45 Hu s sodelavci46 je bil prvi, ki je pri rudarjenju povezav med koncepti upošteval tudi semantiko. Razvili so sistem Bio-SbKDS, ki z uporabo semantičnega znanja močno zmanjša prostor preiskovanja plavzibilnih domnev v procesu odkrivanja novega znanja. V primerjavi s prejšnjimi pristopi Bio-SbKDS uporabi semantično omrežje iz paketa UMLS, s katerim poišče ustrezne relacije med koncepti, le te pa filtrira s pomočjo semantičnih tipov. Hristovski s sodelavci47 nato uvede inovativen koncept "vzorec odkrivanja", ki vsebuje množico pogojev, katerim mora zadoščati novo odkrita raziskovalna domneva. Pogoji so sestavljeni iz kombinacij semantičnih relacij med koncepti, ekstrahiranimi iz bibliografske zbirke MEDLINE. Semantične relacije med koncepti so pridobljene s izdaja / published by SDMI ■ http://ims.mf.uni-lj.si/ Informatica Medica Slovenica; 201 7; 22(1 -2) 29 pomočjo orodij BioMedLee48 in SemRep.49 BioMedMee je zbirka modulov za ekstrakcijo genotipskih in fenotipskih entitet iz besedila. S kombinacijo slovničnih pravil ter slovarja posameznim besedam in besednim zvezam pripiše ustrezno semantično in sintaktično kategorijo. SemRep je sistem za procesiranje naravnega jezika, ki je namenjen identifikaciji semantičnih relacij iz biomedicinskih besedil. Semantična relacija ima v splošnem obliko (subjekt, predikat, objekt), kjer predikat izraža vsebino odnosa med subjektom in objektom. Uporabo vzorcev iskanja ilustrirajo na primeru Swansonove domneve "Raynaudov sindrom ^ ribje olje", hkrati pa najdejo novo povezavo med Huntingtonovo boleznijo in inzulinom. Kasneje so iskanje ponovili še na primeru Parkinsonove bolezni in predlagali izbor antiepileptikov, ki vplivajo na povišanje funkcije GABA, za katero je znano, da je pri teh bolnikih močno znižana.50 Ahlers in sodelavci51 so enako metodologijo uporabili v zaprtem modelu iskanja, kjer so poskušali ugotoviti vmesne koncepte med antipsihotiki (angl. antipsychotic agents) in zdravljenjem raka. Odkrili so pet biomolekul, opisali možne interakcije z obema začetnima konceptoma, evalvacije pa ne podajo. Možnost odkrivanja novega znanja z odprtim in zaprtim modelom iskanja in uporabo semantičnih relacij je v sistemu EpiphaNet predstavil Cohen (2010) s sodelavci.52 Gre za interaktivno aplikacijo, ki rezultate predstavi grafično v obliki omrežja konceptov. Zbirko znanja EpiphaNet zgradi na osnovi semantičnih predikatov iz baze SemMedDB.53 Sistem lahko napoveduje sopojavnost parov konceptov ter s tem simulira proces odkrivanja novega znanja. EpiphaNet temelji na metodah distributivne semantike: povezave med pari konceptov napoveduje na osnovi metodologije reflektivnega slučajnega indeksiranja (angl. reflective random indexing). Wilkowski s sodelavci20 je predstavil inovativen koncept pregledovalnega odkrivanja znanja, katerega namen je interaktivno odkrivanje znanja. Metoda uporabnika vodi skozi serijo vmesnih konceptov (B), kjer je ustreznost koncepta določena z njegovo stopnjo v omrežju. Znanje je opisano v obliki omrežja, v katerem vozlišča predstavljajo posamezne biomedicinske koncepte, povezave med vozlišči pa so opisane s semantičnimi relacijami iz sistema SemRep. V zlati dobi funkcijske genomike se je več raziskovalcev ukvarjalo z izdelavo sistemov za pomoč pri interpretaciji eksperimentov DNA mikromrež.2 V tem kontekstu zato omenjamo sistem SemBT, ki integrira rezultate poskusa z DNA mikromrežami s semantičnimi relacijami iz literature kot jih predlaga SemRep.54 Mikromreže nam dajo vpogled v statistično značilno različno izražene gene pri danem eksperimentalnem pogoju, iz semantičnih relacij pa lahko razberemo interakcije genov z ostalimi biomedicinskimi koncepti. V tem okviru nam SemBT lahko pomaga pri interpretaciji rezultatov mikromrež ali pa pri načrtovanju novih terapevtskih postopkov za proučevano bolezen. Generiranje domnev v zadnjem primeru temelji na dveh vzorcih iskanja: "inhibiraj prekomerno izražen gen" ter "stimuliraj premalo izražen gen". Ideja v ozadju prvega vzorca iskanja je najti tak koncept (npr. učinkovino), ki bo inhibiral gen, ki je prekomerno izražen. Avtorji v nadaljevanju ponujajo več raziskovalnih domnev, ki se navezujejo na zdravljenje Parkinsonove bolezni. Kot možni učinkovini za zdravljenje Parkinsonove bolezni se ponujata laclitaxel in quecetin, saj se je ob pregledu literature izkazalo, da inhibirata gen HSP27 (HSPB1), ki se je v eksperimentalni študiji izkazal za prekomerno izraženega v testni skupini. Semantični MEDLINE je spletna aplikacija, ki omogoča iskanje po predikatih, ekstrahiranih s pomočjo sistema SemRep.53 Avtorji aplikacije zagotavljajo bolj ali manj svežo posodobitev ekstrahiranih predikatov. Za dani koncept sistem ekstrahira ustrezne predikate in izloči neinformativne koncepte, kot je npr. "Human". Nato izbere najpogostejše predikate in jih uporabniku predstavi v obliki neusmerjenega omrežja, v katerem vozlišča predstavljajo argumente (objekte oz. subjekte), povezave pa se navezujejo na semantične relacije med njimi. Semantični MEDLINE je za potrebe OZL prvi uporabil Miller s sodelavci.55 Uporabili so zaprt model odkrivanja znanja iz literature, v katerem so vnaprej predpostavili povezavo (A) ^ (C), da je raven testosterona povezana s spanjem, tako da vpliva na etiologijo slabega spanca pri odraslih moških. S pomočjo pregledovanja semantičnih relacij so nato poskušali najti vzročni mehanizem, ki bi to povezavo pojasnil. Kot možna rešitev se je izkazal kortizol, s katerim lahko pojasnimo manjkajočo korelacijo med nizko ravnijo testosterona pri moških in slabo kvaliteto njihovega spanja. SemPathFinder temelji na semantični analizi poti v omrežju, ki omogoča »pripovedovanje zgodb«.56 Pripovedovanje zgodb je potrebno razumeti v smislu sodobnega pristopa k predstavitvi podatkov, kot sprehajanje po poteh v omrežju, tako da skupaj povezujemo tiste pare nepovezanih konceptov, ki so si semantično blizu. SemPathFinder model ABC iskanja razširi, tako da namesto enega vmesnega koncepta vpelje serijo (B) konceptov. Izbira najustreznejše poti je še vedno prepuščena domenskemu ekspertu. Sistem je namenjen za odprto in zaprto odkrivanje znanja. Sistem so avtorji preizkusili na zaprtem modelu na domnevah published by / izdaja SDMI ■ http://ims.mf.uni-lj.si/ 30 Kastrin et al.: Odkrivanje zakonitosti iz literature na področju znanosti o življenju "Raynaudov sindrom ^ ribje olje" in "migrena ^ magnezij" ter potrdili uspešnost iskanja. Zaključek OZL je danes pomembna raziskovalna disciplina na področju rudarjenja tekstovnih podatkov. Kljub precejšnjemu napredku je glavni očitek vsem predstavljenim sistemom ta, da ne omogočajo popolnoma samodejnega rudarjenja in potrebujejo posredovanje človeka. Druga pomembna pomanjkljivost je uporaba metodologije za ustrezno ovrednotenje procesa OZL; večina sistemov ovrednotenje opravi kar na že preverjenih domnevah in zanemari statistično preverjanje veljavnosti. Pregled, ki je za nami, poskuša biti celovit, vendar nikakor ni izčrpen. Zajeti poskuša tiste segmente OZL, ki so po mnenju avtorjev nujni za temeljit pregled vsebine. Menimo, da smo vanj vključili vse pomembne sklice na literaturo, ki bodo bralcu lahko v pomoč pri morebitnem nadaljnjem raziskovanju področja OZL. Reference 1. Jensen LJ, Saric J, Bork P: Literature mining for the biologist: From information retrieval to biological discovery. Nat Rev Genet 2006; 7: 119-29. 2. Faro A, Giordano D, Spampinato C: Combining literature text mining with microarray data: Advances for system biology modeling. Brief Bioinform 2012; 13: 61-82. 3. Lawson AE: What does Galileo's discovery ofJupiter's moons tell us about the process of scientific discovery? Sci Educ 2002; 11: 1-24. 4. Simon HA, Newell A: Human problem solving: The state of the theory in 1970. Am Psychol 1971; 26: 145159. 5. Clement JJ: Creative model construction in scientists and students: The role of imagery, analogy, and mental simulation. New York, NY 2008: Springer. 6. Nersessian N: Creating scientific concepts. Cambridge, MA 2008: MIT Press. 7. Kocabas S: Elements of scientific creativity. AAAI Technical Report SS-93-01 1993. 8. Clauset A, Larremore DB, Sinatra R: Data-driven predictions in the science of science. Science 2017; 355: 477-80 9. Uzzi B, Mukherjee S, Stringer M et al.: Atypical combinations and scientific impact. Science 2013; 342: 468-72. 10. Mednick AM: The associative basis of the creative process. Psychol Rev 1962; 69: 220-232. 11. Koestler A: The art of creation. London 1964: Penguin Books. 12. Microsoft research blog: On Welsh Corgis, computer vision, and the power of deep learning. http://bit.ly/2pp9ZQB (11.4.2017). 13. Langley P: Computational support of scientific discovery. Int J Hum Comput Stud 2000; 53: 393-410. 14. Wyatt J: Use and sources of medical knowledge. Lancet 1991; 338: 1368-73. 15. King RD, Whelan KE, Jones FM et al: Functional genomic hypothesis generation and experimentation by a robot scientist. Nature 2004; 427: 247-2252. 16. Swanson DR: Literature-based knowledge discovery? The very idea. V: Bruza P, Weeber M (ur.), Literature-based discovery. Berlin 2008: Springer; 3-11. 17. Swanson DR: Undiscovered public knowledge. Libr Q 1986; 56: 103-118. 18. Gordon M, Lindsay RK, Fan W: Literature-Based Discovery on the World Wide Web. ACM Trans Internet Tech 2002; 2: 261-275. 19. Weeber M, Klein H, De Jong-Van Den Berg LTW et al: Using concepts in literature-based discovery: Simulating Swanson's Raynaud-fish oil and migraine-magnesium discoveries. J Am Soc Inform Sci Tech 2001; 52: 548-57. 20. Wilkowski B, Fiszman M, Miller CM et al.: Graph-based methods for discovery browsing with semantic predications. AMIA Annual Symposium Proceedings 2011, 1514-23. 21. van der Eijk CC, van Mulligen EM, Kors JA et al: Constructing an associative concept space for literature-based discovery. J Am Soc Inform Sci Tech 2004; 55: 436-44. 22. Swanson DR: Fish Oil, Raynaud's syndrom, and undiscovered public knowledge. Perspect Biol Med 1986; 30: 7-18. 23. Digiacomo RA, Kremer JM, Shah DM: Fish-oil dietary supplementation in patients with Raynaud's phenomenon: A double-blind, controlled, prospective study. Am J Med 1989; 86: 158-64. 24. Swanson DR: Migraine and Magnesium: Eleven Neglected Connections. Perspect BiolMed 1988; 31: 526557. 25. Swanson DR: Somatomedin C and arginine: Implicit connections between mutually isolated literatures. Perspect Biol Med 1990; 33: 157-86. 26. Smalheiser NR, Swanson DR: Assessing a gap in the biomedical literature: Magnesium deficiency and neurologic disease. Neurosci Res Commun 1994; 15: 1-9. 27. Smalheiser NR, Swanson DR: Indomethacin and Alzheimer's disease. Neurology 1996; 46: 583. 28. Smalheiser NR, Swanson DR: Linking estrogen to Alzheimer's disease: An informatics approach. Neurology 1996; 47: 809-10. 29. Smalheiser NR , Swanson DR: Calcium-independent phospholipase A2 and schizophrenia. Arch Gen Psychiatry 1998; 55: 752-3. 30. Swanson DR, Smalheiser NR: An interactive system for finding complementary literatures: A stimulus to scientific discovery. Artif Intel 1997; 91: 183-203. 31. Gordon MD, Lindsay RK: Toward discovery support systems: A replication, re-examination, and extension of Swanson's work on literature-based discovery of a connection between Raynaud's and fish oil. J Am Soc Inform Sci 1996; 47: 116-28. izdaja / published by SDMI ■ http://ims.mf.uni-lj.si/ Informatica Medica Slovenica; 201 7; 22(1 -2) 31 32. Baeza-Yates R, Ribeiro-Neto B: Modern information retrieval': The Concepts and Technology behind Search. New York, NY 1999: ACM Press. 33. Lindsay RK, Gordon MD: Literature-based discovery by lexical statistics. J Am Soc Inf Sci 1999; 50: 575-87. 34. Gordon MD, Dumais S: Using latent semantic indexing for literature based discovery. J Am Soc Inf Sci 1998; 49: 674-85. 35. Aronson AR: Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program. AMIA Annual Symposium Proceedings 2001, 17-21. 36. Stegmann J, Grohmann G: Hypothesis generation guided by co-word clustering. Scientometrics 2003; 56: 111-35. 37. Callon M, Courtial JP, Laville F: Co-word analysis as a tool for describing the network of interactions between basic and technological research: The case of polymer chemistry. Scientometrics 1991; 22: 155-205. 38. Pratt W, Yetisgen-Yildiz M: (2003). LitLinker: Capturing connections across the biomedical literature. In: Gennari JH, Porter BW, Gil Y (ur.), Proceedings of the 2nd International Conference on Knowledge Capture, Sanibel Island, FL, oktober 23-25. New York, NY, 2003: ACM; 105-112. 39. Srinivasan P: Text mining: Generating hypotheses from MEDLINE. J Am Soc Inform Sci Tech 2004; 55: 396-413. 40. Wren JD, Bekeredjian R, Stewart JA et al: Knowledge discovery by automated identification and ranking of implicit relationships. Bioinformatics 2004; 20: 389-98. 41. Hristovski D, Stare J, Peterlin B et al: Supporting discovery in medicine by association rule mining in Medline and UMLS. In: Patel V, Rogers R, Haux R (eds.), MEDINFO 2001 Proceeding of the 10th World Congress on Medical Informatics, London, UK, September 2-5. Amsterdam, NL, 2001: IOS Press; 1344-1348. 42. Hristovski D, Peterlin B, Mitchell JA et al: Using literature-based discovery to identify disease candidate genes. Int J Med Informat 2005; 74: 289-98. 43. Fuller SS, Revere D, Bugni PF et al: A knowledgebase system to enhance scientific discovery: Telemakus. Biomed Digit Libr 2004; 1: 2. 44. Petric I, Urbanicic T, Cestnik B et al.: Literature mining method RaJoLink for uncovering relations between biomedical concepts. J Biomed Inform 2008; 42: 219-27. 45. Cameron D, Bodenreider O, Yalamanchili H et al: A graph-based recovery and decomposition of Swanson's hypothesis using semantic predications. J Biomed Inform 2013; 46: 238-51. 46. Hu X, Li G, Yoo I et al.: A semantic-based approach for mining undiscovered public knowledge from biomedical literature. In: Hu X, Liu Q, Skowron A, Lin TY, Yager RR, Zhang B (eds.), Proceedings of the 2005 IEEE International Conference on Granular Computing, Beijing, China, July 25-27. Piscataway, NJ, 2005: IEEE; 22-27. 47. Hristovski D, Friedman C, Rindflesch TC et al: Exploiting semantic relations for literature-based discovery. AMIA Annual Symposium Proceedings 2006, 349-53. 48. Lussier Y, Borlawsky T, Rappaport D et al: PhenoGO: Assigning phenotypic context to gene ontology annotations with natural language processing. Pac Symp Biocomput 2006; 64-75. 49. Rindflesch TC, Fiszman M: The interaction of domain knowledge and linguistic structure in natural language processing: Interpreting hypernymic propositions in biomedical text. J Biomed Inform 2003; 36: 462-477. 50. Hristovski D, Friedman C, Rindflesch TC et al: Literature-based knowledge discovery using natural language processing. In: Bruza P, Weeber M (eds.), Literature-based discovery. Berlin 2008: Springer; 133-52. 51. Ahlers CB, Hristovski D, Kilicoglu H et al: Using the literature-based disccovery paradigm to investigate drug mechanisms. AMIA Annual Symposium Proceedings 2007, 6-10. 52. Cohen T, Whitfield GK, Schvaneveldt RW et al: EpiphaNet: An interactive tool to support biomedical discoveries. J Biomed Discov Collab 2010; 5: 21-49. 53. Kilicoglu, H, Shin D, Fiszman M et al.: SemMedDB: A PubMed-scale repository of biomedical semantic predications. Bioinformatics 2012; 28: 3158-60. 54. Hristovski D, Kastrin A, Peterlin B et al: Combining semantic relations and DNA microarray data for novel hypotheses generation. V: Blaschke C, Shatkay H (ur.), Linking Literature, Information, and Knowledge for Biology. Berlin 2010: Springer; 53-61. 55. Miller CM, Rindflesch TC, Fiszman M et al: A closed literature-based discovery technique finds a mechanistic link between hypogonadism and diminished sleep quality in aging men. Sleep 2012; 35: 279-285. 56. Song M, Heo GE, Ding Y: SemPathFinder: Semantic path analysis for discovering publicly unknown knowledge. J Informetr 2015; 9: 686-703. published by / izdaja SDMI ■ http://ims.mf.uni-lj.si/