Nova generacija tehnik določanje nukleotidnega zaporedja: korak k osebni medicini Next generation of nucleotide sequencing techniques: a step toward personalized medicine Aleš Berlec, Borut Štrukelj Povzetek: Določitev nukleotidnega zaporedja posameznikovega genoma bi lahko bistveno prispevala k splošni uveljavitvi osebne medicine. Pri tem predstavlja največjo oviro visoka cena določitve, ki pa se je v zadnjih letih močno znižala na račun nove generacije tehnik določanja nukleotidnega zaporedja. Nove tehnike omogočajo visoko paralelnost določanja zaporedja, kar naredi proces hitrejši in cenejši. Paralelnost se na splošno zagotavlja s cikličnim mrežnim sekvenciranjem, pri katerem so posamezni fragmenti DNA pritrjeni na površino ali mrežo. Fragmenti DNA se lokalno namnožijo z uporabo emulzijske ali premostitvene verižne reakcije s polimerazo (PCR). Za določanje zaporedja se uporabljajo fluorescentno označeni nukleotidi, ki so dodatno kemijsko modificirani tako, da omogočajo reverzibilno zaustavitev pomnoževanja DNA verige in s tem kontinuirano, ciklično določanje zaporedja. Hitro se razvijajo tudi tehnike, ki omogočajo določanje zaporedja v realnem času in pri katerih ni potrebna predhodna namnožitev DNA fragmentov. Tehnike nove generacije omejujejo krajša dolžina določenih zaporedij in večja pogostost napak, kar pa se učinkovito nadomešča z ogromno količino hkratnih odčitkov. Razvoj tehnik določanja zaporedja je hitrejši od razvoja različnih možnosti uporabe, zato se bo njihova vrednost pokazala šele v prihodnosti. Ključne besede: Določanje nukleotidnega zaporedja nove generacije, emulzijski PCR, premostitveni PCR, pirosekvenciranje, določanje nukleotidnega zaporedja v realnem času Abstract: Determination of the nucleotide sequence of individual's genome could contribute to the establishment of personalized medicine. High price of the nucleotide sequencing represented the biggest hurdle in the past; however the next generation sequencing techniques have caused the prices to drop. New techniques enable high-throughput parallel sequencing, which makes the process faster and cheaper. Parallelism is generally accomplished by cyclic array sequencing, where the DNA fragments are attached to the surface or array. DNA fragments are locally multiplied by the use of emulsion or bridge PCR. Fluorescently labelled nucleotides, which are additionally chemically modified in a way, which enables reversible termination of DNA polymerisation, are used. Other techniques are being developed, which enable real-time sequencing and do not require local amplification of DNA fragments. Next generation techniques are limited by shorter read length and higher error frequency. This is however compensated by a vast number of parallel reads. The development of sequencing techniques has outpaced the development of their potential applications. Their true value will therefore be seen in the future. Keywords: Next generation sequencing, emulsion PCR, bridge PCR, pyrosequencing, real-time sequencing 1 Uvod V bližnji prihodnosti bo lahko posameznik z analizo DNA izvedel za potencialno nagnjenost k boleznim, več o svojih prednikih, pa tudi, katero hrano naj uživa in na katera zdravila bo bolj odziven. V medicini se uveljavlja izraz osebna, »personalizirana« medicina, ki označuje uporabo posameznikovih genomskih in molekularnih podatkov za posamezniku prilagojeno uporabo zdravilnih učinkovin, olajšano raziskovanje in klinično testiranje novih izdelkov ter pomoč pri določevanju posameznikove predispozicije za določeno bolezen. Velik korak k osebni medicini bi predstavljala cenovno ugodna možnost določitve nukleotidnega zaporedja posameznikovega genoma. Prvi različici človeškega genoma so objavili leta 2001 (1, 2), pri čemer je mednarodni projekt človeškega genoma tedaj stal več milijard dolarjev, zasebni projekt podjetja Celera pa okrog 300 milijonov dolarjev. V zadnjih letih je prišlo do velikega napredka na področju tehnik določanja nukleotidnega zaporedja (sekvenciranja), kar je omogočilo bistveno znižanje cen. V preteklosti zadani cilj 1000 dolarjev za določitev nukleotidnega zaporedja celotnega genoma, ki bi omogočil Dr. Aleš Berlec,_ mag. farm., Institut Jožef Stefan, Jamova 39, 1000 Ljubljana, Slovenija Prof. dr. Borut Štrukelj, mag. farm., Fakulteta za farmacijo, Aškerčeva 7, 1000 Ljubljana, Slovenija širše izkoriščanje tehnologije, se zdi čedalje bolj dosegljiv (3, 4). Prav verjetno je, da uporabnosti določitve nukleotidnega zaporedja ne bo omejevala tehnologija določanja, pač pa sposobnost obdelave in interpretacije enormne količine podatkov, ki bodo pri tem nastajali. Namen preglednega članka je predstaviti trenutno stanje tehnik določanja nukleotidnega zaporedja in nakazati smeri razvoja. 2 Določanje nukleotidnega zapored|a po Sangerju Frederick Sanger je v sedemdesetih letih dvajsetega stoletja razvil metodo, ki je bila v izpopolnjeni obliki v uporabi pri določitvi človeškega genoma, kot tudi pri določitvi ostalih živalskih in rastlinskih genomov in je še vedno najpogosteje uporabljena tehnika (5). Pri določanju nukleotidnega zaporedja genoma genomsko DNA najprej razrežejo na krajše fragmente, ki jih nato vstavijo v plazmid in namnožijo v bakteriji Escherichia coli. Namnoženo DNA nato uporabijo v verižni reakciji pomnoževanja, ki se naključno zaustavi z vključitvijo fluorescentno označenega dideoksinukleotida (metoda zaustavitve verige, Slika 1). Končni produkt je mešanica različno dolgih verig DNA, ki so označene z ustreznim fluoroforom glede na končni nukleotid. Visoko-ločljivostno ločevanje označenih verig s kapilarno elektroforezo in določitev fluoroforov omogoča določitev nukleotidnega zaporedja (Slika 2). Dideoks nukleotid -preprečeno podaljševanje verige Deoksi nukleotid Slika 1: Metoda zaustavitve verige z dideoksinukleotidom. Figure 1: Dideoxynucleotide chain termination method. Slika 2: Primerjava splošnega poteka določanja nukleotidnega zaporedja po Sangerju in tehnik nove generacije (prirejeno po (6)). Figure 2: A general comparison of Sanger nucleotide sequencing and next generation techniques (adapted from (6)). 3 Nove tehnike določanja nukleotidnega zaporedja Nove tehnike določanja nukleotidnega zaporedja (6-8) lahko razvrstimo v različne skupine. V okviru tega članka se bomo osredotočili na skupino, ki uporablja ciklično mrežno sekvenciranje (9). Tehnike iz te skupine imajo danes na trgu največji delež in se jih najpogosteje uporablja. Ostale skupine šele prihajajo na trg in bodo na kratko predstavljene v nadaljevanju. Tehnike, ki uporabljajo ciklično mrežno sekvenciranje, se med seboj precej razlikujejo v samem biokemijskem principu določanja nukleotidnega zaporedja in v pripravi mreže, kljub temu pa je osnova samega postopka podobna in je prikazana na Sliki 2 (6-8). Knjižnico DNA pripravijo z naključno fragmentacijo DNA, ki ji sledi ligacija (prilepljanje) skupnih DNA-adapterjev. Naslednji korak je namnožitev posameznih fragmentov DNA in priprava pomnožkov oz. klonov, ki so med seboj prostorsko ločeni. Ti se uporabljajo kot enote mrežnega sekvenciranja. Za pripravo prostorsko ločenih klonov se uporabljata emulzijski PCR in premostitveni PCR, ki bosta podrobneje predstavljena v naslednjem poglavju. Sam proces določanja nukleotidnega zaporedja pa sestavljajo ponavljajoči koraki encimsko kataliziranega vključevanja fluorescentno označenih nukleotidov. Pri opisanih tehnikah uporabljajo določanje nukleotidnega zaporedja s sintezo, pri čemer je encim, ki sodeluje pri postopnem podaljševanju verige iz vrst polimeraz ali ligaz. Pridobivanje podatkov poteka z zajemanjem slike celotne mreže v vsakem koraku ob uporabi ustreznih pogojev. Dobljena kratka nukleotidna zaporedja (odčitki) sestavijo v neprekinjeno zaporedje z uporabo zmogljivih računalniških algoritmov (6). Pri tem je v pomoč večkratna pokritost zaporedja s prekrivajočimi se kratkimi odčitki. 4 Nove tehnike namnožitve klonov Predstavljeni bosta dve tehniki, ki se najpogosteje uporabljata za namnožitev klonov. Emulzijski PCR (platforma Roche/454, Slika 3) (9, 10) poteka v emulziji tipa voda v olju. Eden od oligonukleotidnih začetnikov je pritrjen na kroglico mikrometrske velikosti. Nizka koncentracija DNA matrice zagotavlja, da se v večini emulzijskih kapljic s kroglico nahaja največ ena molekula DNA, ki je bila pridobljena s fragmentiranjem. V primeru, ko sta v emulzijski kapljici hkrati prisotni kroglica s pritrjenimi oligonukleotidnimi začetniki (ki so komplementarni adapterskim zaporedjem v knjižnici DNA) in molekula DNA, pride do pomnožitve znotraj emulzijske kapljice s pomočjo PCR. Po razbitju emulzije kroglice ločijo od preostalih reagentov. Vsaka kroglica na površini vsebuje PCR-pomnožke, ki ustrezajo posamezni molekuli DNA iz knjižnice DNA. Pri premostitvenem PCR (platforma Solexa/Ilumina, Slika 3) (11, 12) sta oligonukleotidna začetnika, ki ustrezata adapterskim zaporedjem v knjižnici DNA, v številnih kopijah gosto nanešena na površino nosilca, kamor sta pritrjena s 5'-konci prek fleksibilnega povezovalca. Posamezna molekula DNA iz knjižnice se preko adapterja poveže z imobiliziranim oligonuklotidnim začetnikom in pomnoži s PCR. Nabor s PCR pomnoženih molekul DNA ostane prostorsko lociran v bližini mesta vezave izhodne DNA molekule (DNA-grozd). Ob koncu pomnoževanja vsak DNA-grozd vsebuje okrog 1000 enakih kopij posamezne molekule iz DNA knjižnice. 5 Ciklično mrežno sekveniranje Tudi za določanje nukleotidnega zaporedja pomnoženih klonov posameznih molekul DNA uporabljajo različne pristope. Pirosekvenciranje (platforma Roche/454, Slika 4a) (13) poteka tako, da se zaporedoma dodaja posamezne nukleotide k prostorsko imobiliziranim kroglicam, ki so inkubirane skupaj z encimi polimerazo, ATP-sulfurilazo in luciferazo. Pri vključitvi določenega števila nukleotidov istega tipa (npr. dTTP) v polinukleotidno verigo se sprosti sorazmerno število pirofosfatov (npr. 3 x dTTP ^ 3 x PPi), ki jih nato ATP-sulfurilaza pretvori v ATP, ta pa se z encimom luciferaza pretvori v svetlobo, katere intenziteto pomerijo in je sorazmerna številu vgrajenih nukleotidov. Med posameznimi dodatki različnih nukleotidov sistem spirajo z encimom apirazo, ki razgradi nevgrajene nukleotide. Na platformi Solexa/Ilumina (Slika 4b) poteka določanje nukleotidnega zaporedja v ciklih, v katerih dodajajo zmes štirih modificiranih Slika 3: Emuzijska in premostitvena verižna reakcija s poiimerazo (prirejeno po (6)). Figure 3: Emulsion and bridge polymerase chain reaction (adapted from (6). Slika 4: Princip določanja nukleotidnega zaporedja na posameznih platformah (prirejeno po (6)): (a) Roche/454, (b) Ilumina/Solexa, (c) SOLiD in Polonator, (d) HeliScope. PPi: pirofosfat, APS: adenozin-5'-fosfosulfat, FL in Cy: fluorescentni oznaki. Figure 4: Principle of nucleotide sequencing using different platforms (adapted from (6)): (a) Roche/454, (b) Ilumina/Solexa, (c) SOLiD in Polonator, (d) HeliScope. PPi: pyrophosphate, APS: adenosine-5'-phosphosulphate, FL in Cy: fluorescent labels. nukleotidov hkrati. Pri tem vsak nukleotid vključuje reverzibilno vezano fluorescentno molekulo (eno od štirih) in del molekule, ki je odgovoren za prekinitev podaljševanja polinukleotidne verige (terminirajoča skupina) (14). Modificirana DNA-polimeraza vključi komplementarne nukleotide, temu sledi zajemanje slike v štirih kanalih. Cikel se zaključi s cepitvijo fluorescentne molekule in prekinitvene skupine. Pri platformah SOLiD in Polonator (Slika 4c) (15) poteka določanje nukleotidnega zaporedja s pomočjo ligaze (16). Pri platformi SOLiD v vsakem ciklu dodajo nabor fluorescentno označenih, delno degeneriranih oktamernih oligonukleotidov, ki se hibridizirajo z namnoženimi DNA-kloni. Oligonukleotidi so označeni z enim od štirih fluorescentnih barvil, ki ustrezajo identiteti osrednjih dveh nukleotidov (na položajih 4 in 5 oligonukleotida; dvobazno kodiranje). Po ligaciji in zajemanju slike v štirih kanalih se označen del oktamera (nukleotidi 6 - 8) odcepi, pri čemer pusti prost konec za nov cikel ligacije. Po desetih zaporednih ciklih (v katerih preverijo kratek odsek) sistem vrnejo v začetno stanje z denaturacijo podaljšanega oligonukleotida, proces pa ponovijo z uporabo drugačnega izhodišča (z uporabo novega začetnega oligonukleotida, ki je za določeno število baz zamaknjen glede na prejšnjega). Na ta način v novem nizu ciklov ligacije preverijo naslednji odsek, ki se prekriva s prejšnjim, iz česar lahko izpeljejo zvezno nukleotidno zaporedje. Platforma HeliScope (17) (Slika 4d) se razlikuje od ostalih v tem, da ne potrebuje namnožitve klonov, ampak se nukleotidno zaporedje določa posameznim molekulam DNA (18). Posamezne molekule DNA preko poli-A-repa vežejo na površino mreže preko hibridizacije s poli-T-oligonukleotidi. Molekule DNA so označene s fluorescentnim barvilom, kar po zajemanju slike omogoči določitev koordinat, kjer se posamezne molekule nahajajo in kjer bo potekalo določanje zaporedja. Vsak cikel določanja zaporedja je sestavljen iz vključevanja enega od nukleotidov, ki je fluorescentno označen. Temu sledi zajemanje slike celotne mreže in cepitev fluorescentnega označevalca. 6 Prednosti in slabosti tehnik nove generacije določanja nukleotidnega zaporedja in možnosti uporabe Tehnike določanja nukleotidnega zaporedja nove generacije imajo v primerjavi z določanjem nukleotidnega zaporedja po Sangerju tako prednosti kot slabosti. Prednosti so povezane z bistveno nižjo ceno na določen nukleotid in hitrejšim določanjem zaporedja. Tehnike nove generacije omogočajo pripravo knjižnice in namnožitev klonov in vitro, s čimer odpade potreba po kloniranju v bakteriji E. coli. Mrežno sekvenciranje omogoča hkratno določanje do več sto milijonov zaporedij, kar je bistveno več, kot je mogoče s klasičnim kapilarnim ločevanjem. Zaradi imobilizacije na površini lahko relativno majhno količino reagenta uporabijo na vseh molekulah DNA, ki jim hkrati določajo zaporedje. To omogoča manjšo porabo reagentov in nižjo ceno določanja nukleotidnega zaporedja (6). Slabosti novih tehnik vključujejo kratko dolžino nukleotidnega zaporedja, ki ga je moč določiti posamezni molekuli in nižja točnost določitve posameznega nukleotida (povprečno desetkrat nižja kot pri določanju po Sangerju). Omenjeni značilnosti predstavljata izziv za pripravo računalniških algoritmov, ki se uporabljajo za obdelavo podatkov, pridobljenih z novimi tehnikami. Tehnike nove generacije so prisotne zelo kratek čas, zato lahko sklepamo, da je prostora za izboljšave še veliko (6). Trenutno določanje nukleotidnega zaporedja po Sangerju in tehnike nove generacije na trgu uspešno sobivajo, saj so usmerjene k različnim namenom uporabe. Tehnike nove generacije se uporabljajo za ponovno sekvenciranje že določenih celotnih genomov ali tarčno določenih delov. Uporabljajo se za določanje genomov bakterij ali nižjih evkariontov, za določanje transkriptomov celic, tkiv ali organov (določanje nukleotidnega zaporedja RNA), iskanje epigenetskih oznak v povezavi z zgradbo kromatina, za določitev vrst in za odkrivanje novih genov v okviru metagenomskih raziskav. Uporabnost novih tehnik za posamezne aplikacije se razlikuje med posameznimi platformami, kar je pri uporabi potrebno upoštevati. Nekatere lastnosti posameznih platform so zbrane v Tabeli 1 (6, 8). 7 Prihajajoče tehnike Prihajajoče tehnike nove generacije so v različnih stopnjah razvoja, od idej do preizkušanja posameznih principov, nekatere pa so tik pred prihodom na trg. Pri njih gre večinoma za pristope k določevanju nukleotidnega zaporedja v realnem času, ki se močno razlikuje od zgoraj opisanih tehnik in omogoča bistveno hitrejše določanje nukleotidnega zaporedja, saj se proces podaljševanja polinukleotidne verige ne prekinja z reverzibilnimi zaključevalci. Tabela 1: Primerjava nekaterih lastnosti komercialno dostopnih platform za določanje nukleotidnega zaporedja nove generacije (povzeto po (6)). Table 1. Comparison of some characteristics of comercially available platforms for next generation sequencing (adapted from (6)). Platforma Namnožitev klonov Način sekvenciranja Naenkrat prebrana dolžina [b] Celokupna prebrana dolžina [gb] Cena za določitev milijona baz 454 Emulzijski PCR Polimeraza -pirosekvenciranje 330 0.45 ~ 60$ Solexa Premostitveni PCR Polimeraza -reverzibilni prekinjevalci 75 - 100 18 - 35 ~ 2$ SOLiD Emulzijski PCR Ligaza - oktameri 50 30 - 50 ~ 2$ Polonator Emulzijski PCR Ligaza - nonameri 26 5 ~ 1$ HeliScope Ni namnožitve -posamezna molekula Polimeraza - asinhrono podaljševanje 32 8 ~ 1$ Prvi pristop predstavlja določanje zaporedja s pomočjo nanopor (19, 20). Pri tem nukleinske kisline usmerjajo skozi nanoporo, ki je lahko biološkega izvora (npr. membranski protein alfa-hemolizin) ali pa sinteznega izvora. Za sklepanje na nukleotidno zaporedje uporabljajo razlike v električni prevodnosti ob prehajanju DNA skozi poro, različica postopka pa predvideva zaznavanje interakcij posameznih baz s poro. Drugi pristop vključuje spremljanje aktivnosti imobilizirane DNA polimeraze v realnem času. Vključevanje nukleotidov lahko spremljajo s pomočjo prenosa energije z resonanco fluorescence (FRET) med polimerazo, označeno s fluoroforom in nukleotidi, označenimi z drugačnim fluoroforom na gama-fosfatu. Drugačen pristop omogoča neposredno zaznavanje vključevanja fluorescentno označenih nukleotidov, ki jih vzbujajo z laserjem določene valovne dolžine. Pri tem opazovano področje lahko zmanjšajo na velikost, manjšo od valovne dolžine laserja (približno 100 nm) s pomočjo detektorjev za valovno usmeritev v ničelnem načinu (zero-mode waveguide detectors), kar omogoča večjo gostoto opazovanih dogodkov (21, 22). Opisana tehnologija bo verjetno v kratkem tudi dostopna na trgu. 8 Sklep Določanje nukleotidnega zaporedja po Sangerju, ki se je razvilo v sedemdesetih letih dvajsetega stoletja, je do konca stoletja doživelo zmeren razvoj, predvsem na področju avtomatizacije. Uporabljeno je bilo pri veliki večini projektov določanja genoma in je omogočilo pridobitev večine podatkov, nakopičenih v genskih podatkovnih bazah. V zadnjih letih je prišlo do prave eksplozije novih pristopov in tehnologij določanja nukleotidnega zaporedja, ki obljubljajo hitrejše in cenejše določanje nukleotidnega zaporedja. Nekatere nove tehnike se že uporabljajo v znanosti, druge pa se bodo v kratkem. Nove tehnike bi lahko močno vplivale na t. i. osebno medicino, a se je hkrati potrebno zavedati, da je poleg pridobitve nukleotidnega zaporedja zelo pomembna tudi njegova analiza in interpretacija rezultatov. V ta namen bo potrebno razviti zmogljiva programska orodja, ki bodo te procese avtomatizirala. Z gotovostjo pa lahko rečemo, da bo občutna pocenitev določanja nukleotidnega zaporedja omogočila dostopnost tovrstnih storitev širšemu krogu ljudi. 9 Literatura 1. Lander ES, Linton LM, Birren B et al. Initial sequencing and analysis of the human genome. Nature 2001; 409:860-921. 2. Venter JC, Adams MD, Myers EW et al. The sequence of the human genome. Science 2001; 291:1304-1351. 3. Service RF. Gene sequencing. The race for the $1000 genome. Science 2006; 311:1544-1546. 4. Wolinsky H. The thousand-dollar genome. Genetic brinkmanship or personalized medicine? EMBO Rep 2007; 8:900-903. 5. Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A 1977; 74:5463-5467. 6. Shendure J, Ji H. Next-generation DNA sequencing. Nat Biotechnol 2008: 26:1135-1145. 7. Ansorge WJ. Next-generation DNA sequencing techniques. N Biotechnol 2009; 25:195-203. 8. Metzker ML. Sequencing technologies - the next generation. Nat Rev Genet 11:31-46. 9. Margulies M, Egholm M, Altman WE et al. Genome sequencing in microfabricated high-density picolitre reactors. Nature 2005; 437:376-380. 10. Dressman D, Yan H, Traverso G et al. Transforming single DNA molecules into fluorescent magnetic particles for detection and enumeration of genetic variations. Proc Natl Acad Sci U S A 2003; 100:8817-8822. 11. Adessi C, Matton G, Ayala G et al. Solid phase DNA amplification: characterisation of primer attachment and amplification mechanisms. Nucleic Acids Res 2000; 28:E87. 12. Fedurco M, Romieu A, Williams S et al. BTA, a novel reagent for DNA attachment on glass and efficient generation of solid-phase amplified DNA colonies. Nucleic Acids Res 2006; 34:e22. 13. Ronaghi M, Karamohamed S, Pettersson B et al. Real-time DNA sequencing using detection of pyrophosphate release. Anal Biochem 1996; 242:84-89. 14. Turcatti G, Romieu A, Fedurco M et al. A new class of cleavable fluorescent nucleotides: synthesis and optimization as reversible terminators for DNA sequencing by synthesis. Nucleic Acids Res 2008; 36:e25. 15. Shendure J, Porreca GJ, Reppas NB et al. Accurate multiplex polony sequencing of an evolved bacterial genome. Science 2005; 309:17281732. 16. Housby JN, Southern EM. Fidelity of DNA ligation: a novel experimental approach based on the polymerisation of libraries of oligonucleotides. Nucleic Acids Res 1998; 26:4259-4266. 17. Harris TD, Buzby PR, Babcock H et al. Single-molecule DNA sequencing of a viral genome. Science 2008; 320:106-109. 18. Braslavsky I, Hebert B, Kartalov E et al. Sequence information can be obtained from single DNA molecules. Proc Natl Acad Sci U S A 2003; 100:3960-3964. 19. Clarke J, Wu HC, Jayasinghe L et al. Continuous base identification for single-molecule nanopore DNA sequencing. Nat Nanotechnol 2009; 4:265-270. 20. Deamer DW, Akeson M. Nanopores and nucleic acids: prospects for ultrarapid sequencing. Trends Biotechnol 2000; 18:147-151. 21. Korlach J, Marks PJ, Cicero RL et al. Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures. Proc Natl Acad Sci U S A 2008; 105:1176-1181. 22. Lundquist PM, Zhong CF, Zhao P et al. Parallel confocal detection of single molecules in real time. Opt Lett 2008; 33:1026-1028.