Bioinformatika

S Vikipedije, slobodne enciklopedije
DNK sekvencijalna analiza

Bioinformatika (grč. bios - život; engl. Informatics) je interdisciplinarna oblast koja razvija metode i alate za razumevanje bioloških podataka. Kao interdisciplinarno polje nauke, bioinformatika kombinuje informacione tehnologije, statistiku, matematiku i inžinjerstvo kako bi analizirala i interpretirala biološke podatke. Bioinformatika se koristi u analizama simulacija bioloških pojava koristeći matematičke i statističke tehnike.

Bioinformatika je zajednički termin za oblast bioloških studija koje koriste kompjutersko programiranje kao deo svoje metodologije, i kao referenca za specifične analize "toka podataka" koje se često koriste, posebno u području genomike. Tipična primena bioinformatike podrazumeva identifikaciju kandidata gena i nukleotida. Često je cilj njihove identifikacije bolje razumevanje genetske osnove raznih bolesti, specifičnih prilagođavanja organizama, željenih osobina (npr. u poljoprivrednim kulturama), ili razlika između populacija. U manje formalnom tipu, bioinformatika takođe pokušava da otkrije organizacione principe unutar nukleinskih kiselina i proteinskih sekvenci.

Osnove[uredi | uredi izvor]

Bioinformatika je postala značajna oblast mnogih bioloških oblasti. U eksperimentalnoj molekularnoj biologiji tehnike poput vizuelizacije bioloških podataka i obradi signala omogućavaju izolovanje korisnih rezultata iz velike količine neobrađenih podataka. U genetici i genomici to pomaže da se sekvencionišu i obeleže genomi i njihove primećene mutacije. Takođe pomaže da se u biološkoj literaturi razviju biološke i genetske ontologije zbog organizovanja i klasifikacije bioloških podataka. Značajna je prilikom analize gena i odnosa između proteina. Bioinformatički alati pomažu pri poređenju genetičkih i genomskih podataka, što olakšava razumevanje evolutivnih aspekata molekularne biologije. Na kompaktnijem nivou, pomaže da se analiziraju i klasifikuju biološke putanje i mreže koje imaju značajnu ulogu u biologiji sistema. U strukturalnoj biologiji, pomaže pri simulaciji i modelovanju DNK, RNK i strukture proteina, kao i molekularnih interakcija.

Istorijat[uredi | uredi izvor]

Istorijski, termin bioinformatika nije imao isto značenje kao danas. Paulin Hogveg i Ben Hesper su njim 1970. godine označili istraživanje informacionih procesa u biotskim sistemima.[1][2][3] Ta definicija klasifikuje bioinformatiku u oblasti srodne biofizici (istraživanje fizičkih procesa u biološkim sistemima) ili biohemiji (istraživanje hemijskih procesa u biološkim sistemima).[1]

Sekvence[uredi | uredi izvor]

Sekvence genetskog materijala se često koriste u bioinformatici, obzirom da je njima lakše manipulisati korišćenjem kompjutera nego ručno.

Kompjuteri su postali neophodni u molekularnoj biologiji kada su sekvence proteina postale poznate nakon što je Frederik Sanger odredio sekvencu insulina ranih pedesetih godina. Ručno poređenje višestrukih sekvenci pokazalo se nepraktičnim. Pionir u ovoj oblasti bila je Margaret Oklej Dejhof, koju je David Lipman, direktor Nacionalnog centra za biotehnološke informacije, proglasio "majkom i ocem bioinformatike".[4] Margaret je napravila jednu od prvih baza podataka proteinskih sekvenci, koje su najpre objavljene kao knjige[5] i začela je metode poravnanja sekvenci i molekularne evolucije.[6] Drugi rani doprinos bioinformatici dao je Elvin A. Kabat, koji je započeo sa analizom bioloških sekvenci 1970 sa obimnim izdanjima sekvenci antitela koje je objavio sa Tai Te Vuom između 1980 i 1991. godine.[7]

Ciljevi[uredi | uredi izvor]

Da bi se istražilo kako se normalne ćelijske aktivnosti menjaju u različitim fazama oboljenja, biološki podaci moraju da budu kombinovani kako bi pružili jasniju sliku o ovim aktivnostima. Stoga se oblast bioinformatike razvila tako da najznačajniji deo podrazumeva analizu i interpretaciju različitih tipova podataka. To uključuje nukleotide i sekvence amino kiselina, oblast proteina i proteinskih struktura.[8] Konkretan proces analiziranja i interpretacije ovih podataka smatra se informacionom biologijom. Značajne oblasti bioinformatike i informacione biologije podrazumevaju:

  • Razvoj i implementaciju kompjuterskih programa koji omogućavaju efikasan pristup i upravljanje različitim tipovima informacija
  • Razvoj novih algoritama (matematičkih formula) i statističkih mera kojima se procenjuju odnosi između članova velikog skupa podataka. Na primer, postoje metode za lociranje gena unutar sekvence, da se predvidi struktura proteina i/ili njena funkcija, i da se klaster analizom klasifikuju sekvence proteina u okviru familija srodnih sekvenci.

Osnovni cilj bioinformatike je povećanje razumevanja bioloških procesa. Ono što je izdvaja od drugih procesa je fokus na razvoj i primenu informatički intenzivnih tehnika za postizanje tog cilja. Primeri uključuju prepoznavanje obrazaca, analizu podataka, mašinsko učenje, i vizuelizaciju bioloških podataka. Fokus istraživanja u ovim oblastima uključuje poravnanje sekvenci, predviđanje gena, genomski projekat, dizajn leka, otkrivanje leka, strukturno poravnanje proteina, predviđanje strukture proteina, predviđanje ekspresije gena, protein-protein interakcije, izučavanje genomskih asocijacija, modelovanje evolucije i deobe ćelija - mitoze.

Bioinformatika danas podrazumeva stvaranje i razvoj baza podataka, algoritama, informatičkih i statističkih tehnika, kao i teorijske osnove za rešavanje formalnih i praktičnih problema koji se javljaju u upravljanju i analizi bioloških podataka.

Tokom nekoliko prethodnih decenija brz razvoj genomike i drugih tehnologija molekularnog istraživanja kao i razvoj informacionih tehnologija proizveo je značajnu količinu informacija koje se odnose na molekularnu biologiju. Bioinformatika je naziv kojim se opisuju matematički i informatički pristupi korišćeni za potpunije razumevanje bioloških procesa.

U uobičajene aktivnosti u bioinformatici spadaju mapiranje i analiziranje DNK i sekvenci proteina, poravnanje DNK i proteinskih sekvenci radi njihovog poređenja i izrada trodimenzionalnih modela proteinskih struktura.

Srodne oblasti[uredi | uredi izvor]

Bioinformatika je naučna oblast koja je slična, ali različita od biološke komputacije i komputacione biologije. Biološka komputacija koristi bioinžinjering i biologiju kako bi izgradila biologičke kompjutere, dok bioinformatika koristi kompjutere za bolje razumevanje biologije. Bioinformatika i komputaciona biologija imaju slične ciljeve i pristupe, međutim razlikuju se u obimu: bioinformatika organizuje i analizira osnovne biološke podatke, dok komputaciona biologija gradi teoretske modele bioloških sistema, isto kao što matematička biologija gradi matematičke modele.

Analiziranje bioloških podataka kako bi se dobile sadržajne informacije podrazumeva pravljenje i upotrebu kompjuterskih programa koji koriste algoritme iz teorije grafova, veštačke inteligencije, algoritme sa slabo definisanim rezultatima, analize podataka, prepoznavanja obrazaca, procesiranja slika i kompjuterske simulacije. Ovi algoritmi oslanjaju se na saznanja iz diskretne matematike, kontrolne teorije, sistemske teorije, informacione teorije i statistike.

Sekvencijalna analiza[uredi | uredi izvor]

Sekvence različitih gena ili proteina mogu da se poravnaju jeDNK do druge kako bi se izmerila njihova sličnost. Ovo poravnanje poredi proteinsku sekvencu koja sadrži WPP domene.

Otkad je ΦX174 genom virusa sekvenciran 1977 godine,[9] DNK sekvence hiljada organizama su dekodirane i prikupljene u bazama podataka. Ove informacione sekvence se analiziraju kako bi se odredili geni koji kodireju proteine, RNK geni, regulacione sekvence, strukturalne karakteristike i višestruko ponovljene sekvence. Poređenjem gena unutar vrste ili između različitih vrsti može da pokaže sličnosti između funkcija proteina, ili odnose između vrsta (korišćenje molekularne filogenije radi izgradnje filogenetskog stabla). Rastom količine podataka odavno je postalo nepraktično da se DNK sekvence analiziraju ručno. Danas se računarski programi kao što je BLAST koriste kako bi pretražili sekvence više od 260.000 organizama, koje sadrže više od 190 milijardi nukleotida.[10] Takvi programi mogu da kompenzuju mutacije (izmešane, obrisane ili ubačene osnove) u DNK sekvenci, i da identifikuju sekvence koje su srodne, ali nisu identične. Varijanta ovakvog poravnanja sekvenci se koristi u samom procesu sekvenciranja. Takozvanim "šotgan sekvenciranjem" (koje je korišćeno u J. Kreg Venter Institutu za sekvenciranje prvog bakterijskog genoma Haemophilus influenzae)[11] nije moguće očitati kompletne hromozome. Taj metod daje sekvence više hiljada malih DNK fragmenata (od 35 do 900 nukleotida, zavisno od tehnologije sekvenciranja). Krajevi ovih fragmenata se preklapaju i, kada su ispravno spojeni programom za poravnanje genoma, mogu se koristiti za rekonstrukciju kompletnog genoma. Šotgan sekvenciranjem brzo se dobijaju sekvence podataka, međutim potreba za spajanjem fragmenata većih genoma može da bude veoma komplikovana. Za genom veličine genoma čoveka, može da bude potrebno nekoliko dana rada na snažnim multiprocesorskim kompjuterima sa velikom memorijom za spajanje fragmenata, a rezultat spajanja obično sadrži brojne propuste koji moraju da budu popunjeni kasnije. Šotgan sekvenciranje je izborni metod gotovo svih današnjih sekvencioniranih genoma, a algoritmi za spajanje, odnosno predviđanje genoma su kritična oblast bioinformatičkih istraživanja.

Sledeći smernice koje je postavio projekat ljudskog genoma nakon zatvaranja 2003. godine, Institut za nacionalna istraživanja ljudskog genoma je u U.S. razvio novi projekat. Takozvani ENCODE projekat je kolaborativni skup podataka funkcionalnih elemenata ljudskog genoma koji koristi napredne DNK sekvencionirajuće tehnologije i genomske tiling nizove, tehnologije koje su sposobne da automatski generišu velike količine podataka sa nižim troškovima istraživanja, ali uz isti kvalitet i pouzdanost.

Sledeći aspekat bioinformatike u analizi sekvenci je označavanje. Ono podrazumeva komputaciono predviđanje gena kako bi se pronašli geni koji kodiraju proteine, RNK geni i ostale funkcionalne sekvence unutar genoma. Nisu svi nukleotidi u genomu delovi gena. U genomima viših organizama veliki deo DNK nema nikakvu očiglednu funkciju.

Označavanje genoma[uredi | uredi izvor]

U kontekstu genomike označavanje je proces obeležavanja gena i njihovih bioloških osobina u DNK sekvenci. Poželjno je da je ovaj proces automatizovan jer je većina genoma prevelika za ručno označavanje, pa proces predstavlja "usko grlo" pri pokušaju da se što više gena što pre označi. Označavanje je moguće usled činjenice da geni imaju prepoznatljive regione početka i kraja, iako tačna sekvenca u ovim regionima može da se razlikuje.

Prvi softver za označavanje genoma napravio je 1995. godine Oven Vajt (Owen White), dok je bio u timu J. Kreg Venter Instituta za genomska istraživanja, gde je sekvencionirao i analizirao prvi genom živog organizma, baktriju Haemophilus influenzae.[11] Vajt je napravio softverski sistem koji pronalazi gene (delove genomske sekvence koji kodiraju proteine), prelazne RNK i određuje njihove osnovne funkcije. Većina trenutnih sistema za obeležavanje gena funkcioniše po sličnom principu, međutim programi koji se koriste za analizu genoma DNK, kao što je GeneMark, program koji je korišćen za pronalaženje gena koji kodiraju proteine u pomenutoj bakteriji konstantno se menjaju i unapređuju.

Komputaciona evoluciona biologija[uredi | uredi izvor]

Evoluciona biologija je oblast koja izučava poreklo i izumiranje vrsta, kao i njihovu promenu tokom vremena. Informatika pomaže evolucionim biolozima omogućavajući istraživačima da:

  • prate evoluciju velikog broja organizama merenjem promena u njihovom DNK, umesto samo kroz fizičke i fiziološke opservacije,
  • porede kompletne genome, što dozvoljava istraživanje složenih evolucionih događaja, poput dupliranja gena, horizontalnog transfera gena i predviđanje bitnih faktora bakterijskih specijacija,
  • grade složene komputacione modele populacija radi predviđanja ishoda sistema tokom vremena[12]
  • prate i dele informacije o sve većem broju vrsta i organizama.

Budući koraci usmereni su ka rekonstruisanju sve kompleksnijeg filogenetskog stabla.

Oblast istraživanja unutar kompjuterskih nauka koja koristi genetske algoritme se nekada meša sa komputacionom evolucionom biologijom, ali ove dve oblasti ne moraju da budu povezane.

Komparativna genomika[uredi | uredi izvor]

Osnova komparativne analize genoma je utvrđivanje odnosa između gena i ortološke analize ili drugih genomskih osobina u različitim organizmima. Uz pomoć takvih, intergenomskih mapa moguće je pratiti evolucioni proces odgovoran za razlike između dva genoma. Više takvih evolucionih događaja, na raznim organizacionim nivoima oblikuje evoluciju genoma. Na najnižem nivou, tačkaste mutacije menjaju pojedinačne nukleotide. Na većem nivou, na velikim segmentima hromozoma javlja se dupliranje, transfer, inverzija, transpozicija, brisanje i ubacivanje.[13] Na kraju, čitavi genomi učestvuju u procesu hibridizacije, poliploidizacije i endosimbioze, često vodeći ka ubrzanom razdvajanju vrsta. Složenost evolucije genoma donosi mnoge uzbudljive izazove za razvoj matematičkih modela i algoritama, širokog spektra razvoja algoritma, statističkih i matematičkih tehnika u opsegu od egzaktne heuristike, fiksnih parametara i aproksimacionih algoritama za probleme zasnovane na štedljivim modelima do Monte Karlo metode Markovog lanca za Bajesovsko zaključivanje u analizi problema zasnovanih na modelima verovatnoće.

Mnoga od ovih istraživanja zasnovana su na homološkoj detekciji i komputaciji familije proteina.[14]

Pan genomika[uredi | uredi izvor]

Pan genomika je koncept koji su Tetelin (Tettelin) i Medini (Medini) predstavili 2005 godine, a koji je kasnije kasnije razvio osnovu za bioinformatiku. Pan genom je kompletan repertoar gena konkretne taksonomske grupe: iako je inicijalno bio primenjen na evolutivno bliskim rodovima vrsti, može da bude primenjen u širem kontekstu poput roda, razdela itd. Podeljen je u dva dela - izvorni genom: set gena zajedničkih za sve genome unutar istraživanja (ovo su obično geni ključni za opstanak organizma) i promenljivi/fleksibilni genom: set gena koji nije prisutan u svim, već u pojedinim ili u više genoma unutar istraživanja.

Genetika bolesti[uredi | uredi izvor]

Razvojem naprednih sekvencionirajućih tehnologija posedujemo dovoljno sekvencnih podataka, tako da možemo da mapiramo gene složenih bolesti kao što su Šećerna bolest,[15] neplodnost,[16] rak dojke[17] ili Alchajmerovu bolest.[18] Studije asocijacije genoma predstavljaju koristan pristup pronalaženja tačnih mutacija odgovornih za te složene bolesti.[19] Kroz ove studije identifikovano je na hiljade DNK varijacija koje su povezane sa sličnim bolestima i predispozicijama.[20] Štaviše, verovatnoća da se geni koriste pri prognoziranju, dijagnozi ili tretmanu bolesti je jeDNK od najosnovnijih aplikacija. Mnoge studije istražuju načine za precizan izbor odgovornih gena i probleme i stranputice korišćenja gena za predviđanje ili prognozu bolesti.[21]

Analiza mutacija u raku[uredi | uredi izvor]

Kod raka, genomi zaraženih ćelija se preraspoređuju na složene ili čak nepredvidljive načine. Veliki napori pri sekvencionisanju ulažu se kako bi se identifikovale ranije nepoznate genske mutacije u raznmim genima u raku. Bioinformatika nastavlja da proizvodi specijalizovane automatske sisteme za obradu obimnih podataka koji su proizvedeni sekvencionisanjem podataka, i da napravi nove algoritme i programe koji bi poredili sekvencionisane rezultate sa rastućom kolekcijom sekvenci genoma čoveka i germinativnih polimorfoza. Razvijaju se nove, fizičke tehnologije detekcije, poput mikronizova oligonukleotida kako bi se identifikovale hromozomske prednosti i nedostaci (tzv. komparativna hibridizacija genoma), i nizova jednonukleotidnih polimorfizama za detekciju poznatih genskih mutacija. Ove metode detekcije istovremeno mere nekoliko stotina hiljada oblasti genoma i kada se koriste sa velikim obuhvatom podataka za merenje hiljada semplova, generišu terabajte podataka po eksperimentu. Ogromna količina i novi tipovi podataka pružaju nove šanse za bioinformatiku. Često se u podacima nalazi značajna varijabilnost, ili šum, pa se stoga razvijaju skriveni Markovljev model i metode analiza sa promenom tačke kako bi vernije predstavile varijabilnost nastalih promena.

Uz napredak koji razvoj naprednih sekvencionirajućih tehnologija obezbeđuje oblasti bioinformatike, genomika kancera mogla bi da se drastično promeni. Nove metode i algoritmi omogućavaju bioinformatičarima brzo i lako sekvencionisanje mnogih genoma kancera. Ovo bi moglo da dovede do fleksibilnijeg procesa za klasifikaciju tipova raka analizom mutacija koje su u genomu nastale pod njegovim dejstvom. Štaviše, u budućnosti bi verovatno bilo moguće individualno praćenje stanja pacijenta na osnovu sekvenci uzoraka raka.[22]

Drugi tip podataka koji zahteva značajan informatički razvoj je analiza lezija koje se javljaju pri mnogim tumorima.

Ekspresija gena i proteina[uredi | uredi izvor]

Analiza ekspresije gena[uredi | uredi izvor]

Ekspresija mnogih gena može da se odredi merenjem nivoa informacionih RNK preko više tehnika, uključujući DNK mikročip, EST sekvenciranje, serijsku analizu ekspresije gena (SAGE), masivno paralelno sekvenciranje potpisa (MPSS), RNK sekvenciranje, poznato i kao "šotgan sekvenciranje celog transkriptoma" (WTSS) ili raznim aplikacijama multipleksiranih hibridizacija. Sve ove tehnike su ekstremno osetljive na šumove i podložne pristrasnosti u biološkim merenjima, pa glavni istraživački napor u komputacionoj biologiji podrazumeva razvoj statističkih alata za odvajanje signala od šuma u obimnim studijama ekspresije gena. Takve studije se često sprovode kako bi odredile gene koji imaju određenu fukkciju u oboljenju: može se porediti mikroniz podataka iz kancerogenih epitelskih ćelija sa podacima iz nekancerogenih ćelija kako bi se odredili delovi koji su ključni za odgovarajuću populaciju kancerogenih ćelija.

Analiza ekspresije proteina[uredi | uredi izvor]

Proteinski mikronizovi ili proteinski čipovi uz masenu spektrometriju širokog propusnog opsega mogu da obezbede snimak proteina prisutnih u biološkom uzorku. Bioinformatika ima svoju ulogu u razumevanju proteinskih mikronizova i podataka dobijenih pomenutim metodama; takav pristup ima slične probleme kao i mikronizevi koji se odnose na iRNK, obzirom da oni podrazumevaju poređenje velikih količina obimnih podataka sa predviđenim podacima iz sekvenci proteinskih baza podataka i komplikovane statističke analize semplova gde su detektovani višestruki, ali nepotpuni peptidi u svakom proteinu.

Analiza regulacija[uredi | uredi izvor]

Regulacija predstavlja složen sistem upravljanja događajima počev od spoljnog ćelijskog nadražaja kao što je hormon, i vodi ka povećanju ili smanjenju aktivnosti jednog ili više proteina. Bioinformatičke tehnike se koriste kako bi se ispitali razni koraci u ovom procesu. Na primer, promoter analiza uključuje identifikaciju i proučavanje sekvencnih motiva u DNK koji okružuje kodirajući region u genu. Ovi motivi utiču na to do kog nivoa se koji region prepisuje u iRNK. Dobijeni podaci mogu da se iskoriste kako bi se uticalo na genetsku regulaciju: na primer, moguće je poređenje mikronizova pri raznim stanjima organizma kako bi se postavila hipoteza o genima uključenim u svakom stanju.

Reference[uredi | uredi izvor]

  1. ^ a b Hogeweg, P (2011). Searls, David B., ur. „The Roots of Bioinformatics in Theoretical Biology”. PLoS Computational Biology. 7 (3): e1002021. Bibcode:2011PLSCB...7E0020H. PMC 3068925Slobodan pristup. PMID 21483479. doi:10.1371/journal.pcbi.1002021. 
  2. ^ Hesper B, Hogeweg P (1970). „Bioinformatica: een werkconcept”. 1 (6). Kameleon: 28—29. 
  3. ^ Hogeweg, P (1978). „Simulating the growth of cellular forms”. Simulation. 31 (3): 90—96. doi:10.1177/003754977803100305. 
  4. ^ Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2. 
  5. ^ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
  6. ^ Eck RV, Dayhoff MO (1966). „Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science. 152 (3720): 363—6. Bibcode:1966Sci...152..363E. PMID 17775169. doi:10.1126/science.152.3720.363. 
  7. ^ Johnson G, Wu TT (2000). „Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res. 28 (1): 214—218. PMC 102431Slobodan pristup. PMID 10592229. doi:10.1093/nar/28.1.214. 
  8. ^ Attwood TK, Gisel A, Eriksson NE, Bongcam-Rudloff E (2011). „Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective”. Bioinformatics – Trends and Methodologies. InTech. Arhivirano iz originala 25. 01. 2012. g. Pristupljeno 2012-01-08. 
  9. ^ Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (1977). „Nucleotide sequence of bacteriophage phi X174 DNA”. Nature. 265 (5596): 687—95. Bibcode:1977Natur.265..687S. PMID 870828. doi:10.1038/265687a0. 
  10. ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (2008). „GenBank”. Nucleic Acids Res. 36 (Database issue): D25—30. PMC 2238942Slobodan pristup. PMID 18073190. doi:10.1093/nar/gkm929. 
  11. ^ a b Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM (1995). „Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science. 269 (5223): 496—512. Bibcode:1995Sci...269..496F. PMID 7542800. doi:10.1126/science.7542800. 
  12. ^ Carvajal-Rodríguez A (2012). „Simulation of Genes and Genomes Forward in Time”. Current Genomics. Bentham Science Publishers Ltd. 11 (1): 58—61. PMC 2851118Slobodan pristup. PMID 20808525. doi:10.2174/138920210790218007. 
  13. ^ Brown, TA (2002). „Mutation, Repair and Recombination”. Genomes (2nd izd.). Manchester (UK): Oxford. 
  14. ^ Carter, N. P.; Fiegler, H.; Piper, J. (2002). „Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Wiley Subscription Services, Inc. 49 (2): 43—8. doi:10.1002/cyto.10153. 
  15. ^ Ionescu-Tîrgovişte, Constantin; Gagniuc, Paul Aurelian; Guja, Cristian. „Structural Properties of Gene Promoters Highlight More than Two Phenotypes of Diabetes”. PLOS ONE. 10 (9): e0137950. PMC 4574929Slobodan pristup. PMID 26379145. doi:10.1371/journal.pone.0137950. Arhivirano iz originala 17. 11. 2015. g. Pristupljeno 03. 04. 2016. 
  16. ^ Aston, KI (2014). „Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology. 2 (3): 315—21. PMID 24574159. doi:10.1111/j.2047-2927.2014.00188.x. 
  17. ^ Véron A, Blein S, Cox DG (2014). „Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine. 8 (2): 287—96. PMID 24521025. doi:10.2217/bmm.13.121. 
  18. ^ Tosto G, Reitz C (2013). „Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports. 13 (10): 381. PMC 3809844Slobodan pristup. PMID 23954969. doi:10.1007/s11910-013-0381-0. 
  19. ^ Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). „Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations”. Pharmacogenomics. Methods in Molecular Biology. 1015: 127—46. ISBN 978-1-62703-434-0. PMID 23824853. doi:10.1007/978-1-62703-435-7_8. 
  20. ^ Hindorff, L.A.; et al. (2009). „Potential etiologic and functional implications of genome-wide association loci for human diseases and traits.”. Proc. Natl. Acad. Sci. USA. 106: 9362—9367. PMC 2687147Slobodan pristup. PMID 19474294. doi:10.1073/pnas.0903103106. 
  21. ^ Hall, L.O. (2010). „Finding the right genes for disease and prognosis prediction.”. System Science and Engineering (ICSSE),2010 International Conference: 1—2. doi:10.1109/ICSSE.2010.5551766. 
  22. ^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). „“Second-Generation Sequencing for Cancer Genome Analysis”. Ur.: Dellaire, Graham; Berman, Jason N.; Arceci, Robert J. Cancer Genomics. Boston (US): Academic Press. str. 13—30. ISBN 9780123969675. doi:10.1016/B978-0-12-396967-5.00002-5.