Биоинформатика

Из Википедије, слободне енциклопедије
ДНК секвенцијална анализа

Биоинформатика (грч. bios - живот; енгл. Informatics) је интердисциплинарна област која развија методе и алате за разумевање биолошких података. Као интердисциплинарно поље науке, биоинформатика комбинује информационе технологије, статистику, математику и инжињерство како би анализирала и интерпретирала биолошке податке. Биоинформатика се користи у анализама симулација биолошких појава користећи математичке и статистичке технике.

Биоинформатика је заједнички термин за област биолошких студија које користе компјутерско програмирање као део своје методологије, и као референца за специфичне анализе "тока података" које се често користе, посебно у подручју геномике. Типична примена биоинформатике подразумева идентификацију кандидата гена и нуклеотида. Често је циљ њихове идентификације боље разумевање генетске основе разних болести, специфичних прилагођавања организама, жељених особина (нпр. у пољопривредним културама), или разлика између популација. У мање формалном типу, биоинформатика такође покушава да открије организационе принципе унутар нуклеинских киселина и протеинских секвенци.

Основе[уреди]

Биоинформатика је постала значајна област многих биолошких области. У експерименталној молекуларној биологији технике попут визуелизације биолошких података и процесирања сигнала омогућавају изоловање корисних резултата из велике количине необрађених података. У генетици и геномици то помаже да се секвенционишу и обележе геноми и њихове примећене мутације. Такође помаже да се у биолошкој литератури развију биолошке и генетске онтологије због организовања и класификације биолошких података. Значајна је приликом анализе гена и односа између протеина. Биоинформатички алати помажу при поређењу генетичких и геномских података, што олакшава разумевање еволутивних аспеката молекуларне биологије. На компактнијем нивоу, помаже да се анализирају и класификују биолошке путање и мреже које имају значајну улогу у биологији система. У структуралној биологији, помаже при симулацији и моделовању ДНА, РНА и структуре протеина, као и молекуларних интеракција.

Историјат[уреди]

Историјски, термин биоинформатика није имао исто значење као данас. Паулин Хогвег и Бен Хеспер су њим 1970. године означили истраживање информационих процеса у биотским системима.[1][2][3] Та дефиниција класификује биоинформатику у области сродне биофизици (истраживање физичких процеса у биолошким системима) или биохемији (истраживање хемијских процеса у биолошким системима).[1]

Секвенце[уреди]

Секвенце генетског материјала се често користе у биоинформатици, обзиром да је њима лакше манипулисати коришћењем компјутера него ручно.

Компјутери су постали неопходни у молекуларној биологији када су секвенце протеина постале познате након што је Фредерик Сангер одредио секвенцу инсулина раних педесетих година. Ручно поређење вишеструких секвенци показало се непрактичним. Пионир у овој области била је Маргарет Оклеј Дејхоф, коју је Давид Липман, директор Националног центра за биотехнолошке информације, прогласио "мајком и оцем биоинформатике".[4] Маргарет је направила једну од првих база података протеинских секвенци, које су најпре објављене као књиге[5] и зачела је методе поравнања секвенци и молекуларне еволуције.[6] Други рани допринос биоинформатици дао је Елвин А. Кабат, који је започео са анализом биолошких секвенци 1970 са обимним издањима секвенци антитела које је објавио са Таи Те Вуом између 1980 и 1991. године.[7]

Циљеви[уреди]

Да би се истражило како се нормалне ћелијске активности мењају у различитим фазама обољења, биолошки подаци морају да буду комбиновани како би пружили јаснију слику о овим активностима. Стога се област биоинформатике развила тако да најзначајнији део подразумева анализу и интерпретацију различитих типова података. То укључује нуклеотиде и секвенце амино киселина, област протеина и протеинских структура.[8] Конкретан процес анализирања и интерпретације ових података сматра се информационом биологијом. Значајне области биоинформатике и информационе биологије подразумевају:

  • Развој и имплементацију компјутерских програма који омогућавају ефикасан приступ и управљање различитим типовима информација
  • Развој нових алгоритама (математичких формула) и статистичких мера којима се процењују односи између чланова великог скупа података. На пример, постоје методе за лоцирање гена унутар секвенце, да се предвиди структура протеина и/или њена функција, и да се кластер анализом класификују секвенце протеина у оквиру фамилија сродних секвенци.

Основни циљ биоинформатике је повећање разумевања биолошких процеса. Оно што је издваја од других процеса је фокус на развој и примену информатички интензивних техника за постизање тог циља. Примери укључују препознавање образаца, анализу података, машинско учење, и визуелизацију биолошких података. Фокус истраживања у овим областима укључује поравнање секвенци, предвиђање гена, геномски пројекат, дизајн лека, откривање лека, структурно поравнање протеина, предвиђање структуре протеина, предвиђање експресије гена, протеин-протеин интеракције, изучавање геномских асоцијација, моделовање еволуције и деобе ћелија - митозе.

Биоинформатика данас подразумева стварање и развој база података, алгоритама, информатичких и статистичких техника, као и теоријске основе за решавање формалних и практичних проблема који се јављају у управљању и анализи биолошких података.

Током неколико претходних деценија брз развој геномике и других технологија молекуларног истраживања као и развој информационих технологија произвео је значајну количину информација које се односе на молекуларну биологију. Биоинформатика је назив којим се описују математички и информатички приступи коришћени за потпуније разумевање биолошких процеса.

У уобичајене активности у биоинформатици спадају мапирање и анализирање ДНА и секвенци протеина, поравнање ДНА и протеинских секвенци ради њиховог поређења и израда тродимензионалних модела протеинских структура.

Сродне области[уреди]

Биоинформатика је научна област која је слична, али различита од биолошке компутације и компутационе биологије. Биолошка компутација користи биоинжињеринг и биологију како би изградила биологичке компјутере, док биоинформатика користи компјутере за боље разумевање биологије. Биоинформатика и компутациона биологија имају сличне циљеве и приступе, међутим разликују се у обиму: биоинформатика организује и анализира основне биолошке податке, док компутациона биологија гради теоретске моделе биолошких система, исто као што математичка биологија гради математичке моделе.

Анализирање биолошких података како би се добиле садржајне информације подразумева прављење и употребу компјутерских програма који користе алгоритме из теорије графова, вештачке интелигенције, алгоритме са слабо дефинисаним резултатима, анализе података, препознавања образаца, процесирања слика и компјутерске симулације. Ови алгоритми ослањају се на сазнања из дискретне математике, контролне теорије, системске теорије, информационе теорије и статистике.

Секвенцијална анализа[уреди]

Главни чланци: Sequence alignment и Sequence database
Секвенце различитих гена или протеина могу да се поравнају једна до друге како би се измерила њихова сличност. Ово поравнање пореди протеинску секвенцу која садржи WPP домене.

Откад је ΦX174 геном вируса секвенциран 1977 године,[9] ДНА секвенце хиљада организама су декодиране и прикупљене у базама података. Ове информационе секвенце се анализирају како би се одредили гени који кодиреју протеине, РНА гени, регулационе секвенце, структуралне карактеристике и вишеструко поновљене секвенце. Поређењем гена унутар врсте или између различитих врсти може да покаже сличности између функција протеина, или односе између врста (коришћење молекуларне филогеније ради изградње филогенетског стабла). Растом количине података одавно је постало непрактично да се ДНА секвенце анализирају ручно. Данас се рачунарски програми као што је БЛАСТ користе како би претражили секвенце више од 260.000 организама, које садрже више од 190 милијарди нуклеотида.[10] Такви програми могу да компензују мутације (измешане, обрисане или убачене основе) у ДНА секвенци, и да идентификују секвенце које су сродне, али нису идентичне. Варијанта оваквог поравнања секвенци се користи у самом процесу секвенцирања. Такозваним "шотган секвенцирањем" (које је коришћено у Ј. Крег Вентер Институту за секвенцирање првог бактеријског генома Haemophilus influenzae)[11] није могуће очитати комплетне хромозоме. Тај метод даје секвенце више хиљада малих ДНА фрагмената (од 35 до 900 нуклеотида, зависно од технологије секвенцирања). Крајеви ових фрагмената се преклапају и, када су исправно спојени програмом за поравнање генома, могу се користити за реконструкцију комплетног генома. Шотган секвенцирањем брзо се добијају секвенце података, међутим потреба за спајањем фрагмената већих генома може да буде веома компликована. За геном величине генома човека, може да буде потребно неколико дана рада на снажним мултипроцесорским компјутерима са великом меморијом за спајање фрагмената, а резултат спајања обично садржи бројне пропусте који морају да буду попуњени касније. Шотган секвенцирање је изборни метод готово свих данашњих секвенционираних генома, а алгоритми за спајање, односно предвиђање генома су критична област биоинформатичких истраживања.

Следећи смернице које је поставио пројекат људског генома након затварања 2003. године, Институт за национална истраживања људског генома је у У.С. развио нови пројекат. Такозвани ЕНЦОДЕ пројекат је колаборативни скуп података функционалних елемената људског генома који користи напредне ДНА секвенционирајуће технологије и геномске тилинг низове, технологије које су способне да аутоматски генеришу велике количине података са нижим трошковима истраживања, али уз исти квалитет и поузданост.

Следећи аспекат биоинформатике у анализи секвенци је означавање. Оно подразумева компутационо предвиђање гена како би се пронашли гени који кодирају протеине, РНА гени и остале функционалне секвенце унутар генома. Нису сви нуклеотиди у геному делови гена. У геномима виших организама велики део ДНА нема никакву очигледну функцију.

Такође погледајте: Секвенцијална анализа ДНК

Означавање генома[уреди]

Главни чланак: Предвиђање гена

У контексту геномике означавање је процес обележавања гена и њихових биолошких особина у ДНА секвенци. Пожељно је да је овај процес аутоматизован јер је већина генома превелика за ручно означавање, па процес представља "уско грло" при покушају да се што више гена што пре означи. Означавање је могуће услед чињенице да гени имају препознатљиве регионе почетка и краја, иако тачна секвенца у овим регионима може да се разликује.

Први софтвер за означавање генома направио је 1995. године Овен Вајт (Owen White), док је био у тиму Ј. Крег Вентер Института за геномска истраживања, где је секвенционирао и анализирао први геном живог организма, бактрију Haemophilus influenzae.[11] Вајт је направио софтверски систем који проналази гене (делове геномске секвенце који кодирају протеине), прелазне РНА и одређује њихове основне функције. Већина тренутних система за обележавање гена функционише по сличном принципу, међутим програми који се користе за анализу генома ДНА, као што је GeneMark, програм који је коришћен за проналажење гена који кодирају протеине у поменутој бактерији константно се мењају и унапређују.

Компутациона еволуциона биологија[уреди]

Еволуциона биологија је област која изучава порекло и изумирање врста, као и њихову промену током времена. Информатика помаже еволуционим биолозима омогућавајући истраживачима да:

  • прате еволуцију великог броја организама мерењем промена у њиховом ДНА, уместо само кроз физичке и физиолошке опсервације,
  • пореде комплетне геноме, што дозвољава истраживање сложених еволуционих догађаја, попут дуплирања гена, хоризонталног трансфера гена и предвиђање битних фактора бактеријских специјација,
  • граде сложене компутационе моделе популација ради предвиђања исхода система током времена[12]
  • прате и деле информације о све већем броју врста и организама.

Будући кораци усмерени су ка реконструисању све комплекснијег филогенетског стабла.

Област истраживања унутар компјутерских наука која користи генетске алгоритме се некада меша са компутационом еволуционом биологијом, али ове две области не морају да буду повезане.

Компаративна геномика[уреди]

Основа компаративне анализе генома је утврђивање односа између гена и ортолошке анализе или других геномских особина у различитим организмима. Уз помоћ таквих, интергеномских мапа могуће је пратити еволуциони процес одговоран за разлике између два генома. Више таквих еволуционих догађаја, на разним организационим нивоима обликује еволуцију генома. На најнижем нивоу, тачкасте мутације мењају појединачне нуклеотиде. На већем нивоу, на великим сегментима хромозома јавља се дуплирање, трансфер, инверзија, транспозиција, брисање и убацивање.[13] На крају, читави геноми учествују у процесу хибридизације, полиплоидизације и ендосимбиозе, често водећи ка убрзаном раздвајању врста. Сложеност еволуције генома доноси многе узбудљиве изазове за развој математичких модела и алгоритама, широког спектра развоја алгоритма, статистичких и математичких техника у опсегу од егзактне хеуристике, фиксних параметара и апроксимационих алгоритама за проблеме засноване на штедљивим моделима до Монте Карло методе Марковог ланца за Бајесовско закључивање у анализи проблема заснованих на моделима вероватноће.

Многа од ових истраживања заснована су на хомолошкој детекцији и компутацији фамилије протеина.[14]

Пан геномика[уреди]

Пан геномика је концепт који су Тетелин (Tettelin) и Медини (Medini) представили 2005 године, а који је касније касније развио основу за биоинформатику. Пан геном је комплетан репертоар гена конкретне таксономске групе: иако је иницијално био примењен на еволутивно блиским родовима врсти, може да буде примењен у ширем контексту попут рода, раздела итд. Подељен је у два дела - изворни геном: сет гена заједничких за све геноме унутар истраживања (ово су обично гени кључни за опстанак организма) и променљиви/флексибилни геном: сет гена који није присутан у свим, већ у појединим или у више генома унутар истраживања.

Генетика болести[уреди]

Развојем напредних секвенционирајућих технологија поседујемо довољно секвенцних података, тако да можемо да мапирамо гене сложених болести као што су Шећерна болест,[15] неплодност,[16] рак дојке[17] или Алцхајмерову болест.[18] Студије асоцијације генома представљају користан приступ проналажења тачних мутација одговорних за те сложене болести.[19] Кроз ове студије идентификовано је на хиљаде ДНА варијација које су повезане са сличним болестима и предиспозицијама.[20] Штавише, вероватноћа да се гени користе при прогнозирању, дијагнози или третману болести је једна од најосновнијих апликација. Многе студије истражују начине за прецизан избор одговорних гена и проблеме и странпутице коришћења гена за предвиђање или прогнозу болести.[21]

Анализа мутација у раку[уреди]

Код рака, геноми заражених ћелија се прераспоређују на сложене или чак непредвидљиве начине. Велики напори при секвенционисању улажу се како би се идентификовале раније непознате генске мутације у разнмим генима у раку. Биоинформатика наставља да производи специјализоване аутоматске системе за обраду обимних података који су произведени секвенционисањем података, и да направи нове алгоритме и програме који би поредили секвенционисане резултате са растућом колекцијом секвенци генома човека и герминативних полиморфоза. Развијају се нове, физичке технологије детекције, попут микронизова олигонуклеотида како би се идентификовале хромозомске предности и недостаци (тзв. компаративна хибридизација генома), и низова једнонуклеотидних полиморфизама за детекцију познатих генских мутација. Ове методе детекције истовремено мере неколико стотина хиљада области генома и када се користе са великим обухватом података за мерење хиљада семплова, генеришу терабајте података по експерименту. Огромна количина и нови типови података пружају нове шансе за биоинформатику. Често се у подацима налази значајна варијабилност, или шум, па се стога развијају скривени Марковљев модел и методе анализа са променом тачке како би верније представиле варијабилност насталих промена.

Уз напредак који развој напредних секвенционирајућих технологија обезбеђује области биоинформатике, геномика канцера могла би да се драстично промени. Нове методе и алгоритми омогућавају биоинформатичарима брзо и лако секвенционисање многих генома канцера. Ово би могло да доведе до флексибилнијег процеса за класификацију типова рака анализом мутација које су у геному настале под његовим дејством. Штавише, у будућности би вероватно било могуће индивидуално праћење стања пацијента на основу секвенци узорака рака.[22]

Други тип података који захтева значајан информатички развој је анализа лезија које се јављају при многим туморима.

Експресија гена и протеина[уреди]

Анализа експресије гена[уреди]

Експресија многих гена може да се одреди мерењем нивоа информационих РНК преко више техника, укључујући ДНК микрочип, ЕСТ секвенцирање, серијску анализу експресије гена (САГЕ), масивно паралелно секвенцирање потписа (МПСС), РНА секвенцирање, познато и као "шотган секвенцирање целог транскриптома" (WTSS) или разним апликацијама мултиплексираних хибридизација. Све ове технике су екстремно осетљиве на шумове и подложне пристрасности у биолошким мерењима, па главни истраживачки напор у компутационој биологији подразумева развој статистичких алата за одвајање сигнала од шума у обимним студијама експресије гена. Такве студије се често спроводе како би одредиле гене који имају одређену фуккцију у обољењу: може се поредити микрониз података из канцерогених епителских ћелија са подацима из неканцерогених ћелија како би се одредили делови који су кључни за одговарајућу популацију канцерогених ћелија.

Анализа експресије протеина[уреди]

Протеински микронизови или протеински чипови уз масену спектрометрију широког пропусног опсега могу да обезбеде снимак протеина присутних у биолошком узорку. Биоинформатика има своју улогу у разумевању протеинских микронизова и података добијених поменутим методама; такав приступ има сличне проблеме као и микронизеви који се односе на иРНК, обзиром да они подразумевају поређење великих количина обимних података са предвиђеним подацима из секвенци протеинских база података и компликоване статистичке анализе семплова где су детектовани вишеструки, али непотпуни пептиди у сваком протеину.

Анализа регулација[уреди]

Регулација представља сложен систем управљања догађајима почев од спољног ћелијског надражаја као што је хормон, и води ка повећању или смањењу активности једног или више протеина. Биоинформатичке технике се користе како би се испитали разни кораци у овом процесу. На пример, промотер анализа укључује идентификацију и проучавање секвенцних мотива у ДНА који окружује кодирајући регион у гену. Ови мотиви утичу на то до ког нивоа се који регион преписује у иРНК. Добијени подаци могу да се искористе како би се утицало на генетску регулацију: на пример, могуће је поређење микронизова при разним стањима организма како би се поставила хипотеза о генима укљученим у сваком стању.


  1. 1,0 1,1 Hogeweg P (2011). Searls, David B., ур. „The Roots of Bioinformatics in Theoretical Biology”. PLoS Computational Biology 7 (3): e1002021. Bibcode:2011PLSCB...7E0020H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479. 
  2. Hesper B, Hogeweg P (1970). „Bioinformatica: een werkconcept” 1 (6). Kameleon: 28—29. 
  3. Hogeweg P (1978). „Simulating the growth of cellular forms”. Simulation 31 (3): 90—96. doi:10.1177/003754977803100305. 
  4. Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2. 
  5. Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
  6. Eck RV, Dayhoff MO (1966). „Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science 152 (3720): 363—6. Bibcode:1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169. 
  7. Johnson G, Wu TT (January 2000). „Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res 28 (1): 214—218. doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229. 
  8. Attwood TK, Gisel A, Eriksson N-E, Bongcam-Rudloff E (2011). „Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective”. Bioinformatics – Trends and Methodologies. InTech. Приступљено 8 Jan 2012. 
  9. Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (February 1977). „Nucleotide sequence of bacteriophage phi X174 DNA”. Nature 265 (5596): 687—95. Bibcode:1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828. 
  10. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (January 2008). „GenBank”. Nucleic Acids Res. 36 (Database issue): D25—30. doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190. 
  11. 11,0 11,1 Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM (July 1995). „Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496—512. Bibcode:1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800. 
  12. Carvajal-Rodríguez A (2012). „Simulation of Genes and Genomes Forward in Time”. Current Genomics (Bentham Science Publishers Ltd.) 11 (1): 58—61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525. 
  13. Brown, TA (2002). „Mutation, Repair and Recombination”. Genomes (2nd изд.). Manchester (UK): Oxford. 
  14. Carter, N. P.; Fiegler, H.; Piper, J. (2002). „Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Wiley Subscription Services, Inc 49 (2): 43—8. doi:10.1002/cyto.10153. 
  15. Ionescu-Tîrgovişte, Constantin; Gagniuc, Paul Aurelian; Guja, Cristian. „Structural Properties of Gene Promoters Highlight More than Two Phenotypes of Diabetes”. PLOS ONE 10 (9): e0137950. doi:10.1371/journal.pone.0137950. PMC 4574929. PMID 26379145. 
  16. Aston KI (2014). „Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology 2 (3): 315—21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159. 
  17. Véron A, Blein S, Cox DG (2014). „Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine 8 (2): 287—96. doi:10.2217/bmm.13.121. PMID 24521025. 
  18. Tosto G, Reitz C (2013). „Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports 13 (10): 381. doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969. 
  19. Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). „Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations”. Pharmacogenomics. Methods in Molecular Biology 1015: 127—46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853. 
  20. Hindorff, L.A.,; et al. (2009). „Potential etiologic and functional implications of genome-wide association loci for human diseases and traits.”. Proc. Natl. Acad. Sci. USA 106: 9362—9367. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294. 
  21. Hall, L.O. (2010). „Finding the right genes for disease and prognosis prediction.”. System Science and Engineering (ICSSE),2010 International Conference: 1—2. doi:10.1109/ICSSE.2010.5551766. 
  22. Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). „“Second-Generation Sequencing for Cancer Genome Analysis”. Ур.: Dellaire, Graham; Berman, Jason N.; Arceci, Robert J. Cancer Genomics. Boston (US): Academic Press. стр. 13—30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675.