Биоинформатика

С Википедије, слободне енциклопедије
(преусмерено са Bioinformatics)
ДНК секвенцијална анализа

Биоинформатика (грч. bios - живот; енгл. Informatics) је интердисциплинарна област која развија методе и алате за разумевање биолошких података. Као интердисциплинарно поље науке, биоинформатика комбинује информационе технологије, статистику, математику и инжињерство како би анализирала и интерпретирала биолошке податке. Биоинформатика се користи у анализама симулација биолошких појава користећи математичке и статистичке технике.

Биоинформатика је заједнички термин за област биолошких студија које користе компјутерско програмирање као део своје методологије, и као референца за специфичне анализе "тока података" које се често користе, посебно у подручју геномике. Типична примена биоинформатике подразумева идентификацију кандидата гена и нуклеотида. Често је циљ њихове идентификације боље разумевање генетске основе разних болести, специфичних прилагођавања организама, жељених особина (нпр. у пољопривредним културама), или разлика између популација. У мање формалном типу, биоинформатика такође покушава да открије организационе принципе унутар нуклеинских киселина и протеинских секвенци.

Основе[уреди | уреди извор]

Биоинформатика је постала значајна област многих биолошких области. У експерименталној молекуларној биологији технике попут визуелизације биолошких података и обради сигнала омогућавају изоловање корисних резултата из велике количине необрађених података. У генетици и геномици то помаже да се секвенционишу и обележе геноми и њихове примећене мутације. Такође помаже да се у биолошкој литератури развију биолошке и генетске онтологије због организовања и класификације биолошких података. Значајна је приликом анализе гена и односа између протеина. Биоинформатички алати помажу при поређењу генетичких и геномских података, што олакшава разумевање еволутивних аспеката молекуларне биологије. На компактнијем нивоу, помаже да се анализирају и класификују биолошке путање и мреже које имају значајну улогу у биологији система. У структуралној биологији, помаже при симулацији и моделовању ДНК, РНК и структуре протеина, као и молекуларних интеракција.

Историјат[уреди | уреди извор]

Историјски, термин биоинформатика није имао исто значење као данас. Паулин Хогвег и Бен Хеспер су њим 1970. године означили истраживање информационих процеса у биотским системима.[1][2][3] Та дефиниција класификује биоинформатику у области сродне биофизици (истраживање физичких процеса у биолошким системима) или биохемији (истраживање хемијских процеса у биолошким системима).[1]

Секвенце[уреди | уреди извор]

Секвенце генетског материјала се често користе у биоинформатици, обзиром да је њима лакше манипулисати коришћењем компјутера него ручно.

Компјутери су постали неопходни у молекуларној биологији када су секвенце протеина постале познате након што је Фредерик Сангер одредио секвенцу инсулина раних педесетих година. Ручно поређење вишеструких секвенци показало се непрактичним. Пионир у овој области била је Маргарет Оклеј Дејхоф, коју је Давид Липман, директор Националног центра за биотехнолошке информације, прогласио "мајком и оцем биоинформатике".[4] Маргарет је направила једну од првих база података протеинских секвенци, које су најпре објављене као књиге[5] и зачела је методе поравнања секвенци и молекуларне еволуције.[6] Други рани допринос биоинформатици дао је Елвин А. Кабат, који је започео са анализом биолошких секвенци 1970 са обимним издањима секвенци антитела које је објавио са Таи Те Вуом између 1980 и 1991. године.[7]

Циљеви[уреди | уреди извор]

Да би се истражило како се нормалне ћелијске активности мењају у различитим фазама обољења, биолошки подаци морају да буду комбиновани како би пружили јаснију слику о овим активностима. Стога се област биоинформатике развила тако да најзначајнији део подразумева анализу и интерпретацију различитих типова података. То укључује нуклеотиде и секвенце амино киселина, област протеина и протеинских структура.[8] Конкретан процес анализирања и интерпретације ових података сматра се информационом биологијом. Значајне области биоинформатике и информационе биологије подразумевају:

  • Развој и имплементацију компјутерских програма који омогућавају ефикасан приступ и управљање различитим типовима информација
  • Развој нових алгоритама (математичких формула) и статистичких мера којима се процењују односи између чланова великог скупа података. На пример, постоје методе за лоцирање гена унутар секвенце, да се предвиди структура протеина и/или њена функција, и да се кластер анализом класификују секвенце протеина у оквиру фамилија сродних секвенци.

Основни циљ биоинформатике је повећање разумевања биолошких процеса. Оно што је издваја од других процеса је фокус на развој и примену информатички интензивних техника за постизање тог циља. Примери укључују препознавање образаца, анализу података, машинско учење, и визуелизацију биолошких података. Фокус истраживања у овим областима укључује поравнање секвенци, предвиђање гена, геномски пројекат, дизајн лека, откривање лека, структурно поравнање протеина, предвиђање структуре протеина, предвиђање експресије гена, протеин-протеин интеракције, изучавање геномских асоцијација, моделовање еволуције и деобе ћелија - митозе.

Биоинформатика данас подразумева стварање и развој база података, алгоритама, информатичких и статистичких техника, као и теоријске основе за решавање формалних и практичних проблема који се јављају у управљању и анализи биолошких података.

Током неколико претходних деценија брз развој геномике и других технологија молекуларног истраживања као и развој информационих технологија произвео је значајну количину информација које се односе на молекуларну биологију. Биоинформатика је назив којим се описују математички и информатички приступи коришћени за потпуније разумевање биолошких процеса.

У уобичајене активности у биоинформатици спадају мапирање и анализирање ДНК и секвенци протеина, поравнање ДНК и протеинских секвенци ради њиховог поређења и израда тродимензионалних модела протеинских структура.

Сродне области[уреди | уреди извор]

Биоинформатика је научна област која је слична, али различита од биолошке компутације и компутационе биологије. Биолошка компутација користи биоинжињеринг и биологију како би изградила биологичке компјутере, док биоинформатика користи компјутере за боље разумевање биологије. Биоинформатика и компутациона биологија имају сличне циљеве и приступе, међутим разликују се у обиму: биоинформатика организује и анализира основне биолошке податке, док компутациона биологија гради теоретске моделе биолошких система, исто као што математичка биологија гради математичке моделе.

Анализирање биолошких података како би се добиле садржајне информације подразумева прављење и употребу компјутерских програма који користе алгоритме из теорије графова, вештачке интелигенције, алгоритме са слабо дефинисаним резултатима, анализе података, препознавања образаца, процесирања слика и компјутерске симулације. Ови алгоритми ослањају се на сазнања из дискретне математике, контролне теорије, системске теорије, информационе теорије и статистике.

Секвенцијална анализа[уреди | уреди извор]

Секвенце различитих гена или протеина могу да се поравнају јеДНК до друге како би се измерила њихова сличност. Ово поравнање пореди протеинску секвенцу која садржи WPP домене.

Откад је ΦX174 геном вируса секвенциран 1977 године,[9] ДНК секвенце хиљада организама су декодиране и прикупљене у базама података. Ове информационе секвенце се анализирају како би се одредили гени који кодиреју протеине, РНК гени, регулационе секвенце, структуралне карактеристике и вишеструко поновљене секвенце. Поређењем гена унутар врсте или између различитих врсти може да покаже сличности између функција протеина, или односе између врста (коришћење молекуларне филогеније ради изградње филогенетског стабла). Растом количине података одавно је постало непрактично да се ДНК секвенце анализирају ручно. Данас се рачунарски програми као што је БЛАСТ користе како би претражили секвенце више од 260.000 организама, које садрже више од 190 милијарди нуклеотида.[10] Такви програми могу да компензују мутације (измешане, обрисане или убачене основе) у ДНК секвенци, и да идентификују секвенце које су сродне, али нису идентичне. Варијанта оваквог поравнања секвенци се користи у самом процесу секвенцирања. Такозваним "шотган секвенцирањем" (које је коришћено у Ј. Крег Вентер Институту за секвенцирање првог бактеријског генома Haemophilus influenzae)[11] није могуће очитати комплетне хромозоме. Тај метод даје секвенце више хиљада малих ДНК фрагмената (од 35 до 900 нуклеотида, зависно од технологије секвенцирања). Крајеви ових фрагмената се преклапају и, када су исправно спојени програмом за поравнање генома, могу се користити за реконструкцију комплетног генома. Шотган секвенцирањем брзо се добијају секвенце података, међутим потреба за спајањем фрагмената већих генома може да буде веома компликована. За геном величине генома човека, може да буде потребно неколико дана рада на снажним мултипроцесорским компјутерима са великом меморијом за спајање фрагмената, а резултат спајања обично садржи бројне пропусте који морају да буду попуњени касније. Шотган секвенцирање је изборни метод готово свих данашњих секвенционираних генома, а алгоритми за спајање, односно предвиђање генома су критична област биоинформатичких истраживања.

Следећи смернице које је поставио пројекат људског генома након затварања 2003. године, Институт за национална истраживања људског генома је у У.С. развио нови пројекат. Такозвани ЕНЦОДЕ пројекат је колаборативни скуп података функционалних елемената људског генома који користи напредне ДНК секвенционирајуће технологије и геномске тилинг низове, технологије које су способне да аутоматски генеришу велике количине података са нижим трошковима истраживања, али уз исти квалитет и поузданост.

Следећи аспекат биоинформатике у анализи секвенци је означавање. Оно подразумева компутационо предвиђање гена како би се пронашли гени који кодирају протеине, РНК гени и остале функционалне секвенце унутар генома. Нису сви нуклеотиди у геному делови гена. У геномима виших организама велики део ДНК нема никакву очигледну функцију.

Означавање генома[уреди | уреди извор]

У контексту геномике означавање је процес обележавања гена и њихових биолошких особина у ДНК секвенци. Пожељно је да је овај процес аутоматизован јер је већина генома превелика за ручно означавање, па процес представља "уско грло" при покушају да се што више гена што пре означи. Означавање је могуће услед чињенице да гени имају препознатљиве регионе почетка и краја, иако тачна секвенца у овим регионима може да се разликује.

Први софтвер за означавање генома направио је 1995. године Овен Вајт (Owen White), док је био у тиму Ј. Крег Вентер Института за геномска истраживања, где је секвенционирао и анализирао први геном живог организма, бактрију Haemophilus influenzae.[11] Вајт је направио софтверски систем који проналази гене (делове геномске секвенце који кодирају протеине), прелазне РНК и одређује њихове основне функције. Већина тренутних система за обележавање гена функционише по сличном принципу, међутим програми који се користе за анализу генома ДНК, као што је GeneMark, програм који је коришћен за проналажење гена који кодирају протеине у поменутој бактерији константно се мењају и унапређују.

Компутациона еволуциона биологија[уреди | уреди извор]

Еволуциона биологија је област која изучава порекло и изумирање врста, као и њихову промену током времена. Информатика помаже еволуционим биолозима омогућавајући истраживачима да:

  • прате еволуцију великог броја организама мерењем промена у њиховом ДНК, уместо само кроз физичке и физиолошке опсервације,
  • пореде комплетне геноме, што дозвољава истраживање сложених еволуционих догађаја, попут дуплирања гена, хоризонталног трансфера гена и предвиђање битних фактора бактеријских специјација,
  • граде сложене компутационе моделе популација ради предвиђања исхода система током времена[12]
  • прате и деле информације о све већем броју врста и организама.

Будући кораци усмерени су ка реконструисању све комплекснијег филогенетског стабла.

Област истраживања унутар компјутерских наука која користи генетске алгоритме се некада меша са компутационом еволуционом биологијом, али ове две области не морају да буду повезане.

Компаративна геномика[уреди | уреди извор]

Основа компаративне анализе генома је утврђивање односа између гена и ортолошке анализе или других геномских особина у различитим организмима. Уз помоћ таквих, интергеномских мапа могуће је пратити еволуциони процес одговоран за разлике између два генома. Више таквих еволуционих догађаја, на разним организационим нивоима обликује еволуцију генома. На најнижем нивоу, тачкасте мутације мењају појединачне нуклеотиде. На већем нивоу, на великим сегментима хромозома јавља се дуплирање, трансфер, инверзија, транспозиција, брисање и убацивање.[13] На крају, читави геноми учествују у процесу хибридизације, полиплоидизације и ендосимбиозе, често водећи ка убрзаном раздвајању врста. Сложеност еволуције генома доноси многе узбудљиве изазове за развој математичких модела и алгоритама, широког спектра развоја алгоритма, статистичких и математичких техника у опсегу од егзактне хеуристике, фиксних параметара и апроксимационих алгоритама за проблеме засноване на штедљивим моделима до Монте Карло методе Марковог ланца за Бајесовско закључивање у анализи проблема заснованих на моделима вероватноће.

Многа од ових истраживања заснована су на хомолошкој детекцији и компутацији фамилије протеина.[14]

Пан геномика[уреди | уреди извор]

Пан геномика је концепт који су Тетелин (Tettelin) и Медини (Medini) представили 2005 године, а који је касније касније развио основу за биоинформатику. Пан геном је комплетан репертоар гена конкретне таксономске групе: иако је иницијално био примењен на еволутивно блиским родовима врсти, може да буде примењен у ширем контексту попут рода, раздела итд. Подељен је у два дела - изворни геном: сет гена заједничких за све геноме унутар истраживања (ово су обично гени кључни за опстанак организма) и променљиви/флексибилни геном: сет гена који није присутан у свим, већ у појединим или у више генома унутар истраживања.

Генетика болести[уреди | уреди извор]

Развојем напредних секвенционирајућих технологија поседујемо довољно секвенцних података, тако да можемо да мапирамо гене сложених болести као што су Шећерна болест,[15] неплодност,[16] рак дојке[17] или Алцхајмерову болест.[18] Студије асоцијације генома представљају користан приступ проналажења тачних мутација одговорних за те сложене болести.[19] Кроз ове студије идентификовано је на хиљаде ДНК варијација које су повезане са сличним болестима и предиспозицијама.[20] Штавише, вероватноћа да се гени користе при прогнозирању, дијагнози или третману болести је јеДНК од најосновнијих апликација. Многе студије истражују начине за прецизан избор одговорних гена и проблеме и странпутице коришћења гена за предвиђање или прогнозу болести.[21]

Анализа мутација у раку[уреди | уреди извор]

Код рака, геноми заражених ћелија се прераспоређују на сложене или чак непредвидљиве начине. Велики напори при секвенционисању улажу се како би се идентификовале раније непознате генске мутације у разнмим генима у раку. Биоинформатика наставља да производи специјализоване аутоматске системе за обраду обимних података који су произведени секвенционисањем података, и да направи нове алгоритме и програме који би поредили секвенционисане резултате са растућом колекцијом секвенци генома човека и герминативних полиморфоза. Развијају се нове, физичке технологије детекције, попут микронизова олигонуклеотида како би се идентификовале хромозомске предности и недостаци (тзв. компаративна хибридизација генома), и низова једнонуклеотидних полиморфизама за детекцију познатих генских мутација. Ове методе детекције истовремено мере неколико стотина хиљада области генома и када се користе са великим обухватом података за мерење хиљада семплова, генеришу терабајте података по експерименту. Огромна количина и нови типови података пружају нове шансе за биоинформатику. Често се у подацима налази значајна варијабилност, или шум, па се стога развијају скривени Марковљев модел и методе анализа са променом тачке како би верније представиле варијабилност насталих промена.

Уз напредак који развој напредних секвенционирајућих технологија обезбеђује области биоинформатике, геномика канцера могла би да се драстично промени. Нове методе и алгоритми омогућавају биоинформатичарима брзо и лако секвенционисање многих генома канцера. Ово би могло да доведе до флексибилнијег процеса за класификацију типова рака анализом мутација које су у геному настале под његовим дејством. Штавише, у будућности би вероватно било могуће индивидуално праћење стања пацијента на основу секвенци узорака рака.[22]

Други тип података који захтева значајан информатички развој је анализа лезија које се јављају при многим туморима.

Експресија гена и протеина[уреди | уреди извор]

Анализа експресије гена[уреди | уреди извор]

Експресија многих гена може да се одреди мерењем нивоа информационих РНК преко више техника, укључујући ДНК микрочип, ЕСТ секвенцирање, серијску анализу експресије гена (САГЕ), масивно паралелно секвенцирање потписа (МПСС), РНК секвенцирање, познато и као "шотган секвенцирање целог транскриптома" (WTSS) или разним апликацијама мултиплексираних хибридизација. Све ове технике су екстремно осетљиве на шумове и подложне пристрасности у биолошким мерењима, па главни истраживачки напор у компутационој биологији подразумева развој статистичких алата за одвајање сигнала од шума у обимним студијама експресије гена. Такве студије се често спроводе како би одредиле гене који имају одређену фуккцију у обољењу: може се поредити микрониз података из канцерогених епителских ћелија са подацима из неканцерогених ћелија како би се одредили делови који су кључни за одговарајућу популацију канцерогених ћелија.

Анализа експресије протеина[уреди | уреди извор]

Протеински микронизови или протеински чипови уз масену спектрометрију широког пропусног опсега могу да обезбеде снимак протеина присутних у биолошком узорку. Биоинформатика има своју улогу у разумевању протеинских микронизова и података добијених поменутим методама; такав приступ има сличне проблеме као и микронизеви који се односе на иРНК, обзиром да они подразумевају поређење великих количина обимних података са предвиђеним подацима из секвенци протеинских база података и компликоване статистичке анализе семплова где су детектовани вишеструки, али непотпуни пептиди у сваком протеину.

Анализа регулација[уреди | уреди извор]

Регулација представља сложен систем управљања догађајима почев од спољног ћелијског надражаја као што је хормон, и води ка повећању или смањењу активности једног или више протеина. Биоинформатичке технике се користе како би се испитали разни кораци у овом процесу. На пример, промотер анализа укључује идентификацију и проучавање секвенцних мотива у ДНК који окружује кодирајући регион у гену. Ови мотиви утичу на то до ког нивоа се који регион преписује у иРНК. Добијени подаци могу да се искористе како би се утицало на генетску регулацију: на пример, могуће је поређење микронизова при разним стањима организма како би се поставила хипотеза о генима укљученим у сваком стању.

Референце[уреди | уреди извор]

  1. ^ а б Hogeweg, P (2011). Searls, David B., ур. „The Roots of Bioinformatics in Theoretical Biology”. PLoS Computational Biology. 7 (3): e1002021. Bibcode:2011PLSCB...7E0020H. PMC 3068925Слободан приступ. PMID 21483479. doi:10.1371/journal.pcbi.1002021. 
  2. ^ Hesper B, Hogeweg P (1970). „Bioinformatica: een werkconcept”. 1 (6). Kameleon: 28—29. 
  3. ^ Hogeweg, P (1978). „Simulating the growth of cellular forms”. Simulation. 31 (3): 90—96. doi:10.1177/003754977803100305. 
  4. ^ Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2. 
  5. ^ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
  6. ^ Eck RV, Dayhoff MO (1966). „Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science. 152 (3720): 363—6. Bibcode:1966Sci...152..363E. PMID 17775169. doi:10.1126/science.152.3720.363. 
  7. ^ Johnson G, Wu TT (2000). „Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res. 28 (1): 214—218. PMC 102431Слободан приступ. PMID 10592229. doi:10.1093/nar/28.1.214. 
  8. ^ Attwood TK, Gisel A, Eriksson NE, Bongcam-Rudloff E (2011). „Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective”. Bioinformatics – Trends and Methodologies. InTech. Архивирано из оригинала 25. 01. 2012. г. Приступљено 2012-01-08. 
  9. ^ Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (1977). „Nucleotide sequence of bacteriophage phi X174 DNA”. Nature. 265 (5596): 687—95. Bibcode:1977Natur.265..687S. PMID 870828. doi:10.1038/265687a0. 
  10. ^ Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (2008). „GenBank”. Nucleic Acids Res. 36 (Database issue): D25—30. PMC 2238942Слободан приступ. PMID 18073190. doi:10.1093/nar/gkm929. 
  11. ^ а б Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM (1995). „Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science. 269 (5223): 496—512. Bibcode:1995Sci...269..496F. PMID 7542800. doi:10.1126/science.7542800. 
  12. ^ Carvajal-Rodríguez A (2012). „Simulation of Genes and Genomes Forward in Time”. Current Genomics. Bentham Science Publishers Ltd. 11 (1): 58—61. PMC 2851118Слободан приступ. PMID 20808525. doi:10.2174/138920210790218007. 
  13. ^ Brown, TA (2002). „Mutation, Repair and Recombination”. Genomes (2nd изд.). Manchester (UK): Oxford. 
  14. ^ Carter, N. P.; Fiegler, H.; Piper, J. (2002). „Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Wiley Subscription Services, Inc. 49 (2): 43—8. doi:10.1002/cyto.10153. 
  15. ^ Ionescu-Tîrgovişte, Constantin; Gagniuc, Paul Aurelian; Guja, Cristian. „Structural Properties of Gene Promoters Highlight More than Two Phenotypes of Diabetes”. PLOS ONE. 10 (9): e0137950. PMC 4574929Слободан приступ. PMID 26379145. doi:10.1371/journal.pone.0137950. Архивирано из оригинала 17. 11. 2015. г. Приступљено 03. 04. 2016. 
  16. ^ Aston, KI (2014). „Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology. 2 (3): 315—21. PMID 24574159. doi:10.1111/j.2047-2927.2014.00188.x. 
  17. ^ Véron A, Blein S, Cox DG (2014). „Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine. 8 (2): 287—96. PMID 24521025. doi:10.2217/bmm.13.121. 
  18. ^ Tosto G, Reitz C (2013). „Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports. 13 (10): 381. PMC 3809844Слободан приступ. PMID 23954969. doi:10.1007/s11910-013-0381-0. 
  19. ^ Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). „Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations”. Pharmacogenomics. Methods in Molecular Biology. 1015: 127—46. ISBN 978-1-62703-434-0. PMID 23824853. doi:10.1007/978-1-62703-435-7_8. 
  20. ^ Hindorff, L.A.; et al. (2009). „Potential etiologic and functional implications of genome-wide association loci for human diseases and traits.”. Proc. Natl. Acad. Sci. USA. 106: 9362—9367. PMC 2687147Слободан приступ. PMID 19474294. doi:10.1073/pnas.0903103106. 
  21. ^ Hall, L.O. (2010). „Finding the right genes for disease and prognosis prediction.”. System Science and Engineering (ICSSE),2010 International Conference: 1—2. doi:10.1109/ICSSE.2010.5551766. 
  22. ^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). „“Second-Generation Sequencing for Cancer Genome Analysis”. Ур.: Dellaire, Graham; Berman, Jason N.; Arceci, Robert J. Cancer Genomics. Boston (US): Academic Press. стр. 13—30. ISBN 9780123969675. doi:10.1016/B978-0-12-396967-5.00002-5.