Пређи на садржај

Пристрасност узорковања

С Википедије, слободне енциклопедије

У статистици, до пристрасности узорковања (енгл. Самплинг биас) долази када сви чланови популације немају исту вероватноћу да уђу у узорак.[1][2] Ако се приликом статистичког закључивања то не узме у обзир, могу се добити погрешни резултати и феномену који се проучава приписати особине које он заправо нема, а који потичу услед методе узорковања.

Разлика у односу на пристрасност избора

[уреди | уреди извор]

Пристрасност узорковања се обично класификује као подврста пристрасности избора[3], мада је неки посматрају одвојено. Разлика (која није опште прихваћена) лежи у томе што пристрасност узорковања подрива спољну ваљаност закључака (односно уопштавање са узорка на читаву популацију), док се пристрасност избора углавном тиче унутрашње ваљаности. У том смислу, до пристрасности узорковања долази услед грешака у састављању узорка, док до пристрасности избора долази услед грешака у даљем току истраживања.

Међутим, ова два појма се често користе као синоними.[4]

Историјски примери

[уреди | уреди извор]

Класичан пример пристрасног узорковања и обамањујућих резултата који су настали догодио се 1936. У првим данима испитивања јавног мњења, часопис Америцан Литерарy Дигест је прикупио преко два милиона поштанских анкета и предвидео да ће републикански кандидат на америчким председничким изборима Алф Ландон победити тадашњег председника Френклина Рузвелта са великом разликом, док је резултат био супротан. Истраживање овог часописа представљао је узорак прикупљен од стране читалаца истог, допуњен евиденцијом регистрованих власника аутомобила и корисника телефона. Овај узорак обухватио је прекомерену заступљеност богатих појединаца који су као група имали већу вероватноћу да гласају за републиканског кандидата. Супротно овоме, анкета од само 50 хиљада грађанина Џорџа Галупа је успешно предвидела резултат, што је довело до популарности његове анкете.

Јос један класичан пример догодио се на председничким изборима 1948 године. У изборној ноћи Цхицаго Трибуне штампао је наслов "ДЕWЕY ДЕФЕАТС ТРУМАН"[5], који се испоставио да је нетачан. Ујутру се изабрани председник Хари Труман фотографисао како држи новине са овим насловом. Разлог за ову грешку је то што је уредник ових новина веровао резултатима телефонских анкета. Анкетно истраживање је тада било у развоју, па је мало академика схватило да овај узорак није репрезентативан за општу популацију. Телефони још увек нису били широко распрострањени. Поред тога анкета на којој је Цхицаго Трибуне засновао свој наслов била је стара више од две недеље у време штампања.[6]

Новији пример је пандемија корона вируса ЦОВИД-19, где се показало да варијације у пристрасности узорака у тестирању на ЦОВИД-19 објашњавају велике разлике у стопама смртности и старосној расподели по земљама.

  • Избор специфичног оквира - Узорковани су само одређени чланови. Није покривена шира површина испитивања. Пример: О мишљењу одређене политичке партије испитани су људи у парку понедељком у 10 ујутру. Просечна старост испитаника је била 57 година. То је зато што је млађа популација била или у школи или на послу и нису могли да учествују у анкетирању.
  • Пристрасност само-селекције - Ова грешка се појављује када год чланови могу да бирају да ли хоће или неће да учествују. Ово може довести до тога да се изјашњавају људи који имају радикалније(јаке) ставове па да буду имају већи удео у испитивању него сто је то у стварности. Ово се често дешава када су у питању онлине анкете, или анкете преко телефона. Пример: У анкети за везаној глобално загревање, људи који мисле да је то светска завера су представљали 1/3 испитаника. То је због тога што остатак популације или није хтео да се изјасни или то нису сматрали сврсисходно.
  • Пристрасност на основу здравља - Пример: Неко ко је дијабетичар има смањену физичку активност.
  • Берксонов парадокс - Пример: Претпоставимо да колекционар има 1000 поштанских маркица, од којих је 300 лепих и 100 ретких, а 30 и лепих и ретких. 10% свих његових маркица је ретко, а 10% лепих маркица су и ретке, тако да лепота не говори ништа о реткости. Изложио је 370 маркица које су лепе или ретке. Нешто више од 27% изложених маркица је ретко (100/370), али ипак је само 10% лепих маркица ретко (а 100% од 70 нелепих маркица на изложби су ретке). Ако посматрач узима у обзир само изложене маркице, приметиће лажни негативни однос између лепоте и реткости као резултат пристрасности избора (то јест, непривлачност снажно указује на реткост на приказу, али не и у целој колекцији).
  • Прекомерно подударање - Контролна група постаје сличнија случајевима у погледу изложености него општа популација.
  • Пристрасност опстанка - У обзир су узете само пстојеће ставке, а оне које више не постоје су изузете. Пример: О тренутној економској ситуацији су испитане само фирме које су преживеле кризу, а оне угашене су изопштене из испитивања.
  • Малмкистова пристрасност - Ефекат у посматрачкој астрономији који доводи до откривања суштински светлих објеката.
  • Узорковања базирано на симптомима - Пример: Дете које не показује задовољавајуће резултате у школи има веће шансе да буде проглашено дислексичним. Исто то дете има веће шансе да буде тестирано и дијагностиковано другим поремећајима.
  • Ефекат пећинског човека - Многи остаци наших предака су проналажени у пећинама. Да ли то значи да су они живели само у пећинама. Одговор је не. Већ су пећине погодне зе презервацију ових остатака. Пример: Слике наших предака које смо налазили по пећинама. Можда су они сликали и по дрвећуи стенама, али је то дрвеће иструрило или је киша спрала цртеже са стена.

Скраћени избор приликом истраживања наследних карактеристика

[уреди | уреди извор]

Генетичари су ограничени у начину на који могу добити податке везане за људску популацију. Као пример узмите људску особину. Занима нас да ли се карактеристика наслеђује као по Менделовим законима. По Менделовим законима, ако родитељи у породици немају карактеристику, али носе алел за њу, они су носиоци. У овом случају њихова деца ће имати 25% шансе да покажу карактеристике.

Проблем настаје јер не можемо рећи које породице имају оба родитеља као носиоце (хетерозиготне) ако немају дете које показује карактеристике.

На слици су приказани родослови свих могућих породица са двоје деце када су родитељи носиоци (Аа).



  • Непрекидан избор - У савршеном свету требали бисмо бити у могућности да откријемо све такве породице са геном, укључујући и оне који су једноставно носиоци. У овој ситуацији анализа не би била пристрасна у утврђивању, а родослови би били под „континалним одабиром“. У пракси већина студија идентификује и укључује породице у студију засновану на њима које су имале погођене појединце.
  • Скраћени избор - Када погођене особе имају једнаке шансе да буду укључене у студију, то се назива скраћеним избором, што значи нехотично искључивање породица које су носиоци гена. Будући да се избор врши на индивидуалном нивоу, породице са двоје или више оболеле деце имале би већу вероватноћу да буду укључени у истраживање.
  • Комплетно скраћени избор - посебан случај када свака породица са погођеним дететом има једнаке шансе да буде изабрана за потребе истраживања.

Вероватноће сваке породице која је изабрана дате су на слици, а дата је и учесталост узорка погођене деце. У овом једноставном случају, истраживач ће тражити фреквенцију од 4/7 или 5/8 за карактеристику, у зависности од врсте коришћене селекције.

Проблеми

[уреди | уреди извор]

Пристрасност узорковања мозе довести до превеликог или премалог удела неког параметра у оквиру истразивања. Наравно, ако је овај проблем минимализован онда се узорак може узети као претпоставка или чак веродостојан.

Реч пристрасност, само по себи носи негативну конотацију. Наравно, понекад се ова метода користи за добијање одређених "научних" резултата које одговарају истраживачу и које потврђују његове хипотезе. Али, када причамо о статистици ово је само још један математички параметар, нема везе да ли је уведен са намером или случајно.

Пример са загађењем ваздуха

[уреди | уреди извор]

У подацима о квалитету ваздуха, загађивачи (као што су угљен моноксид, азот моноксид, азот диоксид или озон) често показују високе корелације, јер потичу од истих хемијских процеса. Ове корелације зависе од простора и времена. Стога дистрибуција загађивача није нужно репрезентативна за сваку локацију и сваки преиод. Ако се јефтини мерни инструмент калабрише са теренским подацима на мултиваријантан начин, тачније колокацијом поред референтног инструмента, однос између различитх једињења закључују се у модел калибрације. Премештањем мерног инструмента могу се добити погрешни резултати.

Корекција

[уреди | уреди извор]

Ако је цела популација изопштена из набавке узорака онда нема тог метода који може да помогне. Али ако су неке групе пренаглашени или недовољно наглашене у узорцима, и ако то може да се некако квантификује онда можемо да доделимо "тежину" одређеним узорцима. Ово наравно није најбоље решење, боље би било да поново прикупимо узорке, али да све групе буду представљене узимајучи у обзир њихов удео у популацији.

На пример, хипотетичка популација може обухватати 10 милиона мушкараца и 10 милиона жена. Претпоставимо да је пристрасни узорак од 100 пацијената обухваћао 20 мушкараца и 80 жена. Истраживач би могао исправити ову неравнотежу додавањем "тежине" од 2,5 за сваког мушкарца и 0,625 за сваку жену. Ово би прилагодило све процене, па би се постигла иста очекивана вредност као и узорак који је обухватио тачно 50 мушкараца и 50 жена, осим ако се мушкарци и жене не разликују у вероватноћи да учествују у истраживању.

Референце

[уреди | уреди извор]
  1. ^ „Самплинг Биас -- Медицал Дефинитион”. wеб.арцхиве.орг. 2016-03-10. Архивирано из оригинала 10. 03. 2016. г. Приступљено 2021-04-20. 
  2. ^ „Сампле биас”. ТхеФрееДицтионарy.цом. Приступљено 2021-04-20. 
  3. ^ „Селецтион Биас дефинитион”. wеб.арцхиве.орг. 2009-06-09. Архивирано из оригинала 09. 06. 2009. г. Приступљено 2021-04-20. 
  4. ^ Wаллаце, Роберт Б. (2007-10-12). Маxеy-Росенау-Ласт Публиц Хеалтх анд Превентиве Медицине: Фифтеентх Едитион (на језику: енглески). МцГраw Хилл Профессионал. ИСБН 978-0-07-159318-2. 
  5. ^ Wендт, Ллоyд (1979). Цхицаго трибуне : тхе рисе оф а греат Америцан неwспапер. Интернет Арцхиве. Цхицаго : Ранд МцНаллy. ИСБН 978-0-528-81826-4. 
  6. ^ „Но. 1199: Галлуп Полл”. www.ух.еду. Приступљено 2021-04-20.