Studentov t-test

С Википедије, слободне енциклопедије


т-Тест је сваки статистички тест хипотезе у коме тестна статистика следи Студентову т-дистрибуцију под нултим хипотезама. т-Тест се обично примењује кад тестна статистика следи нормалну дистрибуцију, ако је вредност скалирајућег члана у статистици теста позната. Када је скалирајући члан непознат и замењује га процена на основу података, статистика теста (под одређеним условима) следи студентову т-дистрибуцију. Овај тест[1] се на пример може користити да се утврди да ли се средње вредности две групе података значајно разликују једна од друге.

Историја[уреди | уреди извор]

Вилијам Сили Госет, који је развио „т-статистику” и објавио је под псеудонимом „Студент”.

Вилијам Сили Госет је увео т-статистику 1908. године, док је као хемичар радио за Гинисову пивару у Даблину, Ирска. „Студент” је био његов књижевни псеудоним.[2][3][4][5]

Госет је био запослен захваљујући политици Клода Гиниса да регрутује најбоље дипломиране студенте из Оксфорда и Кембриџа да би примењивали биохемију и статистику на Гинисове индустријске процесе.[3] Госет је осмислио т-тест као економичан начин праћења квалитета стаута. Рад о т-тесту је био поднет и прихваћен у часопису Биометрика и објављен је 1908. године.[6] Политика компаније Гинис забрањивала је њеним хемичарима да објављују своја открића, па је Госет објавио свој статистички рад под псеудонимом „Студент”.

Гинис је имао политику допуштања техничком особљу да одлази на студије (тзв. „студијско одсуство”), коју је Госет користио током прва два семестра академске године 1906–1907 у Биометријској лабораторији професора Карла Пирсона на Универзитетском колеџу у Лондону.[7] Госетов идентитет тада је био познат његовим колегама статистичарима и главном уреднику Карлу Пирсону.[8]

Употребе[уреди | уреди извор]

Неки од најчешће кориштених t-тестова су:

  • Локациони тест једног узорка да ли средња вредност популације има вредност наведену нултом хипотезом.
  • Локациони тест два узорка са нултом хипотезом према којој су средње вредности две популације једнаке. Сви такви тестови се обично називају Студентовим т-тестовима, мада би строго говорећи то име требало да се употребљава само кад су варијансе две популације једнаке; облик теста који се користи када се та претпоставка одбаци понекад се назива и Велчов т-тест. Ови тестови се често називају т-тестовима „неупарених” или „независних узорака”, јер се типично примењују када се статистичке јединице два исходишна узорка који се упоређују не преклапају.[9]

Претпоставке[уреди | уреди извор]

Већина тестних статистика има форму т = З/с, где су З и с функције података. З може да буде сензитивно на алтернативну хипотезу (тј. његова магнитуда има тенденцију да буде већа када је алтернативна хипотеза тачна), док је с параметар скалирања који омогућава да се утврди дистрибуција од т. На пример, у t-тесту са једним узорком

где је X средња вредност узорка X1, X2, …, Xн, величине н, с је стандардна грешка средње вредности, је процена стандардне девијације популације, и μ је средња вредност популације.

Претпоставке на којима се темељи т-тест у његовом најједноставнијем облику су

  • X следи нормалну дистрибуцију са средњом вредности μ и варијансом σ2/н
  • с2 следи χ2 дистрибуцију са н − 1 степени слободе. Ова претпоставка је испуњена када опсервације кориштене за процену с2 потичу из нормалне дистрибуције (и независних и идентично дистрибуираних рандомних променљивих за сваку групу).
  • З и с су независни.

У т-тесту којим се пореде средње вредности две независне променљиве, следеће претпоставке требају да буду задовољене:

  • Средња вредност две упоређене популације треба да следи нормалну дистрибуцију. Под слабим претпоставкама у великим узорцима, ово произилази из централне граничне теореме.[10]
  • Ако се користи Студентова оригинална дефиниција т-теста, две популације које се упоређују треба да имају исту варијансу (на њих су применљиви и Ф-тест, Левенеов тест, Бартлетов тест или Браун-Форсајтов тест, или се графички могу процењивати коришћењем Q–Q графа). Ако су величине две групе узорака које се упоређују једнаке, Студентов оригинални т-тест је високо робустан у погледу неједнаких варијанси.[11] Велчов т-тест је неосетљив на једнакост варијанси без обзира да ли су величине узорка сличне.
  • Подаци кориштени за обављање теста треба да буду узорковани независно од две популације која се упоређују. То се генерално не може испитати из података, али ако је познато да подаци зависе од узорковања (то јест, ако су узорковани у кластерима), тада класични т-тестови који се овде разматрају могу да дају погрешне резултате.

Већина т-тестова са два узорка је робусна за све случајеве, изузев великих одступања од претпоставки.[12]

Ради тачности, т-тест и Z-тест захтевају нормалност средњих вредности узорка, а т-тест додатно захтева да варијанса узорка следи скалирану χ2 расподелу, и да средње вредности и варијанце узорака буду статистички независне. Нормалност појединачних вредности података није неопходна, ако су ови услови задовољени. Према централној граничној теореми, средње вредности умерено великих узорака су обично добра апроксимација нормалне дистрибуције, чак и ако подаци нису нормално дистрибуирани. За такве податке, дистрибуција варијансе узорка може значајно да одступа од χ2 дистрибуције. Међутим, ако је величина узорка велика, из теореме Слуцког следи да расподела варијансе узорка има мало утицаја на дистрибуцију тестне статистике.

Референце[уреди | уреди извор]

  1. ^ „рице пуритy тест”. Тхе Америцан Статистициан. 1980. 
  2. ^ Манкиеwицз, Рицхард (2004). Тхе Сторy оф Матхематицс (Папербацк изд.). Принцетон, Њ: Принцетон Университy Пресс. стр. 158. ИСБН 9780691120461. 
  3. ^ а б О'Цоннор, Јохн Ј.; Робертсон, Едмунд Ф. „Wиллиам Сеалy Госсет”. МацТутор Хисторy оф Матхематицс арцхиве. Университy оф Ст Андреwс. 
  4. ^ Фисхер Боx, Јоан (1987). „Гуиннесс, Госсет, Фисхер, анд Смалл Самплес”. Статистицал Сциенце. 2 (1): 45—52. ЈСТОР 2245613. дои:10.1214/сс/1177013437. 
  5. ^ „Архивирана копија” (ПДФ). Архивирано из оригинала (ПДФ) 16. 05. 2017. г. Приступљено 16. 08. 2019. 
  6. ^ „Тхе Пробабле Еррор оф а Меан” (ПДФ). Биометрика. 6 (1): 1—25. 1908. дои:10.1093/биомет/6.1.1. Приступљено 24. 7. 2016. 
  7. ^ Рају, Т. Н. (2005). „Wиллиам Сеалy Госсет анд Wиллиам А. Силверман: Тwо "студентс" оф сциенце”. Педиатрицс. 116 (3): 732—5. ПМИД 16140715. дои:10.1542/педс.2005-1134. 
  8. ^ Додге, Yадолах (2008). Тхе Цонцисе Енцyцлопедиа оф Статистицс. Спрингер Сциенце & Бусинесс Медиа. стр. 234—235. ИСБН 978-0-387-31742-7. 
  9. ^ Фадем, Барбара (2008). Хигх-Yиелд Бехавиорал Сциенце. Хигх-Yиелд Сериес. Хагерстоwн, MD: Липпинцотт Wиллиамс & Wилкинс. ИСБН 0-7817-8258-9. 
  10. ^ Лумлеy, Тхомас; Диехр, Паула; Емерсон, Сцотт; Цхен, Лу (мај 2002). „Тхе Импортанце оф тхе Нормалитy Ассумптион ин Ларге Публиц Хеалтх Дата Сетс”. Аннуал Ревиеw оф Публиц Хеалтх. 23 (1): 151—169. ИССН 0163-7525. дои:10.1146/аннурев.публхеалтх.23.100901.140546. 
  11. ^ Маркоwски, Царол А.; Маркоwски, Едwард П. (1990). „Цондитионс фор тхе Еффецтивенесс оф а Прелиминарy Тест оф Варианце”. Тхе Америцан Статистициан. 44 (4): 322—326. ЈСТОР 2684360. дои:10.2307/2684360. 
  12. ^ Бланд, Мартин (1995). Ан Интродуцтион то Медицал Статистицс. Оxфорд Университy Пресс. стр. 168. ИСБН 978-0-19-262428-4. 

Литература[уреди | уреди извор]

Спољашње везе[уреди | уреди извор]