Статистика

Из Википедије, слободне енциклопедије
Густина вероватноће се повећава са приближавањем очекиваној (средњој) вредности у нормалној дистрибуцији. Статистички параметри која се користе у проценама стандардизованог тестирања су приказани. Скале обухватају стандардне девијације, кумулативне проценте, перцентилне еквиваленте, Z-скорове, Т-скорове, стандардне деветке, и проценте у стандардним деветкама.
Дијаграми распршења се користе у описној статистици за приказивање уочених релација између различитих променљивих.

Статистика је област математике која се бави сакупљањем, анализом, интерпретацијом, објашњавањем и презентацијом података.[1][2] Она се примењује у широком спектру академских дисциплина, од физике до економије и социологије.

Неке од популарних дефиниција су:

  • Меријам-Вебстеров речник наводи да је статистика „грана математике која се бави сакупљањем, анализом, интерпретацијом, и презентацијом масе нумеричких података.“[3]
  • Статистичар Сер Артур Лион Боули је дефинисао статистику као „нумеричку изјаву чињеница у било којој објасти испитивања постављених у међусобну релацију.“[4]

Математички методи статистике су потекли из теорије вероватноће, из времена дописивања Пјера Ферма и Блеза Паскала (1654). Кристијан Хајгенс (1657) је дао прво познато научно третирање ове теме. Јакоб Бернули у делу Ars Conjectandi (постхумно, 1713.) и Абрам д Моавр у делу Доктрина шанси (1718) су статистику посматрали као грану математике[5] У модерно доба, рад Колмогорова је био битан за формулисање основног модела теорије вероватноће који се користи у основи статистике.

Основна подела статистике је на дескриптивну и инференцијалну..[6] Дескриптивна статистика бави се мерама централне тенденције (аритметичка средина, медијана и мод), мерама варијабилитета (распон, стандардна девијација, варијанца, интерквартилни распон, семиинтерквартилни распон и просечно одступање), као и графичким и табеларним приказивањем основних статистичких вредности. С друге стране, инференцијална статистика се односи на проверавање постављених хипотеза (нултих и афирмативних/алтернативних), уз помоћ статистичких тестова, коефицијената и њихове значајности (т-тест, анализа варијанце, хи-квадрат тест, коефицијенти асоцијације и корелације, дискриминациона анализа, Ман-Витнијев тест, Тест знака ...). У статистичком жаргону, дескриптивна статистика се назива статистиком са малим с, а инференцијална статистиком са великим С, јер је основни циљ дескриптивне статистике да понуди податке који се даље могу обрађивати уз помоћ техника инференцијалне статистике.[7]

Друга подела се односи на технике које се користе у статистици. Сагласно томе, разликује се параметријска и непараметријска статистика.[8] У случају параметријске статистике, прорачуни се темеље на нормалној (Гаусовој) дистрибуцији, док се у случају непараметријске статистике спроводе тестови који не морају подразумевати нормалност дистрибуције података којима располажемо. Примери прве групе техника су: сложена анализа варијансе, Пирсонов продукат - коефицијент корелације, аритметичка средина, стандардна девијација ... Примери за другу групу техника су: Спирманов коефицијент корелације, хи-квадратни тест, Крускал-Валисов тест, медијана, модуо и сл.

Статистика је неодвојива од теорије вјероватноће, која представља скуп математичких модела за описивање односа између остварених догађаја (исхода) и могућих догађаја. Најважнији концепт теорије вјероватноће који има широку примену у статистици је нормална расподела. Стандардна нормална расподела има аритметичку средину М = 0 и стандардну девијацију која износи СД = 1. Удаљеност неког резултата (податка) од аритметичке средине, у јединицама стандардне девијације, представља тзв. z-вредност. Уколико је z-вредност виша од нуле, резултат се налази изнад аритметичке средине. У супротном, дати резултат пада испод просека.

Како би се применила нека од статистичких техника/процедура, потребно је прво поставити адекватну хипотезу. Хипотезе могу бити нулте (где се не претпоставља разлика између две или више група испитаника или се не претпоставља да ће корелација између неколико варијабли бити статистички значајна). Такође, постоје и афирмативне хипотезе, којима се претпоставља нека статистички значајна разлика или повезаност.[9]

Примери за нулте хипотезе су:

  • Нема статистички значајних сполних разлика у ставовима према еутаназији.
  • Не очекује се статистички значајна корелација између телесне масе и интелигенције.

Примери за афирмативне хипотезе су:

  • Постоје статистички значајне добне разлике у времену реакције на презентиране стимулусе.
  • Постоји статистички значајна повезаност између алкохолизма и импотенције код мушкараца.

Делокруг[уреди]

Статистика је математичко тело науке које се бави сакупљањем, анализом, интерпретацијом или објашњавањем, и представљањем података.[10] Она се може сматрати граном математике.[11] Неки сматрају да је статистика засебна математичка наука, пре него грана математике. За разлику од многих научних дисциплина које користе податаке, статистика се бави употребом података у контексту неизвесности и одлучивањем у светлу вероватноће.[12][13]

Математичка статистика[уреди]

Математичка статистика је примена математике на статистику. Математичке технике које се за то користе обухватају математичку анализу, линеарну алгебру, стохастичку анализу, диференцијалне једначине, и теорију вероватноће.[14][15]

Преглед[уреди]

При примени статистике на проблем, уобичајена је пракса да се почне са популацијом или процесом који се студира. Популације могу да буду разноврсне теме као што су „све особе која живе у земљи“ или „сваки атом од кога се састоји кристал“.

Идеално, статистичари прикупе податке о целокупној популацији (операција звана попис). То може да буде организовано посредством државних статистичких завода. Описна статистика се може користити за сумирање података о становништву. Нумерички дескриптори обухватају средњу вредност и стандардну девијацију за континуиране податке (попут зараде), док су фреквенција и проценти кориснији при описивању категоричких података (попут расе).

Кад је попис могућ, изучава се изабрани подскуп популације који се назива узорак. Након одређивања репрезантивног узорка, подаци се прикупљају за чланове узорка у опсервационом или експерименталном окуржењу. Описна статистика се може користити за сумирање података датих узорака. Пошто селекција узорака садржи елемент случајности, утврђени нумерички дескриптори узорка су исто тако подложни случајности. Да би се произвели смислени закључци о целокупној популацији, неопходна је примена статистичког закључивања. Користе се патерни у подацима узорка да би се извели закљуци о представљеној популацији, узимајучи у обзир случајност. Ти закључци могу да поприме облик: одговарања на „да/не питања“ о подацима (тестирање хипотезе), процењивање нумеричких карактеристика података (естимација), описивање асоцијација у подацима (корелација) и моделовање релација у подацима (на пример, користећи регресиону анализу). Извођење закључака може да обухвата прогнозирање, предвиђање и процењивање неуочених вредности било унутар или повезаних са студираном популацијом; то може да укључује екстраполацију и интерполацију временских серија или просторних података, а може да обухвата и анализу података.

Статистика као примењена наука[уреди]

Неки примери кориштења статистике:[16][17]

  • испитивања гласача пре/у току избора
  • испитивање људи уопштено о било којој теми
  • вођење статистике у производњи процесора, утврђивање постотка исправних процесора (принос)
  • вођење статистике у производњи, пре и после сваке контроле
  • примењена статистика на подручју биомедицинских наука (биостатистика)[18][19][20]
  • примењена статистика у подручју геонауке, одн. просторна статистика или геостатистика[21][22]
  • биомедицинска статистика (количник ризика, однос шанси, ROC криве, мере асоцијације)

Психолошка статистика је математичко-методолошко испитивање и проучавање индивидуалних разлика у: личности, мотивацији, интелигенцији, ставовима, вредностима, интересовањима, емоцијама. Такође, проверавају се корелације између различитих варијабли, те допринос скупа (сета) варијабли (познатих под називом предиктори) једној критеријској варијабли (која је исход, последица, односно нека мера понашања или мишљења која је битна нпр. у послу, на факултету). Примери предиктора су: генерална интелигенција, мотивација и радне навике, а пример критерија је школски или академски успех на крају године.

Биомедицинска статистика је област која обухвата примену статистике у клиничким медицинским наукама, као и у биологији. Најчешћа примена у оквиру ове области је у експерименталним истраживањима, где се треба утврдити деловање неког лека или терапије, на начин да се упореде експериментална и контролна група. Ако је разлика између њих статистички значајна, онда та разлика заиста и постоји, а није резултат случаја.

Логичке грешке при употреби статистике[уреди]

Најчешћа логичка грешка је нерепрезентативан узорак при испитивању. Само испитивање може бити социолошки изведено савршено (испитаници попуњавају упутник неометани и анонимно), математичка анализа је изведена без грешака (зброј свих избора даје 100%, не мање или више, што се такође може догодити), међутим резултати ипак немају превише везе с реалношћу.

Узорак може бити нерепрезентативан из више разлога:

  • премали број испитаника
  • испитаници само једног пола
  • испитаници само одређеног доба
  • испитаници само одређеног социјалног статуса (класе, етничке групе и сл.

Још неке важне грешке приликом кориштења статистике су[23]:

  • погрешно уношење података у статистички програм, током прављења базе података (прескакање/изостављање података или дупло навођење неких од прикупљених података услед брзине куцања, несмотрености и сл)
  • погрешна употреба статистичких техника (нпр. кориштење непараметријских техника уместо параметријских)
  • погрешно приказивање података (неки графикони нису погодни за све врсте приказа/сумирања података/резултата)
  • неадекватна интерпретација података (услед незнања или необраћања пажње на методолошка ограничења одређеног истраживања)
  • претеривање у навођењу статистичких показатеља или изостављање битних показатеља (нпр. корелацијске матрице са превеликим бројем података, које отежавају разумевање и смањују прегледност статистичког приказа или изостављање индикатора као што су интервали поузданости, величина ефекта, статистичка значајност и слично).

Резултати добијени ваљаном анализом нерепрезентативног узорка су неваљани, као и они добијени неваљаном анализом репрезентативног узорка.

Историја статистичке науке[уреди]

Ђироламо Кардано, најранији пионир у области математичке вероватноће.

Статистички методи датирају још из 5. века п. н. е.[24]

Неки научници сматрају да статистика води порекло из 1663. године, из публикације Природне и политичке опсервације о записима о морталитету аутора Џона Гранта.[25] Ране примене статистичих размишљања су биле концентисане око потребе држава да базирају законе на демографским и привредним подацима. Опсег статистичке дисциплине је проширен у раном 19. веку тако да је обухватао опште сакупљање и анализу података. У данашње време, статистика је у широкој примени у друштвеним, економским, и природним наукама.

Њене математичке основе су положене у 17. веку са развојом теорије вероватноће, чему су знатно допринели Ђироламо Кардано, Блез Паскал и Пјер де Ферма. Математичка теорија вероватноће је поникла из изучавања игара на срећу, мада је концепт вероватноће био већ испитиван у средњовековним законима и од стране филозофа попут Хуана Карамуела.[26] Метод најмањих квадрата је приви описао Адријен-Мари Лежандр 1805. године.

Карл Пирсон, оснивач математичке статистике.

Модерна област статистике се појавила у касном 19. и раном 20. веку у три ступња.[27] Први талас, на прелазу века, је био вођен радом Френсиса Галтона и Карла Пирсона, који су трансформисали статистику у ригорозну математичку дисциплину која се користи за анализу, не само у науци, већи и у индустрији и политици. Галтонови доприноси обухватају увођење концепата стандардне девијације, корелације, регресионе анализе и примена тих метода у изучавању разних људских карактеристика – висине, тежине, дужине трепавица, између осталог.[28] Пирсон је развио Пирсонов продуктно-моментни коефицијент корелације, дефинисан као продукт-момент,[29] метод момента за одређивање дистрибуције узорака и Пирсонову дистрибуцију, а направио је и низ других доприноса.[30] Галтон и Пирсон су засновали часопис Biometrika, као први часопис за математичку статистику и биостатистику (која се у то време звала биометрија), и Пирсон је касније основао први универзитетски статистички департман на свету при Лондонском универзитетском колеџу.[31]

Роналд Фишер је формулисао термин нулте хипотезе у контексту експеримента дегустације чаја, која „никад није доказана или установљена, али ју је могуће оповргнути, у току експеримената“.[32][33]

Други талас је током 1910-тих их 20-тих иницирао Вилијам Госет, и достигао је своју кулминацију у увидима Роналда Фишера, који је написао уџбенике који су дифинисали ову академску дисциплину на универзитетима широм света. Фишерове најзачајније публикације су биле: његов семинални чланак из 1918. године Корелација између рођака по предпоставци Меделовског наслеђивања, у коме је први пут кориштен статистички термин, варијанса, његов класични рад из 1925. године Статистички методи за истраживаче и рад из 1935. Дизајн експеримената,[34][35][36][37] у коме је развио ригорозне моделе експерименталног дизајна. Он је произвео концепте довољности, Фишеровог линеарног дискриминатора и Фишерове информације.[38] У његовој књизи из 1930. године Генетичка теорија природне селекције он је применио статистику на разне биолошке концепте као што је Фишеров принцип[39]. А. В. Ф. Едвардс је изјавио да је то „вероватно најпознатија расправа у еволуционој биологији“.[39] Фишер је исто тако разматрао полну селекцију, тзв Фишерову писту,[40][41][42][43][44][45] концепт полне селекције условљене позитивном повратном спрегом ефекта физичког изгледа, који је присутан у еволуцији.

Крајњи талас, у којем је углавном дошло до рафинације ранијих развоја, је проистекао из колаборације између Ергона Пирсона и Џерзи Нејмана током 1930-тих. Они су увели концепте грешке „Типа II“, степена теста и интервала поверења. Џерзи Нејман је 1934. показао да је узимање стратификованих случајних узорака генерално бољи метод процене од наменског (квотног) узимања узорака.[46]

У данашње време се статистички методи промењују у свим пољима у којима се доносе одлуке, ради извођења прецизних закључака из сакупљених података и ради доношења одлука имајући у виду неизвесност на бази статистичке методологије. Примена модерних рачунара је омогућила ивођење статистичких прорачуна великих размера, као и развој нових метода које не би било практично спроводити ручним путем. Статистика је и даље област активних истраживања, на пример на проблемима анализе великих количина комплексних података.[47]

Референце[уреди]

  1. Dodge, Y. The Oxford Dictionary of Statistical Terms, OUP. 2006. ISBN 0-19-920613-9.
  2. Romijn, Jan-Willem (2014). „Philosophy of statistics”. Stanford Encyclopedia of Philosophy. 
  3. „Definition of STATISTICS”. www.merriam-webster.com. Приступљено 28. 5. 2016. 
  4. „Essay on Statistics: Meaning and Definition of Statistics”. Economics Discussion (на језику: енглески). 2. 12. 2014. Приступљено 28. 5. 2016. 
  5. Види дело The Emergence of Probability Ијана Хакинга за историју раног развоја самог концепта математичке вероватноће.
  6. Lund Research Ltd. „Descriptive and Inferential Statistics”. statistics.laerd.com. Приступљено 23. 3. 2014. 
  7. Devlin, K. & Lorden, G. (2007). The numbers behind NUMB3RS: Solving crime with mathematics. New York: Penguin Group.
  8. Petz, B. (2004). Osnovne statističke metode za nematematičare (peto izdanje). Jastrebarsko: Naklada Slap.
  9. „What Is the Difference Between Type I and Type II Hypothesis Testing Errors?”. About.com Education. Приступљено 27. 11. 2015. 
  10. Moses, Lincoln E. Think and Explain with Statistics, Addison-Wesley. 1973. ISBN 978-0-201-15619-5. стр. 1–3.
  11. Hays, William Lee. Statistics for the Social Sciences, Holt, Rinehart and Winston, p.xii. 1973. ISBN 978-0-03-077945-9.
  12. Moore (1992). стр. 14–25.
  13. Chance, Beth L.; Rossman, Allan J. (2005). „Preface”. Investigating Statistical Concepts, Applications, and Methods (PDF). Duxbury Press. ISBN 978-0-495-05064-3. 
  14. Lakshmikantham (2002). D. Kannan V., ур. Handbook of stochastic analysis and applications. New York: M. Dekker. ISBN 0-8247-0660-9. 
  15. Schervish, Mark J. (1995). Theory of statistics (Corr. 2nd print. изд.). New York: Springer. ISBN 0-387-94546-6. 
  16. Nikoletseas, M. M. "Statistics: Concepts and Examples.". 2014. ISBN 978-1500815684.
  17. Anderson, D.R.; Sweeney, D.J.; Williams, T.A. Introduction to Statistics: Concepts and Applications. West Group. 1994. ISBN 978-0-314-03309-3. стр. 5–9.
  18. Abhaya Indrayan (2012). Medical Biostatistics. CRC Press. ISBN 978-1-4398-8414-0. 
  19. Ewens, Warren J.; Grant, Gregory R. (2004). Statistical Methods in Bioinformatics: An Introduction. Springer. 
  20. Dehmer, Matthias; Frank Emmert-Streib; Graber, Armin; Salvador, Armindo (2011). Applied Statistics for Network Biology: Methods in Systems Biology. Wiley-Blackwell. ISBN 3-527-32750-9. 
  21. Isaaks, E. H. and Srivastava, R. M. (1989), An Introduction to Applied Geostatistics, Oxford University Press, New York, USA.
  22. Mariethoz, Gregoire, Caers, Jef (2014). Multiple-point geostatistics: modeling with training images. Wiley-Blackwell, Chichester, UK, 364 p.
  23. Repišti, S. (2015). Some common mistakes of data analysis, their interpretation, and presentation in biomedical sciences. IMO, 7(12), 37-46.
  24. Thucydides (1985). History of the Peloponnesian War. New York: Penguin Books, Ltd. стр. 204. 
  25. Willcox, Walter (1938) "The Founder of Statistics". Review of the International Statistical Institute 5(4):321–328. jstor 1400906
  26. J. Franklin, The Science of Conjecture: Evidence and Probability before Pascal,Johns Hopkins Univ Pr 2002
  27. Helen Mary Walker. Studies in the history of statistical method. Arno Press. 
  28. Galton, F (1877). „Typical laws of heredity”. Nature. 15: 492—553. doi:10.1038/015492a0. 
  29. Stigler, S. M. (1989). „Francis Galton's Account of the Invention of Correlation”. Statistical Science. 4 (2): 73—79. doi:10.1214/ss/1177012580. 
  30. Pearson, K. (1900). „On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling”. Philosophical Magazine Series 5. 50 (302): 157—175. doi:10.1080/14786440009463897. 
  31. „Karl Pearson (1857–1936)”. Department of Statistical Science – University College London. 1975. 
  32. Fisher|1971|loc=Chapter II. The Principles of Experimentation, Illustrated by a Psycho-physical Experiment, Section 8. The Null Hypothesis
  33. OED quote: 1935 R. A. Fisher, The Design of Experiments ii. 19, "We may speak of this hypothesis as the 'null hypothesis', and it should be noted that the null hypothesis is never proved or established, but is possibly disproved, in the course of experimentation."
  34. Stanley, J. C. (1966). „The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later”. American Educational Research Journal. 3 (3): 223. doi:10.3102/00028312003003223. 
  35. Box, JF (1980). „R. A. Fisher and the Design of Experiments, 1922-1926”. The American Statistician. 34 (1): 1—7. JSTOR 2682986. doi:10.2307/2682986. 
  36. Yates, F (1964). „Sir Ronald Fisher and the Design of Experiments”. Biometrics. 20 (2): 307—321. JSTOR 2528399. doi:10.2307/2528399. 
  37. Stanley, Julian C. (1966). „The Influence of Fisher's "The Design of Experiments" on Educational Research Thirty Years Later”. American Educational Research Journal. 3 (3): 223—229. JSTOR 1161806. doi:10.3102/00028312003003223. 
  38. Agresti, Alan; Hichcock, David B. (2005). „Bayesian Inference for Categorical Data Analysis” (PDF). Statistical Methods & Applications. 14 (14): 298. doi:10.1007/s10260-005-0121-y. 
  39. 39,0 39,1 Edwards, A.W.F. (1998). „Natural Selection and the Sex Ratio: Fisher's Sources”. American Naturalist. 151 (6): 564—569. PMID 18811377. doi:10.1086/286141. 
  40. Fisher, R.A. (1915) The evolution of sexual preference. Eugenics Review (7) 184:192
  41. Fisher, R.A. The Genetical Theory of Natural Selection. 1930. ISBN 0-19-850440-3.
  42. Edwards, A.W.F. (2000) Perspectives: Anecdotal, Historial and Critical Commentaries on Genetics. The Genetics Society of America (154) 1419:1426
  43. Andersson, M. Sexual selection. 1994. ISBN 0-691-00057-3.
  44. Andersson, M. and Simmons, L.W. (2006) Sexual selection and mate choice. Trends, Ecology and Evolution (21) 296:302
  45. Gayon, J. (2010) Sexual selection: Another Darwinian process. Comptes Rendus Biologies (333) 134:144
  46. Neyman, J (1934). „On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection”. Journal of the Royal Statistical Society. 97 (4): 557—625. JSTOR 2342192. 
  47. „Science in a Complex World - Big Data: Opportunity or Threat?”. Santa Fe Institute. 

Литература[уреди]

Спољашње везе[уреди]