Медијана (статистика)

С Википедије, слободне енциклопедије
За другу употребу, погледајте чланак Медијана.
Проналажење медијане у скуповима података са парним и непарним бројем вредности

Медијана се у теорији вероватноће и статистици описује као број који раздваја горњу половину узорка, популације или расподеле вероватноће од доње половине. Медијана коначног низа бројева се може наћи тако што се бројеви поређају по величини, и узме се средњи члан низа. Уколико постоји паран број чланова низа, медијана није јединствена, па се често узима аритметичка средина две вредности које су кандидати за медијану.

Коначан скуп података бројева[уреди | уреди извор]

Медијана коначне листе бројева је „средњи“ број, када су ти бројеви наведени по реду од најмањег до највећег.

Ако скуп података има непаран број посматрања, бира се средњи. На пример, следећа листа од седам бројева,

1, 3, 3, 6, 7, 8, 9

има медијану 6, што је четврта вредност.

Ако скуп података има паран број запажања, не постоји јасна средња вредност и медијана се обично дефинише као аритметичка средина две средње вредности.[1][2] На пример, овај скуп података од 8 бројева

1, 2, 3, 4, 5, 6, 8, 9

има средњу вредност од 4,5, односно . (У више техничком смислу, ово тумачи медијану као потпуно скраћени средњи опсег).

Генерално, са овом конвенцијом, медијана се може дефинисати на следећи начин: За скуп података од елемената, поређаних од најмањег до највећег,

ако је непарно,
ако је парно,
Поређење уобичајених просека вредности [ 1, 2, 2, 3, 4, 7, 9 ]
Тип Опис Пример Резултат
Аритметичка средина Збир вредности скупа података подељен бројем вредности: (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Медијана Средња вредност која раздваја већу и мању половину скупа података 1, 2, 2, 3, 4, 7, 9 3
Мод Најчешћа вредност у скупу података 1, 2, 2, 3, 4, 7, 9 2

Формална дефиниција[уреди | уреди извор]

Формално, медијана популације је свака вредност таква да је највише половина популације мања од предложене медијане, а највише половина већа од предложене медијане. Као што се види горе, медијане не морају да буду јединствене. Ако сваки скуп садржи мање од половине популације, онда је део популације тачно једнак јединственој медијани.

Медијана је добро дефинисана за све уређене (једнодимензионалне) податке и независна је од било које метрике удаљености. Медијана се стога може применити на класе које су рангиране, али не и нумеричке (нпр. израда средње оцене када су ученици оцењени од А до Ф), иако резултат може бити на пола пута између класа ако постоји паран број случајева.

С друге стране, геометријска медијана је дефинисана у било ком броју димензија. Сродни концепт, у коме је исход приморан да одговара члану узорка, је медоид.

Не постоји широко прихваћена стандардна нотација за медијану, али неки аутори представљају медијану променљиве x било као или као μ1/2[1], понекад и M.[3][4] У било ком од ових случајева, употреба ових или других симбола за медијану треба да буде експлицитно дефинисана када се они уводе.

Медијана је посебан случај других начина сумирања типичних вредности повезаних са статистичком дистрибуцијом: то је 2. квартал, 5. децил и 50. перцентил.

Употребе[уреди | уреди извор]

Медијана се може користити као мера локације када се придаје смањени значај екстремним вредностима, обично зато што је дистрибуција искривљена, екстремне вредности нису познате или су одступници непоуздани, тј. могу бити грешке мерења/транскрипције.

На пример, може се размотрити мултисет

1, 2, 2, 2, 3, 14.

Медијан је у овом случају 2 (као и мод), и може се посматрати као боља индикација центра од аритметичке средине од 4, која је већа од свих вредности осим једне. Међутим, широко цитирани емпиријски однос да је средња вредност померена „даље у реп“ дистрибуције од медијане генерално није тачна. Углавном се може рећи да ове две статистике не могу бити „превише удаљене”; видети § Неједнакост средње вредности и медијане у наставку.[5]

Како је медијана заснована на средњим подацима у скупу, није потребно знати вредност екстремних резултата да би се израчунала. На пример, у психолошком тесту који истражује време потребно за решавање проблема, ако мали број људи уопште није успео да реши проблем у датом времену, медијана се ипак може израчунати.[6]

Пошто је медијана једноставна за разумевање и лако се израчунава, а такође је робусна апроксимација средње вредности, она је популарна сумарна статистика у дескриптивној статистици. У овом контексту, постоји неколико избора за меру варијабилности: опсег, интерквартилни опсег, средњу апсолутну девијацију и средњу апсолутну девијацију.

У практичне сврхе, различите мере локације и дисперзије се често пореде на основу тога колико добро се одговарајуће вредности популације могу проценити из узорка података. Медијана, процењена коришћењем медијане узорка, има добра својства у овом погледу. Иако обично то није оптимално ако се претпостави дата дистрибуција популације, њена својства су увек разумно добра. На пример, поређење ефикасности кандидата за процену показује да је средња вредност узорка статистички ефикаснија када — и само када — подаци нису контаминирани подацима из дистрибуција тешког репа или из мешавина дистрибуција. Чак и тада, медијана има ефикасност од 64% у поређењу са средњом минималном варијансом (за велике нормалне узорке), из чега произилази да ће варијанса медијане бити ~50% већа од варијансе средње вредности.[7][8]

Расподеле вероватноће[уреди | уреди извор]

Геометријска визуализација мода, медијане и средње вредности произвољне функције густине вероватноће[9]

За било коју кумулативну дистрибуцију вероватноће F реалне, медијана је дефинисана као било који реалан број m који задовољава неједнакости

.

Еквивалентна фраза користи случајну променљиву X дистрибуирану према F:

Треба имати на уму да ова дефиниција не захтева да X има апсолутно континуирану дистрибуцију (која има функцију густине вероватноће ƒ), нити захтева дискретну дистрибуцију. У првом случају, неједнакости се могу надоградити на једнакост: медијана задовољава

.

Свака дистрибуција вероватноће на R има најмање једну медијану, мада у патолошким случајевима може бити више од једне медијане: ако је F константа 1/2 на интервалу (тако да је ƒ=0 тамо), онда је било која вредност тог интервала медијана.

Пример[уреди | уреди извор]

За низ бројева 1, 3, 8, 9, 10, аритметичка средина је (1+3+8+9+10)/5 = 6.2, а медијана је 8.

За низ бројева 1, 3, 5, 8, 9, 10, аритметичка средина је (1+3+5+8+9+10)/6 = 6, а медијана је (5+8)/2 = 6.5

Референце[уреди | уреди извор]

  1. ^ а б Weisstein, Eric W. „Statistical Median”. MathWorld. 
  2. ^ Simon, Laura J.; "Descriptive statistics" Архивирано 2010-07-30 на сајту Wayback Machine, Statistical Education Resource Kit, Pennsylvania State Department of Statistics
  3. ^ David J. Sheskin (27. 8. 2003). Handbook of Parametric and Nonparametric Statistical Procedures: Third Edition. CRC Press. стр. 7—. ISBN 978-1-4200-3626-8. Приступљено 25. 2. 2013. 
  4. ^ Derek Bissell (1994). Statistical Methods for Spc and Tqm. CRC Press. стр. 26—. ISBN 978-0-412-39440-9. Приступљено 25. 2. 2013. 
  5. ^ {{cite web|url=http://www.amstat.org/publications/jse/v13n2/vonhippel.html%7Ctitle=Mean, Median, and Skew: Correcting a Textbook Rule|journal=Journal of Statistics Education, v13n2 |author=Paul T. von Hippel|year=2005}
  6. ^ Robson, Colin (1994). Experiment, Design and Statistics in Psychology. Penguin. стр. 42–45. ISBN 0-14-017648-9. 
  7. ^ Williams, D. (2001). Weighing the OddsСлободан приступ ограничен дужином пробне верзије, иначе неопходна претплата. Cambridge University Press. стр. 165. ISBN 052100618X. 
  8. ^ Maindonald, John; Braun, W. John (2010-05-06). Data Analysis and Graphics Using R: An Example-Based Approach (на језику: енглески). Cambridge University Press. стр. 104. ISBN 978-1-139-48667-5. 
  9. ^ „AP Statistics Review - Density Curves and the Normal Distributions”. Архивирано из оригинала на датум 8. 4. 2015. Приступљено 16. 3. 2015. 

Литература[уреди | уреди извор]

  • Brown, George W. "On Small-Sample Estimation." The Annals of Mathematical Statistics, Vol. 18, No. 4 (Dec., 1947). стр. 582-585.
  • Erich Leo Lehmann "A General Concept of Unbiasedness" The Annals of Mathematical Statistics, Vol. 22, No. 4 (Dec., 1951). стр. 587-592.
  • Allan Birnbaum. 1961. "A Unified Theory of Estimation, I", The Annals of Mathematical Statistics, Vol. 32, No. 1 (Mar., 1961). стр. 112-135
  • van der Vaart, H. R. 1961. "Some Extensions of the Idea of Bias" The Annals of Mathematical Statistics, Vol. 32, No. 2 (Jun., 1961). стр. 436-447.
  • Pfanzagl Johann, with the assistance of R. Hamböker (1994). Parametric Statistical Theory. Walter de Gruyter. ISBN 978-3-11-01-3863-4. 
  • Stuart, Alan; Ord, Keith; Arnold, Steven [F.] (2010). Classical Inference and the Linear Model. Kendall's Advanced Theory of Statistics. 2A. Wiley. ISBN 0-4706-8924-2. .
  • Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1993). Unbiased estimators and their applications. 1: Univariate case. Dordrect: Kluwer Academic Publishers. ISBN 0-7923-2382-3. 
  • Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1996). Unbiased estimators and their applications. 2: Multivariate case. Dordrect: Kluwer Academic Publishers. ISBN 0-7923-3939-8. 
  • Klebanov, Lev [B.]; Rachev, Svetlozar [T.]; Fabozzi, Frank [J.] (2009). Robust and Non-Robust Models in Statistics. New York: Nova Scientific Publishers. ISBN 978-1-60741-768-2. 
  • Richard Arnold Johnson; Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Приступљено 10. 8. 2012. 
  • Hardy, M. (1. 3. 2003). „An Illuminating Counterexample”. American Mathematical Monthly. 110 (3): 234—238. ISSN 0002-9890. JSTOR 3647938. arXiv:math/0206006Слободан приступ. doi:10.2307/3647938. 
  • Pfanzagl, Johann (1979). „On optimal median unbiased estimators in the presence of nuisance parameters”. The Annals of Statistics. 7 (1): 187—193. doi:10.1214/aos/1176344563Слободан приступ. 
  • Brown, L. D.; Cohen, Arthur; Strawderman, W. E. (1976). „A Complete Class Theorem for Strict Monotone Likelihood Ratio With Applications”. Ann. Statist. 4 (4): 712—722. doi:10.1214/aos/1176343543Слободан приступ. 
  • Dodge, Yadolah, ур. (1987). Statistical Data Analysis Based on the L1-Norm and Related Methods. Papers from the First International Conference held at Neuchâtel, August 31–September 4, 1987. Amsterdam: North-Holland. ISBN 0-444-70273-3. 
  • Jaynes, E. T. (2007). Probability Theory : The Logic of Science. Cambridge: Cambridge Univ. Press. стр. 172. ISBN 978-0-521-59271-0. 
  • Klebanov, Lev B.; Rachev, Svetlozar T.; Fabozzi, Frank J. (2009). „Loss Functions and the Theory of Unbiased Estimation”. Robust and Non-Robust Models in Statistics. New York: Nova Scientific. ISBN 978-1-60741-768-2. 

Спољашње везе[уреди | уреди извор]