Поасонова регресија

С Википедије, слободне енциклопедије

У статистици, Поасонова регресија је генерализовани линеарни модел форме регресионе анализе који се користи за моделирање података о бројању и табела контингентности. Поасонова регресија претпоставља да одговор променљиве Y има Поасоновау расподелу и претпоставља да се логаритам њене очекиване вредности може моделовати линеарном комбинацијом непознатих параметара. Модел Поасонове регресије је понекад познат као лог-линеарни модел, посебно када се користи за моделирање табела непредвиђених околности.

Негативна биномна регресија је популарна генерализација Поасонове регресије јер олакшава веома рестриктивну претпоставку да је варијанса једнака средњој вредности коју даје Поасонов модел. Традиционални модел негативне биномне регресије, познатији као NB2, заснива се на Поасоно-гама расподели смеше. Овај модел је популаран јер моделира Поасонову хетерогеност са гама расподелом.

Модели Поасонове регресије су генерализовани линеарни модели са логаритмом као (канонском) функцијом везе и функцијом Поасонове расподеле као претпостављеном дистрибуцијом вероватноће одговора.

Регресиони модели[уреди | уреди извор]

Ако је вектор независних променљивих, тада модел поприма облик:

где је и . Понекад је ово написано компактније као:

где је x сада ( n + 1)-димензионални вектор који се састоји од n независних променљивих повезаних са бројем један. Овде је θ једноставно α повезано са β.

Дакле, када је дат модел Поасонове регресије θ и улазни вектор x, предвиђена средина придружене Поасонове дистрибуције је дата са:

Ако су Yi независна посматрања са одговарајућим вредностима xi променљивих предиктора, онда се θ може проценити максималном вероватноћом. Проценама максималне вероватноће недостаје израз затвореног облика и мора се пронаћи нумеричким методама. Површина вероватноће за Посонову регресију максималне вероватноће је увек конкавна, што чини Њутн-Рафсоновим или друге методе заснованим на градијенту одговарајућим техникама процене.

Процена параметара заснована на максималној вероватноћи[уреди | уреди извор]

С обзиром на скуп параметара θ и улазни вектор x, средња вредност предвиђене Поасонове расподеле, као што је горе наведено, је дата са

и према томе, функција масе вероватноће Паосонове расподеле је дата са:

Претпоставимо сада да нам је дат скуп података који се састоји од m вектора , заједно са скупом од m вредности . Затим, за дати скуп параметара θ, вероватноћа постизања овог одређеног скупа података је дата са

Методом максималне вероватноће желимо да пронађемо скуп параметара θ који ову вероватноћу чини што већом. Да би се то урадило, једначина се прво преписује као функција вероватноће у терминима θ :

Имајте на уму да се израз на десној страни заправо није променио. Формулом у овом облику је обично тешко упростити; уместо тога, користи се лог-вероватноћа :

Обратите пажњу да се параметри θ појављују само у прва два члана сваког члана у сумирању. Према томе, с обзиром да нас занима само проналажење најбоље вредности за θ, можемо одбацити yi! и једноставно писати

Да бисмо пронашли максимум, морамо да решимо једначину која нема решење затвореног облика. Међутим, негативна лог вероватноћа, , је конвексна функција, тако да се стандардне технике конвексне оптимизације, као што је градијентни спуст, могу применити да би се пронашла оптимална вредност θ.

Поасонова регресија у пракси[уреди | уреди извор]

Поасонова регресија може бити прикладна када је зависна променљива број, на пример, догађаји као што је долазак телефонског позива у позивни центар. [1] Догађаји морају бити независни у смислу да долазак једног позива неће учинити други мање или више вероватним, али се подразумева да је вероватноћа по јединици времена догађаја повезана са коваријантама као што је доба дана.

„Излагање” и померај[уреди | уреди извор]

Посоноваа регресија такође може бити прикладна за податке о стопи, где је стопа број догађаја подељен неком мером изложености те јединице (одређена јединица посматрања). На пример, биолози могу да преброје број врста дрвећа у шуми: догађај би био посматрање дрвећа, изложеност би била јединица површине, а стопа би била број врста по јединици површине. Демографи могу моделирати стопе смртности у географским областима као број умрлих подељен са бројем особа-година. Уопштеније, стопе догађаја се могу израчунати као догађаји по јединици времена, што омогућава да се прозор посматрања разликује за сваку јединицу. У овим примерима, изложеност је јединица површине, особа-година и јединица времена. У Поасоновој регресији ово се обрађује као помак, где променљива изложености улази на десну страну једначине, али са проценом параметра (за log(експозицију)) ограниченом на 1.

што имплицира:

Помак у случају GLM-а у R може се постићи коришћењем функције offset() :

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Прекомерна дисперзија и нулта инфлација[уреди | уреди извор]

Карактеристика Поасонове расподеле је да је њена средња вредност једнака њеној варијанси. У одређеним околностима ће се наћи да је посматрана варијанса већа од средње вредности; ово је познато као превелика дисперзија и указује да модел није одговарајући. Чест разлог је изостављање релевантних објашњавајућих променљивих или зависних запажања. Под неким околностима, проблем превелике дисперзије се може решити коришћењем процене квази вероватноће или негативне биномне расподеле. [2] [3]

Вер Хојф и Боувенг су описали разлику између квази-Поасонове (такође назване прекомерна дисперзија са квази-вероватноћом) и негативног бинома (еквивалентног гама-Поасону) на следећи начин: Ако је E(Y) = μ, квази-Поасонов модел претпоставља var(Y) = θμ док гама-Поасон претпоставља var(Y) = μ(1 + κμ), где је θ параметар квази-Поасонове прекомерне дисперзије, а κ параметар облика негативне биномне расподеле. За оба модела, параметри се процењују коришћењем итеративно пондерисаних најмањих квадрата. За квази-Поасонове тежине су μ / θ. За негативан бином, тежине су μ /(1 + κμ ). Са великим μ и значајном екстра-Поасоновом варијацијом, негативне биномне тежине су ограничене на 1/ κ. Вер Хојф и Боувенг су дискутовали о примеру где су бирали између њих двоје цртањем средњих квадрата резидуала у односу на средњу вредност. [4]

Још један уобичајени проблем са Поасоновом регресијом је вишак нула: ако постоје два процеса на делу, један који одређује да ли постоје нула догађаја или било који догађај, а Поасонов процес који одређује колико догађаја има, биће више нула него што би Поасонова регресија предвидела. Пример би била дистрибуција цигарета попушених за сат времена од стране чланова групе у којој су неки појединци непушачи.

Други генерализовани линеарни модели као што је негативни биномни модел или модел са без надувавања могу боље функционисати у овим случајевима.

Употреба у анализи преживљавања[уреди | уреди извор]

Поасонова регресија ствара моделе пропорционалних опасности, једну класу анализе преживљавања : погледајте моделе пропорционалних опасности за описе Коксових модела.

Екстензије[уреди | уреди извор]

Регулисана Поасонова регресија[уреди | уреди извор]

Када се процењују параметри за Поасонову регресију, обично се покушавају пронаћи вредности за θ које максимизиују вероватноћу израза облика

где је m број примера у скупу података, и је функција масе вероватноће Поасонове расподеле са средњом вредности постављеном на . Регуларизација се може додати овом проблему оптимизације максимизовањем [5]

за неку позитивну константу . Ова техника, слична регресији гребена, може смањити прекомерно учење(оверфитовање).

Види још[уреди | уреди извор]

Референце[уреди | уреди извор]

  1. ^ Greene, William H. (2003). Econometric AnalysisНеопходна слободна регистрација (Fifth изд.). Prentice-Hall. стр. 740–752. ISBN 978-0130661890. 
  2. ^ Paternoster R, Brame R (1997). „Multiple routes to delinquency? A test of developmental and general theories of crime”. Criminology. 35: 45—84. doi:10.1111/j.1745-9125.1997.tb00870.x. 
  3. ^ Berk R, MacDonald J (2008). „Overdispersion and Poisson regression”. Journal of Quantitative Criminology. 24 (3): 269—284. doi:10.1007/s10940-008-9048-4. 
  4. ^ Ver Hoef, JAY M.; Boveng, Peter L. (2007-01-01). „Quasi-Poisson vs. Negative Binomial Regression: How should we model overdispersed count data?”. Ecology. 88 (11): 2766—2772. doi:10.1890/07-0043.1. Приступљено 2016-09-01. 
  5. ^ Perperoglou, Aris (2011-09-08). „Fitting survival data with penalized Poisson regression”. Statistical Methods & Applications. Springer Nature. 20 (4): 451—462. ISSN 1618-2510. doi:10.1007/s10260-011-0172-1. 

Литература[уреди | уреди извор]