Poasonova regresija

S Vikipedije, slobodne enciklopedije

U statistici, Poasonova regresija je generalizovani linearni model forme regresione analize koji se koristi za modeliranje podataka o brojanju i tabela kontingentnosti. Poasonova regresija pretpostavlja da odgovor promenljive Y ima Poasonovau raspodelu i pretpostavlja da se logaritam njene očekivane vrednosti može modelovati linearnom kombinacijom nepoznatih parametara. Model Poasonove regresije je ponekad poznat kao log-linearni model, posebno kada se koristi za modeliranje tabela nepredviđenih okolnosti.

Negativna binomna regresija je popularna generalizacija Poasonove regresije jer olakšava veoma restriktivnu pretpostavku da je varijansa jednaka srednjoj vrednosti koju daje Poasonov model. Tradicionalni model negativne binomne regresije, poznatiji kao NB2, zasniva se na Poasono-gama raspodeli smeše. Ovaj model je popularan jer modelira Poasonovu heterogenost sa gama raspodelom.

Modeli Poasonove regresije su generalizovani linearni modeli sa logaritmom kao (kanonskom) funkcijom veze i funkcijom Poasonove raspodele kao pretpostavljenom distribucijom verovatnoće odgovora.

Regresioni modeli[uredi | uredi izvor]

Ako je vektor nezavisnih promenljivih, tada model poprima oblik:

gde je i . Ponekad je ovo napisano kompaktnije kao:

gde je x sada ( n + 1)-dimenzionalni vektor koji se sastoji od n nezavisnih promenljivih povezanih sa brojem jedan. Ovde je θ jednostavno α povezano sa β.

Dakle, kada je dat model Poasonove regresije θ i ulazni vektor x, predviđena sredina pridružene Poasonove distribucije je data sa:

Ako su Yi nezavisna posmatranja sa odgovarajućim vrednostima xi promenljivih prediktora, onda se θ može proceniti maksimalnom verovatnoćom. Procenama maksimalne verovatnoće nedostaje izraz zatvorenog oblika i mora se pronaći numeričkim metodama. Površina verovatnoće za Posonovu regresiju maksimalne verovatnoće je uvek konkavna, što čini Njutn-Rafsonovim ili druge metode zasnovanim na gradijentu odgovarajućim tehnikama procene.

Procena parametara zasnovana na maksimalnoj verovatnoći[uredi | uredi izvor]

S obzirom na skup parametara θ i ulazni vektor x, srednja vrednost predviđene Poasonove raspodele, kao što je gore navedeno, je data sa

i prema tome, funkcija mase verovatnoće Paosonove raspodele je data sa:

Pretpostavimo sada da nam je dat skup podataka koji se sastoji od m vektora , zajedno sa skupom od m vrednosti . Zatim, za dati skup parametara θ, verovatnoća postizanja ovog određenog skupa podataka je data sa

Metodom maksimalne verovatnoće želimo da pronađemo skup parametara θ koji ovu verovatnoću čini što većom. Da bi se to uradilo, jednačina se prvo prepisuje kao funkcija verovatnoće u terminima θ :

Imajte na umu da se izraz na desnoj strani zapravo nije promenio. Formulom u ovom obliku je obično teško uprostiti; umesto toga, koristi se log-verovatnoća :

Obratite pažnju da se parametri θ pojavljuju samo u prva dva člana svakog člana u sumiranju. Prema tome, s obzirom da nas zanima samo pronalaženje najbolje vrednosti za θ, možemo odbaciti yi! i jednostavno pisati

Da bismo pronašli maksimum, moramo da rešimo jednačinu koja nema rešenje zatvorenog oblika. Međutim, negativna log verovatnoća, , je konveksna funkcija, tako da se standardne tehnike konveksne optimizacije, kao što je gradijentni spust, mogu primeniti da bi se pronašla optimalna vrednost θ.

Poasonova regresija u praksi[uredi | uredi izvor]

Poasonova regresija može biti prikladna kada je zavisna promenljiva broj, na primer, događaji kao što je dolazak telefonskog poziva u pozivni centar. [1] Događaji moraju biti nezavisni u smislu da dolazak jednog poziva neće učiniti drugi manje ili više verovatnim, ali se podrazumeva da je verovatnoća po jedinici vremena događaja povezana sa kovarijantama kao što je doba dana.

„Izlaganje” i pomeraj[uredi | uredi izvor]

Posonovaa regresija takođe može biti prikladna za podatke o stopi, gde je stopa broj događaja podeljen nekom merom izloženosti te jedinice (određena jedinica posmatranja). Na primer, biolozi mogu da prebroje broj vrsta drveća u šumi: događaj bi bio posmatranje drveća, izloženost bi bila jedinica površine, a stopa bi bila broj vrsta po jedinici površine. Demografi mogu modelirati stope smrtnosti u geografskim oblastima kao broj umrlih podeljen sa brojem osoba-godina. Uopštenije, stope događaja se mogu izračunati kao događaji po jedinici vremena, što omogućava da se prozor posmatranja razlikuje za svaku jedinicu. U ovim primerima, izloženost je jedinica površine, osoba-godina i jedinica vremena. U Poasonovoj regresiji ovo se obrađuje kao pomak, gde promenljiva izloženosti ulazi na desnu stranu jednačine, ali sa procenom parametra (za log(ekspoziciju)) ograničenom na 1.

što implicira:

Pomak u slučaju GLM-a u R može se postići korišćenjem funkcije offset() :

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Prekomerna disperzija i nulta inflacija[uredi | uredi izvor]

Karakteristika Poasonove raspodele je da je njena srednja vrednost jednaka njenoj varijansi. U određenim okolnostima će se naći da je posmatrana varijansa veća od srednje vrednosti; ovo je poznato kao prevelika disperzija i ukazuje da model nije odgovarajući. Čest razlog je izostavljanje relevantnih objašnjavajućih promenljivih ili zavisnih zapažanja. Pod nekim okolnostima, problem prevelike disperzije se može rešiti korišćenjem procene kvazi verovatnoće ili negativne binomne raspodele. [2] [3]

Ver Hojf i Bouveng su opisali razliku između kvazi-Poasonove (takođe nazvane prekomerna disperzija sa kvazi-verovatnoćom) i negativnog binoma (ekvivalentnog gama-Poasonu) na sledeći način: Ako je E(Y) = μ, kvazi-Poasonov model pretpostavlja var(Y) = θμ dok gama-Poason pretpostavlja var(Y) = μ(1 + κμ), gde je θ parametar kvazi-Poasonove prekomerne disperzije, a κ parametar oblika negativne binomne raspodele. Za oba modela, parametri se procenjuju korišćenjem iterativno ponderisanih najmanjih kvadrata. Za kvazi-Poasonove težine su μ / θ. Za negativan binom, težine su μ /(1 + κμ ). Sa velikim μ i značajnom ekstra-Poasonovom varijacijom, negativne binomne težine su ograničene na 1/ κ. Ver Hojf i Bouveng su diskutovali o primeru gde su birali između njih dvoje crtanjem srednjih kvadrata reziduala u odnosu na srednju vrednost. [4]

Još jedan uobičajeni problem sa Poasonovom regresijom je višak nula: ako postoje dva procesa na delu, jedan koji određuje da li postoje nula događaja ili bilo koji događaj, a Poasonov proces koji određuje koliko događaja ima, biće više nula nego što bi Poasonova regresija predvidela. Primer bi bila distribucija cigareta popušenih za sat vremena od strane članova grupe u kojoj su neki pojedinci nepušači.

Drugi generalizovani linearni modeli kao što je negativni binomni model ili model sa bez naduvavanja mogu bolje funkcionisati u ovim slučajevima.

Upotreba u analizi preživljavanja[uredi | uredi izvor]

Poasonova regresija stvara modele proporcionalnih opasnosti, jednu klasu analize preživljavanja : pogledajte modele proporcionalnih opasnosti za opise Koksovih modela.

Ekstenzije[uredi | uredi izvor]

Regulisana Poasonova regresija[uredi | uredi izvor]

Kada se procenjuju parametri za Poasonovu regresiju, obično se pokušavaju pronaći vrednosti za θ koje maksimiziuju verovatnoću izraza oblika

gde je m broj primera u skupu podataka, i je funkcija mase verovatnoće Poasonove raspodele sa srednjom vrednosti postavljenom na . Regularizacija se može dodati ovom problemu optimizacije maksimizovanjem [5]

za neku pozitivnu konstantu . Ova tehnika, slična regresiji grebena, može smanjiti prekomerno učenje(overfitovanje).

Vidi još[uredi | uredi izvor]

Reference[uredi | uredi izvor]

  1. ^ Greene, William H. (2003). Econometric AnalysisNeophodna slobodna registracija (Fifth izd.). Prentice-Hall. str. 740–752. ISBN 978-0130661890. 
  2. ^ Paternoster R, Brame R (1997). „Multiple routes to delinquency? A test of developmental and general theories of crime”. Criminology. 35: 45—84. doi:10.1111/j.1745-9125.1997.tb00870.x. 
  3. ^ Berk R, MacDonald J (2008). „Overdispersion and Poisson regression”. Journal of Quantitative Criminology. 24 (3): 269—284. doi:10.1007/s10940-008-9048-4. 
  4. ^ Ver Hoef, JAY M.; Boveng, Peter L. (2007-01-01). „Quasi-Poisson vs. Negative Binomial Regression: How should we model overdispersed count data?”. Ecology. 88 (11): 2766—2772. doi:10.1890/07-0043.1. Pristupljeno 2016-09-01. 
  5. ^ Perperoglou, Aris (2011-09-08). „Fitting survival data with penalized Poisson regression”. Statistical Methods & Applications. Springer Nature. 20 (4): 451—462. ISSN 1618-2510. doi:10.1007/s10260-011-0172-1. 

Literatura[uredi | uredi izvor]