Пређи на садржај

Paretova raspodela

Parametri Funkcija gustine verovatnoćeParetove funkcije gustine verovatnoče tipa I za razne vrednosti ${\displaystyle \alpha }$ sa ${\displaystyle x_{\mathrm {m} }=1.}$ Kad ${\displaystyle \alpha \rightarrow \infty ,}$ distribucija prilazi ${\displaystyle \delta (x-x_{\mathrm {m} }),}$ gde je ${\displaystyle \delta }$ Dirakova delta funkcija. Funkcija kumulativne raspodeleParetove funkcije gustine verovatnoče tipa I za razne vrednosti ${\displaystyle \alpha }$ sa ${\displaystyle x_{\mathrm {m} }=1.}$ ${\displaystyle x_{\mathrm {m} }>0}$ skala (realno)${\displaystyle \alpha >0}$ oblik (realno) ${\displaystyle x\in [x_{\mathrm {m} },\infty )}$ ${\displaystyle {\frac {\alpha x_{\mathrm {m} }^{\alpha }}{x^{\alpha +1}}}}$ ${\displaystyle 1-\left({\frac {x_{\mathrm {m} }}{x}}\right)^{\alpha }}$ ${\displaystyle {\begin{cases}\infty &{\text{za }}\alpha \leq 1\\{\dfrac {\alpha x_{\mathrm {m} }}{\alpha -1}}&{\text{za }}\alpha >1\end{cases}}}$ ${\displaystyle x_{\mathrm {m} }{\sqrt[{\alpha }]{2}}}$ ${\displaystyle x_{\mathrm {m} }}$ ${\displaystyle {\begin{cases}\infty &{\text{za }}\alpha \leq 2\\{\dfrac {x_{\mathrm {m} }^{2}\alpha }{(\alpha -1)^{2}(\alpha -2)}}&{\text{za }}\alpha >2\end{cases}}}$ ${\displaystyle {\frac {2(1+\alpha )}{\alpha -3}}{\sqrt {\frac {\alpha -2}{\alpha }}}{\text{ za }}\alpha >3}$ ${\displaystyle {\frac {6(\alpha ^{3}+\alpha ^{2}-6\alpha -2)}{\alpha (\alpha -3)(\alpha -4)}}{\text{ za }}\alpha >4}$ ${\displaystyle \log \left(\left({\frac {x_{\mathrm {m} }}{\alpha }}\right)\,e^{1+{\tfrac {1}{\alpha }}}\right)}$ ${\displaystyle \alpha (-x_{\mathrm {m} }t)^{\alpha }\Gamma (-\alpha ,-x_{\mathrm {m} }t){\text{ za }}t<0}$ ${\displaystyle \alpha (-ix_{\mathrm {m} }t)^{\alpha }\Gamma (-\alpha ,-ix_{\mathrm {m} }t)}$ ${\displaystyle {\mathcal {I}}(x_{\mathrm {m} },\alpha )={\begin{bmatrix}{\dfrac {\alpha }{x_{\mathrm {m} }^{2}}}&-{\dfrac {1}{x_{\mathrm {m} }}}\\-{\dfrac {1}{x_{\mathrm {m} }}}&{\dfrac {1}{\alpha ^{2}}}\end{bmatrix}}}$

Paretova raspodela je imenovana po italijanskom građevinskom inženjeru, ekonomisti, i sociologu Vilfredu Paretu. Ona je raspodela verovatnoće stepenog zakona koja se koristi za opisivanje društvenih, naučnih, geofizičkih, aktuarskih, i mnogih drugih tipova uočljivih pojava. Prvobitno primenjena na opisivanje raspodele bogatstva u društvu, ona opisuje trend da veliki deo bogatstva poseduje mali deo stanovništva. Paretova distribucija je kolokvijalno postala poznata i naziva se Paretov princip, ili „80-20 pravilo”, a ponekad se naziva i „Matejev princip”. Ovo pravilo postulira da, na primer, 80% bogatstva društva drži 20% njegovog stanovništva. Međutim, ne treba poistovećivati Paretovu distribuciju i Paretov princip, jer distribucija daje ovaj rezultat samo za određenu vrednost stepena, ${\displaystyle \alpha }$ (α = log45 ≈ 1.16). Iako je ${\displaystyle \alpha }$ varijabilno, empirijskim opažanjima je ustanovljeno da 80-20 distribucija odgovara širokom rasponu slučajeva, uključujući prirodne pojave i ljudske aktivnosti.

Definicija

Ako je X randoman promenljiva sa Paretovom distribucijom (tip I),[1] onda je verovatnoća da je X veće od nekog broja x, i.e. the funkcija preživljavanja (takođe zvana funkcija repa), data sa

${\displaystyle {\overline {F}}(x)=\Pr(X>x)={\begin{cases}\left({\frac {x_{\mathrm {m} }}{x}}\right)^{\alpha }&x\geq x_{\mathrm {m} },\\1&x

gde je xm (neophodno pozitivni) minimum moguće vrednosti od X, i α je pozitivni parameter. Paretova raspodela tipa I je karakterisana parametrom skaliranja xm i parametrom oblika α, koji je poznat kao indeks repa. Kada se ova raspodela koristi za modelovanje raspodele bogatstva, onda se parameter α naziva Paretov indeks.

Svojstva

Funkcija kumulativne distribucije

Po definiciji, kumulativna funkcija raspodele Paretove randomne promenljive sa parametrima α i xm je

${\displaystyle F_{X}(x)={\begin{cases}1-\left({\frac {x_{\mathrm {m} }}{x}}\right)^{\alpha }&x\geq x_{\mathrm {m} },\\0&x

Funkcija gustine verovatnoće

Po diferencijaciji sledi da je funkcija gustine verovatnoće

${\displaystyle f_{X}(x)={\begin{cases}{\frac {\alpha x_{\mathrm {m} }^{\alpha }}{x^{\alpha +1}}}&x\geq x_{\mathrm {m} },\\0&x

Kada se prikaže na linearnim osama, distribucija pretpostavlja poznatu krivu u obliku slova J koja se asimptotski približava svakoj od ortogonalnih osa. Svi segmenti krive su slični (podložni odgovarajućim faktorima skaliranja). Kada je prikaže na log-log grafu, distribucija je predstavljena pravom linijom.

Momenti i karakteristična funkcija

${\displaystyle \operatorname {E} (X)={\begin{cases}\infty &\alpha \leq 1,\\{\frac {\alpha x_{\mathrm {m} }}{\alpha -1}}&\alpha >1.\end{cases}}}$
${\displaystyle \operatorname {Var} (X)={\begin{cases}\infty &\alpha \in (1,2],\\\left({\frac {x_{\mathrm {m} }}{\alpha -1}}\right)^{2}{\frac {\alpha }{\alpha -2}}&\alpha >2.\end{cases}}}$
(Ako je α ≤ 1, varijansa ne postoji.)
${\displaystyle \mu _{n}'={\begin{cases}\infty &\alpha \leq n,\\{\frac {\alpha x_{\mathrm {m} }^{n}}{\alpha -n}}&\alpha >n.\end{cases}}}$
${\displaystyle M\left(t;\alpha ,x_{\mathrm {m} }\right)=\operatorname {E} \left[e^{tX}\right]=\alpha (-x_{\mathrm {m} }t)^{\alpha }\Gamma (-\alpha ,-x_{\mathrm {m} }t)}$
${\displaystyle M\left(0,\alpha ,x_{\mathrm {m} }\right)=1.}$
${\displaystyle \varphi (t;\alpha ,x_{\mathrm {m} })=\alpha (-ix_{\mathrm {m} }t)^{\alpha }\Gamma (-\alpha ,-ix_{\mathrm {m} }t),}$
gde je Γ(ax) nekompletna gama funkcija.

Uslovne distribucije

Distribucija uslovne verovatnoće Pareto-raspodeljene randomne promenljive, datog događaja koji je veći ili jednak od zadatog broja ${\displaystyle x_{1}}$ do ${\displaystyle x_{\text{m}}}$, je Paretova distribucija sa istim Paretovim indeksom ${\displaystyle \alpha }$ ali sa minimumom ${\displaystyle x_{1}}$ umesto ${\displaystyle x_{\text{m}}}$.

Karakterizaciona teorema

Neka su ${\displaystyle X_{1},X_{2},X_{3},\dotsc }$ nezavisne identično raspoređene randomne promenljive čija je raspodela verovatnoće podržana na intervalu ${\displaystyle [x_{\text{m}},\infty )}$ za neko ${\displaystyle x_{\text{m}}>0}$. Neka su za svako ${\displaystyle n}$, dve randomne promenljive ${\displaystyle \min\{X_{1},\dotsc ,X_{n}\}}$ i ${\displaystyle (X_{1}+\dotsb +X_{n})/\min\{X_{1},\dotsc ,X_{n}\}}$ nezavisne. Onda je zajednička distribucija Paretova distribucija.

Geometrijska sredina

Geometrijska sredina (G) je[2]

${\displaystyle G=x_{\text{m}}\exp \left({\frac {1}{\alpha }}\right).}$

Harmonijska sredina

Harmonijska sredina (H) je[2]

${\displaystyle H=x_{\text{m}}\left(1+{\frac {1}{\alpha }}\right).}$

Primene

Vilfredo Pareto je izvorno koristio ovu distribuciju kako bi opisao raspodelu bogatstva među pojedincima, jer se činilo da prilično dobro pokazuje način na koji veći deo bogatstva bilo kog društva poseduje manji procenat ljudi u tom društvu. Takođe je koristio ovu distribuciju da opiše raspodelu dohotka.[3] Ta se ideja ponekad izražava jednostavnije kao Paretov princip ili „pravilo 80-20”, što govori da 20% stanovništva kontroliše 80% bogatstva.[4] Međutim, pravilo 80-20 odgovara određenoj vrednosti α, i zapravo, Paretovi podaci o britanskim porezima na dohodak u njegovom radu Cours d'économie politique pokazuju da je oko 30% stanovništva imalo oko 70% prihoda. Graf funkcije gustine verovatnoće (PDF) na početku ovog članka pokazuje da je „verovatnoća” ili deo populacije koja poseduje malu količinu bogatstva po osobi prilično visoka, a zatim se stalno smanjuje kako bogatstvo raste. (Paretova raspodela nije realistična za bogatstvo pri donjem kraju. Zapravo neto vrednost može čak da bude i negativna.) Ova distribucija nije ograničena na opisivanje bogatstva ili prihoda, već se susreće u mnogim situacijama u kojima je ravnoteža pronađena u distribuciji „malog” na „veliko”. Sledeći primeri se ponekad smatraju približno raspodeljenim po Paretovoj distribuciji:

• Veličine ljudskih naselja (nekoliko gradova, mnogo zaseoka/sela)[5]
• Raspodela veličina datoteka u Internet prometu koji koristi TCP protokol (mnogo manjih datoteka, nekoliko većih)[5]
• Stope grešaka tvrdih diskova[6]
• Klasteri Boze–Ajnštajnovog kondenzata u blizini apsolutne nule[7]
• Vrednosti naftnih rezerivi u naftnim poljima (nekoliko velikih polja, mnogo malih polja)[5]
• Рaspodela dužine poslova zadatih superračunarima (nekoliko velikih, puno malih)[8]
• Standardizovane cene povraćaja na individualnim deonicama[5]
• Veličine čestica peska [5]
• Veličina meteorita
• Ozbiljnost velikih gubitaka od nesreće za pojedine delatnosti kao što su opšta odgovornost, komercijalna vozila i naknade radnika.[9][10]
• Količina vremena koju će korisnik na stimu provesti igrajući razne igre. (Neke igre se puno igraju, dok se većina njih skoro nikad ne igra.)[11]
• U hidrologiji Paretova distribucija se koristi za ekstremne događaje kao što su godišnje maksimalne jednodnevne padavine i rečni ispusti.[12] Plava slika ilustruje uklapanje Paretove distribucije u rangirane godišnje maksimume jednodnevnih padavina. Takođe je prikazan 90% pojas pouzdanosti baziran na binomnoj distribuciji. Podaci o padavinama su predstavljeni pomoću Q–Q grafika kao dela analize kumulativne frekvencije.

Reference

1. ^ Barry C. Arnold (1983). Pareto Distributions. International Co-operative Publishing House. ISBN 978-0-89974-012-6.
2. ^ а б Johnson NL, Kotz S, Balakrishnan N (1994) Continuous univariate distributions Vol 1. Wiley Series in Probability and Statistics.
3. ^ Pareto, Vilfredo, Cours d'Économie Politique: Nouvelle édition par G.-H. Bousquet et G. Busino, Librairie Droz, Geneva, 1964, pp. 299–345.
4. ^ For a two-quantile population, where approximately 18% of the population owns 82% of the wealth, the Theil index takes the value 1.
5. Reed, William J.; et al. (2004). „The Double Pareto-Lognormal Distribution – A New Parametric Model for Size Distributions”. Communications in Statistics – Theory and Methods. 33 (8): 1733—53. CiteSeerX . doi:10.1081/sta-120037438.
6. ^ Schroeder, Bianca; Damouras, Sotirios; Gill, Phillipa (24. 2. 2010). „Understanding latent sector error and how to protect against them” (PDF). 8th Usenix Conference on File and Storage Technologies (FAST 2010). Приступљено 10. 9. 2010. „We experimented with 5 different distributions (Geometric,Weibull, Rayleigh, Pareto, and Lognormal), that are commonly used in the context of system reliability, and evaluated their fit through the total squared differences between the actual and hypothesized frequencies (χ2 statistic). We found consistently across all models that the geometric distribution is a poor fit, while the Pareto distribution provides the best fit.
7. ^ Yuji Ijiri; Simon, Herbert A. (maj 1975). „Some Distributions Associated with Bose–Einstein Statistics”. Proc. Natl. Acad. Sci. USA. 72 (5): 1654—57. Bibcode:1975PNAS...72.1654I. PMC . PMID 16578724. doi:10.1073/pnas.72.5.1654.
8. ^ Harchol-Balter, Mor; Downey, Allen (avgust 1997). „Exploiting Process Lifetime Distributions for Dynamic Load Balancing” (PDF). ACM Transactions on Computer Systems. 15 (3): 253—258. doi:10.1145/263326.263344.
9. ^ Kleiber and Kotz (2003): p. 94.
10. ^ Seal, H. (1980). „Survival probabilities based on Pareto claim distributions”. ASTIN Bulletin. 11: 61—71. doi:10.1017/S0515036100006620.
11. ^ „Steam info”. Архивирано из оригинала 05. 09. 2020. г. Приступљено 17. 08. 2019.
12. ^ CumFreq, software for cumulative frequency analysis and probability distribution fitting [1]

Literatura

• Pareto, Vilfredo (1895). „La legge della domanda”. Giornale Degli Economisti. 10: 59—68.