Analiza glavnih komponenti

Из Википедије, слободне енциклопедије
Иди на навигацију Иди на претрагу
PCA multivarijantne normalne distribucije centrirane na (1,3) sa standardnom devijacijom od 3 u približno (0,866, 0,5) pravcu i od 1 u ortogonalnom pravcu. Prikazani vektori su sopstveni vektori kovarijansne matrice skalirani kvadratnim korenom korespondirajućih sopstvenih vrednosti, i pomereni tako da su njihovi počeci u srednjoj vrednosti.

Analiza glavnih komponenti (engl. Principal component analysis - PCA) je statistički postupak koji koristi ortogonalnu transformaciju da pretvori skup opažanja eventualno korelisanih promenljivih (entiteta od kojih svaki poprima različite numeričke vrednosti) u skup vrednosti linearno nekorelisanih promenljivih koje se nazivaju glavnim komponentama. Ova transformacija je definisana na takav način da prva glavna komponenta ima najveću moguću varijansu (to jest, obuhvata što je moguće više varijabilnosti podataka), a svaka sledeća komponenta zatim ima najveću preostalu moguću varijansu pod ograničenjem da je ortogonalna na prethodne komponente. Rezultirajući vektori (svaki od kojih je linearna kombinacija promenljivih i sadrži n opažanja) su nekorelisani ortogonalni bazni skup. PCA je senzitivna na relativno skaliranje originalnih promenljivih.

PCA je izumeo Karl Pirson 1901. godine,[1] kao analog teoreme glavne ose u mehanici. PCA je kasnije tokom 1930-ih nezavisno razvio i imenovao Harold Hoteling.[2] U zavisnosti od oblasti primene koriste se različiti nazivi za PCA, kao što su diskretna Karunen-Loevova transformacija (KLT) u obradi signala, Hotelingova transformacija u multivarijantnoj kontroli kvaliteta, pravilna ortogonalna dekompozicija (POD) u mašinskom inženjerstvu, dekompozicija singularne vrednosti (SVD) od X,[3] dekompozicija sopstvene vrednosti (EVD) od XTX u linearnoj algebri, faktorska analiza,[4][5] Ekart–Jangova teorema[6], ili empirijske ortogonalne funkcije (EOF) u meteorološkoj nauci, dekompozicija empirijske sopstvene funkcije[7], analiza empirijskih komponenti[8], kvaziharmonični modusi[9], spektralna dekompozicija u šumu i vibracijama, i empirijska modalna analiza strukturne dinamike.

PCA se uglavnom koristi kao alat u istraživačkoj analizi podataka i za izradu prediktivnih modela. Ona se često koristi za vizuelizaciju genetske distance i povezanosti između populacija. PCA se može obaviti dekompozicijom sopstvenih vrednosti kovarijansne (ili korelacione) matrice, ili dekompozicijom singularne vrednosti matrice podataka, obično nakon koraka normalizacije početnih podataka. Normalizacija svakog atributa sastoji se od srednjeg centriranja - oduzimanja svake vrednosti podataka od srednje vrednosti njene izmerene promenljive tako da je njena empirijska srednja vrednost (prosek) jednaka nuli - i, po mogućnosti, normalizacije varijanse svake promenljive da bi bila jednaka 1; pogledajte Z-ocene.[10] PCA rezultati se obično diskutuju u smislu komponentnih ocena (engl. scores), koje se ponekad nazivaju faktorske ocene, vrednosti transformisanih promenljivih koje odgovaraju određenoj tački podataka, i opterećenja (engl. loadings), ponderi kojima se svaka standardizovana originalna promenljiva mora množiti da bi se dobila komponentna ocena.[11] Ako su komponentne ocene standardizovane na jediničnu varijansu, opterećenja moraju da sadrže varijancu podataka u njima (a to je magnituda sopstvenih vrednosti). Ako komponentne ocene nisu standardizovane (stoga sadrže varijansu podataka), opterećenja moraju biti jedinično skalirana („normalizovana”) i ti se ponderi nazivaju sopstvenim vektorima; oni su kosinusi ortogonalne rotacije promenljivih u glavne komponente ili nazad.

PCA je najjednostavnija od pravih multivarijantnih analiza zasnovanih na sopstvenim vektorima. Često se može smatrati da njeno delovanje otkriva unutrašnju strukturu podataka na način koji najbolje objašnjava varijansu podataka. Ako se multivarijantni skup podataka vizualno prikazuje kao skup koordinata u visokodimenzionalnom prostoru podataka (1 osa po promenljivoj), PCA može da pruži korisniku sliku niže dimenzije, projekciju ovog objekta kada se posmatra sa njegovog najinformativnijeg gledišta. To se postiže korišćenjem samo prvih nekoliko glavnih komponenti, tako da se smanjuje dimenzionalnost transformisanih podataka.

PCA je usko povezana sa faktorskom analizom. Faktorska analiza tipično uključuje više pretpostavki specifičnih za domen o osnovnoj strukturi i rešava sopstvene vektore donekle drugačije matrice.

PCA je takođe povezana sa kanoničkom korelacijskom analizom (CCA). CCA definiše koordinatne sisteme koji optimalno opisuju unakrsnu kovarijansu između dva skupa podataka, dok PCA definiše novi ortogonalni koordinatni sistem koji optimalno opisuje varijansu u pojedinačnom setu podataka.[12][13]

Reference[уреди]

  1. ^ Pearson, K. (1901). „On Lines and Planes of Closest Fit to Systems of Points in Space”. Philosophical Magazine. 2 (11): 559—572. doi:10.1080/14786440109462720. 
  2. ^ Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology, 24, 417–441, and 498–520.
    Hotelling, H (1936). „Relations between two sets of variates”. Biometrika. 28 (3/4): 321—377. JSTOR 2333955. doi:10.2307/2333955. 
  3. ^ Golub i Van Loan, 1983.
  4. ^ Rasprava o razlikama između PCA i faktorske analize je dostupna u poglavlju 7 Jolifeove knjige Analiza glavnih komponenti.
  5. ^ Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4
  6. ^ Harman, 1960
  7. ^ Sirovich, 1987
  8. ^ Lorenz, 1956
  9. ^ Brooks et al., 1988
  10. ^ Abdi. H. & Williams, L.J. (2010). „Principal component analysis”. Wiley Interdisciplinary Reviews: Computational Statistics. 2 (4): 433—459. arXiv:1108.4372Слободан приступ. doi:10.1002/wics.101. 
  11. ^ Shaw P.J.A. (2003) Multivariate statistics for the Environmental Sciences, Hodder-Arnold. ISBN 0-340-80763-6.
  12. ^ Barnett, T. P. & R. Preisendorfer. (1987). „Origins and levels of monthly and seasonal forecast skill for United States surface air temperatures determined by canonical correlation analysis”. Monthly Weather Review. 115 (9): 1825. doi:10.1175/1520-0493(1987)115<1825:oaloma>2.0.co;2. 
  13. ^ Hsu, Daniel; Sham M. Kakade; Tong Zhang (2008). „A spectral algorithm for learning hidden markov models.”. Bibcode:2008arXiv0811.4413H. arXiv:0811.4413Слободан приступ. 

Literatura[уреди]

Spoljašnje veze[уреди]