Korelacija

S Vikipedije, slobodne enciklopedije

Nekoliko skupova (xy) tačaka, sa Pirsonovim koeficijentom korelacije sa x i y za svaki skup. Korelacija odražava snagu i smer linearne veze (gornji red), ali ne i nagib te veze (sredina), niti mnoge aspekte nelinearnih odnosa (dno). Napomena: lik u centru ima nagib 0, ali u tom slučaju koeficijent korelacije nije definisan, jer varijansa Y iznosi nula.

Korelacija (lat. con = sa, relatio = odnos) je međuodnos ili međusobna povezanost između različitih pojava predstavljenih vrednostima dve varijable. Pri tome povezanost znači da je vrednost jedne varijable moguće s određenom verovatnoćom predvideti na osnovi saznanja o vrednosti druge. Korelacija predstavlja i obrazac variranja varijabli u zavisnosti od načina na koji su povezane, a koji je bitno drugačiji od njihovih izolovanih svojstava ili očekivanog načina reagovanja. U socijalnom radu se proučavaju korelacije ljudskih odnosa i preduzetih mera, usluga i rezultata. Visoke korelacije (izražene koeficijentom korelacije) dobar su pokazatelj uspeha neke aktivnosti. Školski primeri povezanosti su na primer saznanje o uticaju količine saliniteta na brojnost nekih vrsta riba ili školjki, ili o povezanosti slane hrane i visokog krvnog pritiska i sl.

U matematici, promenljiva je uslovan naslov za skup značenja. Takođe, promenljiva je broj predstavljen slovom koji se dobija kada se od prikazanog rezultata brojevnog izraza oduzme rezultat svih brojeva bez promenljive. Svaka promenljiva može postojati samo u kontekstu, jer svaka promenljiva je sama po sebi asocirana sa datim skupom značenja, izvan kojeg ona ništa ne znači. Promenljive su instrumenti logike koji čine osnovicu savremene matematike; one su tamo, možda, najvažniji pribor apstrakcije. Pojam promenljiva je postao deo matematičkog jezika tokom razvoja analitičke geometrije.

Promena vrednosti jedne varijable utiče na promene druge varijable. Varijabla koja svojom vrednošću utiče na drugu naziva se nezavisna varijabla. Varijabla na koju ona utiče naziva se zavisna varijabla. Naprimer, unošenje više soli u organizam utiče na porast krvnog pritiska, dok porast krvnog pritiska ne utiče na povećanje unošenja soli u organizam. U ovom primeru unos soli je nezavisna, a povećanje krvnog pritiska je zavisna varijabla. Mogući su slučajevi da dve varijable istovremeno utiču jedna na drugu, pa su u tom slučaju obe varijable istovremeno i zavisne i nezavisne.[1][2][3]

Pirsonov koeficijent proizvod-momenata[uredi | uredi izvor]

Raspršeni dijagrami primera različitih skupova podataka sa različitim koeficijentima korelacije.

Definicija[uredi | uredi izvor]

Najpoznatija mera zavisnosti između dve veličine je Pirsonov koeficijent korelacije proizvoda i tačaka (PPMCC), ili Pirsonov koeficijent korelacije, koji se obično naziva jednostavno koeficijent korelacije. Matematički je definisan kao kvalitet najmanjih kvadrata koji odgovaraju izvornim podacima. Dobija se uzimajući odnos kovarijancije dve varijable o kojima je reč u datom numeričkom skupu podataka, normalizovan na kvadratni koren njihove varijanse. Matematički se jednostavno deli kovarijansa dve varijable sa umnoškom njihove standardne devijacije. Karl Pirson razvio je koeficijent iz slične, ali malo drugačije ideje Frensisa Galtona.[4]

Pirsonov koeficijent korelacije proizvoda i trenutka pokušava da uspostavi liniju koja najbolje prolazi kroz skup podataka od dve varijable, u osnovi postavljajući očekivane vrednosti, a rezultirajući Pirsonov koeficijent korelacije pokazuje koliko je stvarni skup podataka udaljen od očekivanih vrednosti. Zavisno od predznaka datog Pirsonovog koeficijenta korelacije, može se naći negativna ili pozitivna korelacija, ako postoji bilo kakva veza između varijabli posmatranih skupova podataka.

Koeficijent korelacije populacije između dve slučajne varijable i sa očekivanom vrednostima i i standardnom devijacijom i definisana je kao:

gde je očekivana vrednost operatora, srednje kovarijanse, a je široko korištena alternativna notacija koeficijenta korelacije. Pirsonova korelacija je definisana samo ako su obe standardne devijacije konačne i pozitivne. Alternativna formula čisto u smislu moment je:

je široko korištena alternativna notacija koeficijenta korelacije. Pirsonova korelacija je definisana samo ako su obe standardne devijacije konačne i pozitivne. Alternativna formula čisto u smislu momenta je: . To se potvrđuje komutativnim svojstvom množenja.

Korelacija i nezavisnost[uredi | uredi izvor]

Posledica je Koši-Švarcova nejednakost da apsolutna vrednost Pirsonovog koeficijenta korelacije nije veća od 1. Stoga se vrednost koeficijenta korelacije kreće između –1 i +1. Koeficijent korelacije je +1 u slučaju savršene direktne (rastuće) linearne veze (korelacije), –1 u slučaju savršene inverzne (opadajuće) linearne veze (antikorelacija),[5] i neka vrednost u otvorenom intervalu u svim ostalim slučajevima, ukazujući na stupanj linearne zavisnosti između varijabli. Kako se približava nuli, manje je odnosa (bliži nekoreliranim). Što je koeficijent bliži ili −1 ili +1, to je jača korelacija između varijabli.

Ako su varijable nezavisne, Pirsonov koeficijent korelacije je 0, ali obrnuto nije tačno, jer koeficijent korelacije otkriva samo linearne zavisnosti između dve varijable.

Na primer, ako se pretpostavi da je slučajna varijabla simetrično raspoređena oko nule, a i . Tada je u potpunosti određen , tako da i savršeno zavise, ali njihova korelacija je nula; oni su nepovezani. Međutim, u posebnom slučaju kada su i zajednički normalna, neusklađenost je ekvivalentna nezavisnosti.

Iako nekorelisani podaci ne podrazumevaju nužno nezavisnost, može se proveriti da li su slučajne varijable nezavisne ako je njihova međusobna informacija 0.

Koeficijent korelacije uzorka[uredi | uredi izvor]

S obzirom na niz meri par indeksiran sa , koeficijent korelacije uzorka može se koristiti za procenu Pirsonove korelacije populacije između i . Koeficijent korelacije uzorka definisan je kao:

gde su i proseci uzoraka i , a i su korigovane standardne devijacije i .

Ekvivalentni izrazi za su

gde su i nekorigovane standardne devijacije uzoraka i .

Ako su i rezultati merenja koji sadrže grešku merenja, realna ograničenja koeficijenta korelacije nisu od -1 do +1, ali su u manjem rasponu.[6] Za slučaj linearnog modela s jednom nezavisnom varijablom, koeficijent determinacije (R kvadrat) je kvadrat , Pirsonovog koeficijenta proizvođmoment.

Primer[uredi | uredi izvor]

Razmotrimo zajedničku raspodelu verovatnoće i date u donjoj tabeli. Razmotrimo zajedničku raspodelu verovatnoće i datu u donjoj tabeli.

Za ovu zajedničku distribuciju, marginalne raspodele su:

Ovo daje sledeća očekivanja i odstupanja:

Stoga:

Odnos između varijabli[uredi | uredi izvor]

Međuodnos između dve varijable, može se grafički prikazati pomoću dvodimenzionog grafikona, tzv. dijagrama raspršenja. Vrednosti jedne varijable prikazane su na x osi, a druge na y osi dijagrama. Tačke preseka kreću se oko određenog pravca koji se naziva linija regresije. Što su tačke bliže pravcu, korelacija je veća, a što su raspršenije korelacija je manja. Osim u slučaju „savršene“ korelacije, u praksi je vizuelno vrlo teško odrediti stepen povezanosti između varijabli. Zavisno od međusobnom odnosu dve varijable među kojima postoji korelacija, ona može biti linearna ili nelinearna. Kod linearne korelacije, tačke su grupirane oko pravca. Kod nelinearne korelacije, one su grupirane oko neke druge krive.

Dve promatrane varijable s ciljem utvrđivanja njihove korelacijske povezanosti mogu imati četiri različite relacije:

  1. Pozitivna korelacija je onda kada mala vrednost jedne varijable odgovara maloj vrednosti druge, kao i kada velika vrednost jedne varijable odgovara velikoj vrednosti druge.
  2. Negativna korelacija javlja se kada mala vrednost jedne varijable odgovara velikoj vrednosti druge i obratno.
  3. Nemonotonu korelaciju obeležava pojava da vrednost jedne varijable u nekim intervalima odgovara maloj vrednosti druge varijable, a u drugim intervalima velikoj vrednosti. Ako se korelacija više nego jednom menja od pozitivne prema negativnoj, takva korelacija naziva se ciklična korelacija.
  4. Korelacija ne postoji u primerima kada se na osnovu vrednosti jedne varijable ne može ništa zaključiti niti pretpostaviti o vrednosti druge varijable, tada. U takvom grafikonu, tačke su raspršene.

Koeficijenti korelacije[uredi | uredi izvor]

Koeficijenti korelacije izražavaju meru povezanosti između dve varijable u jedinicama koje su nezavisne o konkretnim jedinicama mere u kojima su iskazane vrednosti varijabli. Postoji više koeficijenata korelacije koji se koriste u različitim slučajevima. Prilikom analize linearnih modela, u praksi se najčešće koristi Pirsonov koeficijent korelacije. U modelima koji nisu linearni, najčešće se koristi Spirmanov koeficijent korelacije.

Pirsonov koeficijent korelacije[uredi | uredi izvor]

Primer raspršenih dijagrama različitih skupova podataka s različitim koeficijentima korelacije

Pirsonov koeficijent korelacije koristi se u slučajevima kada između varijabli datog modela postoji linearna povezanost i neprekidna normalna distribucija. Vrednost Pirsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija) do –1 (savršena negativna korelacija). Predznak koeficijenta upućuje na smer korelacije: da li je pozitivna ili negativna, ali nas upućuje i na snagu korelacije. Pirsonov koeficijent korelacije bazira se na poređenju stvarnog međuuticaja promatranih varijabli, u odnosu na maksimalni mogući uticaj dve varijabli. Označava se malim slovom r. Za proračun koeficijenta korelacije potrebna su tri različite sume kvadrata (SS): suma kvadrata varijable X, suma kvadrata varijable Y i suma umnožaka varijabli X i Y.

Suma kvadrata varijable X jednaka je zbitru kvadrata odstupanja vrednosti varijable X od njezine prosečne vrednosti:

Prosečna vrednost varijable X jednaka je:

Zbir kvadrata varijable Y jednak je sumi kvadrata odstupanja vrednosti varijable Y od njene prosečne vrednosti:

Prosečna vrednost varijable Y jednaka je:

Zbir umnožaka varijabli X i Y jednaka je sumi umnožaka odstupanja vrednosti varijabli X i Y od njihovih proseka:

Koeficijent korelacije jednak je odnosu:

U slučaju da među varijablama ne postoji linearna povezanost, može se izvesti odgovarajuća transformacija kojom se vrednosti varijabli modela svode na linearne.

Spirmanov koeficijent korelacije[uredi | uredi izvor]

Spirmanov koeficijent korelacije (korelacija rangova) koristi se za merenje povezanosti među varijablama u slučajevima kada nije moguće primeniti Pirsonov koeficijent korelacije. Temelji se na meri doslednosti povezanosti između poređenih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduslov za korištenje Pirsonovog koeficijenta) nije bitan. Slučajevi u kojima se koristi Spirmanov koficijent su npr. kada među varijablama ne postoji linearna veza, a nije moguće primeniti odgovarajuću transformaciju kojom bi se povezanost prevela u linearnu (npr. veza između seizmičkog atributa i bušotinskog podataka u naftnoj geologiji).

Spirmanov koeficijent korelacije kao rezultat daje približnu vrednost koeficijenta korelacije koji se smatra njegovom dovoljno dobrom približnom vrednošću. Prilikom analize Spirmanovog koeficijenta, vrednosti varijabli potrebno je rangirati i na takav način svesti na zajedničku meru. Najjednostavniji način rangiranja je da se najmanjoj vrednosti svake varijable dodeli rang 1, sledećoj po veličini rang 2 i tako sve do poslednje, kojoj se pripisuje maksimalan rang. Izračunavanje koeficijenta radi se korištenjem vrednosti pripisanih rangova. Spirmanov koeficijent označavaju se kao ili ,

Formula za izračun Spiarmanovog koeficijenta korelacije je:

gde je d razlika vrednosti rangova dve promatrane varijable, a n je broj različitih serija.

Vidi još[uredi | uredi izvor]

Reference[uredi | uredi izvor]

  1. ^ Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968) Applied General Statistics, Pitman. ISBN 9780273403159 (page 625)
  2. ^ Dietrich, Cornelius Frank (1991) Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement 2nd Edition, A. Higler. ISBN 9780750300605 (Page 331)
  3. ^ Aitken, Alexander Craig (1957) Statistical Mathematics 8th Edition. Oliver & Boyd. ISBN 9780050013007 (Page 95)
  4. ^ Rodgers, J. L.; Nicewander, W. A. (1988). „Thirteen ways to look at the correlation coefficient”. The American Statistician. 42 (1): 59—66. JSTOR 2685263. doi:10.1080/00031305.1988.10475524. 
  5. ^ Dowdy, S. and Wearden, S. . "Statistics for Research", Wiley. . 1983. str. 230. ISBN 0-471-08602-9.  Nedostaje ili je prazan parametar |title= (pomoć)
  6. ^ Francis, DP; Coats AJ; Gibson D (1999). „How high can a correlation coefficient be?”. Int J Cardiol. 69 (2): 185—199. doi:10.1016/S0167-5273(99)00028-5. 

Literatura[uredi | uredi izvor]

  • Ovaj članak ili njegov deo izvorno je preuzet iz Rečnika socijalnog rada Ivana Vidanovića uz odobrenje autora.
  • Cohen, J.; Cohen P.; West, S.G. & Aiken, L.S. (2002). Applied multiple regression/correlation analysis for the behavioral sciences (3rd izd.). Psychology Press. ISBN 978-0-8058-2223-6. 
  • Hazewinkel Michiel, ur. (2001). „Correlation (in statistics)”. Encyclopaedia of Mathematics. Springer. ISBN 978-1556080104. 
  • Oestreicher, J. & D. R. (26. 2. 2015). Plague of Equals: A science thriller of international disease, politics and drug discovery. California: Omega Cat Press. str. 408. ISBN 978-0963175540. 
  • J. Edwards (1892). Differential Calculus. London: MacMillan and Co. str. 1 ff. 
  • Karl Menger, "On Variables in Mathematics and in Natural Science", The British Journal for the Philosophy of Science 5:18:134–142 (August 1954) . JSTOR 685170.  Nedostaje ili je prazan parametar |title= (pomoć)
  • Jaroslav Peregrin, "Variables in Natural Language: Where do they come from?", in M. Boettner, W. Thümmel, eds., Variable-Free Semantics, 2000, pp. 46–65.
  • W.V. Quine, "Variables Explained Away", Proceedings of the American Philosophical Society 104:343–347 (1960).

Spoljašnje veze[uredi | uredi izvor]