Korelační
analýza
Cílem
korelační analýzy je určit sílu lineární závislosti mezi veličinami. První
představu o závislosti znaků X a Y lze získat tak, že tyto
znaky sledujeme u n statistických jednotek a zjištěná data znázorníme bodovým
diagramem. Je to diagram, v němž je každá dvojice pozorování (xi,yi)
znázorněna jako bod v pravoúhlé souřadnicové soustavě, kde na vodorovné ose je
umístěna stupnice hodnot znaku X a na svislé stupnice hodnot znaku Y.
Vynesené body pak tvoří množinu, z níž lze vystopovat charakteristické rysy
závislosti obou znaků.
Bodový diagram pro posouzení
závislosti potřeby úspěšného výkonu (PUV) a prospěchu žáků.
Pearsonův korelační koeficient
Nejčastěji
se pro měření závislosti používá Pearsonův korelační koeficient r ,
který měří lineární závislost dvou náhodných veličin s dvourozměrným normálním
rozdělením
Součty
čtverců ve jmenovateli jsou n-1 násobkem výběrových rozptylů. Proto se často
setkáváme s jednodušším vyjádřením korelačního koeficientu
r = ,
kde sx
je směrodatná odchylka proměnné X, sy směrodatná odchylka proměnné Y
a sxy takzvaná kovariance proměnných X a Y
sxy
= .
Správná
interpretace korelačního koeficientu předpokládá, že obě proměnné jsou náhodné
veličiny a mají společné dvourozměrné normální rozdělení. Potom nulový
korelační koeficient znamená, že veličiny jsou nezávislé. Pokud není splněn
předpoklad dvourozměrné normality, z nulové hodnoty korelačního koeficientu
nelze usuzovat na nic víc, než že veličiny jsou nekorelované.
Čím
těsnější je vztah mezi oběma veličinami, tím více se absolutní hodnota
korelačního koeficientu blíží k jedné. Záporné hodnoty korelačního koeficientu
vyjadřují nepřímou korelaci (se zvyšováním hodnot jedné proměnné se snižují hodnoty
druhé proměnné - např. čím vyšší počet bodů v didaktickém testu, tím lepší
(nižší) známka), kladné hodnoty udávají korelaci přímou (se zvyšováním hodnot
jedné proměnné se zvyšují i hodnoty druhé proměnné - např. čím delší období
přípravy k testu, tím vyšší bodové ohodnocení).
Druhá
mocnina korelačního koeficientu se nazývá koeficient determinace. Vyjadřuje podíl, jakým
je rozptyl závisle proměnné veličiny vysvětlen změnami nezávisle proměnné.
Obvykle se násobí stem, čímž je podíl, jakým je rozptyl závisle proměnné
veličiny vysvětlen změnami nezávisle proměnné, vyjádřen v procentech.
Korelační matice
Různé
praktické důvody, ale zejména potřeba vyjádřit se současně o větším počtu
proměnných, např. o prospěchu žáka v různých předmětech, vedou často k vícerozměrnému
přístupu ke korelační analýze. Při současném zpracování n proměnných hodnotíme
korelační koeficienty n(n-1)/2 dvojic proměnných, které sestavujeme do korelační
matice, jejíž řádky
i sloupce jsou věnovány postupně první až n-té proměnné. Na průsečíku i-tého
řádku a j-tého sloupce je tedy uveden korelační koeficient rij i-té
a j-té proměnné. Korelační matice je čtvercová a na diagonále obsahuje
jedničky, protože rii = 1.
Korelační matice pro průměrný prospěch, PUV (potřeba
úspěšného výkonu) a PVN (potřeba vyhnout se neúspěchu)
Correlations
|
|
Průměrný prospěch |
PUV |
PVN |
Průměrný
prospěch |
Pearson
Correlation |
1 |
-,478(**) |
,164(**) |
Sig.
(1-tailed) |
|
,000 |
,001 |
|
N |
478 |
387 |
387 |
|
PUV |
Pearson
Correlation |
-,478(**) |
1 |
-,261(**) |
Sig.
(1-tailed) |
,000 |
|
,000 |
|
N |
387 |
388 |
388 |
|
PVN |
Pearson
Correlation |
,164(**) |
-,261(**) |
1 |
Sig.
(1-tailed) |
,001 |
,000 |
|
|
N |
387 |
388 |
388 |
** Correlation is significant at the 0.01 level
(1-tailed).
T-test pro korelační koeficient
Zpravidla
nezjišťujeme korelační koeficient u celé sledované populace, ale odhadujeme ho
na výběru. Potom je třeba provést statistický test nulové hypotézy, která tvrdí,
že výběr pochází z dvourozměrného normálního rozdělení, v němž je korelační
koeficient nulový. Za platnosti H0 má veličina
rozdělení
t
o n
- 2 stupních volnosti, kde n je rozsah výběru.
Tento
vzorec se ale nehodí pro test hypotézy rovnosti korelačního koeficientu
nenulové hodnotě. Proto je třeba hodnotu r pomocí vhodné transformace
"normalizovat".
Fisherova transformace
Nejpoužívanější
transformace je dána logaritmickým vztahem
.
Hodnoty
z
mají pro velký počet pozorování přibližně normální rozložení bez ohledu na to,
jak velký je korelační koeficient. Výběrová chyba veličiny z má jednoduchý tvar
.
Pro test hypotézy r = r0
pak použijeme testové kritérium U
U = (z - z0) ,
přičemž
z0
získáme pomocí výše uvedené transformace kde za r dosadíme r0.
Chceme-li testovat hypotézu o shodě dvou nebo více korelačních koeficientů
postupujeme obdobně.
Při
tvorbě obecných výroků vztahujících se souběžně k většímu počtu proměnných je
třeba zachovat určitou opatrnost. Ve stručnosti lze říci, že tu nestačí prostě
kombinovat úsudky o jednotlivých dvojicích proměnných, protože kombinovaný
výrok by měl už podstatně nižší spolehlivost. Pro řešení takových úloh lze
doporučit některé z metod vícerozměrné statistické analýzy, kterým je věnována
např. kniha (Anděl, J. 1978).
Spearmanův korelační koeficient
Pearsonův
korelační koeficient daný vztahem lze použít i pro pořadové proměnné, jsou-li
pořadová čísla brána jako naměřené hodnoty. Dá se dokázat, že za těchto
okolností vzorec pro Pearsonův korelační koeficient přechází do jednoduššího
tvaru
r = 1 - ,
který
se nazývá Spearmanův koeficient korelace.
Interval spolehlivosti pro korelační koeficient
Pro konstrukci intervalu
spolehlivosti použijeme Fisherovu transformaci. Pak platí
P (-u1-a/2
< (Z - z0) < u1-a/2)
= 1 - a.
Odtud lze zjistit, že pro
konkrétní hodnotu z (vypočtenou pro daný korelační koeficient) platí
P (Z - u1-a/2< z0 < Z + u1-a/2) = 1 - a.
Dvoustranný 100(1-a)procentní
interval spolehlivosti je tudíž
(z - u1-a/2, z + u1-a/2).
Ze vztahu
lze odvodit, že
.
Pomocí této transformace lze meze
spolehlivosti pro z převést na meze spolehlivosti pro korelační koeficient.
Mnohonásobný koeficient korelace
Parciální korelační koeficient
.
Pro test významnosti koeficientu
parciální korelace se dá použít podobného vzorce jako pro Pearsonův koeficient
korelace, ovšem máme přitom o jeden stupeň volnosti méně, a proto
má při platnosti H0: r12-3 = 0, t rozdělení s n - 3 stupni volnosti. Rovněž Fisherova
transformace je pro parciální korelaci dovolena, přičemž při výpočtu výběrové
chyby se hodnota n - 3 sníží na n - 4.
Kendallův koeficient pořadové korelace
,
kde
P
je počet konkordancí, Q počet diskordancí a n
počet pozorování. Přitom platí, že dvě dvojice pořadí pozorování (xi , yi) a (xj, yj) jsou konkordantní když pro xi < xj je yi <yj nebo když pro xi > xj je yi
> yj . Naproti tomu dvě dvojice pořadí pozorování (xi , yi) a (xj, yj) jsou
diskordantní když pro xi < xj
je yi > yj nebo když pro
xi < xj je yi > Ryj .
Bodově biseriální korelační koeficient
je
vztah mezi spojitou metrickou proměnnou a proměnnou binární nabývající hodnot
0,1. Označíme-li spojitou proměnnou y a binární proměnnou x, platí že
kde je průměr těch yi , u
nichž je x = 1, je průměr
těch yi , u nichž je x = 0, s je výběrová směrodatná odchylka všech y, n0
je počet nul a n1 počet jedniček mezi x.
Závislost kvalitativních znaků
Síla závislosti dvou kvalitativních znaků se
nejčastěji udává koeficientem kontingence
KK = ,
kde K je hodnota testového kritéria používaného pro test závislosti dvou kvalitativních znaků (viz http://kps.pedf.cuni.cz/skalouda/chi_kvadrat.doc). Nevýhoda koeficientu kontingence KK spočívá v tom, že i při úplné závislosti (v kontingenční tabulce je v každém řádku resp. sloupci obsazeno jedno jediné políčko) je KK menší než 1. Proto se používá oprava
KKO
= ,
kde
KKmax = ,
kde r značí počet řádků v kontingenční
tabulce. V tabulkách, které nejsou čtvercové (r ¹ c),
je třeba za r dosadit vždy menší z obou hodnot r, c.