UNIVERZITA KARLOVA - PEDAGOGICKÁ FAKULTA

Základní pojmy

Explorativní faktorová analýza má za cíl analyzovat korelace většího množství měřitelných (manifestních) proměnných a na základě této analýzy určit skupiny proměnných, které statisticky „patří k sobě", tj. za kterými stojí společný faktor (latentní proměnná). Přitom počet nalezených faktorů by měl být co nejmenší a pozorované závislosti by měly být objasněny co nejjednodušeji. Poté, kdy faktor objevíme a pojmenujeme, můžeme z něj vytvořit novou proměnnou, kterou používáme v další analýze namísto původních položek.

Postup faktorové analýzy je založen na výběrových korelačních a parciálních korelačních koeficientech.
Korelační koeficient vyjadřuje těsnost lineární závislosti proměnných, pohybuje se v rozmezí -1 až 1.
Parciální korelační koeficient vyjadřuje těsnost lineární závislosti dvou proměnných, ovšem za předpokladu, že všechny ostatní proměnné jsou konstantní. Je-li možné závislost proměnných vysvětlit společnými faktory, musí být parciální korelační koeficienty, kde je tento vliv společných faktorů odrušen, velmi malé, v ideálním případě, kdy faktory vysvětlují lineární závislosti proměnných beze zbytku, nulové.

Reprodukovaný korelační koeficient vyjadřuje těsnost lineární závislosti dvou proměnných, které jsou vyjádřeny pomocí odhadnutých faktorů, tj. už na základě výsledků faktorové analýzy.

Reziduální korelační koeficient je dán rozdílem mezi pozorovaným a reprodukovaným korelačním koeficientem. Pokud nalezené faktory dobře vysvětlují korelace mezi manifestními proměnnými, měly by být reziduální korelační koeficienty malé, v ideálním případě nulové. Proto by reziduální korelační matice neměla chybět v žádné výstupní sestavě faktorové analýzy. Pro hrubé posouzení faktorového modelu můžeme například zkontrolovat, zda jsou všechny reziduální korelační koeficienty menší než např. 0,1. Pouhý pohled na rezidua není sice zcela spolehlivý, ale může leccos napovědět. Pokud např. vyšší hodnoty reziduálních korelačních koeficientů vytvářejí shluky, může to napovídat existenci dalších faktorů.

K tomu, abychom mohli faktorovou analýzu provést, potřebujeme mít k dispozici n pozorování každé z k manifestních proměnných X1 , X2 , X3 … Xk. Je třeba si uvědomit, že postup faktorové analýzy nerealizujeme na zkoumaném základním souboru, ale pouze na výběru z tohoto souboru.  Proto budou analogicky výsledky faktorové analýzy pouze odhady skutečných faktorů. 

Existují-li mezi proměnnými X1 , X2 , X3 … Xk lineární závislosti, budou jejich korelační koeficienty v absolutní hodnotě velké. Pokud bude splněn i další předpoklad faktorové analýzy, že za závislostí proměnných stojí latentní společné proměnné – faktory, budou parciálních korelační koeficienty proměnných X1 , X2 , X3 … Xk velmi malé. Analyzovat matici korelačních a parciálních korelačních koeficientů, abychom zjistili, zda se zkoumané proměnné hodí pro faktorovou analýzu, je pracné a nespolehlivé. Proto se pro posouzení vhodnosti faktorové analýzy používají dva ukazatele.

Nejpoužívanějším je Kaiser-Meyer-Olkinova míra (KMO). Koeficient KMO může teoreticky nabývat hodnot mezi 0 a 1. To proto, že je dán podílem součtu druhých mocnin korelačních koeficientů ku součtu druhých mocnin korelačních a parciálních koeficientů. Pro hodnoty KMO platí následující tabulka

Tab. 1 Hodnocení koeficientu KMO


KMO

Hodnocení KMO

0,9 - 1

skvělý

0,8 - 0,9

vysoký

0,7 - 0,8

střední

0,6 - 0,7

nízký

0,5 - 0,6

špatný

Do 0,5

FA nemá smysl

Další možností, jak jednoduchým způsobem zjistit, zda jsou zkoumané proměnné vhodné pro faktorovou analýzu, je testovat nulovou hypotézu, že korelační matice daných proměnných je jednotková (tj. na diagonále má jedničky, jinde nuly). To znamená, že korelační koeficienty mezi proměnnými jsou nulové, není tedy splněn základní předpoklad pro použití faktorové analýzy. Pokud tuto nulovou hypotézu zamítneme, má faktorová analýza smysl. Pro test této nulové hypotézy se používá Bartlettův test sféricity. Při dostatečně velkém počtu pozorování dochází k zamítnutí nulové hypotézy i při relativně malých korelačních koeficientech mezi proměnnými. Proto je vhodnější používat koeficient KMO. Vede k tomu i skutečnost, že Kromě celkového koeficientu KMO lze spočítat KMO i pro jednotlivé proměnné, tj. nejen pro všechny korelační koeficienty, ale také pouze pro korelační koeficienty s danou proměnnou.

KMO pro jednotlivé proměnné můžeme nalézt v tzv. Anti-image matici, tj. v matici záporných parciálních korelačních koeficientů. KMO jednotlivých proměnných jsou uvedeny na diagonále této matice.

Výsledky explorativní faktorové analýzy nejsou jednoznačné. To je dáno tím, že existuje celá řada metod extrakce, rotace a výpočtu skóre faktorů.

Faktory jsou zpravidla konstruovány tak, aby byly stochasticky nezávislé, a proto i nekorelované. Stejně jako manifestní proměnné, jsou i faktory standardizované, tj. jejich střední hodnota je 0 a rozptyl 1. Na tomto místě třeba poznamenat, že je možné pracovat i nestandardizovanými proměnnými a jejich kovarianční maticí. V tomto textu se omezíme na standardizované proměnné.

Matematicky lze postup faktorové analýzy popsat jako vyjádření zkoumaných standardizovaných proměnných Xi pomocí lineární kombinace menšího počtu hypotetických faktorů Fj následovně

Xi = ai1 F1 + ai2 F2 + ai3 F3 +      + aim Fm + ei,                                                                             (1)

pro i = 1, 2, 3, …k, kde k je počet manifestních proměnných, m počet faktorů a ei specifická (jedinečná, chybová, reziduální) část proměnné Xi , o níž předpokládáme, že její korelace se všemi faktory je nulová. Přitom požadujeme m < n.
Nulové jsou i korelace jednotlivých jedinečností mezi sebou. Protože i faktory jsou konstruovány tak, aby spolu vzájemně nekorelovaly, lze rozptyl proměnné Xi vyjádřit vztahem

Var(Xi) = Var(ai1 F1 + ai2 F2 + ai 3F3 +      + aim Fm + ei)

             = Var(ai1 F1) + Var(ai 2F2) + Var(ai3 F3) +      + Var(aim Fm) + Var(ei).                         (2)

Protože jak manifestní, tak i latentní proměnné jsou standardizovány (tj. mají rozptyl roven 1), platí

Var(Xi) = ai12 + ai22 + ai32 +      + aim2 +Var(ei) = 1.                                                                    (3)

Konstanty aij se nazývají faktorové zátěže. Nabývají hodnot mezi -1 a +1 a lze je interpretovat jako korelační koeficienty mezi pozorovanými proměnnými a faktory. Matici faktorových zátěží se říká faktorová matice. Součet druhých mocnin faktorových zátěží ai12 + ai22 + ai32 +      + aim2je roven části variability proměnné Xi vysvětlené všemi faktory Fj. Tento součet se nazývá komunalita proměnné. Komunalita proměnné je tedy ta část variability proměnné, která je vysvětlena faktory. Maximální možná hodnota komunality je rovna 1.

Je třeba připomenout, že faktorové zátěže aij jsou pouze odhady skutečných faktorových zátěží.
Je žádoucí, aby komunality nabývaly pokud možno hodnot blízkých 1. To pak svědčí o tom, že je jejich variabilita z velké míry vysvětlena faktorovou analýzou. Část variability proměnné Xi, která nemá vztah k faktorům, Var(ei), se nazývá jedinečnost. Jestliže byla proměnná Xi před zpracováním standardizována, platí, že

komunalita + jedinečnost = 1.

V souvislosti s faktorovou analýzou se také setkáváme s pojmem redukovaná korelační matice. Je to vlastně korelační matice původních proměnných, na jejíž diagonále jsou jedničky nahrazeny komunalitami.
Jak nejlépe dosáhnout toho, aby komunality dosahovaly maximální možné hodnoty, tj. hodnoty blízké jedné? Teoreticky toho lze dosáhnout tím, že počet faktorů bude roven počtu manifestních proměnných. V tomto případě bude mít pro m = k soustava lineárních rovnic jednoznačné řešení, tj. k manifestních proměnných bude převedeno na stejný počet faktorů, jedinečnosti ei budou nulové, nedojde k žádné ztrátě informace a všechny komunality budou rovny jedné. Stejný počet faktorů jako původních proměnných je ale v rozporu s hlavním cílem faktorové analýzy, že počet faktorů má být menší než počet původních proměnných, jinými slovy, že dojde k redukci proměnných. I kdybychom tohoto cíle nedbali, bylo by plýtváním času snažit se převádět pozorované proměnné na stejný počet jiných proměnných, o jejichž významu by bylo možné pouze spekulovat. Tím se dostáváme k jedné z nejtěžších úloh faktorové analýzy - stanovení počtu faktorů. Jde vlastně o hledání kompromisu, přičemž na jedné straně platí, že čím více faktorů se vypočítá, tím větší procento rozptylu proměnných je vysvětleno. Na druhé straně smyslem faktorové analýzy je nalézt pokud možno co nejmenší přijatelný počet faktorů. Proto je třeba počet hledaných faktorů určovat na základě konkrétních dat. Existuje tu několik možností.