Analýza testu - slovníček pojmů
Alternativy
představují
všechny nabízené odpovědi (správné i nesprávné) v úlohách s výběrem odpovědi.
Nesprávné odpovědi jsou označovány pojmem distraktory.
Úspěšnost žáků v testové úloze
vyjadřuje v
procentech podíl žáků, kteří úlohu úspěšně vyřešili, a všech testovaných žáků.
Pokud je například úspěšnost žáků v testové úloze 80 %, znamená to, že úlohu vyřešilo
správně 80 % žáků z celkového počtu testovaných žáků.
V případě,
že úloha připouští částečně správné řešení, upravuje se počet žáků podle
četnosti jednotlivých bodových ohodnocení úlohy. Pokud je například testová
úloha hodnocena 2 body za zcela správné řešení a 1 bodem za částečně správné
řešení a pokud 40 % žáků dalo zcela správnou odpověď a 40 % žáků částečně
správnou odpověď, celková úspěšnost žáků v dané testové úloze je 60 % (z žáků,
kteří dali částečně správnou odpověď za 1 bod, do výpočtu vstoupí pouze
polovina).
Pojem
úspěšnost se používá ve vztahu k populaci, která řešila danou úlohu, zatímco
pojem obtížnost se používá ve vztahu k dané testové úloze. Pro úplnost se mohou
rozlišovat tři druhy úspěšností žáků v testové úloze – čistá (viz úspěšnost
uvedená výše), korigovaná, hrubá
Čistá úspěšnost testové úlohy
vyjadřuje v
procentech podíl žáků, kteří úlohu vyřešili správně (respektive částečně
správně), a všech testovaných žáků. Odpovídá definici úspěšnosti uvedené výše.
Korigovaná úspěšnost testové úlohy
vyjadřuje v
procentech podíl žáků, kteří úlohy dosáhli a vyřešili ji úspěšně, a všech
testovaných žáků, kteří se k úloze dostali (z výpočtu jsou vyloučeni žáci,
kteří se k řešení úlohy nedostali za předpokladu, že řešili úlohy v tom
pořadí, v jakém byly uvedeny v testovém sešitu.
Obtížnost testové úlohy
je
odvozena od počtu žáků, kteří dali nesprávnou odpověď na danou úlohu. Pojem
obtížnost úlohy se používá jako jedna z charakteristik testové úlohy. Využívá se
k celkovému posouzení vhodnosti zařazení úlohy do testu. Úlohy s příliš nízkou
nebo příliš vysokou chybovostí považujeme za nevhodné pro zařazení do testu.
Diskriminační
schopnost (citlivost) testové úlohy
vypovídá
o schopnosti úlohy rozlišovat mezi žáky s většími znalostmi a dovednostmi a
žáky s menšími znalostmi a dovednostmi. K rozlišení žáků na „lepší“ a „slabší“
se většinou používá jejich celkový výsledek v testu. Vysokou citlivost má
taková úloha, kterou řeší „lepší“ žáci podstatně úspěšněji než žáci „slabší“. V
případě, že jsou v řešení úlohy úspěšnější „slabší“ žáci, obsahuje úloha
pravděpodobně nějakou konstrukční chybu.
Diskriminační
schopnost souvisí s ostatními charakteristikami testové úlohy, například s
obtížností. Při interpretaci je proto nutné vzít v úvahu všechny psychometrické
charakteristiky úlohy. Diskriminační schopnost úlohy se nejčastěji vyjadřuje
koeficienty RIT, RIR, ULI a grafem průběhu úspěšnosti.
Koeficient
RIT
je dán Pearsonovým
korelačním koeficientem mezi skóre dosaženém v dané testové úloze a celkovým
skóre.
Koeficient
RIR
je dán Pearsonovým
korelačním koeficientem mezi skóre dosaženém v dané testové úloze a celkovým
skóre při vyloučení dané úlohy.
Koeficienty
RIT a RIR nabývají hodnot od -1 do 1. Čím blíže je hodnota krajním pólům
intervalu <-1;1>, tím silnější je vzájemný vztah mezi úspěšností v dané
úloze a úspěšností ve zbytku testu. Záporné hodnoty znamenají, že žáci, kteří
správně řešili danou testovou úlohu, dosáhli spíše nízkého celkového skóre ve
zbytku testu, a naopak. Kladné hodnoty svědčí o tom, že žáci úspěšní v řešení
dané úlohy byli rovněž úspěšní při řešení ostatních úloh, tj. celého testu. Aby
bylo možné označit úlohu za přiměřeně citlivou, měla by diskriminace RIR
dosahovat nejméně hodnoty 0,25-0,3. Úlohy s nižší, nebo dokonce zápornou
hodnotou koeficientu se považují za nevhodné.
Koeficient
ULI – upper/lower index
je
rozdíl úspěšnosti skupiny nejlepších žáků a nejhorších žáků v úloze. Při výpočtu
se postupuje následujícím způsobem: Žáci se uspořádají podle celkového skóre do
pořadí od nejlepších po nejhorší, rozdělí se na několik (obvykle pět) stejně
početných skupin, pro každou skupinu se vypočítá úspěšnost žáků v řešení dané
testové úlohy a následně se odečte úspěšnost nejhorší skupiny od úspěšnosti
nejlepší skupiny. Je žádoucí, aby každá z úloh měla diskriminaci s co nejvyšší
kladnou hodnotou. Úlohy s diskriminací rovnou nule či dokonce zápornou se
považují za nevhodné.
Graf
průběhu úspěšnosti (diskriminační křivka)
znázorňuje
úspěšnost žáků v testové úloze v závislosti na jejich celkovém skóre. Při
vytváření grafu se postupuje následujícím způsobem: žáci se uspořádají podle
celkového skóre do pořadí od nejlepších po nejhorší, rozdělí se na několik
(například deset) stejně početných skupin, pro každou skupinu se vypočítá
úspěšnost žáků v řešení dané testové úlohy a úspěšnosti se nanesou do grafu.
Propojením bodů vyjadřujících úspěšnosti žáků jednotlivých skupin v řešení
úlohy vznikne diskriminační křivka.
Maximální (nejvyšší možné) skóre testu
je součtem
všech bodů, které je možné v testu získat.
Individuální skóre testu
je součtem
dosažených bodů každého jednotlivého žáka. Za každou správně vyřešenou úlohu v
testu získává žák určité bodové ohodnocení. Součet všech bodů, které žák v
testu získal, představuje jeho individuální skóre.
Průměrné skóre testu
je dáno
aritmetickým průměrem všech individuálních skóre.
Čistá úspěšnost testu
vyjadřuje v procentech
poměr průměrného skóre a maximálního skóre. Pokud je například průměrné skóre
25 a nejvyšší možné skóre 50, pak je průměrná úspěšnost žáků v testu rovna 50
%. Čistá úspěšnost může nabývat i záporných hodnot, pokud je dosaženo záporného
skóre (při odečítání bodů za špatnou odpověď a velkém počtu chybných odpovědí).
Čistá úspěšnost je zpravidla nižší než hrubá.
Korigovaná úspěšnost testu
vyjadřuje v
procentech poměr průměrného skóre a maximálního skóre. Průměrné skóre tu však
není počítáno pro všechny žáky, ale jen pro ty, kteří řešili i poslední úlohy v
testu. U žáků, kteří poslední úlohy neřešili, se předpokládá, že se k jejich
řešení z časových důvodů nedostali a z výpočtu jsou vyloučeni.
Objektivita testu
je
vlastnost, která se vztahuje k testovému skóre. Aby byl test objektivní,
nesmí být jeho výsledky ovlivněny subjektivními názory či postoji hodnotitelů
testu. To znamená vyhodnocovat výsledky buď automaticky pomocí speciálního
počítačového software, nebo alespoň více nezávislými posuzovateli (kteří dojdou
ke stejnému výsledku). Je zřejmé, že nízká objektivita testu snižuje i jeho
reliabilitu.
Reliabilita testu
představuje míru přesnosti a spolehlivosti testu.
Pouze test, který měří přesně a spolehlivě, poskytuje směrodatné informace o
úrovni znalostí a dovedností žáků. Test je přesný tehdy, jestliže při jeho použití
nedochází k velkým
chybám měření. Spolehlivost testu spočívá
v tom, že za týchž podmínek test poskytuje stejné výsledky.
K výpočtu
reliability se nejčastěji používají vzorce KR-20, L2 nebo Cronbachovo
alfa.
Čím
je reliabilita vyšší, tím menší vliv má na výsledek testu náhoda. Při
reliabilitě 0 by šlo o výsledky zcela náhodné, při reliabilitě 1 by naopak šlo
o zcela přesné výsledky. V praxi se reliabilita pohybuje nejčastěji mezi
0,5 a 0,95. Většinou se požaduje koeficient reliability minimálně 0,80. Takto
vysoké reliability však nelze dosáhnout u testů, jejichž úlohy se netýkají
pouze jedné tematické
oblasti a ověřují více schopnosti žáků.
Validita testu
vyjadřuje míru
shody (zjišťovanou na základě posudků expertů nebo empiricky zjištěných údajů)
mezi výsledky testu a účelem, pro který byl test vytvořen. Aby byl test dostatečně
validní, musí mít vysokou reliabilitu. Vysoká reliabilita didaktického testu
však ještě není zárukou toho, že test bude validní.