Analýza testu - slovníček pojmů

Alternativy

představují všechny nabízené odpovědi (správné i nesprávné) v úlohách s výběrem odpovědi. Nesprávné odpovědi jsou označovány pojmem distraktory.

Úspěšnost žáků v testové úloze

vyjadřuje v procentech podíl žáků, kteří úlohu úspěšně vyřešili, a všech testovaných žáků. Pokud je například úspěšnost žáků v testové úloze 80 %, znamená to, že úlohu vyřešilo správně 80 % žáků z celkového počtu testovaných žáků.

V případě, že úloha připouští částečně správné řešení, upravuje se počet žáků podle četnosti jednotlivých bodových ohodnocení úlohy. Pokud je například testová úloha hodnocena 2 body za zcela správné řešení a 1 bodem za částečně správné řešení a pokud 40 % žáků dalo zcela správnou odpověď a 40 % žáků částečně správnou odpověď, celková úspěšnost žáků v dané testové úloze je 60 % (z žáků, kteří dali částečně správnou odpověď za 1 bod, do výpočtu vstoupí pouze polovina).

Pojem úspěšnost se používá ve vztahu k populaci, která řešila danou úlohu, zatímco pojem obtížnost se používá ve vztahu k dané testové úloze. Pro úplnost se mohou rozlišovat tři druhy úspěšností žáků v testové úloze – čistá (viz úspěšnost uvedená výše), korigovaná, hrubá

Čistá úspěšnost testové úlohy

vyjadřuje v procentech podíl žáků, kteří úlohu vyřešili správně (respektive částečně správně), a všech testovaných žáků. Odpovídá definici úspěšnosti uvedené výše.

Korigovaná úspěšnost testové úlohy

vyjadřuje v procentech podíl žáků, kteří úlohy dosáhli a vyřešili ji úspěšně, a všech testovaných žáků, kteří se k úloze dostali (z výpočtu jsou vyloučeni žáci, kteří se k řešení úlohy nedostali za předpokladu, že řešili úlohy v tom pořadí, v jakém byly uvedeny v testovém sešitu.

Obtížnost testové úlohy

je odvozena od počtu žáků, kteří dali nesprávnou odpověď na danou úlohu. Pojem obtížnost úlohy se používá jako jedna z charakteristik testové úlohy. Využívá se k celkovému posouzení vhodnosti zařazení úlohy do testu. Úlohy s příliš nízkou nebo příliš vysokou chybovostí považujeme za nevhodné pro zařazení do testu.

Diskriminační schopnost (citlivost) testové úlohy

vypovídá o schopnosti úlohy rozlišovat mezi žáky s většími znalostmi a dovednostmi a žáky s menšími znalostmi a dovednostmi. K rozlišení žáků na „lepší“ a „slabší“ se většinou používá jejich celkový výsledek v testu. Vysokou citlivost má taková úloha, kterou řeší „lepší“ žáci podstatně úspěšněji než žáci „slabší“. V případě, že jsou v řešení úlohy úspěšnější „slabší“ žáci, obsahuje úloha pravděpodobně nějakou konstrukční chybu.

Diskriminační schopnost souvisí s ostatními charakteristikami testové úlohy, například s obtížností. Při interpretaci je proto nutné vzít v úvahu všechny psychometrické charakteristiky úlohy. Diskriminační schopnost úlohy se nejčastěji vyjadřuje koeficienty RIT, RIR, ULI a grafem průběhu úspěšnosti.

Koeficient RIT

je dán Pearsonovým korelačním koeficientem mezi skóre dosaženém v dané testové úloze a celkovým skóre.

Koeficient RIR

je dán Pearsonovým korelačním koeficientem mezi skóre dosaženém v dané testové úloze a celkovým skóre při vyloučení dané úlohy.

Koeficienty RIT a RIR nabývají hodnot od -1 do 1. Čím blíže je hodnota krajním pólům intervalu <-1;1>, tím silnější je vzájemný vztah mezi úspěšností v dané úloze a úspěšností ve zbytku testu. Záporné hodnoty znamenají, že žáci, kteří správně řešili danou testovou úlohu, dosáhli spíše nízkého celkového skóre ve zbytku testu, a naopak. Kladné hodnoty svědčí o tom, že žáci úspěšní v řešení dané úlohy byli rovněž úspěšní při řešení ostatních úloh, tj. celého testu. Aby bylo možné označit úlohu za přiměřeně citlivou, měla by diskriminace RIR dosahovat nejméně hodnoty 0,25-0,3. Úlohy s nižší, nebo dokonce zápornou hodnotou koeficientu se považují za nevhodné.

Koeficient ULI – upper/lower index

je rozdíl úspěšnosti skupiny nejlepších žáků a nejhorších žáků v úloze. Při výpočtu se postupuje následujícím způsobem: Žáci se uspořádají podle celkového skóre do pořadí od nejlepších po nejhorší, rozdělí se na několik (obvykle pět) stejně početných skupin, pro každou skupinu se vypočítá úspěšnost žáků v řešení dané testové úlohy a následně se odečte úspěšnost nejhorší skupiny od úspěšnosti nejlepší skupiny. Je žádoucí, aby každá z úloh měla diskriminaci s co nejvyšší kladnou hodnotou. Úlohy s diskriminací rovnou nule či dokonce zápornou se považují za nevhodné.

Graf průběhu úspěšnosti (diskriminační křivka)

znázorňuje úspěšnost žáků v testové úloze v závislosti na jejich celkovém skóre. Při vytváření grafu se postupuje následujícím způsobem: žáci se uspořádají podle celkového skóre do pořadí od nejlepších po nejhorší, rozdělí se na několik (například deset) stejně početných skupin, pro každou skupinu se vypočítá úspěšnost žáků v řešení dané testové úlohy a úspěšnosti se nanesou do grafu. Propojením bodů vyjadřujících úspěšnosti žáků jednotlivých skupin v řešení úlohy vznikne diskriminační křivka.

Maximální (nejvyšší možné) skóre testu

je součtem všech bodů, které je možné v testu získat.

Individuální skóre testu

je součtem dosažených bodů každého jednotlivého žáka. Za každou správně vyřešenou úlohu v testu získává žák určité bodové ohodnocení. Součet všech bodů, které žák v testu získal, představuje jeho individuální skóre.

Průměrné skóre testu

je dáno aritmetickým průměrem všech individuálních skóre.

Čistá úspěšnost testu

vyjadřuje v procentech poměr průměrného skóre a maximálního skóre. Pokud je například průměrné skóre 25 a nejvyšší možné skóre 50, pak je průměrná úspěšnost žáků v testu rovna 50 %. Čistá úspěšnost může nabývat i záporných hodnot, pokud je dosaženo záporného skóre (při odečítání bodů za špatnou odpověď a velkém počtu chybných odpovědí). Čistá úspěšnost je zpravidla nižší než hrubá.

Korigovaná úspěšnost testu

vyjadřuje v procentech poměr průměrného skóre a maximálního skóre. Průměrné skóre tu však není počítáno pro všechny žáky, ale jen pro ty, kteří řešili i poslední úlohy v testu. U žáků, kteří poslední úlohy neřešili, se předpokládá, že se k jejich řešení z časových důvodů nedostali a z výpočtu jsou vyloučeni.

Objektivita testu

je vlastnost, která se vztahuje k testovému skóre. Aby byl test objektivní, nesmí být jeho výsledky ovlivněny subjektivními názory či postoji hodnotitelů testu. To znamená vyhodnocovat výsledky buď automaticky pomocí speciálního počítačového software, nebo alespoň více nezávislými posuzovateli (kteří dojdou ke stejnému výsledku). Je zřejmé, že nízká objektivita testu snižuje i jeho reliabilitu.

Reliabilita testu

představuje míru přesnosti a spolehlivosti testu. Pouze test, který měří přesně a spolehlivě, poskytuje směrodatné informace o úrovni znalostí a dovedností žáků. Test je přesný tehdy, jestliže při jeho použití nedochází k velkým

chybám měření. Spolehlivost testu spočívá v tom, že za týchž podmínek test poskytuje stejné výsledky.

K výpočtu reliability se nejčastěji používají vzorce KR-20, L2 nebo Cronbachovo alfa.

Čím je reliabilita vyšší, tím menší vliv má na výsledek testu náhoda. Při reliabilitě 0 by šlo o výsledky zcela náhodné, při reliabilitě 1 by naopak šlo o zcela přesné výsledky. V praxi se reliabilita pohybuje nejčastěji mezi 0,5 a 0,95. Většinou se požaduje koeficient reliability minimálně 0,80. Takto vysoké reliability však nelze dosáhnout u testů, jejichž úlohy se netýkají pouze jedné tematické oblasti a ověřují více schopnosti žáků.

Validita testu

vyjadřuje míru shody (zjišťovanou na základě posudků expertů nebo empiricky zjištěných údajů) mezi výsledky testu a účelem, pro který byl test vytvořen. Aby byl test dostatečně validní, musí mít vysokou reliabilitu. Vysoká reliabilita didaktického testu však ještě není zárukou toho, že test bude validní.