Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Тема 10. Определение надежности тестовСодержание книги
Похожие статьи вашей тематики
Поиск на нашем сайте
Основные понятия теории тестов
Не всякие измерения могут быть использованы как тесты, а только те, которые отвечают специальным требованиям. К ним относятся: 1. стандартизованность (процедура и условия тестирования должны быть одинаковыми во всех случаях применения теста);
Процесс испытаний называется тестированием; полученное в итоге измерения числовое значение — результатом тестирования (или результатом теста). Например, бег 100 м — это тест, процедура проведения забегов и хронометража — тестирование, время забега — результат теста. Тесты, в основе которых лежат двигательные задания, называют двигательными или моторными. Результатами их могут быть либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т.п.), либо физиологические и биохимические показатели. Иногда используется не один, а несколько тестов, имеющих единую конечную цель (например, оценку состояния спортсмена в соревновательном периоде тренировки). Такая группа тестов называется комплексом или батареей тестов. Один и тот же тест, примененный к одним и тем же исследуемым, должен дать в одинаковых условиях совпадающие результаты (если только не изменились сами исследуемые). Однако при самой строгой стандартизации и точной аппаратуре результаты тестирования всегда несколько варьируют. Например, исследуемый, только что показавший в тесте становой динамометрии результат 215 кГ, при повторном выполнении показывает лишь 190 кГ.
Вариацию результатов при повторном тестировании называют внутри индивидуальной, или внутри групповой, либо внутриклассовой. Четыре основные причины вызывают эту вариацию: 1. Изменение состояния исследуемых (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).
Чтобы разобраться в идее методов, используемых для суждения о надежности тестов, рассмотрим упрощенный пример. Предположим, что необходимо сравнить результаты прыжков в длину с места у двух спортсменов по двум выполненным попыткам. Допустим, что результаты каждого из спортсменов варьируют в пределах ± 10 см от средней величины и равны соответственно 230 ± 10 см (т.е. 220 и 240 см) и 280± 10 см (т.е. 270 и 290 см). В таком случае вывод, конечно, будет совершенно однозначным: второй спортсмен превосходит первого (различия между средними в 50см явно выше случайных колебаний в ± 10 см). Если же при той же самой внутригрупповой вариации (± 10 см) различие между средними значениями исследуемых (межгрупповая вариация) будут маленькими, то сделать вывод будет гораздо труднее. Допустим, что средние значения будут примерно равны 220 см (в одной попытке — 210, в другой — 230 см) и 222 см (212 и 232 см). При этом первый исследуемый в первой попытке прыгает на 230 см, а второй — только на 212 см; и создается впечатление, что первый существенно сильнее второго. Из этого примера видно, что основное значение имеет не сама по себе внутриклассовая изменчивость, а ее соотношение с межклассовыми различиями. Одна и та же внутриклассовая изменчивость дает разную надежность при равных различиях между классами (в частном случае между исследуемыми, рис. 14). Рис. 14. Соотношение меж- и внутриклассовой вариации при высокой (вверху) и низкой (внизу) надежности: короткие вертикальные штрихи — данные отдельных попыток; — средние результаты трех исследуемых. Теория надежности тестов исходит из того, что результат любого измерения, проводимого на человеке , есть сумма двух значений:
где: — так называемый истинный результат, который хотят зафиксировать; — ошибка, вызванная неконтролируемыми изменениями в состоянии исследуемого и случайными ошибками измерения. Под истинным результатом понимают среднее значение х при бесконечно большом числе наблюдений в одинаковых условиях (по этому при х ставят знак ). Если ошибки случайны (их сумма равна нулю, и в равных попытках они не зависят друг от друга), тогда из математической статистики следует:
т.е. зарегистрированная в опыте дисперсия результатов равна сумме дисперсий истинных результатов и ошибок .
Кроме коэффициента надежности используют еще индекс надежности:
который рассматривают как теоретический коэффициент корреляции зарегистрированных значений теста с истинными. Понятие об истинном результате теста является абстракцией ( в опыте измерить нельзя). Поэтому приходится использовать косвенные методы. Наиболее предпочтителен для оценки надежности дисперсионный анализ с последующим расчетом внутриклассовых коэффициентов корреляции. Дисперсионный анализ позволяет разложить зарегистрированную в опыте вариацию результатов теста на составляющие, обусловленные влиянием отдельных факторов. Например, если зарегистрировать у исследуемых их результаты в каком-либо тесте, повторяя этот тест в разные дни, причем каждый день делать по несколько попыток, периодически меняя экспериментаторов, то будут иметь место вариации: а) от испытуемого к испытуемому; б) ото дня ко дню; в) от экспериментатора к экспериментатору; г) от попытки к попытке. Дисперсионный анализ дает возможность выделить и оценить эти вариации. Таким образом, чтобы оценить практически надежность теста надо, во-первых, выполнить дисперсионный анализ, во-вторых, рассчитать внутриклассовый коэффициент корреляции (коэффициент надежности). При двух попытках величина внутриклассового коэффициента корреляции практически совпадает со значениями обычного коэффициента корреляции между результатами первой и второй попыток. Поэтому в таких ситуациях для оценки надежности можно использовать обычный коэффициент корреляции (он при этом оценивает надежность одной, а не двух попыток). Говоря о надежности тестов, необходимо различать их стабильность (воспроизводимость), согласованность, эквивалентность. Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом. Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест. При выборе теста из определенного числа однотипных тестов (например, спринтерский бег на 30, 60 и 100 м) методом параллельных форм оценивается степень совпадения результатов. Рассчитанный между результатами коэффициент корреляции называют коэффициентом эквивалентности. Если все тесты, входящие в какой-либо комплекс тестов, высоко эквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека (например, комплекс, состоящий из прыжков с места в длину, вверх и тройного; оценивается уровень развития скоростно-силовых качеств). Если в комплексе нет эквивалентных тестов, то есть тесты, входящие в него, измеряют разные свойства, то он называется гетерогенным (например, комплекс, состоящий из становой динамометрии, прыжка вверх по Абалакову, бега на 100 м). Надежность тестов может быть повышена до определенной степени путем: а) более строгой стандартизации тестирования; б) увеличения числа попыток; в) увеличения числа оценщиков (судей, экспериментов) и повышения согласованности их мнений; г) увеличения числа эквивалентных тестов; д) лучшей мотивации исследуемых. Пример 10.1. Определить надежность результатов тройного прыжка с места в оценке скоростно-силовых возможностей спортсменов-спринтеров, если данные выборок таковы: Решение: 1. Занести результаты тестирования в рабочую таблицу: 2. Подставляем полученные результаты в формулу расчета рангового коэффициента корреляции: 3. Определим число степеней свободы по формуле: k = n. Вывод: полученное расчетное значение Следовательно, с уверенностью в 99% можно говорить о том, что тест тройного прыжка с места надежен.
|
||||
Последнее изменение этой страницы: 2017-01-19; просмотров: 734; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.128.168.176 (0.007 с.) |