Общая теория педагогических измерений. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Общая теория педагогических измерений.



Главным предметом такой теории должна быть разработка понятийного аппарата теории педагогических измерений; изучение влияния заданий в тестовой форме, тестовых заданий и тестов на активизацию учебного процесса.

Другие предметы общей теории - разработка целей и задач педагогических измерений; создание программ проведения массового тестирования, изучение их положительных и отрицательных воздействий на личность, общество и государство.

К сугубо научным вопросам общей теории можно отнести анализ понятий, положенных в основу измерений; анализ содержания заданий и теста в целом; разработка педагогических критериев эффективности и качества проводимых измерений.

Попытки разработки общей теории педагогических измерений представлены в ряде публикаций. Некоторые построения классической теории тестов могут считаться частью общей теории педагогических измерений.

2. Частные педагогические теории.

С общей теорией непосредственно связаны частные теории, например, логико-педагогическая теория композиции заданий в тестовой форме. Это важно, посколькукаждое нарушение формы, содержания, того и другого – источники погрешностей измерения.

3. Общие математические теории педагогического измерения. (Random Sampling Theory; Theory of Generalizability)

Общие теории педагогических измерений непосредственно связаны с общими математическими теориями педагогических измерений, поскольку конечным результатом всех построений должно быть наиболее точное измерение истинных баллов. Для этого в математических теориях используются различные модели оценки этих баллов.

В частности, варианты классической теории тестов полезно рассматривать в связке с положениями Random Sampling Theory и более общей Theory of Generalizability (Dependability), учитывая их общую опору на статистические теории индуктивного вывода.

Специальные математические теории педагогического измерения (Item Analysis; Item Response Theory)

К ним можно отнести частную математико-педагогическую теорию тестовых заданий, в которую целесообразно включить часть положений классической теории тестов, известной на Западе под названием «Item Analysis», а также постулаты, модели и вычислительные методы IRT.

Литература к главе 3

1. В.С. Аванесов “Педагогическое измерение латентных качеств”, “Педагогическая диагностика”, 2003, №4.

2. В.С. Аванесов “Основы педагогической теории измерений”, “Педагогические измерения”, 2004, №1.

3. М.Б. Челышкова “Теория и практика конструирования педагогических тестов”, М. Логос, 2002.

4. Lord F.M., Novick M. “Statistical Theories of Mental Test Scores”, Addison-Wesley Publ. Co. 1968 Reading Mass.


Глава 4. Основные психометрические характеристики тестов

К основным психометрическим характеристикам тестов относятся, в первую очередь, валидность и надежность.

Валидность

Валидность – это свойство теста измерять именно то, для чего он предназначен.

Например, мы можем определить что «знание математики» соответствует высоким баллам, полученным по математическим тестам. Но если все задания состоят из простых арифметических задач, то тест будет определять, насколько человек быстро считает. Таким образом, важно понимание того насколько рабочее определение измеряемой величины соответствует концептуальному определению.

В общем случае, достичь абсолютной валидности нельзя. Можно лишь пытаться максимально улучшить валидность в каждом конкретном случае, исходя из критериев, значимых для этого случая.

Существуют разные типы и виды валидности:

Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: "Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?"

 

Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере знание чего-либо отражено в методике.

 

Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки знаний школьников в качестве экспертов обычно выступают учителя.

 

Внешняя валидность означает, что впечатление, которое создается при знакомстве с сугубо внешней стороной тестирования, соответствует заявленному содержанию метода. Это наименее важный аспект валидности, так как требует дополнительной проверки валидности другими методами.

В некоторых случаях исследователи специально ухудшают внешнюю валидность, например, для измерения социально нежелательных характеристик (таких как расизм). В практическом плане, следует быть осторожным относительно тестов, которые должны были бы измерять одну величину, но кажется, что измеряют нечто другое. Например, знание латинских названий различных видов растений не говорит о том, что человек знает латынь.

 

Внутренняя валидность – это необходимое условие возможности интерпретации результатов теста, она спрашивает: «Не изменились ли условия эксперимента в данном случае?»

 

Факторы ухудшающие внутреннюю валидность:

1. История: некое событие произошло между первым и вторым измерением в дополнение к экспериментальным переменным.

2. Развитие: процесс внутри испытуемых, как функция от времени (не специфический к частным событиям), например, взросление, усиление чувства голода, усталость и т.д.

3. Тестирование: эффект первого тестирования влияет на баллы второго.

4. Инструменты: изменение в наблюдателях или способах получения баллов могут влиять на наблюдаемые величины.

5. Статистическая регрессия: в случае, если работа идет с группами, отобранными на основе экстремальных значений балов.

6. Выбор: смещение, возникающее в результате дифференцированного выбора респондентов в пары для сравнения.

7. Выбывание: дифференциальная потеря респондентов из сравниваемых групп.

Валидность генерализации (репрезентативность), задает вопрос о том, на кого мы можем распространить результаты эксперимента.

 

Факторы ухудшающие репрезентативную валидность:

1. Реагирующий или взаимодействующий эффект тестирования: значения первого теста могут возрасти.

2. Эффект взаимодействия смещения выбора и экспериментальных переменных.

3. Эффект экспериментальной подготовки, который будет препятствовать распространению результата на людей, которые тестируются в не-экспериментальном окружении.

4. Эффект многократной обработки, когда эффект предыдущих тестов не стирается.

 

Валидность критерия состоит из двух частей:

· Совместная валидность: «Есть ли какая-либо связь между мерой и другими проявлениями свойства, которого этот тест должен измерить?»

· Предиктивная валидность: «Предсказывает ли тест уровень развития данной конкретной способности?»

 

Относительная валидность: важно знать насколько результаты данного теста соответствуют результатам аналогичных тестов, которые измеряют то же или близкое свойство.

 

Дискриминантная валидность: важно показать, что мера не измерят то, что не предполагалось измерять, то есть дискриминантна.

Например, можно говорить о дискриминантной валидности, если есть низкая корреляция между результатами теста на скорость чтения и теста на определяющие факторы мотивации, так как способность к чтению не имеет отношения к мотивации.

 

Источники плохой валидности:

1. Плохая надежность теста

2. Ответы на вопросы = психологическая ориентация или предубеждения против данного ответа:

2.1. Уступчивость: тенденция соглашаться, то есть говорить «Да». Следует составлять вопросы.

2.2. Социальная желательность: тенденция показывать себя в лучшем свете. Следует составлять тесты, где социальная желательность не очень заметна.

2.3. Ухудшение: намеренно говорить «Нет», если это принесет какую-нибудь «награду» (например, внимание, компенсацию, социальную помощь и т.д.)

3. Смещение:

1.1 Культурное смещение: имеет ли данное свойство одинаковое значение в разных культурах? Как различные вопросы интерпретируются людьми разных культур? Содержание теста (внешняя валидность) может быть разной для людей разных культур.

1.2 Смещение по половому признаку также может быть возможным.

1.3 Тестовое смещение:

1.3.1 Смещение в измерениях возникает, если тест делает систематическую ошибку в измерении данного свойства. Например, считается, что многие тесты IQ хороши для основной средней массы населения, но не для представителей национальных меньшинств, ведущих отличный образ жизни. Если тест проводится методом интервью, то возникает смещение в направлении хорошо выглядящих экзаменуемых.

1.3.2 Смещение в предпосылках возникает, когда тест делает систематическую ошибку в предсказании некоторого значения или критерия. Также тест может быть хорош только для некоторых групп людей. Например, тест, составленный мужчинами, может не очень хорошо оценивать значение данной характеристики у женщин.

 

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности, так и практической.

 

Валидизация

Несколько простых способов улучшить валидность теста:

1. Необходимо четко определить, что вы собираетесь измерять. Напишите, какие результаты вы ожидаете получить. Если вы не можете описать это, то вы не можете и измерить это.

2. Протестируйте тест при помощи классической или современной теории тестирования и отбросьте или измените выбивающиеся вопросы (см. приложение пункт 7.1).

3. Сравните результаты теста со всеми доступными вам данными.

Методы валидизации:

Есть три основных метода валидизации теста. Ни одному из них нельзя отдать предпочтение, так как выбор, какой метод использовать, определяется конкретной задачей.

 

Валидизация, основанная на критерии:

Метод требует демонстрации корреляции или другой статистической связи между тестовым баллом и уровнем выполнения «работы» (например, решением математических задач). Другими словами, люди с высоким тестовым баллом имеют тенденцию лучше выполнять работу, чем люди с более низким тестовым баллом. Если критерий для сравнения нам известен во время проведения теста, то это называется совместной валидностью, а если значения критерия проявляются в более позднее время, то это предиктивная валидность. Например, соответствие последующей успеваемости студента с баллом вступительных экзаменов – это предиктивная валидность, а согласованность с этим баллом результатов школьных выпускных экзаменов – совместная валидность.

Валидность, основанная на критерии измеряется коэффициентом валидности. Это число между 0 и 1, которое степень близости «r» между тестом и мерой выполнения «работы» (критерием). Чем больше значение коэффициента, тем более вы можете в предсказаниях, основанных на тестовом балле. Тем ни менее, один тест никогда не может полностью предсказать степень исполнения «работы», так как слишком много различных факторов влияют на успех в «работе». Поэтому коэффициент валидности, в отличии от коэффициентов надежности, редко превышает r = 0.40.

 

Интерпретация значений коэффициента валидности
Значение коэффициента Интерпретация
Выше 0.35 Очень хорошая
0.21-0.35 Можно использовать
0.11-0.20 Можно использовать в зависимости от обстоятельств
ниже 0.11 Не следует использовать

 

Валидность от 0.21 до 0.35 наиболее типична для одиночного теста. Валидность для системы тестов, вероятно, будет больше, так как вы используете несколько инструментов для измерения различных аспектов успешного выполнения «работы».

Дополнительно, эмпирические доводы в поддержку валидности, основанной на критерии должны включать сравнение значений изучаемого теста и значений внешних критериев, например, школьных оценок, значений других тестов или оценок учителей.

Также, для самопроверки полезно задать следующие вопросы:

- Какие критерии были использованы для оценки валидности? По какой причине были выбраны именно эти способы измерения?

- Является ли распределение баллов по критерию адекватным?

- Какова точность теста? Насколько точны предсказания для экзаменуемых с баллами, близкими к критическим?

 

Валидизация, основанная на содержании:

Метод требует демонстрации того, что вопросы тест измеряют величины, существенные для определения значения данного признака. Например, тест на скорость печатания на клавиатуре будет иметь высокую валидность для подбора людей на должность секретаря, так как, предполагается, что эта работа требует частого использования клавиатуры. Тем ни менее, если работа требует набора текста только изредка, тот же самый тест будет иметь маленькую валидность содержания. В общем случае, валидность основанная на содержании не применяется для измерения способности к обучению и общих способностей решения проблем.

 

Валидность, основанная на содержании, часто оценивается проверкой плана и процедур, использованных при составлении теста:

- Соответствует ли процедура рациональному методу, который гарантирует соответствующее содержание?

- Гарантирует ли процедура то, что данная подборка вопросов будет проявлять соответствующие характеристики?

- Насколько близко содержание к тому содержанию, которое вы собирались измерить?

 

Валидизация, основанная на свойстве:

Метод требует демонстрации того, что тест измеряет свойство или характеристику, для которой он и предназначен. Этот метод часто применяется для тестов, которые меряют абстрактные величины. Например, валидность, основанная на свойстве, может быть использована, когда школа оценивает «хорошесть» учеников. В данном случае, «хорошесть» - не некая наблюдаемая величина, а концепция, созданная, чтобы объяснить возможное поведение учеников в будущем. Чтобы продемонстрировать, что тест имеет хорошую валидность, основанную на свойстве, школе будет необходимо показать, что, во-первых, тест действительно измеряет это свойство и, во-вторых, это свойство связано с хорошей успеваемостью учеников.

 

Валидность, основанная на свойстве, часто используется для измерения психологических черт личности, например, интеллигентность, самосознание или креативность. Есть несколько способов проверить валидность, основанную на свойстве. Например, можно продемонстрировать, что вопросы в тесте связаны и, таким образом, измеряют одну величину. Внутриклассовая корреляция и факторный анализ часто используются для того, чтобы продемонстрировать связь между вопросами. Другой подход – это продемонстрировать, что значения теста ведут себя так же, как вы ожидаете должны вести себя значения свойства. Например, предполагается, что мера креативности должна показывать большую корреляцию с артистическими способностями, чем со школьными успехами.

Также, для самопроверки полезно задать следующие вопросы:

- Действительно ли концептуальная основа для каждого тестируемого свойства хорошо обоснована и ясна?

- Почему мы предполагаем, что свойство связано с целью теста?

 

Анализ заданий.

В качестве дополнительной меры для улучшения валидности теста можно провести анализ заданий. По определению, наличие в тесте задания, провоцирующего социально одобряемые реакции, должно приводить к тому, что распределение ответов на него будет смещено, то есть не будет соответствовать нормальному распределению. Таким образом, устранением из теста заданий с распределением ответов, отличным от нормального, мы избавимся от действия установки на социально одобряемые ответы. Более того, если большинство заданий дают нормальное распределение ответов и они нагружены некоторым общим фактором, тогда установка на социально одобряемые ответы не может оказывать сильное влияние и на другие задания, относящиеся к тому же фактору. Подобные аргументы приводятся при анализе заданий с использованием бисериальной корреляции результатов выполнения каждого задания с общим показателем по тесту. Таким образом, при адекватном анализе те задания, результат выполнения которых подвержен влиянию установки на социально одобряемые ответы, должны быть устранены, если только, по нелепой случайности, все задания, выбранные нами для теста, не оказались измеряющими эту черту.

 

Надежность

Надежность теста – это устойчивость тех результатов, которые вы получаете при помощи теста. В большинстве случаев, устойчивость связана с числом случайных ошибок в процессе. Систематическая ошибка, например, разница между более либеральным экзаменатором и еще одним, менее либеральным, также может быть изучена и устранена, но при помощи более сложного анализа. Для наших целей, мы считаем ошибку в тесте случайной и не воспроизводящейся. Следует учитывать, что подобные ошибки встречаются во всех видах измерений и цель состоит в том, чтобы минимизировать их. Таким образом, значение тестового балла состоит из действительного балла плюс ошибка измерения. Задача оценки надежности – определение того, насколько изменчивость тестового балла определяется ошибкой измерения, и насколько - изменчивостью действительного балла.

Надежность оказывает существенное влияние на тестовые баллы. Если тест совершенно случаен, то есть надежность равна нулю, то нет никакой устойчивости в получении студентами определенных баллов. Если надежность равна единице, то результаты каждый раз будут повторяться. Для промежуточных случаев, необходимо быть осторожным в присвоении оценок студентам, получившим тестовый балл, близкий к пороговому между двумя оценками, так как при повторном прохождении теста из-за случайной ошибки балл может быть ближе к другой оценке.

 

Типы надежности

1. Ретестовая надежность:

Ретестовый метод заключается в повторном тестировании выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни. Обычно предполагают, что тест «надежен» в течение двухнедельного интервала, но нет никаких логических обоснований в пользу этого факта, за исключением старого наблюдения, что знание отдельных фактов теряется через этот промежуток времени.

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований (см. приложение пункт 4.). Значения коэффициента варьируются от 0 (низкая надежность) до 1 (высокая надежность) и, в редких случаях, может быть отрицательной, о чем будет рассказано ниже. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста. В частности можно использовать коэффициент корреляции Пирсона:

rxy = SPx / √SSx*SSy, где SPx = ∑(xi – x)(yi – y), SSx = ∑(xi – x)2

 

2. Альтернативные формы

Надежность альтернативных форм, проверяется повторным тестированием одной выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о том, что разные формы теста близки между собой. С другой стороны, низкий коэффициент надежности параллельных форм предполагает, что разные формы не сопоставимы, вероятно, они измеряют различные вещи и, соответственно, не могут заменять друг друга.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место и его следует учитывать при построении параллельных форм.

 

Требования к построению параллельных форм:

· параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

· должны содержать одинаковое количество заданий со сходной степенью трудности;

· эквивалентность параллельных форм необходимо проверять ретестовым методом.

 

3. Метод расщепления

Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов.

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

 

4. Внутренняя надежность

Внутренняя надежность показывает, насколько вопросы теста измеряют одну и ту же величину. Внутренняя надежность обычно измеряется при помощи коэффициента Альфа Кронбаха (см. приложение пункт 7.1). Чем больше похожих заданий, тем больше внутренняя надежность. Поэтому часто встречаются очень длинные тесты, задающие один и тот же вопрос множеством разных способов – чем больше похожих вопросов вы добавляете, тем большее значение коэффициента Кронбаха вы получаете.

 

Источники ошибки

Отбор заданий: так как любой тест - это только некоторая выборка из всех возможных заданий, то этот отбор сам может быть источником ошибки. Более длинные тесты обычно более надежны, так как тогда у нас лучше модель содержания курса и успеваемости студентов. Пусть, например, экзаменатор, чтобы оценить знания студентов по биологии, сделает тест из одного вопроса. Студенты, которые знают ответ на этот конкретный вопрос, очень успешно пройдут этот тест, а те, кто не знают – плохо. Очевидно, что тест из одного вопроса не даст надежной оценки знаний студентов. Соответственно, чем больше вопросов мы добавляем в тест, тем больше тестовые баллы будут соответствовать действительной разнице в успеваемости студентов. Таким образом, увеличиваю длину теста, мы увеличиваем устойчивость измерений.

Также более длинный тест уменьшает влияния таких случайных факторов как угадывание. Например, если тест будет состоять из десяти вопросов, то студент может знать ответы на шесть из них и попытаться угадать ответы на остальные четыре. Если он угадает, то покажет великолепные результаты по тесту, если нет, то пройдет тест только на 60% успешно. Иначе, если тест будет состоять из 100 вопросов, то число правильно угаданных вопросов будет сбалансировано неправильно угаданными и тестовый балл будет более надежным индикатором реальных знаний.

С другой стороны, здесь есть ловушка: удлинение теста улучшает надежность, только если дополнительные задания также хороши и надежны, как и первоначальные. Добавление плохих заданий только увеличит ошибку и понизит надежность. Более того, есть риск дополнительного ухудшение результатов: если мы добавим слишком много вопросов, то студенты утомятся, и надежность ухудшиться.

 

Составление заданий: другая большая сложность - это плохо сформулированные, неоднозначные или хитрые вопросы. Рассмотрим следующие примеры:

 

Какой коэффициент оценки надежности лучше всего использовать школьному учителю?

1. Расщепления

2. Кудер-Ричардсон

3. Стандартную ошибку измерений

Надежность теста зависит от его длины?

1. Да

2. Нет

 

Для первого вопроса правильный ответ будет зависеть от того, что экзаменатор понимает под «лучшем» коэффициентом. «Лучший» может означать простоту вычислений, содержательность или что-нибудь еще. Второй вопрос неоднозначен и ответ на него может быть как «Да», так и «Нет» - в зависимости от интерпретации.

Таким образом, вопросы, которые позволяет различную трактовку, вряд ли дадут надежные баллы.

 

Окружение: факторы среды, такие как жара, свет, шум, путающие указания и различное время, предоставленное разным студентам, могут влиять на тестовые баллы. Чем больше таких факторов взаимодействуют с работой студентов, тем меньше у нас уверенности в точности теста.

 

Объективность: степень, до которой одинаково компетентные экзаменаторы получают одинаковые баллы, также является фактором, влияющим на надежность. Объективный тест более надежный, так как тестовые баллы отражают реальные различия среди студентов, а не мнение экзаменаторов. Обычно, тест в виде эссе менее надежен, чем тест, состоящий из вопросов с несколькими возможными вариантами ответов, так как субъективное мнение экзаменаторов понижает надежность. Тем не менее, это не значит, что тесты в виде эссе не надо использовать – есть способы увеличения их надежности.

 

Сложность теста: тест, который или слишком сложен, или слишком легок, также будет иметь низкую надежность. Это происходит потому, что тестовые баллы будут собранны вместе или на высшем, или на низшем конце шкалы, с небольшой разницей между отдельными студентами. Надежность выше, когда баллы распределены по всей шкале, показывая реальную разницу между студентами.

 

Студенческий фактор: усталость студентов, болезнь или беспокойство также порождают ошибки и понижают надежность, так как они мешают тесту быть точной мерой действительных способностей студентов.

 

Советы по улучшению надежности теста:

Пишите длинные тесты: Трудно сказать заранее, какое число вопросов необходимо для составления надежного теста, так как это зависит от качества заданий, их сложности, диапопзона тестовых баллов и других факторов. Лучший совет – это включить столько вопросов, на сколько, как вы думаете, студенты смогут ответить за время тестирования.

 

Увеличение надежности теста с увеличением его длинны более очевидно для коротких тестов. Например, добавление 5 новых вопросов может существенно улучшить надежность теста, состоявшего всего из 5 вопросов, но может только минимально повлиять на тест из 100 заданий. Для оценки надежности более длинного (или более короткого) теста, при известном значении коэффициента Альфа Кронбаха, можно воспользоваться формулой Спирмена-Брауна (Spearmen-Brown):

αnew = m*αold /(1 + (m-1)* αold)

где αnew - это новая оценка надежности после удлинение (или укорачивания) теста, αold - оценка надежности теста на данный момент, m = длинна нового теста/длинна старого теста. Важно отметить, что для корректного использования формулы Спирмена-Брауна необходимо, чтобы задания, добавляемые для увеличения теста, должны быть такого же качества, как и первоначальные задания теста. (см. приложение пункт 7.1)

 

Уделяйте больше внимания тщательному составлению вопросов теста: Формулируйте каждый вопрос ясно, чтобы студенты точно понимали, что вы хотите. Старайтесь писать вопросы, которые бы разделяли студентов на «хороших» и «плохих» на соответствующем уровне сложности.

 

Начинайте планировать тест и заданий заранее: Тест, написанный в спешке в последнюю минуту, вряд ли будет надежным.

 



Поделиться:


Последнее изменение этой страницы: 2017-01-25; просмотров: 341; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.19.31.73 (0.078 с.)