Психометрические характеристики методики 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Психометрические характеристики методики



 

Разработка методики, обладающей высокими психометрическими показателями требует ясного представления о трех наиболее значимых свойствах: валидности, надежности, дискриминативности.

Валидность (пригодность) методики – способность инструмента к измерению того психологического явления, для которого она предназначена. А.Анастази определяет валидность как «...понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает»[41]. Поскольку современные представления о психологических явлениях рассматривают их скрытыми от прямого измерения и оценки, валидность является ключевой характеристикой любого диагностического инструмента. Отсутствие валидности делает результаты измерения необоснованными и непригодными для дальнейшего использования.

Валидность следует рассматривать как совокупность разносторонних показателей, характеризующих разные элементы пригодности. Л.Ф. Бурлачуком описано 12 видов валидности, каждый из которых оценивается определенным способом[42]. При этом, все обозначенные виды валидности описывают ее под новым углом зрения. Поэтому нельзя утверждать, что какие-то представления о валидности более существенны, а какие-то менее.

Изучение валидности психологических инструментов началось сравнительно недавно. Несмотря на то, что история психологического тестирования насчитывает более четырех тысяч лет, первые специальные исследования валидности возникли только в начале XX века. Интересно, что первые тестологи не сомневались в том, что разработанные ими тесты измеряют то, на что они предназначены. Объяснение этому видится в предмете измерения и его процедуре. Тесты Ф.Гальтона, С.Бине и других исследователей изучали особенности восприятия, памяти и мышления. Поэтому не было никаких сомнений в том, что они могли диагностировать что-либо другое. С появлением опросников, оценивающих неочевидные психологические явления: черты и свойства личности, вопрос о валидности стал предметом дискуссий.

Первым способом оценки валидности стал коэффициент корреляции, опубликованный в 1896 году К. Пирсоном. Он рассчитывался между показателями двух разных процедур измерения одного явления.

Коэффициент корреляции произвел революцию в мире психометрии, став первым доказательством валидности. Методика считалась валидной, если а) ее пункты были связаны друг с другом, и б) она была связана с каким-либо внешним (не тестовым) критерием. При этом, из виду упускалось то, что отсутствие связи между явлениями не всегда говорит об отсутствии каких-либо видов отношений. То есть помимо линейной корреляционной связи может существовать и другая форма сопряжения. Однако в отсутствии других инструментов доказательства валидности Дж. Гилфорд утверждал, что «методика валидна по отношению ко всему, с чем она коррелирует»[43].

В настоящее время такая оценка валидности продолжает использоваться и имеет название «критериальная валидность». Для ее проверки рассчитывается коэффициент корреляции между критериями (градациями) оценки психологического явления и тестовыми баллами.

Вторым способом оценки валидности стал факторный анализ. Он был применен Ч.Спирменом в 1904 году для оценки отношений между явными показателями интеллекта и общей переменной, которая существовала только в математическом представлении. Им было установлено, что несколько десятков пунктов (заданий, задач, вопросов), ответы на которые были статистически значимо связаны друг с другом, посредством факторизации сгруппировались в устойчивую совокупность. Причем, другие задания, не коррелировавшие с этой группой были вытеснены из нее. Стало ясно, что отношения внутри группировки заданий регулируются определенной, но латентной закономерностью, получившей название структуры. Благодаря ее выявлению, методы факторного анализа начали использоваться для оценки латентных структур других психологических явлений, а способ их обнаружения получил название «структурная валидность».

Третьим способом оценки валидности стала общая оценка пригодности методики к измерению психологического явления. Причинами разработки стала критика статистических процедур. Поскольку методы статистики позволяли провести только количественную оценку методики, специалисты стали ощущать недостаток процедуры, позволяющей оценить пригодность содержания методики. Особенно это стало заметно в педагогическом тестировании: задания обладающие неплохой критериальной и структурной валидностью по своему содержанию не соответствовали проверяемым знаниям, целям оценивания. Выполненные таким инструментом измерения неадекватно определяли уровень знаний обучающихся, искажали представление об их реальных способностях.

В результате критики, был разработан дополнительный показатель валидности – «содержательная валидность». Он характеризовал пригодность заданий, процедуры проведения и объяснения результатов для измерения психологического явления. Суждение о валидности выносила группа экспертов, опрашиваемых определенным способом.

Проведенный краткий обзор процесса показывает, что представление о валидности начало свое развитие от статистической оценки достоверности измерения. К настоящему времени три описанных вида валидности получили свое дополнение (рис. 3).

Рис. 3 Структура параметров валидности

 

Современные представления о валидности предполагают новые области проверки пригодности инструментов. В зарубежной психодиагностике для оценки валидности осуществляется: 1) измерение согласованности между методикой и теоретическими знаниями об измеряемом явлении;

2) оценка способности методики получать ту психологическую информацию, для сбора которой она применяется;

3) изучение негативных последствий от применения инструмента.

Расширены и области сбора информации о валидности. Если в начале XX века использовались статистические критерии измерения, то сейчас обследованию на предмет валидности подвергаются разработчики, эксперты, специалисты-диагносты, сами обследуемые. Изучается содержание стимульного материала, внутренняя структура, связи между переменными, процесс ответов и восприятие процедуры тестирования его участниками. Итак, современная оценка валидности предполагает многомерный анализ пригодности психодиагностического инструмента для изучения психологического явления.

Надежность: это способность инструмента обеспечивать точность психодиагностических измерений, а также устойчивость результатов измерения к действию внешних факторов.

В данном определении надежности применяются два понятия: точность и устойчивость. Они характеризуют два самостоятельных свойства надежности, подвергающихся независимой друг от друга оценки.

Вместе с тем, точность и устойчивость измерения не являются полной характеристикой надежности – они охватывают лишь параметр стабильности оценивания, то есть однозначности информации в течении определенного промежутка времени.

Дополнительное представление о надежности базируется на классической теории тестирования. Согласно ей, надежность это способность методики снижать уровень ошибки измерения. Поскольку ошибки могут быть случайными и систематическими, возможные причины их возникновения выходят за пределы процедуры измерения и могут возникать из-за ошибочных представлений о конструкте, срывах в процедуре тестирования, стремлении обследуемого продемонстрировать неожиданный результат и пр. Поэтому измерение надежности является сложным и многоаспектным процессом, в ходе которого анализируется:

– надежность параллельных форм. Устойчивость измерения изучается посредством взаимозаменяемых (параллельных) форм теста, предъявляемых одной и той же группе испытуемых;

– ретестовая надежность. Устойчивость измерения изучается посредством повторного обследования испытуемых с помощью одного и того же теста через определенный временной интервал (неделя, месяц, квартал);

– надежность частей теста. Согласованность измерения проверяется путем сопоставления отдельных групп задач, заданий теста, вопросов опросника.

– надежность как внутренняя согласованность. Согласованность измерения определяется путем изучения влияния каждого пункта шкалы на результаты измерения шкалы в целом.

Оценка надежности осуществляется посредством математико-статистических процедур. Для каждого вида надежности используется определенный алгоритм оценивания:

– повторное тестирование (ретестирование) используется для определения устойчивости измерения к воздействию источников помех;

– применение параллельных форм – определение устойчивости измерения посредством оценки согласованности тестового конструкта;

– расщепление теста – определение внутренней согласованности шкал. На практике обычно применяют тестирование эквивалентных групп (обследуемая группа разделяется на две подгруппы) и разделение теста на части (задания решенные – нерешенные, задания четные и нечетные).

Определение надежности теста по внутренней согласованности чаще всего проводится с расчетом коэффициента α-Кронбаха:

 

 

где:

k – количество заданий теста,

∑δ2i – сумма квадратов стандартных отклонений для заданий,

δ2y – квадрат стандартного отклонения для всего теста.

Значения данного коэффициента измеряются в диапазоне от 0 до 1. Оптимальные значения внутренней согласованности для тестов профессиональных навыков (от 0,8 и выше), тестов способностей и когнитивных тестов (от 0,7 и выше), личностных опросников (0,6 и выше).

Значения ниже данных диапазонов говорят о плохой согласованности измерительного инструмента и невозможности его применения для оценивания.

Равнозначной формуле α-Кронбаха, но для дихотомических переменных является формула Кьюдера – Ричардсона:

 

 

 

где: k – количество заданий теста,

P – доля учащихся, верно выполнивших задание, Q = 1 – P.

δ2y – квадрат стандартного отклонения для всего теста.

Причинами неудовлетворительной надежности, по мнению П. Клайна[44] выступают:

1. Субъективное оценивание. Преодоление любых проявлений субъективности серьезным образом повышает точность и стабильность результатов, снижает ошибку измерения. Повышение объективности может проводится посредством применения задач, заданий или конструированием вопросов, сфокусированных на очевидной, объективной информации. При использовании таких типов заданий снижать надежность может лишь ошибка в обработке результатов.

2. Угадывание. Подверженность задач, заданий или вопросов распознаванию правильного варианта ответа искажает результаты измерения. Наиболее эффективным противодействием является повышение количества пунктов (вариантов) для регистрации ответа, переработка формулировок (фабул) заданий.

3. Величина теста. Количество пунктов в инструменте в целом увеличивает точность измерения. Наихудшими показателями обладают методики, имеющие от 1 до 5 пунктов измерения, наилучшими, методики включающие более 20 пунктов.

4. Непонятные задания, вопросы. При их получении опрашиваемые как правило дают нейтральные либо случайные ответы. Неоднократное повторение непонятных заданий снижает мотивацию к обследованию.

5. Неясные инструкции обследуемому. Как правило, обследуемые стремятся строго соответствовать инструкции. Противоречия в инструкции снижают стремление обследуемого к участию в обследовании.

6. Другие источники ошибок. Обычно к ним относят состояния испытуемых, которые могут являться причиной неудовлетворительной надежности теста.

Дискриминативность теста – психометрическая характеристика теста, представляющая собой его способность устанавливать различия между испытуемыми. Наиболее существенное значение дикриминативность имеет при оценке способностей, когнитивных процессов, профессиональных навыков. Психологический смысл дискриминативности в способности дифференцировать обследуемых - чем более высокий уровень имеет дискриминативность, тем больше различных групп испытуемых можно выделить с помощью данного теста или отдельной его шкалы.

Для измерения дискриминативности используется показатель δ (дельта), предложенный Л. Фергюсоном. Коэффициент Л. Фергюсона – это отношение между показателем дискриминативности, реально полученным для некоторого теста, и максимальным значением дискриминативности, которое может обеспечить такой тест и которое зависит от числа его заданий (пунктов). Он рассчитывается следующим образом:

 

δ = (N2 – Σfi2) / (N2 – N2 / (n + 1)),  

 

где N – количество испытуемых,

n – количество заданий,

fi – частота встречаемости каждого показателя (каждого значения «сырого» балла).

 

Таким образом, проведение тестирования на определенной выборке приводит к тому, что итоговые баллы, полученные испытуемыми, имеют то или иное частотное распределение, т. е. определенное значение итогового балла встречается в каком-то проценте всех случаев. Это может быть представлено как гистограмма ответов или соответствующие процентили.

В случае, когда все испытуемые получили одинаковые показатели, т. е. один и тот же итоговый балл, δ = 0. При δ = 1 получено равномерное, т. е. прямоугольное распределение, когда каждый из возможных итоговых баллов по шкале имеет одну и ту же частоту встречаемости в данной выборке (что чаще всего бывает в тестах интеллекта).

Хотя выполняется общее правило, что чем больше δ приближается к 1, тем большую дискриминативность имеет тест, для психологических опросников итоговый балл обычно имеет вид не прямоугольного распределения, а нормального.

Подводя итоги, отметим, что показатели валидности, надежности и дискриминативности составляют основные критерии, по которым можно сделать вывод об эффективности применения диагностической методики. Поскольку, вне зависимости от способа измерения и качества оценки все критерии отражаются в диапазоне от 0 до 1, то сопоставление значений этих параметров у двух методик позволит выбрать наиболее приемлемую. Следует использовать в практике психологической работы методики с максимальными значениями надежности и валидности.

При создании методики, следует стремиться к достижению наиболее высоких показателей валидности, надежности и дискриминативности. Вместе с тем, создание методики, обладающей подобными свойствами не всегда удается за короткий промежуток времени. Более того, зачастую целесообразно адаптировать уже имеющийся в распоряжении специалиста инструмент, чем создавать новый.



Поделиться:


Последнее изменение этой страницы: 2021-04-04; просмотров: 268; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.143.0.157 (0.024 с.)