Билет №11 Понятие и виды валидности. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Билет №11 Понятие и виды валидности.



Валидность теста показывает в какой мере он измеряет то качество, для оценки которого он предназначен. Проще определяя, это соответствие теста измеряемому психическому свойству. Если высокая надежность теста говорит о том, что тест действительно «что-то» измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Инвалидные, т.е. не обладающие валидностью, тесты не пригодны для практического использования.

Валидность всегда меньше или равна надежности. Валидность не может превышать надежность теста.

Проверка валидности методики называется валидизацией - психометрическое исследование, направленное на определение валидности теста или другого измерительного инструмента. Кроссвалидизация – процедура дополнительной проверки валидности теста или результатов исследования посредством применения теста на новой выборке или проведения исследования с другими группами испытуемых, а также с применением других методов регистрации зависимых переменных.

Основным элементом практически всех этих методов является так называемый «критерий».

Критерий валидности – это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо валидной) информации об измеряемом свойстве – с критерием.

В качестве критерия валидности, используемых при валидизации теста, на практике обычно используют: объективные социально-демографические и биографические данные (стаж, образование, профессия, прием и увольнение с работы); показатели успеваемости, чаще всего являющиеся критериальной мерой тестов способностей к обучению, достижений в отдельных дисциплинах, тестов интеллекта; производственные показатели эффективности выполнения отдельных видов профессиональной деятельности, имеющие наибольшее значение при валидизации методик, используемых в профотборе и профориентации; результаты реальной деятельности (рисование, моделирование, музыка, составление рассказа и т.д.) при испытании тестов общих и специальных способностей, личностных тестов; врачебный диагноз или другие заключения специалистов; контрольные испытания знаний и умений; данные других методик и тестов, валидность которых считается установленной.

Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.

Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности. Например, методика "Кольца Ландольта" предназначена для измерения таких свойств внимания, как концентрация, переключаемость. В психологии существуют определения понятий концентрации внимания и его переключаемости. Считается, что выводы, сформулированные на основании результатов тестирования с помощью "Колец Ландольта", вполне отражают содержание определений этих свойств внимания. Значит, эта методика действительно измеряет то, для чего она предназначена.

Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы.

1. Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: "Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?"

2. Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.

3. Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.

4. Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности (см. общее значение понятия валидности выше), так и практической.

Билет №12 Репрезентативность тестовых норм.

Репрезентативность (от фр. – показательный) тестовых норм – свойство выборочной совокупности представлять генеральную совокупность.

Ошибка репрезентативности – различие характеристик выборки и генеральной совокупности.

Выборка, на которой определяется статистические тестовые нормы, называется выборкой стандартизации. Ее численность, как правило, не меньше 200 человек.

Определение норм для теста

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений (см. рис. 1: зона средних значений – 43, 44, 45 баллов). Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

1. выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

2. выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения. Этот график показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы. Например, на рис.1 изображена кривая нормального распределения для теста "Прогрессивные матрицы Равена".

Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных IQ и др. [11] Перевод сырых значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой.

Производные показатели получаются путем математической обработки первичных показателей.

Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

"Любая норма, в чем бы она ни выражалась, ограничивается конкретной совокупностью людей, для которых она вырабатывалась... Применительно к психологическим тестам они (нормы) никоим образом не абсолютны, не универсальны и не постоянны. Они просто выражают выполнение теста испытуемыми из выборки стандартизации"

 

Нормы для теста выражаются в стандартных баллах, путем перевода из сырых, для того, чтобы можно было сравнивать между собой результаты, полученные по разным тестам.

Проблемы репрезентативности тестовых норм.

В репрезентативности тестовых норм рассматривают следующие проблемы:

1. Стандартизация шкалы.

2. Статистическая природа тестовых шкал. Как повысить долю постоянного компонента и сократить долю случайного в величине суммарного балла по шкале теста.

3. Проблема меры в психометрике. В дифференциальной психометрике отсутствуют физические эталоны: мы не располагаем индивидами, которые были бы постоянными носителями заданной величины измеряемого свойства. Роль косвенных эталонов в психометрике выполняют сами тесты.

4. Оценка типа распределения тестовых баллов и проверка устойчивости распределения. Используют следующие параметры: среднее арифметическое, среднее квадратическое (стандартное) отклонение, асимметрия, эксцесс, общее неравенство Чебышева, критерий Колмогорова. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если «половинное» (полученное на половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет хорошо моделировать распределение генеральной совокупности.

Доказательство устойчивости распределения означает доказательство репрезентативности норм. Традиционный способ доказательства устойчивости сводится к выяснению хорошего приближения эмпирического распределения к какому-либо теоретическому (например, нормальному распределению, хотя может быть и любое другое).

5. Тестовые эталоны (или тестовые нормы).

5.1. Сама сырая шкала может иметь практический смысл.

5.2. Стандартизированные шкалы: Шкала IQ, Т-шкала, шкала стэнайнов (стандартная девятка), шкала стэнов.

5.З. Процентильная шкала. Процентиль – процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого. Процентили указывают на относительное положение индивида в выборке стандартизации. Их можно рассматривать как ранговые градации, общее число которых равно ста, только (в отличие от ранжирования) отсчет ведется снизу. Поэтому чем ниже процентиль, тем хуже позиция индивида. Процентили отличаются от процентных показателей. Процентные показатели фиксируют качество выполненных заданий. Процентиль – это производный показатель, указывающий на долю от общего числа членов группы.

5.4. Критериальные нормы. В качестве эталона используется целевой критерий. Высокую эффективность показывают узкоспециализированные диагностические методики, нацеленные на очень конкретные и узкие критерии. Хорошо зарекомендовали в сфере образования (тесты достижений и КОТ).

5.5. Социально-психологический норматив.

Независим от результатов испытаний и объективно задан. СПН реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Для анализа данных относительно их близости к СПН, рассматривается как 100% -ое выполнение теста, испытуемые делятся на 5 подгрупп. Для каждой из подгрупп подсчитывается средний процент правильно выполнивших задания.

10% – наиболее успешные, 20% – близкие к успешным, 40% – средние,

20% – мало успешные, 10% – наименее успешные.

Билет №13 Шкальные оценки.

Шкальные оценки – способ оценки результата теста путем установления его места на специальной шкале. Стивенс определил 4 уровня шкал измерения, отличающиеся по степени, в которой принадлежащие им оценки сохраняют свойства множестве вещественных чисел. Это шкалы:

- номинальная (или номинативная, шкала наименований)

- порядковая

- интервальная

- шкала отношений.

Интерпретация результатов тестирования

В тестах с нормативно-ориентированной интерпретацией главная задача – определение сравнительного места каждого из тестируемых в общей группе испытуемых. Очевидно, что место каждого испытуемого зависит от того, на фоне какой группы его оценивают. Один и тот же результат может быть отнесен к категории довольно высоких, если группа слабая, и к категории довольно низких, если группа – сильная. Именно поэтому необходимо по возможности использовать нормы, отражающие результаты выполнения теста большой репрезентативной выборкой испытуемых.

В тестах с критериально-ориентированной интерпретацией задача - сопоставление учебных достижений каждого ученика с планируемым к усвоению объемом знаний, умений и навыков. В этом случае в качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка испытуемых. Основной проблемой является установление проходного балла, отделяющего тех, кто освоил проверяемый материал, от тех, кто не освоил.

Установление норм выполнения теста

Чтобы устранить зависимость интерпретации от результатов других участников тестирования используют специальные нормы выполнения теста, и таким образом, первичный балл отдельного испытуемого сопоставляется с нормами выполнения теста. Нормы – это множество показателей, которые устанавливаются эмпирически по результатам выполнения теста четко определенной выборкой испытуемых. Разработка и процедуры получения этих показателей составляют процесс нормирования (или стандартизации) теста. Наиболее распространенными нормами являются среднее значение и стандартное отклонение по множеству индивидуальных баллов. Соотнесение первичного балла испытуемого с нормами выполнения позволяет установить место испытуемого в выборке, использованной для стандартизации теста.

Кодирование тестовых оценок – элемент процедуры обработки данных психодиагностического обследования. Применяется в многопараметровых тестовых батареях, личностных опросниках, других методиках, предусматривающих представление результата в виде профильных оценок.

Кодирование тестовых оценок дает возможность более экономного и краткого описания совокупности шкальных оценок, профиля шкал, а также более четкой и быстрой разбивки материала на клинически (или характерологически) сходные группы. Кодирование тестовых оценок способствует выявлению в изучаемой группе наиболее общих характеристик и закономерностей. Формализация комплексных тестовых оценок является важным элементом создания банка данных и автоматизированной обработки данных обследования (см. компьютерная психодиагностика).

Шкальные оценки – способ оценки результата теста путем установления его места на специальной шкале. Шкала содержит данные о внутригрупповых нормах выполнения данной методики в выборке стандартизации. Так, индивидуальные результаты выполнения заданий (первичные оценки испытуемых) сравниваются с данными в сопоставимой нормативной группе (например, результат, достигнутый учеником, сравнивается с показателями детей того же возраста или года обучения; результат исследования общих способностей взрослого сопоставляется со статистически обработанными показателями репрезентативной выборки лиц в заданных возрастных пределах).

Шкальные оценки в этом смысле имеют количественное содержание и могут быть использованы при статистическом анализе. Одной из распространенных в психологической диагностике форм оценки результата теста путем соотнесения с групповыми данными является расчет процентилей. Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций (см. ранговая корреляция) при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату; 50-й процентиль (PSQ) соответствует медиане (см. меры центральной тенденции) распределения результатов, Р› 50 и Р ‹50, соответственно, представляют ранги результатов выше и ниже среднего уровня результата.

Процентильные оценки не относятся к типичным шкальным показателям. Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится г-преобразование оценок (см. стандартизация, нормальное распределение). Чтобы определить 2-стандартный показатель, определяют разность между индивидуальным первичным результатом и средним значением для нормальной группы, а затем делят эту разность на а нормативной выборки. Полученная таким образом шкала z имеет среднюю точку М = 0, отрицательные значения обозначают результаты ниже среднего и убывают по мере удаления от нулевой точки; положительные значения обозначают, соответственно, результаты выше среднего. Единица измерения (масштаб) в шкале z равна 1а стандартного (единичного) нормального распределения.

Для преобразования полученного при стандартизации распределения первичных нормативных результатов в стандартную z-шкалу необходимо исследовать вопрос о характере эмпирического распределения и степени его согласованности с нормальным. Поскольку для большинства случаев значения показателей в распределении умещаются в пределах М ± 3σ, единицы измерения простой z-шкалы слишком велики. Для удобства оценивания применяется еще одно преобразование типа z = (x – ‹x›) / σ. Примером такой шкалы могут быть оценки тестовой батареи SAT(СЕЕВ) методики для оценки способности к обучению (см. тесты достижений). Эта r-шкала пересчитана таким образом, что средней точке соответствует значение 500, а σ = 100. Другим аналогичным примером является шкала Векслера для отдельных субтестов (см. шкала измерения интеллекта Векслера, где М = 10, σ = 3).

Наряду с определением места индивидуального результата в стандартном распределении групповых данных введение ШО направлено и на достижение другой важнейшей цели – обеспечение сопоставимости количественных результатов различных тестов, выраженных в стандартных шкалах, возможности их совместных интерпретаций, сведение оценок к единой системе.

В случае, если оба распределения оценок в сравниваемых методиках близки к нормальному, вопрос о сопоставимости оценок решается довольно просто (в любом нормальном распределении интервалам М ± nσ соответствует одинаковая частота случаев). Для обеспечения сопоставимости результатов, принадлежащих к рас-пределениям другой формы, применяются нелинейные преобразования, позволяющие придать распределению форму заданной теоретической кривой. В качестве такой кривой обычно используется нормальное распределение. Как и 160–150 в простом г-преобразовании, нормализованным стандартным показателям можно придать любую желаемую форму. К примеру, умножив такой нормализованный стандартный показатель на 10 и прибавив константу 50, получаем Т-показатель (см. стандартизация, миннесотский многоаспектный личностный опросник).

Примером нелинейно преобразованной в стандартную шкалу является и шкала станайнов (от англ. standart nine – «стандартная девятка»), где оценки принимают значения от 1 до 9, М = 5, σ=2.

Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов (табл. 14).

Таблица 14

Перевод первичных тестовых результатов в шкалу станайнов

При трансформации оценок в шкалу стэнов (от англ. standart ten – «стандартная десятка») проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов. Пусть в выборке стандартизации 200 человек, тогда по 8 (4 %) испытуемых, имеющих самые низкие и самые высокие оценки, будут отнесены к 1 и 9 станайнам соответственно. Процедура продолжается до заполнения всех интервалов шкалы. Соответствующие процентным градациям баллы по тесту, таким образом, будут упорядочены в шкалу, соответствующую стандартным частотам распределения результата.

Одной из наиболее распространенных форм шкальных оценок в тестах интеллекта является стандартный IQ-показатель (М = = 100, σ = 16). Эти параметры для стандартной шкалы оценок в психодиагностике выбраны в качестве эталонных. Существует довольно много шкал, опирающихся на стандартизацию; их оценки легко сводимы друг к другу. Шкалирование, в принципе, допустимо и желательно для широкого круга методик, применяемых в диагностических и исследовательских целях, в том числе и для методик, результаты которых выражены в качественных показателях. В этом случае для стандартизации можно использовать перевод номинативных шкал в ранговые (см. шкалы измерительные) или разработать дифференцированную систему количественных первичных оценок.

Следует отметить, что при всей простоте, наглядности шкальные показатели являются статистическими характеристиками, позволяющими лишь указать на место данного результата в выборке из множества аналогичных по характеру измерений. Шкальный показатель даже для традиционного психометрического инструмента является лишь одной из форм выражения показателей теста, используемых при интерпретации результатов обследования. Количественный анализ при этом должен всегда проводиться в комплексе с многосторонним качественным изучением причин возникновения данного тестового результата с учетом как комплекса сведений о личности испытуемого, так и данных о текущих условиях обследования, надежности и валидности методики. Гипертрофированные представления о возможности обоснованных заключений лишь по количественным оценкам приводили к многим ошибочным представлениям в теории и практике психологической диагностики.



Поделиться:


Последнее изменение этой страницы: 2016-07-16; просмотров: 2214; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.12.101 (0.044 с.)