Надежность и достоверность измерений 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Надежность и достоверность измерений



Существует множество вариантов шкал, окончательный выбор обычно делается на основе испытания уровня надежности и точности измерений, проведенных с помощью различных вариантов шкал.

Необходимы процедуры для выявления присущих оценкам ошибок. Назовем это проблемой надежности измерения. Проблема надежности решается путем выявления правильности измерения, устойчивости и обоснованности.

При изучении правильностиизмерения устанавливается общая приемлемость данного способа измерения (шкалы или системы шкал). Непосредственно понятие правильности связано с возможностью учета в результате измерения различного рода систематических ошибок. Систематические ошибки имеют некоторую стабильную природу возникновения: либо они являются постоянными, либо меняются по определенному закону.

Устойчивость характеризует степень совпадения результатов измерения при повторных применениях измерительной процедуры и описывается величиной случайной ошибки. Она определяется постоянством подхода респондента к ответам на одинаковые или подобные вопросы.

Наиболее сложный вопрос надежности измерения – его обоснованность. Обоснованность связана с доказательством того, что измерено вполне определенное заданное свойство объекта, а не некоторое другое, более или менее на него похожее.

При установлении надежности следует иметь в виду, что в процессе измерения участвуют три составляющие:

1) объект измерения,

2) измеряющие средства, с помощью которых производится отображение свойств объекта на числовую систему,

3) субъект (интервьюер), производящий измерение.

Предпосылки надежного измерения кроются в каждой отдельной составляющей. Прежде всего, когда в качестве объекта измерения выступает человек, то он в отношении измеряемого свойства может обладать значительной степенью неопределенности. Так, зачастую у респондента нет четкой иерархии жизненных ценностей, а следовательно, нельзя получить и абсолютно точные данные, характеризующие для него важность тех или иных явлений. Он может быть плохо мотивирован, вследствие чего невнимательно отвечает на вопросы. Однако только в последнюю очередь следует искать причину ненадежности оценок в самом респонденте.

С другой стороны, возможно, способ получения оценки не в состоянии дать максимально точных значений измеряемого свойства. Например, у респондента существует развернутая иерархия ценностей, а для получения информации используется шкала с вариациями ответов только «очень важно» и «совсем неважно». Как правило, из приведенного набора все ценности помечаются ответами «очень важно», хотя реально у респондента имеется большее число уровней значимости.

Наконец, при наличии высокой точности первых двух составляющих измерения субъект, производящий измерение, может допускать ошибки: нечетко составлены инструкции к анкете; интервьюер каждый раз по-разному формулирует один и тот же вопрос, используя различную терминологию, и др.

Например, в процессе интервью, в ходе которого должна быть выявлена система ценностей опрашиваемого, интервьюер не смог довести до респондента суть опроса, не смог добиться доброжелательного отношения к исследованию и пр.

Каждая составляющая процесса измерения может быть источником ошибки, связанной либо с устойчивостью, либо с правильностью, либо с обоснованностью.

Однако, как правило, исследователь не в состоянии разделить эти ошибки по источникам их происхождения и поэтому изучает ошибки устойчивости, правильности и обоснованности всего измерительного комплекса в совокупности. При этом правильность (как отсутствие систематических ошибок) и устойчивость информации — элементарные предпосылки надежности. Наличие существенной ошибки в этом отношении уже сводит на нет проверку данных измерения на обоснованность.

В отличие от правильности и устойчивости, которые могут быть измерены достаточно строго и выражены числовым показателем, критерии обоснованности определяются либо на основе логических рассуждений, либо на основе косвенных показателей. Обычно применяется сравнение данных одной методики с данными других методик или исследований.

Прежде чем приступать к изучению таких компонентов надежности, как устойчивость и обоснованность, необходимо убедиться в правильности выбранного инструмента измерения.

Измерение может быть вполне точным и вместе с тем неправильным, постоянно воспроизводя какую-то систематическую ошибку, как это случается с испорченным термометром, в котором ртутный столбик изначально фиксирован на неверной исходной отметке и постоянно завышает температуру, скажем, на 0,8 градусов.

При измерении социальных показателей проблема правильности, т.е. отсутствия отклонений от истинного значения измеряемого свойства, намного сложнее, ибо часто мы в принципе не способны установить, каковы же эти истинные значения измеряемых свойств (скажем, мнений людей по каким-то вопросам). Мы можем лишь, сопоставляя разные способы фиксирования данного свойства, добиваться устранения замеченных систематических ошибок.

Возможно, последующие этапы окажутся излишними, если в самом начале выяснится полная неспособность данного инструмента измерения на требуемом уровне дифференцировать изучаемую совокупность, иначе говоря, если окажется, что систематически не используется какая-то часть шкалы, либо та или иная градация шкалы или вопроса. И, наконец, возможно, что исходный признак не обладает дифференцирующей способностью в отношении объекта измерения.

Прежде всего, нужно ликвидировать или уменьшить такого рода недостатки шкалы и только затем использовать ее в исследовании.

Проверка правильности шкалы

· отсутствие разброса ответов по значениям шкалы. Попадание ответов в один пункт свидетельствует о полной непригодности измерительного инструмента — шкалы. Такая ситуация может возникнуть или из-за «нормативного» давления в сторону общепринятого мнения, или из-за того, что градации (значения) шкалы не имеют отношения к распределению данного свойства у рассматриваемых объектов (нерелевантны).

Например, при опросе все ответы концентрируются в позитивном или только в негативном конце шкалы. Конечно, это может быть и результатом единодушия оценок, но может быть и результатом того, что сама шкала неудачна, например, содержит какой-то пункт, сформулированный с сильным нормативным давлением на опрашиваемых. Допустим, задан вопрос об употреблении алкоголя и крайне негативный вариант ответа звучит так: «Я пью систематически и обычно до бесчувственного состояния». Сомнительно, чтобы даже заведомый алкоголик отметил такой пункт как показатель своего отношения к спиртному. Скорее всего, он выберет суждение с менее неприятным оттенком, например: «Я выпиваю довольно часто». Крайне отрицательный пункт шкалы здесь «не работает», он отпугивает. Вследствие этого шкала спроектирована неправильно.

Другой пример. Если все опрашиваемые респонденты согласны с утверждением: «хорошо, когда используется эффективная система мотивации труда», нет ни одного ответа «не согласен», то подобная шкала не поможет дифференцировать отношение респондентов к разным методам мотивации труда.

· использование части шкалы. Довольно часто обнаруживается, что практически работает лишь какая-то часть шкалы, какой-то один из ее полюсов с прилегающей более или менее обширной зоной. Так, если респондентам для оценки предлагается шкала, име­ющая положительный и отрицательный полюса, в частности от +3 до —3, то при оценивании какой-то заведомо положительной ситуации респонденты не используют отрицательные оценки, а дифференцируют свое мнение лишь с помощью положительных.

· неравномерное использование отдельных пунктов шкалы. Случается, что некоторое значение признака систематически выпадает из поля зрения респондентов, хотя соседние градации, характеризующие более низкую и более высокую степень выраженности признака, имеют существенное наполнение.

Так, если конфигурация распределения ответов на вопрос с четырьмя упорядоченными градациями такая, как на рис.3.9, градации данной шкалы, видимо, неудачно сформулированы. Значительное наполнение двух соседних по отношению к пункту 2 пунктов (1 и 3) свидетельствует о «захвате» части голосов из плохо сформулированного пункта 2.

 

Рис.3.9. Пример неравномерного распределения ответов по шкале

 

Аналогичная картина наблюдается и в том случае, когда респонденту предлагают шкалу, имеющую слишком большую дробность: будучи не в состоянии оперировать всеми градациями шкалы, респондент выбирает лишь несколько базовых. Например, зачастую десятибалльную шкалу респонденты расценивают как некоторую модификацию пятибалльной, предполагая, что «десять» соответствует «пяти», «восемь» — «четырем», «пять» — «трем» и т.д. При этом базовые оценки используются значительно чаще, чем другие.

В процессе измерения иногда возникают грубые ошибки, причиной которых могут быть неправильные записи исходных данных, плохие расчеты, неквалифицированное использование измерительных средств и т. п. Это проявляется в том, что в рядах измерений попадаются данные, резко отличающиеся от совокупности всех остальных значений. Чтобы выяснить, нужно ли эти значения признать грубыми ошибками, устанавливают критическую границу так, чтобы вероятность того, что крайние значения превысят ее, была бы достаточно малой и соответствовала бы некоторому уровню значимости а.. Это правило основано на том, что появление в ответах чрезмерно больших значений хотя и возможно, как следствие естественной вариабельности значений, но маловероятно.

Если окажется, что какие-то крайние значения совокупности принадлежат ей с очень малой вероятностью, то такие значения признаются грубыми ошибками и исключаются из дальнейшего рассмотрения. Выявление грубых ошибок особенно важно проводить для малого числа опрашиваемых: не будучи исключенными из анализа, они существенно искажают полученные результаты. Для этого используются специальные статистические критерии определения грубых ошибок.

Итак, дифференцирующая способность шкалы как первая существенная характеристика ее надежности предполагает: обеспечение достаточного разброса данных; выявление фактического использования респондентом предложенной протяженности шкалы; анализ отдельных «выпадающих» значений; исключение грубых ошибок. После того как установлена относительная приемлемость используемых шкал в указанных аспектах, следует переходить к выявлению устойчивости измерения по этой шкале.

Приемы проверки устойчивости измерений:

· повторное измерение (тестирование);

· включение в анкету эквивалентных вопросов

· разделение выборки (числа опрашиваемых) на две части.

Наиболее распространенный прием контроля на устойчивость — повторное измерение — состоит во вторичном проведении проверяемого измерения в одной и той же выборке через определенный промежуток времени. Обычно один и тот же объект измеряется дважды с двух-, трехнедельным временным интервалом и с помощью одинаковой процедуры. Шкала считается устойчивой, если совпадения между первой и второй сериями измерений будут достаточно высокими.

Включение в анкету эквивалентных вопросов предполагает использование в одной анкете вопросов по той же проблеме, но сформулированных по-другому. Их респондент должен воспринимать как разные вопросы. Главная опасность данного метода заключается в степени эквивалентности вопросов; если это не достигается, то респондент отвечает на разные вопросы.

Разделение выборки на две части основано на сравнении ответов на вопросы двух групп респондентов. Предполагается, что эти две группы являются идентичными по своей композиции и что средние оценки ответов для этих двух групп являются очень близкими. Все сравнения делаются только на групповой основе, поэтому сравнение внутри группы проводить невозможно.

Например, среди студентов колледжа с помощью шкалы Лайкерта с пятью градациями был проведен опрос относительно их будущей карьеры. В анкете приводилось утверждение: «Я считаю, что меня ожидает блестящая карьера». Ответы были обобщены, начиная с «совершенно не согласен» (1 балл) и кончая «совершенно согласен» (5 баллов). Затем общая выборка опрошенных была разделена на две группы и были вычислены средние оценки для этих групп. Средняя оценка была одинаковой для каждой группы и равнялась 3 баллам. Данные результаты дали основание считать измерение надежным. Когда же проанализировали групповые ответы более внимательно, то оказалось, что в одной группе все студенты ответили и «согласен» и «не согласен», а в другой — 50% ответили «совершенно не согласен», а 50% — «совершенно согласен». Как видим, более глубокий анализ показал, что ответы не являются идентичными.

Вследствие данного недостатка этот метод оценки устойчивости измерений является наименее популярным.



Поделиться:


Последнее изменение этой страницы: 2016-09-18; просмотров: 1104; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.143.4.181 (0.015 с.)