Общее представление о статистической гипотезе. Проверка статистической гипотезы об отсутствии связи (критерий «Хи-квадрат») 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Общее представление о статистической гипотезе. Проверка статистической гипотезы об отсутствии связи (критерий «Хи-квадрат»)



7.1. Общее представление о статистической гипотезе.

Начнем с примеров.

Первый пример.

Рассмотрим две дискретные переменные: X, принимающую значения из множества {1, …, r } и Y, принимающую значения из множества {1, …, c }. Мы будем их использовать как номинальные признаки, хотя вполне может быть, что их значения получены по шкалам более высоких типов.

Предположим, что нам задана частотная таблица вида || n ij ||, где i = 1, …, r (raw); j = 1,…,c (column), n ij - количество объектов (например, респондентов), обладающих i –м значением признака Х и j-м значением признака Y. Обозначим также через и маргинальные частоты (соответственно, по i – й строке и j- му столбцу), а через - объем выборки.. Такую таблицу называют частотной, или таблицей сопряженности. Частоты, стоящие в клетках этой таблицы, назовем эмпирическими, или наблюдаемыми. Мы хотим на основе анализа эмпирических частот определить, имеется ли связь между рассматриваемыми переменными.

Здравый смысл подсказывает, что независимыми признаки можно считать в том случае, когда строки частотной таблицы пропорциональны[53]. Можно понятие независимости признаков отождествить и с другими свойствами частотной таблицы. Нетрудно проверить эквивалентность следующих утверждений:

 

 

1. Переменные X и Y являются независимыми.

2. Все частоты таблицы сопряженности являются теоретическими

3. Для всех i и j события (Х = i) и (Y = j) являются независимыми.

4. Строки таблицы сопряженности пропорциональны. (7.1)

5. Столбцы таблицы сопряженности пропорциональны.

6. Все частоты таблицы сопряженности вычисляются по формуле:

= (7.2)

 

Предположим, что мы на основе собранной информации рассчитали частотную таблицу для некоторых двух переменных и хотим оценить, можно ли говорить о том, что связь между рассматриваемыми переменными отсутствует. Вопрос не так прост, как кажется на первый взгляд. Рассмотрим его подробнее.

Вспомним, что в действительности нас интересует генеральная совокупность, хотя имеющиеся в нашем распоряжении эмпирические данные, в том числе и таблица сопряженности, обычно отвечают выборке. Мы знаем, что выборочные данные никогда стопроцентно не отвечают генеральным. Любая, даже самая хорошая выборка будет отражать генеральную совокупность лишь с некоторым приближением, любая закономерность будет содержать так называемую выборочную ошибку. Случайную погрешность. Учитывая это, мы, вероятно, будем полагать, что если столбцы выборочной таблицы сопряженности мало отличаются от пропорциональных, то такое отличие, вероятнее всего, объясняется именно выборочной погрешностью и вряд ли говорит о том, что в генеральной совокупности наши признаки связаны. Сильное же отклонение от пропорциональности заставит нас сомневаться в отсутствии связи в генеральной совокупности. Насколько же сильным должно быть такое отклонение для того, чтобы указанные сомнения у нас возникли? Наука не дает точного ответа. Она предлагает лишь такой вариант, который формулируется на вероятностном языке. Но прежде, чем ответить на поставленный вопрос, рассмотрим пример несколько иного плана.

Второй пример. Предположим, что в процессе решения социологической задачи мы хотим проверить гипотезу о том, что при оплате труда работников какого-то предприятия (отрасли и т.д.) нет дискриминации этих работников по полу. Это – содержательная гипотеза. Вероятно, наиболее естественными действиями исследователя, направленными на ее проверку, будет организация некоторой выборки из работников рассматриваемого предприятия и осуществление анкетного опроса с использованием, в частности, вопроса о поле респондента и его зарплате. Затем исследователь подсчитает среднюю зарплату мужчин и среднюю зарплату женщин. Обозначим зарплату буквой х и предположим, что получены соотношения (числа условны):

 

Хжен = 102,8; Х муж = 115,0.

 

Далее возможны разные рассуждения. Исследователь, пытающийся доказать отсутствие дискриминации, скажет: конечно, факт есть факт – средняя заплата женщин меньше средней зарплаты мужчин, но это различие очень мало. Наверное, его можно отнести за счет того, что мы взяли не всех работников, о только некоторую выборку из них. Другими словами, можно полагать, что наша статистика не дает оснований говорить о наличии дискриминации.

Другой исследователь, сторонник того, что дискриминация имеет место, выскажет совершенно твердую убежденность в своей правоте: статистические данные подтвердили его гипотезу, женщины в среднем получают меньше мужчин.

Кто прав? Где та граница, то значение разности зарплат, превышение которого говорит о том, что эти зарплаты действительно можно считать разными, что они отличны друг от друга не только в выборке, но и в генеральной совокупности?

Ответ получим, если воспользуемся логикой математической статистики, точнее, логикой проверки статистической гипотезы.. Ответ, конечно, будет носить вероятностный характер.

 

7.2. Логика проверки статистической гипотезы. Использование принципа невозможности реализации маловероятных событий

 

Приведенные в настоящем параграфе рассуждения, на наш взгляд, читателю было бы целесообразно прочитать дважды: сейчас и после прочтения дальнейших параграфов, посвященных описанию способов проверки конкретных гипотез.

Для примера заметим, что качестве проверяемой статистической гипотезы в описанной выше ситуации может фигурировать гипотеза о том, что в генеральной совокупности наши средние (т.е. математические ожидания зарплат для мужчин и для женщин) равны. Проверяемая гипотеза всегда обозначается Н0 и называется нуль-гипотезой. Заметим, что далеко не для каждой интересующей социолога гипотезы математическая статистика предоставляется возможность ее проверки, не для каждой гипотезы разработана соответствующая теория. Но если упомянутая возможность существует, то соответствующая логика рассуждений, коротко говоря, сводится к следующему.

Мы предполагаем, что для генеральной совокупности гипотеза верна. Изучаем выборку. Если выборочная ситуация резко отличается от того, что должно быть в генеральной совокупности при условии справедливости гипотезы, то гипотеза отвергается; если это отличие мало – гипотеза принимается (подчеркнем, что она не доказывается, а просто считается, что выборочные данные не дают оснований ее отвергнуть). Конечно, здесь возникают по крайней мере два вопроса: что значит «выборочная ситуация»? что значит «большое» или «малое» отличие выборочной ситуации от генеральной?

Прежде всего вспомним термины «параметр» и «статистика» и заметим, что выборочную ситуацию мы будем описывать с помощью некоторых статистик, в то время как проверяемая гипотеза будет касаться определенных предположений о характере параметров генеральных распределений изучаемых (одномерных и многомерных) случайных величин.

Предположим, что мы хотим проверить некую гипотезу Н0, для которой существует упомянутая выше теория. Последнее означает, что математическая статистика предлагает нам некоторый критерий, представляющий собой определенную статистику f - числовую функцию от наблюдаемых величин, например, рассчитанную на основе частот выборочной таблицы сопряженности:

f = f (n ij).

Представим себе теперь, что у нас имеется много выборок (при доказательстве используемых нами положений математической статистики предполагается, что выборок - бесконечное количество), для каждой из которых вычисляется значение функции f. Распределение таких функций в предположении что H0 верна, хорошо изучено, т.е. известно, какова вероятность попадания каждого значения в любой интервал. Грубо говоря, это означает, что для каждого полученного для конкретной выборки значения f, пользуясь соответствующей вероятностной таблицей, можно сказать, какова та вероятность, с которой мы могли на него «наткнуться».

Теперь необходимо пояснить, какого типа распределения будут нас интересовать. Мы уже говорили, что речь пойдет о нормальном распределении, о распределениях «c2», Стьюдента и F-распределении (распределении Фишера). «Маловероятными» для них всех являются области, лежащие в «хвостах» этих распределений. У первого распределения нас будет интересовать один «хвост» (правый), у трех других – два «хвоста» (и правый, и левый). Все названные распределения непрерывны. Значит, для них бессмысленно говорить о вероятности встречаемости точечного значения. И о вероятности «наткнуться» на конкретное значение fвыб мы можем судить по одной из двух вероятностей: P(f ³ fвыб) (если fвыб³0) или P(f £ fвыб) (если fвыб£0). Пока будем говорить о ситуации, когда fвыб³0. Все, что будет по этому сказано, потом распространим на более общую ситуацию, специально посвятив этому параграф (см. ниже обсуждение вопроса о направленных и ненаправленных альтернативных гипотезах и об односторонних и двусторонних критериях в процессе рассмотрения темы 9).

Итак, вычисляем значение fвыб критерия f для нашей единственной выборки. Находим по таблице вероятность P(f ³ fвыб).

Далее вступает в силу своеобразный принцип (уже затронутый нами в п.6.1): маловероятное событие практически не может произойти. Другими словами, принимая практическое управленческое решение, мы, узнав, что некоторое событие имеет малую вероятность, будем вести себя так, как если бы это событие не могло произойти. Если такое маловероятное событие встречается в наших теоретических рассмотрениях, то мы делаем из этого вывод, что вероятность определялась нами неправильно, что в действительности рассматриваемое событие не маловероятно и что, следовательно, мы должны пересмотреть те положения, которые привели нас к выводу о незначительности величины вероятностиь его встречаемости мала.

Наше событие состоит в том, что критерий принял то или иное значение. Если вероятность этого события, (т.е. P(f ³ fвыб)) очень мала, то, в соответствии с приведенными рассуждениями, мы полагаем, что неправильно ее определили. Встает вопрос о выяснении того, что именно привело нас к ошибке. Вспоминаем, что мы определяли упомянутую вероятность в предположении справедливости проверяемой гипотезы. Именно это предположение и заставило нас считать вероятность встреченного значения очень малой. Поскольку опыт дает основание полагать, что в действительности вероятность не столь мала, то остается опровергнуть нашу H0.

Другими словами, если выборочная ситуация такова, что ее возникновение при справедливости в генеральной совокупности проверяемой гипотезы Н0 имеет очень малую вероятность, то гипотеза отвергается. Мы проанализировали выборку (вычислили статистику f) и увидели, что произошло событие, которое при условии справедливости Н0 можно считать маловероятным (статистика приняла маловероятное значение). Поскольку, в соответствии с обсуждаемым принципом, мы полагаем, что подобное событие произойти не может, то вынуждены допустить, что неверно то условие, при выполнении которого это событие маловероятно, т.е. неверна наша Н0. Другими словами, мы отвергаем нашу гипотезу.

Если же вероятность P(f ³ fвыб) достаточно велика для того, чтобы значение fвыб могло встретиться практически, то мы полагаем, что у нас нет оснований сомневаться в справедливости проверяемой гипотезы. Мы принимаем последнюю, считаем, что она справедлива для генеральной совокупности.

Другими словами, если же анализируемая нами выборочная статистика приняла значение, вероятность появления которого при условии справедливости Н0 достаточно велика, то мы полагаем, что выборочная ситуация не противоречит проверяемой гипотезе. Мы эту гипотезу принимаем.

Таким образом, право именоваться критерием функция f обретает в силу того, что именно величина ее значения играет определяющую роль в выборе одной из двух альтернатив: принятия гипотезы H0 или отвержения ее.

Правда, здесь снова возникает субъективный момент, связанный с неясностью того, какую вероятность мы назовем малой. Где граница между «малой» и «достаточно большой» вероятностью? Эта граница должна быть равна такому значению вероятности, относительно которого мы могли бы считать, что событие с такой (или с меньшей) вероятностью практически не может случиться – «не может быть, потому что не может быть никогда». Это значение называется уровнем значимости принятия (отвержения) проверяемой гипотезы и обозначается всегда греческой буквой a.

Итак, если вероятность P(f ³ fвыб) > a, то мы гипотезу принимаем на уровне значимости a, если P(f ³ fвыб) £ a - отвергаем на том же уровне значимости.

Иногда используется немного другая логика проверки. Мы задаемся уровнем значимости a и заранее ищем то значение критерия, обозначаемое обычно символом f крит (критическое) или f табл (табличное), для которого имеет место соотношение P(f ³ f крит) £ a и, вычислив fвыб, сравниваем его с f крит: если f выб ³ f крит, то проверяемая гипотеза отвергается, если f выб £ f крит, то принимается. Именно этой логики мы будем придерживаться ниже.

Ниже иногда будем использовать обозначение af (afкрит) в знак того, что речь идет о том табличном (критическом) значении, которое отвечает именно уровню значимости a.

Математическая статистика не дает нам правил определения a. Помочь установить уровень значимости может только практика. Обычно полагают, что

a = 0,05.

В основе такого выбора не лежит никакая теория. Единственное его «оправдание» состоит в том, что, как показывает практика, если при проверке гипотез пользоваться таким уровнем значимости, то решения, принимаемые на основе проверки рассматриваемой гипотезы, как правило, оправдываются.

Однако, как мы увидим ниже при проверке конкретных гипотез, соответствующий уровень зачастую бывает целесообразно связывать с содержанием задачи. Он должен обусловливаться тем, насколько социально значимым может быть принятие ложной или отвержение истинной гипотезы (процесс проверки любой статистической гипотезы всегда сопряжен с тем, что мы рискуем совершить одну из упомянутых ошибок; ниже этот вопрос будет рассмотрен более подробно). Если большие затраты (материальные или духовные) связаны с отвержением гипотезы, то мы будем стремиться сделать a как можно меньше, чтобы максимально уменьшить вероятность отвержения нуль-гипотезы, являющейся в действительности верной.

О ситуации, когда затраты сопряжены с принятием гипотезы, и когда, следовательно, мы должны сделать так, чтобы минимизировать вероятность принятия неверной гипотезы, мы будем говорить ниже (мы имеем в виду обсуждение ошибок первого и второго рода; принятие неверной гипотезы – это ошибка второго рода; вероятность ее осуществления связана с понятием мощности критерия, о которой мы пока говорить не будем).

Перейдем к рассмотрению проверки конкретной нуль-гипотезы.

 

7.3. Проверка гипотезы об отсутствии связи между номинальными признаками на основе критерия «Хи-квадрат».

Вернемся к рассмотрению частотной эмпирической таблицы. Будем искать ответ на вопрос о существовании связи между признаками с помощью проверки статистической гипотезы об их независимости. Используя терминологию математической статистики, можно сказать, что речь пойдет о проверке нуль-гипотезы:

 

Н0: «связь между рассматриваемыми признаками отсутствует».

 

Функция, выступающая в качестве описанного выше статистического критерия, носит назваание «Хи-квадрат», обозначается как Х2 (Х большое греческое «Хи»; подчеркнем, что дадлее будет фигурировать малая буква с тем же названием; и надо различать понятия, стоящие за этими обозначениями, что не всегда делается в ориентированной на социолога литературе). Определяется этот критерий следующим образом:

 

(7.2)

где - эмпирическая, наблюдаемая нами частота, стоящая на пересечении i –й строки и j –го столбца таблицы сопряженности; - та частота, которая стояла бы в той же клетке, если бы наши переменные были статистически независимы, т.е. та, которая отвечает пропорциональности столбцов (строк) таблицы сопряженности; она обычно называется теоретической, поскольку может быть найдена из теоретических соображений (см. формулу (7.2)); иногда ее называют также ожидаемой частотой, поскольку, действительно, ее появление ожидается при независимости переменных.

В соответствии со сказанным в предыдущем параграфе, представим себе, что мы организуем (теоретически) бесконечное количество выборок, для каждой из которых вычисляем величину Х2. Образуется последовательность таких величин:

(7.3)

Очевидно, имеет смысл говорить о соответствующем распределении, т.е. о вероятности попадания вычисленного для какой-либо выборки значения «Хи-квадрата» в тот или иной интервал. В математической статистике доказано следующее положение: если наши признаки в генеральной совокупности независимы, то величины (7.3) имеют хорошо изученное распределение, называемое «c2 – распределение». С ним мы уже знакомы (здесь используется малое греческое «хи»). Приблизительность можно игнорировать (т.е. считать, что величины (7.3) в точности распределены по закону c2), если ожидаемые (теоретические) частоты достаточно велики – обычно считают, что в каждой клетке таблицы, заполненной теоретическими частотами, должно быть по крайней мере 5 наблюдений. Будем считать, что это условие соблюдено (если это не так, то какие-то значения хотя бы одного из признаков следует объединить, чтобы соответствующие строки (столбцы) таблицы сопряженности сложились и частоты вследствие этого увеличились бы (отметим, что такое укрупнение должно быть осмысленным; скажем, если мы укрупняем градации возраста, то вполне допустимо объединить интервалы (15-20) и (20-25), но вряд ли при решении какой бы то ни было задачи будет разумно соединить интервалы (15-20) и (65-70)).

Вспомним, что «c2 – распределение» не одно. Чтобы выделить конкретный интересующий нас вариант из соответствующего семейства распределений, необходимо задать число степеней свободы. Оно равно

df = (r-1)(c-1).

 

Чтобы логика проверки нашей нуль гипотезы стала более ясной, отметим, что при отсутствии связи в генеральной совокупности среди выборочных значений (7.3) будут преобладать значения, близкие к нулю: отсутствие связи означает близость эмпирических и теоретических частот и, следовательно, близость к нулю всех слагаемых из определения критерия Х2 (7.2). Большие значения критерия будут встречаться относительно редко и поэтому они будут маловероятны. Мы имеем только одно значение – то, которое вычислено для нашей единственной выборки. Обозначим его через В силу сказанного, большое значение этой величины должно приводить нас к выводу о наличии связи, малое – об ее отсутствии. Описанная выше логика проверки статистической гипотезы превращается в следующее рассуждение.

Вычислим число степеней свободы df и зададимся уровнем значимости a. Найдем в таблице распределения c2 такое значение (называемое иногда критическим значение критерия и обозначаемое через ), для которого выполняется неравенство:

(x - обозначение случайной величины, имеющей распределениеc2 с рассматриваемым числом степеней свободы).

Если < (то есть вероятность появления при справедливости нуль гипотезы о независимости достаточно велика), то полагаем, что наши выборочные наблюдения не дают оснований сомневаться в том, что в генеральной совокупности признаки действительно независимы – ведь, «ткнув» в одну выборку, мы встретили такое значение X2, котороедействительно вполне могло встретиться при независимости. В таком случае мы полагаем, что у нас нет оснований отвергать нашу нуль гипотезу, посольку эмпирия ей не противоречит. Мы ее принимаем – считаем, что признаки независимы. Если же ³ , (то есть вероятность появления очень мала, меньше a), то мы вправе засомневаться в нашем предположении о независимости – ведь мы «наткнулись» на такое событие, которое вроде бы не должно было встретиться при таком предположении. В таком случае мы отвергаем нашу нуль-гипотезу, полагаем, что признаки зависимы.

Итак, рассматриваемый критерий не гарантирует наличие связи. Не измеряет ее величину. Он либо говорит о том, что эмпирия не дает оснований сомневаться в отсутствии связи, либо, напротив, дает повод для сомнений.

В заключение нельзя не сказать об очень важном (и с практической, и теоретической точки зрения) моменте: и величина критерия X2, и его расположение по отношению к табличному значению (естественно, говоря об этом, мы предполагаем, что уровень значимости зафиксирован) может измениться. Другими словами, наш вывод о наличии или отсутствии связи между переменными зависит от способа группировки значений рассматриваемых признаков. Представляется, что этот факт является интересной иллюстрацией к ведущейся в литературе дискуссии по вопросу объективности знания, получаемого социологом! [54]. Отметим, что при разной группировке значений какого-либо признака мы по существу переходим к разным признакам, отражающим разные стороны реальности. Так, сгруппировав значения возраста (не учитываем детство) так: (15-20), (20-50), (50-80), мы по существу отразим физическое состояние организма человека: растущий организм, стабильный, деградирующий. А сгруппировав по-другому: (15-20), (20-30), (30-80), получим признак, отражающий степень социальной зрелости человека (мы не претендуем на содержательную правильность предлагаемых разбиений). [55]

 

Примеры задач

1.Доказать эквивалентность соотношений (7.1).

 

Рекомендация к дальнейшему. Если имеются клетки, которым отвечают теоретические частоты, меньшие 5, то градации признаков надо укрупнять (разумным способом). При этом надо учесть, что чем меньше укрупнений – тем лучше, поскольку мы теряем меньше информации (естественно, какждое «слияние» градаций того или иного признака приводит к потере информации).

2. Проанализировав данные по абитуриентам, поступавшим в некоторый вуз, получили следующие частоты:

 

Занимался ли на подготовительных курсах Набранный балл
До 10 11-15 16-20 21-25
Да Нет        

 

Можно ли считать, что обучение на подготовительных курсах способствует более эффективной подготовке к экзамену?

Рекомендация. Данная задача может решаться двумя способами. Применить оба и содержательно проинтерпретировать разницу в выводах

3. Данные опроса жителей некоторого промышленного региона об их электоральном поведении были сведены в следующую частотную таблицу (частоты в клетках выражены в десятках тысяч человек):

 

Место жительства Голосование за представителя партии
ЕР ЛДПР КПРФ Яблоко
Город Село        

 

Можно ли считать выбор партии респондентом статистически связанным с местом его проживания?

Рекомендация. Пояснить, почему один из способов, пригодных для решения предыдущей задачи, здесь неприменим.

4. При анкетном опросе жителей Татарстана (сотрудников госпредприятий) фрагмент одной из частотных таблиц имел вид:

 

Должность Национальность
Татары Русские
Руководитель предприятия    
Рядовой квалифицированный сотрудник    
Чернорабочий    

 

Можно ли сказать, что в республике имеется определенная дискриминация по национальности при назначении человека на должность в государственной предприятии?

 

 

5. Придумайте пример задачи, в которой вывод о наличии (или отсутствии) связи между двумя непрерывными признаками (при использовании критерия «Хи-квадрат») зависел бы от группировки значений признаков (уровень значимости предполагается заданным). Попробуйте объяснить этот феномен.

 

 

ТЕМА 8.



Поделиться:


Последнее изменение этой страницы: 2016-07-11; просмотров: 495; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.141.41.187 (0.062 с.)