Статистические гипотезы. Критерии согласия. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Статистические гипотезы. Критерии согласия.



Нулевой (основной) называют выдвинутую гипотезу о виде неизвестного распределения, или о параметрах известных распределений. Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.

Например, если нулевая гипотеза состоит в предположении, что случайная величина X распределена по закону , то конкурирующая гипотеза может состоять в предположении, что случайная величина Х распределена по другому закону.

Статистическим критерием (или просто критерием) называют некоторую случайную величину К, которая служит для проверки нулевой гипотезы.

После выбора определенного критерия, например критерия , множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другое - при которых она принимается.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы называют совокупность значений критерия, при которых гипотезу принимают. Критическими точками называют точки, отделяющие критическую область от области принятия нулевой гипотезы.

Для нашего примера, при значении , вычисленное по выборке значение соответствует области принятия гипотезы: случайная величина распределена по закону . Если же вычисленное значение , то оно попадает в критическую область, то есть гипотеза о распределении случайной величины по закону отвергается.

В случае распределения критическая область определяется неравенством , область принятия нулевой гипотезы – неравенством .

 

2.6.3. Критерий согласия Пирсона.

Одна из задач зоотехнии и ветеринарной генетики – выведение новых пород и видов с требуемыми признаками. Например, повышение иммунитета, резистентность к болезням или изменение окраски мехового покрова.

На практике, при анализе результатов, очень часто оказывается, что фактические результаты в большей или меньшей степени соответствуют некоторому теоретическому закону распределения. Возникает необходимость оценить степень соответствия фактических (эмпирических) данных и теоретических (гипотетических). Для этого выдвигают нулевую гипотезу : полученная совокупность распределена по закону «А». Проверка гипотезы о предполагаемом законе распределения производится при помощи специально подобранной случайной величины – критерия согласия.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Имеется несколько критериев согласия: Пирсона, Колмогорова, Смирнова и д.р. Критерий согласия Пирсона используется наиболее часто.

Рассмотрим применение критерия Пирсона на примере проверки гипотезы о нормальном законе распределения генеральной совокупности. С этой целью будем сравнивать эмпирические и теоретические (вычисленные в продолжении нормального распределения) частоты.

Обычно между теоретическими и эмпирическими частотами есть некоторое различие. Например:

 

Эмпирические частоты 7 15 41 93 113 84 25 13 5

Теоретические частоты 5 13 36 89 114 91 29 14 6

 

 

Рассмотрим два случая:

- расхождение теоретических и эмпирических частот случайно (незначимо), т.е. можно сделать предложение о распределении эмпирических частот по нормальному закону;

- расхождение теоретических и эмпирических частот неслучайно (значимо), т.е. теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности.

С помощью критерия согласия Пирсона можно определить случайно или нет расхождение теоретических и эмпирических частот, т.е. с заданной доверительной вероятностью определить, распределена генеральная совокупность по нормальному закону или нет.

Итак, пусть по выборке объема n получено эмпирическое распределение:

Варианты ……

Эмпирические частоты …….

 

Допустим, что в предположении нормального распределения вычислены теоретические частоты . При уровне значимости требуется проверить нулевую гипотезу : генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы примем случайную величину

(*)

Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.

Доказано, что при закон распределения случайной величины (*), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения с степенями свободы. Поэтому, случайная величина (*) обозначается через , а сам критерий называют критерий согласия «хи-квадрат».

Обозначим значение критерия, вычисленное по данным наблюдений, через . Табулированные критические значения критерия для данного уровня значимости и числа степеней свободы обозначают . При этом число степеней свободы определяют из равенства , где число групп (частичных интервалов) выборки или классов; - число параметров предполагаемого распределения. У нормального распределения два параметра – математическое ожидание и среднее квадратическое отклонение. Поэтому число степеней свободы для нормального распределения находят из равенства

Если для вычисленного значения и табличного значения выполняется неравенство , принимается нулевая гипотеза о нормальном распределении генеральной совокупности. Если же , нулевую гипотезу отвергают и принимают гипотезу, альтернативную ей (генеральная совокупность не распределена по нормальному закону).

Замечание. При использовании критерия согласия Пирсона объем выборки должен быть не менее 30. Каждая группа должна содержать не менее 5 вариант. Если же в группах окажется менее 5 частот, их объединяют с соседними группами.

В общем случае число степеней свободы для распределения хи-квадрат определяется как общее число величин, по которым вычисляют соответствующие показатели, минус число тех условий, которые связывают эти величины, т.е. уменьшают возможность вариации между ними. В простейших случаях при вычислении число степеней свободы будет равно числу классов, уменьшенному на единицу. Так, например, при дигибридном, расщеплении получают 4 класса, но не связанным получается лишь первый класс, последующие уже связаны с предыдущими. Поэтому для дигибридного расщепления число степеней свободы .

Пример 1. Определить степень соответствия фактического распределения групп по количеству больных туберкулезом коров с теоретически ожидаемым, которое было вычислено при рассмотрении нормального распределения. Исходные данные сведены в таблицу:

 

Распределение Количество больных по группам
1 2 3 4 5
Фактическое   Теоретическое 5 10 20 8 7   6 14 18 7 5

 

Решение. Используя критерий согласия Пирсона вычислим значение :

По уровню значимости и числу степеней свободы из таблицы критических точек распределения (см. приложение 4) находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами носит случайный характер. Таким образом, фактическое распределение групп по количеству больных туберкулезом коров соответствует теоретически ожидаемому.

Пример 2. Теоретическое распределение по фенотипу особей, полученных во втором поколении при дигибридном скрещивании кроликов по закону Менделя составляет 9: 3: 3: 1. Требуется вычислить соответствие эмпирического распределения кроликов от скрещивания черных особей с нормальной шерстью с пуховыми животными – альбиносами. При скрещивании во втором поколении было получено 120 потомков, в том числе – 45 черных с короткой шерстью, 30 черных пуховых, 25 белых с короткой шерстью, 20 белых пуховых кроликов.

Решение. Теоретически ожидаемое расщепление в потомстве должно соответствовать соотношению четырех фенотипов (9: 3: 3: 1). Рассчитаем теоретические частоты (количество голов) для каждого класса:

9+3+3+1=16, значит можно ожидать, что черных короткошерстных будет ; черных пуховых - ; белых короткошерстных - ; белых пуховых - .

Эмпирическое (фактическое) распределение по фенотипам было следующим 45; 30; 25; 20.

Сведем все эти данные в следующую таблицу:

 

Распределение Фенотип
Черные Черные Белые Белые коротко- пуховые коротко- пуховые шерстные шерстные Всего
Фактическое () Теоретическое () 45 30 25 20 67,5 22,5 22,5 7,5  

 

Используя критерий согласия Пирсона вычислим значение :

Число степеней свободы при дигибридном скрещивании . Для уровня значимости находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами является неслучайным. Следовательно, полученная группа кроликов отклоняется по распределению фенотипов от закона Менделя при дигибридном скрещивании и отражает влияние неких факторов, изменяющих тип расщепления по фенотипу у второго поколения помесей.

Критерий согласия хи- квадрат Пирсона можно использовать и для сравнения друг с другом двух однородных эмпирических распределений, т.е. таких, у которых одни и те же границы классов. В качестве нулевой гипотезы принимается гипотеза о равенстве двух неизвестных функций распределения. Критерий хи-квадрат в таких случаях определяется по формуле

(**)

где и - объемы сравниваемых распределений; и - частоты соответствующих классов.

Рассмотрим сравнение двух эмпирических распределений на следующем примере.

Пример 3. Проводился промер длины яиц кукушек по двум территориальным зонам. В первой зоне была обследована выборка из 76 яиц (), во второй из 54 (). Получены следующие результаты:

 

Длина (мм)                      
Частоты                      
Частоты                 - - -

 

При уровне значимости требуется проверить нулевую гипотезу, что обе выборки яиц принадлежат одной популяции кукушек.

Решение. Так как количество классов первого ряда частот отличается от количества классов второго ряда, и к тому же количество вариант в некоторых классах мало, произведем объединение первых двух классов и последних четырех (таблица А) в результате получили 7 классов вместо 11. Преобразуем исходную таблицу, добавив к ней строки с промежуточными результатами вычислений (таблица Б).

Таблица А

Длина (мм)                      
Частоты                      
             
Частоты                 - - -
             

 

Таблица Б

Длина (мм) 40,41           47,48,49,50
Частоты              
Частоты              
             
             
-              
( - )              
             

 

Используя критерий (**), получим

Число степеней свободы в этом случае будет равно , так как число классов равно 7, а единственным общим элементом двух рядов является одинаковое число классов. По уровню значимости и числу степеней свободы из таблицы критических точек распределения (см. приложение 4) находим значение . Так как , нулевая гипотеза, что обе выборки яиц взяты из одной популяции должна быть отвергнута.

 

Распределение Стьюдента.

В биологических исследованиях нередко приходится встречаться с выборочными совокупностями, состоящими из очень ограниченного количества вариант или наблюдений. Возникает вопрос, каковы в этих случаях закономерности распределения выборочных средних арифметических. Ответ на него дал английским математик В. Госсет, который писал под псевдонимом Стьюдент. Поэтому полученное им распределение вероятностей получило название распределения Стьюдента.

Пусть - нормально распределенные независимые случайные величины с математическим ожиданием и дисперсией . Если и

то случайная переменна

(*)

распределена по закону Стьюдента с n-1 степенями свободы. Здесь

- оценка среднего квадратического отклонения выборочной средней. Легко видеть, что переменная Т принципиально сходна с формулой нормированного отклонения выборочной средней от генеральной при нормальном распределении для больших выборок:

Распределение Т отличается только при малом объеме выборки. Так как , с увеличением числа n получаем равенство и разница между распределением Т и нормальным практически исчезает.

В общем случае случайная величина Т определяется как

(**)

где Z – нормальная случайная величина, причем M(Z)=0, а V – независимая от Z величина, которая распределена по закону с степенями свободы. Величина Т распределена по закону Стьюдента с степенями свободы. Ее возможные значения обозначают через t. Поэтому распределение Стьюдента иногда называют t- распределением.

Покажем, что случайная величина (*) представляет собой частный случай случайной величины Т, распределенной по закону Стьюдента. Представим выражение (*) в следующем виде:

Величина имеет нормальное распределение, величина распределена по закону и степенями свободы. Таким образом, мы получили случайную величину (**).

Распределение Стьюдента зависит только от числа степеней свободы . С ростом числа степеней свободы распределение Стьюдента приближается к нормальному, и уже при практически не отличается от него. На рис. 18 на фоне нормального распределения показаны кривые распределения Стьюдента при различных степенях свободы.

Математическое ожидание М(Т) распределения Стьюдента при равно 0, дисперсия при равна .

Для практического использования t – распределения были составлены рабочие таблицы, по которым можно определять критические значения , соответствующие данной доверительной вероятности и числу степеней свободы (см. приложение 5), для которой выполняется условие (вероятность того, что случайная величина t по абсолютной величине меньше критического значения равна доверительной вероятности ). Значение определяет границу двусторонней критической области - . Так, например, если выборка включает 15 наблюдений (число степеней свободы k=n-1=14) и по условиям опыта требуется доверительная вероятность 0,95 (уровень значимости 0,05), то величина t должна быть менее 2,14 и более -2,14. На рис. 19 показан графический смысл этих величин.

Замечание. Следует иметь в виду, что в случае односторонней критической области значения уровня значимости , указанные в верхней части таблицы, должны быть вдвое меньше.

 

Рис. 18. Распределение Стьюдента в зависимости от числа свободы k;

сравнение со стандартизованным нормальным распределением.

 

 

Рис. 19.95% доверительная вероятность и 5% уровень значимости для распределения Стьюдента.

 

Распределение Фишера.

Во многих задачах математической статистики, в особенности в дисперсионном анализе, важную роль играет распределение Фишера

(F-распределение), названное так по фамилии известного английского математика Р.А. Фишера (1925 г.)

Если U и V независимые случайные величины, распределенные по закону со степенями свободы и , то величина

(*)

распределена по закону Фишера со степенями свободы и . Принимают, что U >V, так что переменная F принимает значения не меньшие 1.

На практике часто применяется случайная величина

), (**)

Распределенная по закону Стьюдента с числом степеней свободы (для большей дисперсии) и (для меньшей дисперсии). Здесь

.

Покажем, что случайная величина (**) представляет собой частный случай случайной величины (*). Перепишем (**) в виде

.

Случайные переменные и распределены по закону со степенями свободы и . Таким образом мы получили выражение (*).

Величина F имеет непрерывную функцию распределения и зависит только от чисел степеней свободы и . Функция распределения величины F при небольшом объеме выборки n приближается к кривой нормального распределения.

Наиболее часто функция F распределения табулирована для 5% (доверительная вероятность 0,95) и 1% (доверительная вероятность 0,99) уровней значимости и чисел степеней свободы для большей дисперсии и для меньшей дисперсии (см. приложение 2). На практике, в зависимости от поставленной задачи, при одном и том же значении доверительной вероятности используют распределение Фишера с односторонней (рис. 20) и двухсторонней (рис. 21) критическими областями. Для односторонней критической области по таблицам определяют критическое значение Fkp, соответствующее выбранному уровню значимости при степенях свободы и , для которого выполняется условие . В случае двухсторонней критической области критическим значением и соответствует вероятности и . На практике при двухсторонней критической области ограничиваются определением величины , для уровня значимости вдвое меньше заданного - .

 

 

 

Рис. 20. Функция распределения Рис. 21. Функция распределения

Фишера с односторонней Фишера с двухсторонней

критической областью. критической областью.

 

Рассмотрим подробнее построение критических областей распределения Фишера. При использовании случайной величины F в качестве критерия проверки нулевой гипотезы о равенстве генеральных дисперсий критическая область строится в зависимости от вида конкурирующей гипотезы.

Первый случай: Нулевая гипотеза . Конкурирующая гипотеза .

В этом случае строят одностороннюю, а именно правостороннюю, критическую область (рис. 20) исходя из требования, чтобы вероятность попадания величины F в эту область, в предположении справедливости нулевой гипотезы, была равна принятому уровню значимости р. Тогда правосторонняя критическая область определяется неравенством . Значение находят по заданному уровню значимости при степенях свободы и .

Второй случай: Нулевая гипотеза . Конкурирующая гипотеза .

В этом случае строят двухстороннюю критическую область (рис.21) исходя из требования, чтобы вероятность попадания величины F в каждый из двух интервалов критической области, в предположении справедливости конкурирующей гипотезы, была равна . Тогда критическая область определяется: , ; область принятия нулевой гипотезы: .

Доверительные интервалы

Доверительные интервалы находят по различным формулам, в зависимости от исходных данных.



Поделиться:


Последнее изменение этой страницы: 2016-04-26; просмотров: 1431; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.139.107.241 (0.089 с.)