Критерий согласия хи-квадрат 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Критерий согласия хи-квадрат



Задача 3.6.

Вернемся к задаче 2.1, которая состояла в построении гистограммы для вариационного ряда распределения значений роста. Гистограмма дает определенную информацию о функции плотности теоретического распределения. В частности, в задаче 2.1 визуально было выявлено, что функция плотности нормального распределения достаточно хорошо аппроксимирует построенную выборку. Однако визуальный подход не может считаться решением задачи. Рассмотрим критерий согласия (хи-квадрат) выборочных данных с гипотезой о типе распределения. Этот критерий основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитываемыми по формулам нормального распределения. Нулевая гипотеза для этой задачи записывается в форме , где - эмпирическая функция распределения, построенная по имеющимся данным, а - гипотетическая (теоретическая) функция распределения с которой и сравнивается эмпирическая функция. Критерий согласия основан на статистике , где - число интервалов, - количество значений выборки, попавшей в -й интервал, - объем выборки, - теоретическая вероятность попадания изучаемой с.в. в -й интервал. Данная статистика имеет распределение хи-квадрат с степенями свободы. Если при выбранном уровне значимости выполняется , то на уровне значимости гипотеза отклоняется, в противном случае считается, что гипотеза верна. Алгоритм решения задачи можно описать следующим образом:

1. Выдвинуть гипотезу о виде распределения выборочных данных.

2. Разбить область значений наблюдаемых данных на интервалов

3. По выборочным данным построить таблицу частот аналогично тому, как это делалось при построении гистограммы выборки.

4. Для каждого интервала вычислить теоретические вероятности попадания значения с.в. в этот интервал.

5. Вычислить статистику

,

представляющую меру расхождения между ожидаемыми (теоретическими) частотами и выборочными частотами

6. Задать уровень значимости , проверить соотношение

7. Принять решение о статистической значимости проверяемой гипотезы.

Необходимо проверить гипотезу согласия выборочных данных с функцией нормального распределения для задачи 1.1. На первом этапе по выборке вычисляются выборочные характеристики, которые сводятся в таблицу:

Среднее значение выборки =СРЗНАЧ()
Стандартное отклонение =СТАНДАРТОТКЛОНП()
Объем выборки =СЧЁТ()
Минимальное значение =МИН()
Максимальное значение =МАКС()
Длина интервала  
Уровень значимости 0,05

На основе построенной таблицы строится таблица группировки данных по интервалам и подсчитывается вспомогательная информация для проверки нулевой гипотезы(см. задание 2). Ниже приведен заголовок этой таблицы

Номер интервала Границы Частоты теоретическая функция распределения Ожидаемые частоты попадания значения с.в. в интервал значение отклонения наблюдаемых частот от ожидаемых

Построение первых трех столбцов таблицы производится аналогично построениям, проводившимся при построении гистограммы с использованием функции =ЧАСТОТА(). При этом длина интервала, вообще говоря, зависит от выборочных данных. На практике число интервалов можно взять равным и . Для задачи 1.1. значение рекомендуется взять равным 5. При построении теоретической функции распределения можно использовать функцию =НОРМРАСП() для каждого значения границы интервала. В результате столбец «теоретическая функция распределения» должен заполниться неубывающей последовательностью чисел (вероятностей) , где - теоретическая вероятность попадания в интервал с номером . Столбец «Ожидаемые частоты попадания значения с.в. в интервал» вычисляется по формуле , где . Для -го интервала вычисляется значение и записывается в столбец «значение отклонения наблюдаемых частот от ожидаемых». Суммированием значений этого столбца получаем значение статистики . Далее это значение необходимо сравнить со значением функции =ХИ2ОБР(уровень значимости, )[15] и принять решение о статистической значимости проверяемой гипотезы. Если , то эмпирическое распределение не соответствует нормальному распределению на выбранном уровне значимости, в противном случае нет оснований отрицать это соответствие.

Задача 3.7.

Проверить гипотезу о нормальности распределений для данных из задач 1.2 – 1.6.

 


Задание 4. Интервальные оценки

При анализе выборочных данных можно вычислять выборочные характеристики, которые сами являются значениями случайных величин и могут изменяться в зависимости от выборки. Истинное значение соответствующей характеристики при этом остается неизвестным и не может быть, вообще говоря, точно определено. Поэтому для выборки заданного (особенно небольшого) объема весьма важным является описание интервала, в котором с разной степенью надежности находится неизвестное нам значение. Соответствующие оценки называются интервальными, а построенный интервал называется доверительным. Для построения доверительного интервала необходимо выполнение ряда условий о принадлежности распределения к определенному классу. Ниже рассматривается достаточно часто встречающаяся задача о построении доверительного интервала для среднего значения неизвестной случайной величины в предположении, что эта случайная величина распределена по нормальному закону. При этом исследователь должен заранее зафиксировать вероятность получения ошибочного результата.

Построение доверительного интервала для среднего предполагает нахождение границ и , которые удовлетворяют неравенству . Указанная формула означает, что интервал с вероятностью накроет неизвестное значение . Величина называется надежностью интервала и выбирается обычно в пределах от 90% до 99%, причем, чем больше величина , тем шире получается доверительный интервал и хуже точность оценки. Задача построения доверительного интервала с заданной точностью и надежностью может быть решена только при достаточно большом объеме выборки.

 

Задача 4.1.

Имеется выборка из нормального распределения. Необходимо построить 95% доверительный интервал (верхнюю и нижнюю границы) для неизвестного среднего этого распределения.

3,9 4,1 4,19 4,09 3,9 4,87 4,51 4,52 4,94 4,83 4,65 3,55 4,29 4,62
3,8 5,26 4,58 4,7 4,32 3,49 3,81 5,13            

 

Необходимо выполнить следующие действия:

1. По выборочным данным находится среднее и выборочная дисперсия

2. Вычисляется стандартная ошибка среднего

,

где - объем выборки

3. Находится квантиль распределения Стьюдента

4. Строятся доверительные границы

Результаты вычислений оформить в виде следующей таблицы


 

характеристика   значение Формула Встроенная функция
среднее   Значение среднего =СРЗНАЧ()
Дисперсия Значение дисперсии =ДИСПР()  
Станд отклон Значение ст. отклонения =СТАНДОТКЛОНП()  
Ошибка среднего Значение    
Количество Количество данных СЧЕТ()  
Уровень 0,050      
Надежность Q %    
         
Квантили Вычисленное значение   СТЮДРАСПОБР(
         
доверительный интервал значение  

 

Найти 95% () доверительный интервал для задачи 4.1.

Изменить значение в большую сторону () и в меньшую сторону () и проанализировать, как изменяются границы доверительного интервала для заданного уровня надежности.

 

Задача 4.2.

Построить 95%(второй вариант - 90%) доверительные интервалы для задач 1.1-1.6 задания 1.


Задание 5. Исследование статистической зависимости между двумя характеристиками



Поделиться:


Последнее изменение этой страницы: 2016-08-12; просмотров: 302; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.137.178.133 (0.012 с.)