Проверка гипотез о нормальном законе распределения 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Проверка гипотез о нормальном законе распределения



Для оценки соответствия имеющихся экспериментальных данных нормальному закону распределения целесообразно совместное использование графических и статистических методов. Графический метод позволяет выдвигать гипотезу о виде распределения, давать визуальную ориентировочную оценку расхождения или совпадений распределений.

Нормальное распределение широко используется в различных сферах человеческой деятельности для приближенного описания случайных явлений, так как требует знания всего двух параметров – среднего значения  и стандартного отклонения . Случайная величина Х имеет нормальное распределение вероятностей с параметрами а и , если плотность ее распределения задается формулой:

                                               (5)

Математическое ожидание и дисперсия случайной величины Х соответственно равны   и .

Нормальное распределение обладает рядом важнейших свойств, которые приводятся ниже:

1. Вероятность больших отклонений нормальной случайной величины от центра ее распределения (параметра a ) ничтожно мала.

2. График функции плотности нормального распределения симметричен относительно средней (параметра а).

3. Стандартное отклонение  характеризует степень сжатия или растяжения графика функции плотности распределения вероятностей.

4. Нормальная случайная величина с математическим ожиданием а и стандартным отклонением   с вероятностью близкой к 1 попадает в интервал . Это утверждение получило название правило трех сигм.

Если случайная величина распределена по нормальному закону распределения с математическим ожиданием а и стандартным отклонением , то

                                             (6)

где Ф – функция вероятностей Лапласа.

Эти соотношения позволяют определить вероятность того, что случайная величина Х будет меньше (или больше) заданного значения х.

 

Предположение о подчинении выборки на соответствие закону нормального распределения можно сделать:

 

По коэффициенту вариации.

Если коэффициент вариации превышает 33%, говорить о нормальности распределения данных выборки нельзя. Предварительный анализ с помощью коэффициента вариации дает самую грубую оценку.

 

2. По коэффициентам эксцесса и асимметрии (получаются неплохие результаты при большом числе наблюдений (n > 100) и использовании выборочных коэффициентов эксцесса и асимметрии).

Для нормально распределенной случайной величины коэффициенты эксцесса и асимметрии равны 0. Поэтому, если соответствующие эмпирические величины достаточно малы, можно предположить, что генеральная совокупность распределена по нормальному закону.

. Принято говорить, что предположение о нормальности распределения не противоречит имеющимся данным, если асимметрия лежит в диапазоне от -0,2 до 0,2, а эксцесс – от -1 до 1.

 

В практических расчетах в качестве асимметрии применяется нормированный коэффициент асимметрии третьего порядка, который не зависит от масштаба, выбранного при измерении варианта, так как является отвлеченной величиной:

.                                                                                          (8)

Если , то в ряду распределения преобладают варианты, которые меньше, чем средняя, т.е. ряд отрицательно асимметричен (или с левосторонней скошенностью – более длинная ветвь влево). Если , то для ряда распределения характерна положительная асимметрия (правосторонняя скошенность – более длинная ветвь вправо),  при симметричном распределении, так как варианты равноудалены от  и имеют одинаковую частоту. Поэтому .

Для определения крутизны (заостренности) распределения вычисляется центральный момент четвертого порядка и определяется нормированный момент четвертого порядка:

.                                                                                          (9)

Для нормального распределения . При оценке крутизны в качестве эталонного выбирается нормальное распределение, которое сравнивается с фактическим и вычисляется показатель эксцесса распределения:

                                                                                      (10)

При симметричном распределении . Если , то распределение является островершинным, если  - плосковершинным. В результате более при сравнении распределений двух случайных величин при равенстве их средних предпочтительной является величина с большим коэффициентом эксцесса.

Однако случай, когда  и , чисто теоретический. На практике для признания симметричности распределения используют следующее допущение:

если ,                                                                              (11)

где  (n – число значений случайной величины),

то асимметрия считается несущественной, а ее наличие объясняется воздействием случайных факторов. В противном случае асимметрия статистически значима (существенна) и факт ее наличия требует дополнительной интерпретации.

Аналогично, если

,                                                                                        (12)

где

то эксцесс считается незначительным и его величиной можно пренебречь.

3. На основе среднего абсолютного отклонения. Для не очень больших выборок (n <120) можно вычислить среднее абсолютное отклонение (САО):

где n – объем выборки;

- среднее значение выборки.

Для выборки, имеющей приближенно нормальный закон распределения, должно выполняться условие:

.

4. На основе критериев согласия (например, χ2 (хи-квадрат)).

При малом n (50< n < 100) наиболее убедительные результаты дает использование критериев согласия. Здесь нулевая гипотеза Н0 представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Один из критериев - непараметрический критерий χ2 (хи-квадрат). Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитанными по формулам нормального распределения. Для его применения желательно иметь не менее 40 – 50 выборочных данных, сгруппированных не менее чем в 7 интервалов, в каждом из которых находится хотя бы 5 наблюдений.

 

5. На основе размаха варьирования. Проверку гипотезы нормальности распределения для сравнительно широкого класса выборок (3< n <1000) можно выполнить с помощью метода, основанного на размахе варьирования R.

Для его использования определяют размах упорядоченной совокупности наблюдений ():

.

Если фактическое численное значение  критерия попадает в диапазон табличных значений: для n=10 =2,670 ….3,685; для n=20 =3,180 … 4,490; для n=30 = 3,470 …4,890, для уровня значимости α=0,05, то нулевая гипотеза  о ненормальном распределении случайной величины отвергается и принимается альтернативная гипотеза  о нормальном распределении случайной величины.

Анализ  можно проводить и при 10% уровне значимости (α=0,10).

В случае невыполнения предпосылок об однородности и нормальности анализируемых случайных величин необходимо провести корректировку исходного массива данных. С этой целью можно воспользоваться «правилом трех сигм». Для каждой случайной величины формируется таблица 2.5

 

Таблица 2.5 - Распределение значений признака по диапазонам рассеяния признака относительно

 

Границы диапазонов, млн. руб.

Количество значений xi, находящихся в диапазоне

Процентное соотношение рассеяния значений xi по диапазонам, %

  Первый признак Второй признак Первый признак Второй признак Первый признак Второй признак
А 1 2 3 4 5 6
[ ; ] [ ;  ]        
[ ; ] [ ;  ]        
[ ; ] [ ;  ]        

 

На основе данных таблицы 2.5  структура рассеяния значений признака по трем диапазонам сопоставляется со структурой рассеяния по правилу «трех сигм», справедливому для нормальных и близких к нему распределений:

68,3% значений располагаются в диапазоне (),

95,4% значений располагаются в диапазоне (),

99,7% значений располагаются в диапазоне ().

Если полученная в табл. 2.5 структура рассеяния хi по 3-м диапазонам незначительно расходится с правилом «трех сигм», можно предположить, что распределение единиц совокупности по данному признаку близко к нормальному.

Расхождение с правилом «трех сигм» может быть существенным. Например, менее 60% значений хi попадают в центральный диапазон () или значительно более 5% значения хi выходит за диапазон (). В этих случаях распределение нельзя считать близким к нормальному.

Если исходные данные неоднородные или не распределены нормально, то их корректируют. Из массива первичной информации исключаются все резко выделяющиеся (аномальные) значения, т.е. значения, уровень которых не попадает в интервал или используют правила отсева грубых погрешностей. Данный критерий надежен при числе измерений n ≥ 20...50. Это правило обычно считается чересчур жестким, в связи с этим рекомендуется назначать границу цензурирования исходя из объёма выборки: при 6 < n ≤1000 она равна 4 «сигма»; при 100 < n ≤1000 − 4,5 «сигма»; при 1000 < n ≤10000 − 5 «сигма». Данное правило используется только при нормальном распределении.

Пример отсева грубых погрешностей методом максимального относительного отклонения:

Пирометром измеряется температура поверхности нагретого тела. Будем предполагать, что температура видимой поверхности нагретого тела во всех точках одинакова. Различными исследователями было проведено шесть измерений температуры и получены следующие их значения: Температура, 0С: 925, 950, 975, 1000, 1025, 1050 (n=6).

    Имеются ли среди этих измерений грубые погрешности? Предварительно вычислим оценки  и S:

 

    Для определения Sx использовали (n-1), т.к. истинное значение измеряемой температуры нам не известно. Заметим, что здесь это важно, т.к. сделано мало измерений (всего n=6).

    Выберем измерения, имеющие наибольшее отклонение от среднеарифметического значения. Таких значений оказалось два: 925 0C и 1050 0C.

Для оценки нуль-гипотезы о несущественности отклонения выбранного от  используется распределение Стьюдента. С этой целью рассчитывается максимальное относительное отклонение . При этом предполагается, что случайная величина  распределена по нормальному закону. Максимальное относительное отклонение сравнивается с теоретическим значением критерия Стьюдента t, которое зависит от уровня значимости α (0,05; 0,1; 0,01) и числа степеней свободы =n-1.

Если tэксп>ta, , то имеется достаточно основания с вероятностью P=1- α исключить "выскакивающее" значение как грубую ошибку и отвергнуть нуль-гипотезу. В противном случае tэксп<ta, , нуль-гипотеза принимается и от отсева "выскакивающего значения" лучше воздержаться с вероятностью P.

    Вычислим

 

    При a=0,05 и =n-1=5 определяем t0,05;5=2,57.

    Так как tэксп<ta, , то от отсева выделяющихся наблюдений лучше воздержаться.

Аналогично проводим расчеты для второго значения - 925 0C:

Так как  tэксп<ta, , то от отсева выделяющихся наблюдений лучше воздержаться.

В результате сформирован новый массив данных, который используется в дальнейшем анализе. Однако для этого массива тоже предварительно рассчитываются основные характеристики.

 

Другой способ отсева грубых погрешностей – на основе размаха варьирования. Для этого определяют размах упорядоченной совокупности наблюдений ():

.

Если какой-либо член вариационного ряда, например , резко отличается от всех других, то производят проверку, используя следующее соотношение:

.

где  – выборочное среднее арифметическое значение, вычисленное после исключения предполагаемого промаха;

z – критериальное значение.

Нулевую гипотезу (об отсутствии грубой погрешности) принимают, если указанное неравенство выполняется. Если  не удовлетворяет вышеуказанному соотношению, то этот результат исключают из вариационного ряда.

Коэффициент z зависит от числа членов вариационного ряда n, что представлено в таблице 2.6.

Таблица 2.6 – Критерий вариационного размаха

n 5 6 7 8-9 10-11 12-15 16-22 23-25 26-63 64-150
z 1,7 1,6 1,5 1,4 1,3 1,2 1,1 1,0 0,9 0,8

 



Поделиться:


Последнее изменение этой страницы: 2021-03-10; просмотров: 1213; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.36.10 (0.029 с.)