Загальні уявлення про критерії перевірки вибірки на нормальний розподіл даних 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Загальні уявлення про критерії перевірки вибірки на нормальний розподіл даних



Для визначення закону розподілу певної величини, перш за все, потрібно віднести її або до дискретної, або неперервної. Більшість величин, які вимірюються у експериментальній біології, вважаються неперервними.

Дослідники на практиці найчастіше зустрічаються з малою вибіркою (4≤n≤30) і міркувати про нормальність розподілу даних є досить важко.

За міжнародним стандартом ISO 5479-97 ( The I nternational O rganization for S tandardization) вважається, що при кількості вимірювань n <10 перевірити гіпотезу про вид розподілу результатів вимірювань неможливо. При числі даних 10< n <30 також важко судити про вид розподілу, тому для перевірки відповідності даних нормальному розподілу використовують певний статистичний критерій (складовий критерій d, критерій Шапіро-Уілка, критерій Колмогорова, критерій Пірсона χ2 та інші). За міжнародним стандартом ISO 5479-97 для перевірки даних на нормальний розподіл слід використовувати складовий критерій d, W -критерій Шапіро-Уілка, критерії перевірки на симетричність і на значення ексцесу (див. пункт 5.4), критерій Еппса-Паллі. Цей стандарт не рекомендує критерію χ2 і подібних до нього, оскільки вони підходять тільки для згрупованих даних. Проте критерій χ2 може бути використаний для великих вибірок (n>100).

Перш, ніж перевіряти нормальність розподілу даних за наведеними вище критеріями можна також перевірити чи виконується наступна умова:

Якщо між ними різниця 10-20%, то розподіл даних є відмінним від нормального. Проте якщо медіана і середнє арифметичне значення подібні – це все одно ще не свідчитиме про нормальний розподіл даних.

5.2. Складовий критерій d

При перевірці даних на нормальний розподіл часто застосовують складовий критерій d. При цьому задаються рівні значущості qI α I (для критерію I) і qII α II (для критерію II). Рівні значущості складового критерію повинні задовільняти умову:

qqI + qII (α ≤α III) (30).

Значення критерію I обчислюють за формулою:

(31)

де s * – зміщене середнє квадратичне відхилення:

 

(32)

 

Гіпотеза про нормальність підтверджується, якщо

(33)

де процентні точки розподілу значень d, які можна знайти по таблиці 7.

Таблиця 7. Значення процентних точок q для розподілу d

Рівень значущості q, % Число результатів вимірювань
       
1-q/2   0,67 0,68 0,69 0,70
  0,72 0,72 0,73 0,74
  0,74 0,74 0,75 0,75
q/2   0,8 0,87 0,86 0,86
  0,91 0,89 0,88 0,87
  0,94 0,91 0,90 0,89

 

Використовуючи критерій II,гіпотезу про нормальність розподілу результатів вимірювань можна підтвердити, якщо не більше m різниць перевищили значення , де – верхня квантиль нормованої функції Лапласа (таблиця 8), що відповідає вірогідності р/2, а S – середнє квадратичне відхилення, яке обчислюється за формулою (9).

.

Таблиця 8. Квантилі нормованої функції Лапласа

P 0,90 0,95 0,96 0,97 0,98 0,99
1,65 1,96 2,06 2,17 2,33 2,58

 

Значення статистичної значущості p отримують із таблиці 9.

Таблиця 9. Значення статистичної значущості p

n   11-14 15-20 21-22   24-27 28-30
m              
q/2 *100% 1,00 0,98 0,99 0,99 0,98 0,98 0,98 0,99
2,00 0,98 0,98 0,99 0,97 0,98 0,98 0,98
5,00 0,96 0,97 0,98 0,96 0,96 0,97 0,97

Гіпотезу про нормальний розподіл даних приймають тільки в тому випадку, якщо для вибірки виконуються два вказані вище критерії.

5.3. Статистичний критерій W (критерій Шапіро-Уілка)

Цей критерій є одним з найбільш чутливих щодо перевірки даних на їхній нормальний розподіл. Його застосовують при 10≤n<30.

Перевірку гіпотези про те, що дані мають нормальний розподіл здійснюють в наступній послідовності:

1) результати досліджень розміщують у вигляді послідовності:

,

де n – число досліджень;

2) обчислюють значення величини SS (сума квадратів – S um of S quares):

(34)

3) обчислюють значення величини b за формулою:

(35),

де значення коефіцієнтів для можна взяти із таблиці 10.

Таблиця 10. Значення коефіцієнтів

i n
             
  0,5769 0,5601 0,5475 0,5359 0,5251 0,5150 0,5056
  0,3291 0,3315 0,3325 0,3325 0,3318 0,3306 0,3290
  0,2141 0,2260 0,2347 0,2412 0,2460 0,2495 0,2521
  0,1224 0,1429 0,1586 0,1707 0,1802 0,1878 0,1939
  0,0399 0,0695 0,0922 0,1099 0,1240 0,1353 0,1447
      0,0303 0,0539 0,0727 0,0880 0,1005
          0,0240 0,0433 0,0593
              0,0196

 

Якщо n – парне, то , а якщо n – непарне, то (в цьому випадку не використовується для обчислень).

4) знаходять значення W-критерію за формулою:

(36);

5) при певному рівні статистичної значущості (зазвичай p<0,05) перевіряють виконання умови:

(37),

де Wкр – критичне значення критерію, що взяте із таблиці 11.

Таблиця 11. Критичні значення W -критерію

n Рівень статистичної значущості p
0,01 0,02 0,05
  0,781 0,806 0,842
  0,792 0,817 0,850
  0,805 0,828 0,859
  0,814 0,837 0,866
  0,825 0,846 0,874
  0,835 0,855 0,881
  0,844 0,863 0,887

 

Якщо така умова (37) виконується, то говорять про нормальний розподіл даних.



Поделиться:


Последнее изменение этой страницы: 2017-01-19; просмотров: 425; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.224.73.125 (0.009 с.)