Лабораторная работа 7. Непараметрические методы 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Лабораторная работа 7. Непараметрические методы



  Непараметрическая статистика – это собрание статистических приемов, которые не используют предположение о том, что теоретическое распределение принадлежит к известному параметрическому семейству. Обычно делаются только самые общие предположения типа непрерывности и, возможно, симметричности.

  Непараметрическая статистика включает два основных раздела:

  • методы, основанные на эмпирической функции распределения Fn *(x)
  • методы, основанные на замене самих измерений их рангами – ранговые методы.

Рангом числа  в группе  называют тот номер, который оно получает при упорядочении всей группы по возрастанию. Так, ранг 1 получает наименьшее из наблю­дений, ранг 2 - наименьшее из оставшихся, и т. д. Ранг п достается самому большому из чисел .

  Результаты наблюдений  обычно предполагаются распределенными непрерывно, поэтому совпадения среди чисел  теоретически имеют вероятность нуль. На практике величины   xi   регистриру­ются с ограниченной точностью, поэтому совпадения воз­можны. Если среди чисел  есть одинаковые, они получают общий ранг, обычно средний.

  Имеется несколько серьёзных аргументов в пользу рассмотрения вместо самих величин xi их рангов ri. При замене численных значений xi их ран­гами неизбежно происходит потеря информации. Тем не менее, прежде всего необходимо разобраться, что могут представлять собой величины , которые обычно трактуются как результаты некоторых измерений. 

Шкалы измерений

 

В математическом смысле шкалой называют правило, по которому состояния системы характеризуются числами. Итак, шкала — это переход от физического (или другого) объекта к числу. В данном смысле шкалой будет любая календарная система - моменту времени приписывается определенная дата. Шкалу представляет собой и при­нятая в школе система оценок, выставляемых ученикам в зависимости отих успехов.

Упомянутые шкалы - длин, температур, времени, успехов — раз­личаются не только по содержанию. Между ними есть и важные фор­мальные различия.

Результатом измерения в любой шкале яв­ляется число. С числами можно проводить арифметические и другие операции. Результаты некоторых операций имеют содержательный смысл и истолковываются в рамках данной шкалы. Допустим, чтомы измеряем длины предметов. Если х и у -  длины отрезков а и b, то х + у - длина отрезка, полученного приставлением а к b, — разница длин отрезков, ху — площадь прямоугольника, образо­ванного этими отрезками, и т. п. Однако ху или, например, log(x)для нас не имеют содержательного толкования.

Если же х и у — две календарные даты, причем х > у, то   х – у   имеет смысл - это время, прошедшее от одного события до другого. Однако х + у, ху, х/у и т. п. содержательного смысла лишены.

Для показателей по шкале успехов еще меньше осмысленных соот­ношений: осмысленно их можно лишь сравнивать по величине, т. е. из соотношения отметок х < у для учеников а и b можно лишь за­ключить, что а учится хуже, чем b. Если же у - х = 1, то утвержде­ние «успехи b на 1 выше, чем успехи а» не объясняет, каково раз­личие между ними. Шкала успехов служит примером порядковой (ранговой) шкалы.

     Выделяют еще номинальную шкалу, где числа служат всего лишь для различения отдельных возможностей, как бы для их названия. Никаких содержательных соотношений, кроме х = у и х у, между такими числами нет. Конечно, выбор чисел (т. е. номинальной шкалы) вместо реальных имен или других способов идентификации не обя­зателен, более того, может привести к недоразумениям.

     Если x 1,…, xn – действительно числа, результаты измерений, то среди них могут содержаться грубые промахи, аномальные измерения. Даже одно такое аномальное значение может увести далеко в сторону большинство статистик – как оценок, так и статистик критериев (критериальных функций). В то же время, на ранговую структуру выборки оно окажет минимальное воздействие. Ранговые методы всегда ориентируются на основное ядро выборки и мало чувствительны к далеко выпадающим значениям.

     Если  - измерения в порядковой шкале, то сами их значения смысла не имеют, важен только их порядок, т.е. их ранговая структура. В номинальной шкале числовой смысл имеют только численности групп.

Ранговые методы.

Критерий Вилкоксона и медиана Ходжеса-Леман а

 

     Пусть  и   - две независимые выборки. Неизвестные законы распределения случайных ве­личин  и    обозначим через  и  соответственно. По данным наблюдениям хотим проверить гипотезу однородности H: .

 Для проверки гипотезы однородности наиболее известен критерий Стьюдента, основанный на сравнении средних значений обеих выборок. Для того, чтобы получаемые на его основе выводы были справедливы, нужно, чтобы обе вы­борки имели близкое к гауссовому распределение с од­ной и той же дисперсией. Можно применять для проверки Н и критерий Смирнова, основанный на разности эмпири­ческих функций распределения, построенных по каждой выборке отдельно. Критерий Смирнова - чисто непара­метрический. Для того, чтобы он был применим, необходи­ма лишь непрерывность истинных функций распределения F  и G.  Более того, вероятность того, что различие между F  и G   будет замечено, если оно вообще существует, растет и приближается к 1 при неограниченном увеличении объемов выборок т и п. К сожалению, скорость роста этой вероят­ности невелика, так что при умеренных значениях т и п мощность критерия Смирнова мала.

Мы хотим применить критерии, основанные на рангах. Для этого объединяем обе выборки в одну группу и ранжируем наблюдения. Достаточно знать ранги только игреков, поскольку ранги иксов можно по ним восстано­вить - это оставшиеся числа из последовательности 1, 2,..., m + n. Обозначим ранги игреков через . Статистика для проверки Н должна быть функцией этих чисел.

Легко понять, что при справедливости гипотезы Н в качестве рангов  с равными вероятностями могут появляться любые п чисел из 1, 2,..., т + п. Это дает возможность рассчитать при выполнении H закон распределе­ния любой статистики, основанной на рангах. Это обстоя­тельство — основная причина перехода к рангам, причина универсальности и простоты ранговых методов.

     Остается выбрать подходящую функцию рангов, на которой основывать проверку H. Для этого, как всегда, надо подумать о конкурирующих гипотезах, т.е. о том, ка­ким образом может нарушаться H. Рассмотрим наиболее удобную для ранговых методов возможность: нарушение равенства F= G в пользу F< G. Таким соотношение между F и G будет, в частности, в том случае, когда G является «сдвигом» F, т. е. при . Такие альтернативы реально возникают в некоторых задачах, например, при измерении какой-то величину, об­ладающей естественной изменчивостью, при различных управляющих воздействиях.

Пример. Сравниваются длительности плавки в мартенов­ской печи при работе по стандартной и усовершенствован­ной технологиям. Естественно считать, что  где  последовательность независимых одинаково распределенных случайных величин, θ - закономерное изменение (сокращение, если θ<0) длительности плавки. Конечно, величина θ не наблюдает­ся. Наблюдаются выборки  и  (Если θ>0, альтернативой к H служит F> G).

Мы надеемся, что сокращение длительности плавки дей­ствительно происходит. Использу­ем обычный логический прием - рассуждение от против­ного. Предположим, что θ=0, т. е. F = G. Если стати­стический материал заставит нас отвергнуть это предложе­ние, придется признать, что θ в самом деле положительно. Надо, следовательно, проверить гипотезу H против аль­тернативы F< G.

Если G действительно превосходит F, т. е. если P (xi < x) < P (yi < x), то элементы выборки  имеют тенденцию располагаться левее элементов выборки . Это значит, что ранги игреков имеют тенденцию располагаться в левой части последовательности

{1, 2,..., т + п }. Поэтому статистика  в случае F< G   склонна к меньшим значениям, нежели в случае F= G. Из этого следует статистическое правило: отвергать гипотезу F= G  (в пользу F < G), если r1 + … rn слишком мала.

Это правило было предложено в 1945 году и  по­служило отправной точкой для всей обширной области ранговых проце­дур. По имени ее автора статистика W = r1+…+ rn на­зывается статистикой Вилкоксона, а основанный на W критерий - критерием Вилкоксона.

Мы выяснили, каково должно быть поведение W при F< G  . Поэтому мы отвергнем H, если W окажется меньше критического значения Wкрит или равным ему. Это критиче­ское значение выбираем так, чтобы  при H была малой.

   Если конкурентом однородности служит возможность F> G, признаком нарушения Н служит слишком большая величина W. Часто применяют двусторонний критерий Вилкоксона, по которому гипотеза Н отвергается, если на­блюденное значение выходит за критические значения  т. е. если не происходит событие  Критические значения находят по таблицам из условия

                                   

Значение α подбирают так, чтобы  была достаточно близка к 1.

Исследования показали, что мощность критерия Вилкоксона против рассмотренных здесь альтернатив на­много превосходит мощность критерия Смирнова. Однако против многих других альтернатив критерий W бессилен, в то время как критерий Смирнова обнаруживает (при неограниченных объемах выборок) любое раз­личие.

Легко увидеть, что в объединенной выборке сумма всех рангов равна

так что на каждое из (m + n) измерений приходится «средний ранг» (m + n+ 1)/2. Мы следим за положением  Если гипотеза H верна, то они распределены в объединенной выборке приблизительно равномерно, так что на их сумму приходится в среднем величина

Дисперсия статистики W вычисляется несколько сложнее:

При достаточно больших m, n (больше 20) распределение W хорошо аппроксимируется нормальным законом:

при меньших m, n есть специальные таблицы.

Составить представление о возможностях W можно, рассмотрев какие-либо конкретные F и G. Пусть  и — выборки из гауссовских распределений с общей дисперсией и различными средними а и b, причем a> b.  Известно, что с определенной точки зрения критерий Стьюдента является наилучшим в этой ситуации. Поэтому именно с ним надо сравнивать критерий Вилкоксона. Оказывается, что при больших объемах выборок их возможности почти одинаковы:  критерий Стьюдента лишь в π/3 раз чувствительнее критерия Вилкоксона. Конечно, при малых выборках преимущества критерия Стьюдента ощутимее.

 

Задачи

  1. Сформировать две выборки из нормального закона (0,1) объёмом n 1=20, n 2=30. Сдвинуть вторую выборку вправо на величину teta=0.3.
  2. Проверить гипотезу однородности с помощью критерия Уилкоксона, используя гауссову аппроксимацию центрального распределения.
  3. Получить оценку параметра сдвига teta с помощью медианы Ходжеса-Лемана, сделать N=50 имитаций и усреднить их результаты

Пример выполнения работы

Лабораторная работа 7_1
clear; clc; clf; %Критерий Уилкоксона и медиана Ходжеса-Лемана teta=0.3; m=20; n=30; X=randn(1,m);    X_ind=zeros(size(X)); Y=randn(1,n)+teta; Y_ind=ones(size(Y)); Z=[X Y; X_ind Y_ind]; [ZZ,R]=sort(Z(1,:)); Z_ind=Z(2,R); Iy=find(Z_ind);  %ненулевые элементы - принадлежат Y W=sum(Iy);       %статистика Уилкоксона MW=n*(m+n+1)/2;  %центральное среднее DW=m*n*(m+n+1)/12; %центральная дисперсия W0=(W-MW)/sqrt(DW); %нормированное значение W disp('Нормированное значение W'); disp(W0);   xx=linspace(-4,4,200); F=normpdf(xx); plot(xx,F, 'LineWidth',3); grid; hold on; plot([W0 W0],[0 normpdf(W0)], 'r', 'LineWidth',3); title(' Статистика Уилкоксона ', 'FontName', 'Courier New Cyr',... 'FontSize',14, 'FontWeight', 'Bold'); xlabel(' Статистика Уилкоксона ', 'FontName', 'Courier New Cyr',... 'FontSize',12, 'FontWeight', 'Bold'); ylabel(' Функция плотности N(0,1)', 'FontName', 'Courier New Cyr',... 'FontSize',12, 'FontWeight', 'Bold');

 

Рис.7.1. Статистика критерия Уилкоксона и её гауссова аппроксимация

Лабораторная работа 7_2
clear; clc; %Медиана Ходжеса-Лемана - 1 выборка teta=2;   %параметр сдвига m=100; N=50;     %число имитаций for k=1:N; Y=teta+randn(1,m); X=-Y; for i=1:m;   R(i,:)=Y-X(i); end; Z=reshape(R,1,m*m); teta_1(k)=median(Z)/2; end; plot([1 N],[teta teta], 'LineWidth',4); grid; hold on; plot(teta_1, 'r', 'LineWidth',4); title('Медиана Ходжеса-Лемана - 1 выборка',... 'FontName', 'Courier New Cyr', 'FontSize',16, 'FontWeight', 'Bold');  

 

Рис.7.2. Медиана Ходжеса-Лемана – 50 имитаций

 



Поделиться:


Последнее изменение этой страницы: 2020-12-19; просмотров: 128; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.224.39.32 (0.029 с.)