Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ

Лабораторная работа 7. Непараметрические методы

⇐ ПредыдущаяСтр 6 из 9Следующая ⇒

Непараметрическая статистика – это собрание статистических приемов, которые не используют предположение о том, что теоретическое распределение принадлежит к известному параметрическому семейству. Обычно делаются только самые общие предположения типа непрерывности и, возможно, симметричности.

Непараметрическая статистика включает два основных раздела:

методы, основанные на эмпирической функции распределения F_n *(x)
методы, основанные на замене самих измерений их рангами – ранговые методы.

Рангом числа в группе называют тот номер, который оно получает при упорядочении всей группы по возрастанию. Так, ранг 1 получает наименьшее из наблюдений, ранг 2 - наименьшее из оставшихся, и т. д. Ранг п достается самому большому из чисел .

Результаты наблюдений обычно предполагаются распределенными непрерывно, поэтому совпадения среди чисел теоретически имеют вероятность нуль. На практике величины x_i регистрируются с ограниченной точностью, поэтому совпадения возможны. Если среди чисел есть одинаковые, они получают общий ранг, обычно средний.

Имеется несколько серьёзных аргументов в пользу рассмотрения вместо самих величин x_i их рангов r_i. При замене численных значений x_i их рангами неизбежно происходит потеря информации. Тем не менее, прежде всего необходимо разобраться, что могут представлять собой величины , которые обычно трактуются как результаты некоторых измерений.

Шкалы измерений

В математическом смысле шкалой называют правило, по которому состояния системы характеризуются числами. Итак, шкала — это переход от физического (или другого) объекта к числу. В данном смысле шкалой будет любая календарная система - моменту времени приписывается определенная дата. Шкалу представляет собой и принятая в школе система оценок, выставляемых ученикам в зависимости отих успехов.

Упомянутые шкалы - длин, температур, времени, успехов — различаются не только по содержанию. Между ними есть и важные формальные различия.

Результатом измерения в любой шкале является число. С числами можно проводить арифметические и другие операции. Результаты некоторых операций имеют содержательный смысл и истолковываются в рамках данной шкалы. Допустим, чтомы измеряем длины предметов. Если х и у - длины отрезков а и b, то х + у - длина отрезка, полученного приставлением а к b, — разница длин отрезков, ху — площадь прямоугольника, образованного этими отрезками, и т. п. Однако х^у или, например, log(x)для нас не имеют содержательного толкования.

Если же х и у — две календарные даты, причем х > у, то х – у имеет смысл - это время, прошедшее от одного события до другого. Однако х + у, ху, х/у и т. п. содержательного смысла лишены.

Для показателей по шкале успехов еще меньше осмысленных соотношений: осмысленно их можно лишь сравнивать по величине, т. е. из соотношения отметок х < у для учеников а и b можно лишь заключить, что а учится хуже, чем b. Если же у - х = 1, то утверждение «успехи b на 1 выше, чем успехи а» не объясняет, каково различие между ними. Шкала успехов служит примером порядковой (ранговой) шкалы.

Выделяют еще номинальную шкалу, где числа служат всего лишь для различения отдельных возможностей, как бы для их названия. Никаких содержательных соотношений, кроме х = у и х у, между такими числами нет. Конечно, выбор чисел (т. е. номинальной шкалы) вместо реальных имен или других способов идентификации не обязателен, более того, может привести к недоразумениям.

Если x ₁,…, x_n – действительно числа, результаты измерений, то среди них могут содержаться грубые промахи, аномальные измерения. Даже одно такое аномальное значение может увести далеко в сторону большинство статистик – как оценок, так и статистик критериев (критериальных функций). В то же время, на ранговую структуру выборки оно окажет минимальное воздействие. Ранговые методы всегда ориентируются на основное ядро выборки и мало чувствительны к далеко выпадающим значениям.

Если - измерения в порядковой шкале, то сами их значения смысла не имеют, важен только их порядок, т.е. их ранговая структура. В номинальной шкале числовой смысл имеют только численности групп.

Ранговые методы.

Критерий Вилкоксона и медиана Ходжеса-Леман а

Пусть и - две независимые выборки. Неизвестные законы распределения случайных величин и обозначим через и соответственно. По данным наблюдениям хотим проверить гипотезу однородности H: .

Для проверки гипотезы однородности наиболее известен критерий Стьюдента, основанный на сравнении средних значений обеих выборок. Для того, чтобы получаемые на его основе выводы были справедливы, нужно, чтобы обе выборки имели близкое к гауссовому распределение с одной и той же дисперсией. Можно применять для проверки Н и критерий Смирнова, основанный на разности эмпирических функций распределения, построенных по каждой выборке отдельно. Критерий Смирнова - чисто непараметрический. Для того, чтобы он был применим, необходима лишь непрерывность истинных функций распределения F и G. Более того, вероятность того, что различие между F и G будет замечено, если оно вообще существует, растет и приближается к 1 при неограниченном увеличении объемов выборок т и п. К сожалению, скорость роста этой вероятности невелика, так что при умеренных значениях т и п мощность критерия Смирнова мала.

Мы хотим применить критерии, основанные на рангах. Для этого объединяем обе выборки в одну группу и ранжируем наблюдения. Достаточно знать ранги только игреков, поскольку ранги иксов можно по ним восстановить - это оставшиеся числа из последовательности 1, 2,..., m + n. Обозначим ранги игреков через . Статистика для проверки Н должна быть функцией этих чисел.

Легко понять, что при справедливости гипотезы Н в качестве рангов с равными вероятностями могут появляться любые п чисел из 1, 2,..., т + п. Это дает возможность рассчитать при выполнении H закон распределения любой статистики, основанной на рангах. Это обстоятельство — основная причина перехода к рангам, причина универсальности и простоты ранговых методов.

Остается выбрать подходящую функцию рангов, на которой основывать проверку H. Для этого, как всегда, надо подумать о конкурирующих гипотезах, т.е. о том, каким образом может нарушаться H. Рассмотрим наиболее удобную для ранговых методов возможность: нарушение равенства F= G в пользу F< G. Таким соотношение между F и G будет, в частности, в том случае, когда G является «сдвигом» F, т. е. при . Такие альтернативы реально возникают в некоторых задачах, например, при измерении какой-то величину, обладающей естественной изменчивостью, при различных управляющих воздействиях.

Пример. Сравниваются длительности плавки в мартеновской печи при работе по стандартной и усовершенствованной технологиям. Естественно считать, что где последовательность независимых одинаково распределенных случайных величин, θ - закономерное изменение (сокращение, если θ<0) длительности плавки. Конечно, величина θ не наблюдается. Наблюдаются выборки и (Если θ>0, альтернативой к H служит F> G).

Мы надеемся, что сокращение длительности плавки действительно происходит. Используем обычный логический прием - рассуждение от противного. Предположим, что θ=0, т. е. F = G. Если статистический материал заставит нас отвергнуть это предложение, придется признать, что θ в самом деле положительно. Надо, следовательно, проверить гипотезу H против альтернативы F< G.

Если G действительно превосходит F, т. е. если P (x_i < x) < P (y_i < x), то элементы выборки имеют тенденцию располагаться левее элементов выборки . Это значит, что ранги игреков имеют тенденцию располагаться в левой части последовательности

{1, 2,..., т + п }. Поэтому статистика в случае F< G склонна к меньшим значениям, нежели в случае F= G. Из этого следует статистическое правило: отвергать гипотезу F= G (в пользу F < G), если r₁ + … r_n слишком мала.

Это правило было предложено в 1945 году и послужило отправной точкой для всей обширной области ранговых процедур. По имени ее автора статистика W = r₁+…+ r_n называется статистикой Вилкоксона, а основанный на W критерий - критерием Вилкоксона.

Мы выяснили, каково должно быть поведение W при F< G . Поэтому мы отвергнем H, если W окажется меньше критического значения W_крит или равным ему. Это критическое значение выбираем так, чтобы при H была малой.

Если конкурентом однородности служит возможность F> G, признаком нарушения Н служит слишком большая величина W. Часто применяют двусторонний критерий Вилкоксона, по которому гипотеза Н отвергается, если наблюденное значение выходит за критические значения т. е. если не происходит событие Критические значения находят по таблицам из условия

Значение α подбирают так, чтобы была достаточно близка к 1.

Исследования показали, что мощность критерия Вилкоксона против рассмотренных здесь альтернатив намного превосходит мощность критерия Смирнова. Однако против многих других альтернатив критерий W бессилен, в то время как критерий Смирнова обнаруживает (при неограниченных объемах выборок) любое различие.

Легко увидеть, что в объединенной выборке сумма всех рангов равна

так что на каждое из (m + n) измерений приходится «средний ранг» (m + n+ 1)/2. Мы следим за положением Если гипотеза H верна, то они распределены в объединенной выборке приблизительно равномерно, так что на их сумму приходится в среднем величина

Дисперсия статистики W вычисляется несколько сложнее:

При достаточно больших m, n (больше 20) распределение W хорошо аппроксимируется нормальным законом:

при меньших m, n есть специальные таблицы.

Составить представление о возможностях W можно, рассмотрев какие-либо конкретные F и G. Пусть и — выборки из гауссовских распределений с общей дисперсией и различными средними а и b, причем a> b. Известно, что с определенной точки зрения критерий Стьюдента является наилучшим в этой ситуации. Поэтому именно с ним надо сравнивать критерий Вилкоксона. Оказывается, что при больших объемах выборок их возможности почти одинаковы: критерий Стьюдента лишь в π/3 раз чувствительнее критерия Вилкоксона. Конечно, при малых выборках преимущества критерия Стьюдента ощутимее.

Задачи

Сформировать две выборки из нормального закона (0,1) объёмом n 1=20, n 2=30. Сдвинуть вторую выборку вправо на величину teta=0.3.
Проверить гипотезу однородности с помощью критерия Уилкоксона, используя гауссову аппроксимацию центрального распределения.
Получить оценку параметра сдвига teta с помощью медианы Ходжеса-Лемана, сделать N=50 имитаций и усреднить их результаты

Пример выполнения работы

Лабораторная работа 7_1

clear; clc; clf; %Критерий Уилкоксона и медиана Ходжеса-Лемана teta=0.3; m=20; n=30; X=randn(1,m); X_ind=zeros(size(X)); Y=randn(1,n)+teta; Y_ind=ones(size(Y)); Z=[X Y; X_ind Y_ind]; [ZZ,R]=sort(Z(1,:)); Z_ind=Z(2,R); Iy=find(Z_ind); %ненулевые элементы - принадлежат Y W=sum(Iy); %статистика Уилкоксона MW=n*(m+n+1)/2; %центральное среднее DW=m*n*(m+n+1)/12; %центральная дисперсия W0=(W-MW)/sqrt(DW); %нормированное значение W disp('Нормированное значение W'); disp(W0); xx=linspace(-4,4,200); F=normpdf(xx); plot(xx,F, 'LineWidth',3); grid; hold on; plot([W0 W0],[0 normpdf(W0)], 'r', 'LineWidth',3); title(' Статистика Уилкоксона ', 'FontName', 'Courier New Cyr',... 'FontSize',14, 'FontWeight', 'Bold'); xlabel(' Статистика Уилкоксона ', 'FontName', 'Courier New Cyr',... 'FontSize',12, 'FontWeight', 'Bold'); ylabel(' Функция плотности N(0,1)', 'FontName', 'Courier New Cyr',... 'FontSize',12, 'FontWeight', 'Bold');

Рис.7.1. Статистика критерия Уилкоксона и её гауссова аппроксимация

Лабораторная работа 7_2

clear; clc; %Медиана Ходжеса-Лемана - 1 выборка teta=2; %параметр сдвига m=100; N=50; %число имитаций for k=1:N; Y=teta+randn(1,m); X=-Y; for i=1:m; R(i,:)=Y-X(i); end; Z=reshape(R,1,m*m); teta_1(k)=median(Z)/2; end; plot([1 N],[teta teta], 'LineWidth',4); grid; hold on; plot(teta_1, 'r', 'LineWidth',4); title('Медиана Ходжеса-Лемана - 1 выборка',... 'FontName', 'Courier New Cyr', 'FontSize',16, 'FontWeight', 'Bold');

Рис.7.2. Медиана Ходжеса-Лемана – 50 имитаций

⇐ Предыдущая 1 2 3 4 567 8 9 Следующая ⇒

Читайте также:

Алгоритмические операторы Matlab

Конструирование и порядок расчёта дорожной одежды

Исследования учёных: почему помогают молитвы?

Почему терпят неудачу многие предприниматели?

Последнее изменение этой страницы: 2020-12-19; просмотров: 128; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.224.39.32 (0.029 с.)