Критерий Вилкоксона-Манна-Уитни 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Критерий Вилкоксона-Манна-Уитни



Этот критерий предназначен для проверки однородности двух генеральных совокупностей, понимаемой в смысле отсутствия различий в значениях параметров местоположений (медиан, средних значений) соответствующих распределений.

Мы располагаем выборками, извлеченными из двух генеральных совокупностей (l=2). Пронумеруем эти выборки, так чтобы обеспечить выполнение неравенства n1 n2. Объединим выборки и по объединненой выборке объема n1+n2 построим общий вариационный ряд.

Критическая статистика описываемого критерия имеет вид:

(2) и носит название суммы рангов.

Следующее правило проверки гипотезы:

1) По заданному уровню значимости критерия a с помощью таблиц квантилей (процентных точек) стандартного нормального распределения определяем квантиль уровня 1-a/2 (или 100a/2% точку стандартного нормального распределения.

2) Вычисляем стандартизированное значение критической статистики g

,

где значение g вычислено по формуле.

3) Если окажется, что

|gст|>U1-a/2 или |ga/2|>U1-a/2 , то проверяемую гипотезу следует отвергнуть (и соответственно принять при всех других значения стандартизированной критической статистики .

В условиях справедливости проверяемой гипотезы статистика ведет себя как нормально распределенная случайная величина с параметрами:

a=1/2n1(n1+n2+1)

s2=1/12n1n2(n1+n2)

При этом сходимость к нормальному распределению очень быстрая: оно уже эффективно работает при n1>8.

Взвешивание выборочных данных х1,…,хn.

В общем случае наблюдению хi приписывается вес wi ³ 0, который определяется как некоторая функция от его текущего значения. Обычно wi подчиняют условию нормировки 1

Под w понимается вектор весов (w(x1)…w(xn)) в выражении для выборочных моментов и функция со значениями w(x) в выражении для теоретических моментов.

Если имеют дело с результатами наблюдения одномерной случайной величины х1…хn, то часто вес наблюдения хi определяют в зависимости от его порядкового номера в упорядоченном (по возрастанию) ряду наблюдений, то есть располагают наблюдения в вариационный ряд х12,…,хn и каждому члену вариационного ряда хi ставят в соответствие некоторый вес wi.

Цензурирование выборки.

Этот приём заключается в приписывании ряду «хвостовых» членов вариационного ряда нулевых весов, а остальным одинаковых положительных. Если приписывание нулевых весов производится по признаку выхода текущих значений наблюдений за пределы заданного диапазона [a;b], то есть:

то говорят о цензурировании первого типа. Очевидно, в случае число u оставшихся в рассмотрении наблюдений есть величина случайная (u < n).

Если же нулевые веса приписываются фиксированной доле a крайних малых значений и фиксированной доле b крайних больших значений, то говорят, что производится цензурирование второго типа уровня (a и b). В этом случае число u оставшихся в рассмотрении наблюдений является величиной, заранее заданной и равной, в частности n(1-a-b).

Исследователь может прибегнуть к цензурированию вынужденно или добровольно. Вынужденное цензурирование обусловлено соответствующими условиями эксперимента: например, мы ставим на разрушающие испытания n изделий, но можем проводить эксперимент в течение ограниченного времени Т. Очевидно, мы будем вынуждены произвести в данном случае одностороннее цензурирование первого типа, при котором из дальнейшего рассмотрения исключаются точные значения долговечностей (времени до разрушения) всех тех изделий, которые не разрушились за время Т. С другой стороны, в классе оценок, построенных по цензурированным выборкам, часто можно найти оценки, хотя и не являющиеся наилучшими в рамках генеральной совокупности определённого типа, но обладающие выгодными свойствами устойчивости своих хороших качеств по отношению к тем или иным отклонениям от априорных допущений.

Урезание распределения.

Это понятие связано с ситуациями, когда исследуемый признак x не может быть наблюдаем в какой-либо области его возможных значений. Так, например, если мы исследуем распределение семей по доходу, то по условиям выборочного обследования лишены возможности наблюдать семьи со средне нулевым доходом, меньше некоторого заданного уровня a (тыс. руб.), то в подобных случаях говорят, что распределение урезано слева в точке a. В отличие от цензурированных выборок в выборках из урезанных распределений мы не имеем возможности оценить даже доли наблюдений, располагающихся за пределами порога урезания.

 

 

Задания для самостоятельного решения.

 

1. Аудиторская фирма хочет проконтролировать состояние счетов одного из коммерческих банков. Для этого случайно отбираются 50 счетов. По 20 счетам из 50 отобранных имело место движение денежных средств в течении месяца. Постройте 99% доверительный интервал, оценивающий долю счетов в генеральной совокупности, по которым имело место движение денежных средств в течении месяца.

2. Туристическую фирму крупного курортного города интересует связь между числом отпускников, остановившихся в отелях и расходами на рекламу отелей. Взято случайное число отелей - 6, сходных по размеру. Была собрана следующая информация за текущий сезон:

Отель              
Реклама, ф.ст.            
Число гостей              

 

А). Требуется определить коэффициенты корреляции и детерминации.

Б). Построить модель парной линейной регрессии.

В). Полученное уравнение регрессии использовать для прогноза. В частности, пусть отель 7 тратит на рекламу 5000 ф.ст. Определить возможное количество посетителей.

3. Имеются данные о годовой мощности предприятий цементной промышленности в 1996 г.

Предприятия с годовой мощностью, тыс. т Количество предприятий
До 500  
500 - 1 000  
1 000 - 2 000  
2 000 - 3 000  
Свыше 3 000  

 

А) Постройте гистограмму, кумуляту.

Б) Рассчитайте среднюю мощность предприятий.

В) Найдите дисперсию, среднее квадратическое отклонение, коэффициент вариации.

Объясните полученные результаты, сделайте выводы.

 

4. Менеджер компании, занимающейся прокатом автомобилей, хочет оценить среднюю величину пробега одного автомобиля в течение месяца. Из 280 автомобилей, принадлежащих компании, методом случайной бесповторной выборки отобрано 30. По данным этой выборки установлено, что средний пробег автомобиля в течение месяца составляет 1 342 км со стандартным отклонением 227 км. Считая пробег автомобиля случайной величиной, распределенной по нормальному закону, найдите 95%-й доверительный интервал, оценивающий средний пробег автомобилей всего парка в течение месяца.

 

5. С помощью собственно-случайного повторного отбора руководство фирмы провело выборочное обследование 900 своих служащих. Средний стаж их работы в фирме равен 8,70 года, а среднее квадратическое (стандартное) отклонение — 2,70 года. Среди обследованных оказалось 270 женщин. Считая стаж работы служащих фирмы распределенным по нормальному закону, определите: а) с вероятностью 0,95 доверительный интервал, в котором окажется средний стаж работы всех служащих фирмы; б) с вероятностью 0,90 доверительный интервал, накрывающий неизвестную долю женщин во всем коллективе фирмы.

 

6. Владелец автостоянки опасается обмана со стороны своих служащих (охраны автостоянки). В течение года (365 дней) владельцем авто стоянки проведено 40 проверок. По данным проверок среднее число автомобилей, оставляемых на ночь на охрану, составило 400 единиц, а среднее квадратическое (стандартное) отклонение их числа — 10 автомобилей. Считая отбор собственно-случайным, с вероятностью 0,99 оцените с помощью доверительного интервала истинное среднее число автомобилей, оставляемых на ночь на охрану. Обоснованы ли опасения владельца автостоянки, если по отчетности охранников среднее число автомобилей, оставляемых на ночь на охрану, составляет 395 автомобилей?

 

7. По данным таблицы исследуйте зависимость между доходами семей Х (тыс. руб) и их расходами на потребление у.

х 1,51 1,32 1,28 1,0 0,92 0,73 0,71 0,69 0,67 0,65
у 0,98 0,81 0,78 0,65 0,58 0,45 0,45 0,43 0,42 0,41

 

1. Определите коэффициенты корреляции и детерминации. Объясните полученные результаты.

2. Постройте уравнение регрессии.

3. Постройте интервальные оценки параметров уравнения регрессии.

8. Вычислите коэффициент ассоциации для следующих данных:

Степень активности работы в профсоюзе Уровень заработной платы Итого
высокий низкий
Высокая      
Низкая      
Итого      

 

9. Рассчитайте значение коэффициента λ-Гутмана:

Признак Х Признак У Итого
У1 У2 У3
Х1        
Х2        
Х3        
Итого        

 

10. Постройте систему рангов для следующих признаков:

Фамилия Краморов Алтухов Корям Тишин Байрук Демидов
Средний балл            

 

Тестовые задания

1. Пространственные данные характеризуются:

- большим количеством единиц наблюдения, сведения о которых относятся к одному интервалу времени;

- большим количеством единиц наблюдения, сведения о которых относятся к одному моменту времени;

- одной единицей наблюдения, сведения о которой относятся к различным интервалам времени.

 

2. По характеру вариации признаки могут быть:

- моментными;

-непрерывными;

- альтернативными;

- дискретными;

- интервальными.

3. Качественные признаки могут быть измерены с помощью:

- порядковой шкалы;

- номинальной шкалы;

-шкалы интервалов;

- шкалы отношений.

(несколько вариантов ответа)

 

4. Какое значение примет коэффициент ассоциации Юла, если хотя бы одна клетка таблицы сопряженности 2х2 равна 0:

- 1;

- 0;

-[0;1].

 

5. Чем меньше предельная ошибка простой случайной выборки, тем ее численность:

- больше;

- меньше;

- приведенный параметр не оказывает влияния на объем выборки.

 

6. Панельные данные характеризуются:

- большим количеством единиц наблюдения, сведения о которых относятся к одному интервалу времени;

- большим количеством единиц наблюдения, сведения о которых относятся к одному моменту времени;

- одной единицей наблюдения, сведения о которой относятся к различным интервалам времени.

 

7. По отношению ко времени признаки бывают:

- моментными;

-непрерывными;

- периодическими;

- дискретными;

- интервальными.

(несколько вариантов ответа)

 

8. Способ основного массива относится к наблюдению:

- сплошному;

-несплошному;

- монографическому.

 

9. Какой из типов шкал предполагает возможность упорядочения объектов по степени выраженности рассматриваемых свойств:

- порядковая шкала;

-шкала интервалов;

- шкала отношений.

 

10. Значение коэффициента контингенции лежат в интервале:

- -1;1

- 0; 1

- -1;0

 

11. При каком виде наблюдения подробно описываются отдельные единицы совокупности с целью их углубленного изучения:

- способе основного массива;

- выборочном;

- монографическом.

 

12. Для использования меры связей λ- Гутмана необходимо, чтобы среди рассматриваемых переменных была хотя бы одна:

-номинальная;

- порядковая;

- номинальная и недихотомическая

 

13. Если при построении таблицы статистическая совокупность разделяется на отдельные группы по какому-либо одному признаку, то таблица будет:

- простая;

- групповая;

- комбинационная.

 

14. При совпадающих ранжировках коэффициент ранговой корреляции Спирмена равен:

-1;

-0;

- -1.

 

15. Если при построении таблицы статистическая совокупность разделяется на отдельные группы одновременно по нескольким признакам, то таблица будет:

- простая;

- групповая;

- комбинационная.

 

16. Программа статистического наблюдения включает:

- объект наблюдения, территорию проведения наблюдения, критическую дату, признаки, подлежащие регистрации;

- признаки, подлежащие регистрации;

- объект наблюдения и территорию проведения наблюдения.

 

17. По отношению к характеризуемому объекту признаки могут быть:

-описательные;

- первичные;

-прямые;

-количественные;

- косвенные.

(Несколько вариантов ответа)

 

18.Какой из способов сбора данных может быть описан следующим образом: статистические или другие органы рассылают специально разработанные бланки и инструкции по их заполнению отдельным организациям или специально отобранным лицам, давшим согласие периодически их заполнять и присылать соответствующему органу в установленные сроки.

- экспедиционный;

-корреспондентский;

-саморегистрация.

 

19. Из перечисленных ниже коэффициентов для четырехпольной таблицы сопряженности могут использоваться:

- коэффициент конкордации;

- коэффициент контингенции;

- коэффициент ранговой корреляции Спирмена;

- коэффициент ассоциации;

- показатель λ-Гутмана.

(Несколько вариантов ответа)

 

20. Если значение коэффициента ранговой корреляции Спирмена составляет 0,98, то можно сделать вывод, что:

- ранжировки имеют совпадающие упорядочения сильной степени согласованности;

- ранжировки имеют противоположные упорядочения сильной степени согласованности;

- ранжировки имеют совпадающие упорядочения средней степени согласованности;

- ранжировки не являются согласованными.

 

21. Какая из шкал предполагает наличие единицы отсчета и масштаба:

- порядковая шкала;

-шкала интервалов;

- шкала отношений.

 

22. Если величина υ в коэффициенте ранговой корреляции Кэндалла равна 0, то его значение будет:

-1;

-0;

- -1.

 

23. Если при проведении группировки проводится одновременная классификация по комплексу признаков, то группировка:

- комбинационная;

- многомерная;

- типологическая.

 

24. К какой мере информации относится энтропия:

- семантическая;

-синтаксическая;

- прагматическая.

 

25. Для определения характеристики структуры исследуемой совокупности проводится группировка:

- комбинационная;

- многомерная;

- типологическая.

 


Глоссарий.

А
Анализ природы данных - совокупность критериев, позволяющих проверить предположения о свойствах рассматриваемой исходной информации.
Аналитическая группировка - характеризует взаимосвязь между двумя и более признаками, из которых один рассматривается как результат, другой- как фактор.
В
Вариация -различие между индивидуальными явлениями; основными показателям вариации являются: амплитуда вариации, среднее линейное отклонение, среднее квадратическое отклонение; среднее квартильное расстояние и т.д.
Вариационный ряд - упорядоченное распределение единиц совокупности по возрастающим или убывающим значениям признака и подсчет числа единиц с тем или иным значениям признака.
Выборка (выборочная совокупность) - часть генеральной совокупности специальным образом отобранная.
Время наблюдения - то время, к которому относятся собираемые данные.
Г
Генеральная совокупность - совокупность всех возможных значений признака.
Гипотеза -предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на данные выборки.
Графики статистические - условные изображения числовых величин и их соотношений посредством линий, геометрических фигур, рисунков или географических карт-схем.
Гистограмма - интервальный ряд, изображенный с помощью столбиковой диаграммы, в которой основания столбиков, расположенные на оси абсцисс – это интервалы значений, а высота столбиков – частоты, соответствующие по масштабу по оси ординат.
Группировка - это распределение единиц совокупности по группам в соответствии со следующим принципом: различия между единицами, отнесенными к одной группе, должны быть меньше, чем между единицами, отнесенными к разным группам. Группировки могут быть: аналитическими, комбинационными, многомерными, многофакторными, моно- и политетическими, структурными и типологическими.
Д
Данные - это зафиксированная на каком-либо носителе информация
Дендрограмма - дерево объединений кластеров с порядковыми номерами объектов по горизонтальной оси и шкалой расстояний по вертикальной оси.
Динамический (временной) ряд - это таблица, в которой представлены значения показателя за последовательные периоды или на моменты времени.
Дисперсия -квадрат среднеквадратического отклонения.
Дисперсионный анализ - метод, позволяющий оценить существенность различий между средними значениями результативного признака в группах данных.
Дихотомические переменные - переменные, которые принимают два значения.
Доверительный интервал - пара чисел, концов интервала, который с определенной вероятностью накрывает параметр генеральной совокупности.
Документальный способ наблюдения - основан на использовании в качестве источника статистических сведений различных документов первичного учета предприятий, учреждений и организаций.
Достоверность данных - соответствие информационного образа объекта реальности.
Е
ЕГРПО - единый государственный регистр предприятий и организаций.
Единица наблюдения - это то явление, признаки которого подлежат регистрации.
Единица совокупности - это предел дробления объекта исследования, при котором сохраняются все свойства изучаемого процесса.
З
Закон больших чисел -чем больше объем однородной совокупности, тем полнее взаимопогашение случайных (по отношению к совокупности в целом и ее законам) элементов признака х; тем полнее и надежнее, с большей вероятностью среднее значение признака измеряет действие общих для совокупности закономерностей.
И
Информация - совокупность сведений, используемых при принятии решений.
Источник данных - непосредственное наблюдение, документы, опрос.
К
квантиль порядка р - такое значение случайной величины, ниже которой лежит р -я часть наблюдений (распределения).
Квотный отбор - способ, при котором выборка конструируется из единиц определенных категорий (квот), которые должны быть представлены в заданных пропорциях.
Кластер - совокупность однородных явлений.
Кластерный анализ - совокупность методов, позволяющих провести группировку (классификацию) единиц исходной совокупности.
Колебания маятниковые - попеременные отклонения уровней ряда от тренда в одну и в другую сторону.
Колеблемость - отклонения уровней динамического ряда от тренда.
Контроль данных счетный - основан на жесткой связи между признаками, которя может быть проверена арифметическими действиями
Контроль данных логический - основан на логической взаимосвязи между признаками.
Корреляционный анализ - совокупность методов анализа параметров многомерного признака, позволяющая по выборке из генеральной совокупности сделать статистические выводы о мерах статистической зависимости между компонентами исследуемого признака.
Корреляция ранговая - мера тесноты парной связи между порядковыми переменными, может рассчитываться на основе формул предложенных Кендаллом и Спирменом.
Коэффициент конкордации - характеристика связи между несколькими признаками, измеренными по порядковой шкале.
Коэффициент ассоциации - мера связи между дихотомическими переменными, основанный на сравнении вероятности появления взаимно совместимых и взаимно несовместимых пар значений.
Кумулята - график, при построении которого по оси абсцисс откладываются значения признака, а по оси ординат накопленные частоты значений признака
Критерий Аббе - критерий квадратов последовательных разностей, позволяющий осуществить проверку стохастической независимости элементов выборки
Критерий Викоксона-Манна-Уитни - ранговый критерий, применяемый для проверки однородности двух выборок независимых случайных величин распределения которых неизвестны.
Критерий Колмогорова-Смирнова - позволяет осуществить проверку гипотезы о согласии эмпирического распределения и выбранной модели
Критерий серий - ранговый критерий, позволяющий осуществить проверку стохастической независимости элементов выборки.
Критерий статистический -определенное правило, устанавливающее условия, при которых проверяемую основную гипотезу следует либо отклонить, либо не отклонить.
Критическая дата учета - дата по состоянию на которое собирается информация.
Критический момент наблюдения - время по состоянию на которое собирается информация.
М
Медиана - такое значение элемента, которое позволяет разделить вариационный рад на две половины, одна из которых больше медианного значения, а вторая меньше.
Мера связи λ- Гутмана - мера связи между номинальными переменными, определяется по таблицам, где хотя бы одна переменная номинальная и переменные недихотомические.
Механическая выборка - заключается в отборе единиц из генеральной совокупности через равные промежутки из определенного расположения их в генеральной совокупности.
Мода - наиболее часто встречающееся значение признака.
Моменты распределения - числовые характеристики генеральной совокупности или их оценки. К начальным моментам первого порядка распределения относятся: выборочное среднее, выборочное математическое ожидание, мода, медиана; к центральным моментам второго порядка относится дисперсия.
Н
Наблюдение  
моментное - регистрация вида затрат времени в определенные, заранее выбранные моменты.
непосредственное - осуществляется путем регистрации изучаемых единиц и их признаков на основе непосредственного осмотра, подсчета, взвешивания и т.д.
статистическое -научно организованный сбор данных
сплошное - наблюдение, при котором регистрации подлежат все без исключения единицы совокупности.
периодическое - информация регистрируется через определенные (обычно одинаковые) промежутки времени.
О
Объект наблюдения - совокупность единиц наблюдения.
Опознавательные признаки - свойства, позволяющие идентифицировать единицу совокупности, к которой относятся регистрируемые данные.
Опрос - статистическое наблюдение, при котором источником данных являются сведения, которые дают опрашиваемые лица.
Ошибка репрезентативности - это разница между значением показателя, полученным по выборке, и генеральным параметром
Ошибка случайная - такая ошибка, значение которой измеряется по вероятностным законам
П
Показатель -это обобщающая характеристика какого-то свойства совокупности, группы.
Признаки - свойства единиц совокупности.
Программа наблюдения - включает признаки, подлежащие регистрации, по каждой единице наблюдения.
Процентиль хq% - такое значение случайной величины, выше которого лежит q%распределения.
Р
Районированная выборка - такой отбор, при котором в выборочную совокупность единицы наблюдения отбираются в рамках сложившихся территориальных или организационных единств.
Ранг - порядковый номер единицы совокупности в ранжированном ряду
Репрезентативность выборки - полнота и адекватность представления свойств генеральной совокупности в выборке.
С
Серийная выборка - такой отбор при котором в выборку попадают не единицы наблюдения, а их совокупности.
Совокупность - множество однокачественных варьирующихся явлений.
Средняя величина - такое значение признака в расчете на единицу совокупности, при вычислении которого общий объем признака в совокупности сохраняется неизменным.
Стратифицированная выборка - при таком отборе неоднородная генеральная совокупность подразделяется на более однородные в отношении изучаемых признаков группы, по каждой из которых затем определяется число единиц подлежащих наблюдению.
Структура - это строение, форма организации системы, состоящей из отдельных элементов и связей между ними.
Т
Таблица -система строк и столбцов, в которых в определенной последовательности и связи излагается статистическая информация.
Таблица сопряженности - таблицы с двух-, трех- или многосторонней классификацией для представления распределений случайных величин, измеренных в номинальных и порядковых шкалах
У
Устойчивость статистических закономерностей -стабильность, повторяемость при повторных наблюдениях
Уровень значимости критерия - вероятность отвергнуть основную гипотезу, подсчитанная в предположении, что она верна.
Ц
Ценз - значение признака, которое ограничивает объект наблюдения.
Цензурирование выборки - приписывание ряду «хвостовых» элементов вариационного ряда нулевых весов, а остальным одинаковых положительных.
Ч
Частота - число наблюдений, принимающих то или иное значение признака.
Частость - относительное выражение частоты.
Ш
Шкала - ось теоретического пространства, которая является носителем значений обобщенного признака (фактора).
интервальная - позволяет упорядочить объекты и рассчитать величину отличия одной степени проявления признака от другой.
номинальная - градация признака х для данного объекта.
ординальная (порядковая) -позволяет упорядочить объекты по степени выраженности того или иного свойства
отношений - позволяет сопоставлять переменные, для ее задания необходимо указать абсолютный ноль.
Э
Эксперимент -активный метод статистического наблюдения, при котором исследователь имеет возможность влияния на наблюдаемый процесс.
Элементы таблицы - подлежащее: указывает на характеризуемый объект; сказуемое – характеристика подлежащего обычно в количественной форме.
Энтропия - мера неопределенности системы.

 



Поделиться:


Последнее изменение этой страницы: 2016-12-16; просмотров: 474; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.220.154.41 (0.093 с.)