Основные задачи и методы математической статистики 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основные задачи и методы математической статистики



 

Для установления закономерностей, которым подчинены случайные события и случайные величины, теория вероятности, как и любая другая наука, обращается к опыту – наблюдениям, измерениям, экспериментам. Результаты наблюдений за случайными величинами объединяются в наборы статистических данных. Задачей математической статистики, раздела современной теории вероятностей, является разработка методов сбора и обработки статистических данных, а также их анализа с целью установления законов распределения наблюдаемых случайных величин [2].

Выборочный метод

Генеральной совокупностью является набор всех мыслимых статистических данных, при наблюдениях случайной величины:

.

Наблюдаемая случайная величина Х называется признаком или фактором выборки. Генеральная совокупность есть статистический аналог случайной величины, её объем N обычно велик, поэтому из неё выбирается часть данных, называемая выборочной совокупностью или просто выборкой

, .

Использование выборки для построения закономерностей, которым подчинена наблюдаемая случайная величина, позволяет избежать её сплошного (массового) наблюдения, что часто бывает ресурсоёмким процессом, а то и просто невозможным. Однако выборка должна удовлетворять следующим основным требованиям:

   - выборка должна быть представительной, т.е. сохранять в себе пропорции генеральной совокупности,

  - объём выборки должен быть небольшим, но достаточным для того, чтобы полученные результаты её анализа обладали необходимой степенью надёжности,

  - данные в выборке не должны бать «засорены» грубыми измерениями, содержащими нетипично большие ошибки измерений.

Отметим, что в более строгом смысле выборку можно представить как случайную многомерную величину , у которой все компоненты  распределены одинаково и по закону распределения наблюдаемой случайной величины. В этом смысле выборочные значения  есть одна из реализаций величины .

Возможные значения элементов выборки , называются вариантами  выборки, причём число вариант m меньше, чем объём выборки . Варианта может повторяться в выборке несколько раз, число повторения варианты  в выборке называется частотой варианты . Причём, . Величина  называется относительной частотой варианты .

    Упорядоченный по возрастанию значений набор вариант совместно с соответствующими им частотами называется вариационно-частотным рядом выборки:

; .

Ломаная линия, соединяющая точки вариационно-частотного ряда на плоскости   или   называется полигоном частот.

Вариационно-частотный ряд имеет существенный недостаток, а именно, ненаглядность полигона в случае малой повторяемости вариант, например, при наблюдении непрерывного признака его повторяемость в выборке маловероятна. Более общей  формой  описания  элементов выборки является гистограмма выборки.

    Для   построения гистограммы  разобьём интервал значений выборки     на m интервалов  длины    с границами  .   Число элементов выборки , попадающих в интервал, называется частотой  интервала, кроме того вводятся следующие величины:  

   ~ относительная частота интервала,

j ~ плотность относительной частоты интервала.

    Совокупность интервалов, наблюдаемой в выборке случайной величины и соответствующих им частот,  называется гистограммой выборки. Различаются гистограммы частот, относительных частот и плотности частоты и обозначаются соответственно:

, , .

Для частот гистограммы выполнены следующие условия нормировки:

, ,

Число интервалов гистограммы m должно быть оптимальным, чтобы,  с одной стороны, была достаточной повторяемость интервалов, а с другой стороны не должны сглаживаться особенности выборочной статистики. Рекомендуется значение . На плоскости   гистограмма представляется ступенчатой фигурой.

 

 

Помимо полигона и гистограммы выборка характеризуется следующими основными числовыми характеристиками:

                ~ выборочное среднее;

     ~ выборочная дисперсия;

                  ~ выборочное среднеквадратическое отклонение;

~ исправленная выборочная дисперсия;

                ~ исправленное выборочное среднеквадратическое 

                                         отклонение (выборочный стандарт).

Пусть, например, дана выборка полуденных температур месяца Май своим вариационно-частотным рядом  с объёмом .

 

хj 0 2  3  7  8 12 14 16 19 23 25 27 30
nj 2 1 1 2 3 4 2 3 6 2 1 3 1

 

Полигон и гистограмма данной выборки приводятся ниже на рис.2.1.

 

Рис. 2.1. Полигон и гистограмма частот выборки

 

Расчёт основных выборочных характеристик может быть легко проведен с помощью статистических функций приложения Excel-13:

 

; ; ;

;

.

Отметим, что все числовые характеристики выборки являются случайными величинами, поскольку получены по случайно взятой выборке. На элементах другой выборки наблюдений над той же случайной величиной  числовые характеристики в общем случае изменят свое значение.

 

Рассмотрим выборочные распределения нормальных выборок. Если наблюдаемая случайная величина  является нормальной, т.е , где - математическое ожидание,  - среднеквадратическое отклонение, то случайная величина среднего выборочного так же является нормальной . Здесь  нормальные случайные величины, совпадающие с наблюдаемой величиной. Рассмотрим стандартные нормальные величины  в виде:

,

и построим из них случайные величины Пирсона  и Стьюдента  [4,8]:

,

.

Отсюда видно, что случайная величина выборочной дисперсии DВ распределена пропорционально «Хи-квадрат» случайной величине с n-1 степенью свободы, а отклонение выборочного среднего от математического ожидания распределено пропорционально t -величине Стьюдента с n-1 степенью свободы.  При сравнении двух выборок объёмов n 1 и n2 часто используется случайная величина Фишера [8] со степенями свободы n1 и n2:

.

Распределения этих величин, как функций от стандартных нормальных величин, хорошо изучены и построены их функции распределения, обратного распределения и плотности вероятности распределения. Ниже рис. 2.2.-2.4 представлены графики и функции Excel для их вычисления.

 

,

,

,

 

Рис. 2.2. Функции распределения величины Пирсона

 

,

,

,

 

 

Рис. 2.3. Функции распределения величины Стьюдента

 

 

 

,

,

,

 

 

Рис. 2.4. Функции распределения величины Фишера

 

Статистические оценки

Пусть распределение наблюдаемой случайной непрерывной величины  (признак генеральной совокупности) задаётся функцией плотности вероятности , где  параметр или параметры распределения. Допустим, что вид функции  известен или ограничен некоторым классом функций, а параметр  неизвестен и должен быть оценён по выборке ,  где n – объём выборки.

    Точечной статистической оценкой параметров распределения или характеристик наблюдаемой случайной величины  называется   построенная по данным выборки объема n величина:

.

Например, статистическими оценками математического ожидания величины могут быть такие оценки: ,  или .

    Оценка  является случайной величиной, т.к. зависит от случайной выборки. Для того, чтобы оценки, получаемые по данным различных выборок соответствовали истинному значению параметра , оценка должна удовлетворять следующим требованиям [8].

    Оценка должна быть несмещенной,  т.е. её математическое ожидание должно совпадать с истинным значением параметра для любого объёма n

или  хотя бы асимптотически несмещённой: .

    Оценка должна быть состоятельной,  т.е. с ростом объёма выборки оценка должна сходиться по вероятности к истинному значению параметра:

для любого .

Для состоятельности оценки достаточно выполнения следующего:

.

Построенная оценка для использования  на практике должна быть эффективной, т.е.  её  дисперсия  должна  быть   минимальной  среди   всех возможных оценок при фиксированном объёме выборки:

.

 Коэффициент эффективности оценки   показывает степень эффективности оценки , если , то говорят об асимптотической эффективности оценки.

    Отметим, что на практике не всегда удаётся удовлетворить всем перечисленным требованиям к оценке, но введённые свойства оценок позволяют  проранжировать  имеющиеся оценки по их качеству.

     Как пример рассмотрим оценки математического ожидания   и дисперсии  наблюдаемой случайной величины   Х.

Построим точечные оценки:

,    

и рассмотрим их свойства.

Поскольку можно вычислить, что для оценки   m* справедливо:

;           при ,

то из этого следует несмещённость  и состоятельность оценки m*.

Рассматривая же оценку ,можно получить что:

 ; .

Из чего следует состоятельность, но   смещённость оценки     Смещёность оценки здесь легко может быть исправлена, если рассмотрим оценку:

.

Оценка   является уже не только состоятельной, но и несмещённой, так как . Величина    называется исправленной (несмещённой) выборочной дисперсией, а величина  - исправленным среднеквадратическим выборочным отклонением (выборочный стандарт).

    В отличие от точечных оценок типа   интервальные оценки задают интервал значений, где оцениваемый параметр находится с заданной вероятностью, т.е. это оценки типа .

    Надёжностью оценки (доверительной вероятностью) называется вероятность ,с которой оцениваемый параметр находится в интервале:

 .

Полуширина доверительного интервала   называется точностью оценки, соответствующей надёжности . Для построения доверительного интервала (нахождения по  величины )  необходимо знать закон распределения оценки случайной величины .

    Пусть в выборке  наблюдается нормальная случайная величина  c неизвестными параметрами распределения m   и .

Построим доверительный интервал для математического ожидания m:

,

принимая за точечную оценку m, величину     иучитывая, что величина       имеет распределение Стьюдента с  степенью свободы.

Решение уравнения  относительно  при заданном значении   эквивалентно решению уравнения:

,   или .

Его решение получим в виде , где   двухсторонняя квантиль Стьюдента (рис. 2.5).

Рис. 2.5. Двухсторонняя квантиль Стьюдента

 

Построим теперь доверительный интервал для среднеквадратического отклонения :

.

Принимая за оценку   величину  и учитывая, что величина  ,  имеет -распределение с n - 1 степенью свободы. Решение уравнения  относительно    при заданном параметре   эквивалентно решению уравнения:

,

тогда получим его решение в виде , где величины  являются правосторонними «хи-квадрат» квантилями (рис. 2.6).

Рис. 2.6. Двухсторонняя «хи-квадрат» квантиль

 

    Пример. Наблюдается выборка полуденных температур в Мае объёмом n =31 со средним выборочным значением   и несмещённой дисперсией .  Построить доверительные интервалы для неизвестного математического ожидания m и среднеквадратического отклонения  при надёжности .

    Исправленное выборочное среднеквадратическое отклонение .

Через обратное распределение Стьюдента находим ,тогда  и тогда доверительный интервал для математического ожидания m будет:

       14.87+2.894  < m <14.87+2.894 или 11.976< m <17.674.

Для построения доверительного интервала среднеквадратического отклонения через обратное распределение «Хи-квадрат» находим ,  тогда:

.

2.3. Проверка статистических гипотез

 

Имея дело со случайными величинами, в различных областях человеческой деятельности часто приходится высказывать предположения о виде распределения случайной величины или о значениях её параметров. Эти предположения строятся с целью прогнозирования поведения случайной величины и принятия решений в условиях неопределённости.

    Статистической гипотезой называется любое предположение о виде распределения случайной величины  или/и о значении неизвестных параметров распределения :

   – статистическая гипотеза.

    Высказанная статистическая гипотеза должна быть проверена по результатам наблюдений (измерений) случайной величины [11], в результате чего, гипотеза принимается или отвергается с определённой степенью риска совершить ошибку. Примером статистической гипотезы может быть предположение о том, что наблюдаемая в выборке случайная величина является нормальной с определёнными значениями параметров:

.

Выдвинутая статистическая гипотеза Н должна быть проверена. Как и в любой другой науке, критерием её проверки является опыт, т.е. наблюдение (измерение) случайной величины. Критерий проверки должен отвергать или принимать гипотезу по результатам наблюдения. При этом могут быть совершены ошибки двух родов [6]:

    1. Отвергнута верная гипотеза с вероятностью ,

    2. Принята не верная гипотеза с вероятностью .

Исключить эти ошибки полностью невозможно («не ошибается тот, кто ничего не делает»), но их можно постараться минимизировать. Учитывая сказанное, при построении критерия проверки статистической гипотезы необходимо сначала задаться допустимым уровнем риска на совершение ошибки 1 рода, как наиболее значимой, а затем минимизировать ошибки 2 рода.

Пусть необходимо проверить   гипотезу , помимо основной гипотезы   («нулевой») рассмотрим ещё одну или несколько альтернативных гипотез  каждая из которых противоречит основной.  Построим критерий, однозначно принимающий или отвергающий проверяемую гипотезу по полученной в наблюдении за случайной величиной  выборке  объёма n. Критерий проверки  гипотезы состоит из двух составляющих:

Во-первых, в качестве критерия принимается некоторая случайная величина  с известным распределением при условии справедливости основной  и хотя бы частично известным для альтернативных гипотез   j = 1 ,.. m.  Кроме того, значения критерия  должны быть вычисляемы по наблюдаемой выборке , т.е. .

Во-вторых, строится решающее правило для критерия проверки, согласно которому гипотеза будет приниматься или отвергаться. Для этого, назовем критической областью критерия те значения величины  при которых гипотеза отвергается. Критическую  область будем обозначать . Тогда решающее правило критерия проверки будет следующим:

  отвергается    (по наблюдаемой выборке),

  принимается   (нет оснований отвергать гипотезу).

Точки значения критерия  где критическая область критерия проверки  отделяется от области принятия гипотезы, называются критическими точками критерия . Как построить критическую область критерия?

Принцип максимального правдоподобия утверждает, что наблюдаемые события имеют большую вероятность и наоборот, маловероятные события ненаблюдаемые. Согласно этому принципу наблюдаемое значение критерия  должно иметь в рамках проверяемой гипотезы большую вероятность. В противном случае, если вероятность наблюдаемой величины мала, проверяемую гипотезу нужно отвергать в пользу иных альтернативных гипотез.

    Зададимся вероятностью   ошибки 1-го рода, как наиболее значимой. Исключить такую ошибку при проверке гипотезы невозможно (),  на практике обычно эту вероятность задают достаточно малой величиной ; ;  и называют уровнем значимости  гипотезы.

Если из условия

,

можно определить критические точки  однозначно, то задача построения критической области критерия решена. В противном случае, когда ещё остаётся свобода выбора критических точек, рассмотрим влияние альтернативных гипотез.  Поскольку  величина  - есть вероятностьпринять неверную гипотезу   при условии справедливости альтернативной гипотезы , то

есть вероятность правильного отбрасывания   при условии справедливости   и её называют мощностью критерия по отношению к альтернативной гипотезе . Поэтому при заданном уровне значимости , критическую область критерия нужно строить так, чтобы мощность критерия была максимальной  по отношению ко всем альтернативным гипотезам.

    Таким образом, критическими точками критерия являются квантили его распределения, определенные согласно уровню значимости проверяемой гипотезы.

Рис. 2.7. Двухсторонняя критическая область критерия

при наличии двух альтернативных гипотез

 

На рис. 2.7 приведена графическая интерпретация алгоритма построения критической области одномерного критерия. Видим, что структура критической области зависит от наличия альтернативных гипотез и их «расположения» относительно основной.

    Рассмотрим примеры.

    Критерий Смирнова-Граббса. Рассмотрим  проблему отсева грубых ошибок при измерении нормальной случайной величины. Пусть мы имеем нормальную выборку наблюдений объёмом n, а проверяемой гипотезой является гипотеза о не грубой ошибке при измерении элемента  этой выборки.  Тогда , . Критерием для проверки гипотезы является величина Стьюдента

.

Вычисляя значение  и критическую точку при заданном уровне значимости  проверяемой гипотезы  можно судить о грубости данного измерения. Обычно на грубость измерения проверяются крайние точки наблюдений (максимальная и минимальная). Проверим на грубость измеренную максимальную температуру в рассмотренной выше выборке майских температурных измерений.

, ,

Видим, что при значимости проверяемой гипотезы в 10% критерий отклоняет её в пользу гипотезы  о грубости этого измерения. Таким образом, это измерение грубое и его лучше убрать из выборки. Вывод критерия зависит от точности измерения (её объёма n) и значимости гипотезы, то есть риска ошибиться при отклонении верной гипотезы. Так, если уровень значимости гипотезы повысить до 5%, то , то измерение уже не является грубым.

    Критерий Стьюдента о значимости измеренной величины. В статистическом анализе очень часто используются критерии о значимости оценок  различных величин, построенных по выборке. Проверяемой гипотезой является гипотеза о том, что истинная теоретическая величина  равна нулю , а в наблюдениях ее выборочный аналог отличен от нуля. Действительно ли наблюдаемое значение не нулевое (значимое), или это произошло случайно на рассматриваемой выборке? Для ответа на этот вопрос очень часто в дальнейшем мы будем использовать критерий Стьюдента  рис. 2.8 в виде:

 

 

,

 

Рис. 2.8. Критерий Стьюдента проверки значимости величины

 

Здесь   статистическая оценка и её несмещённая ошибка,  количество степеней свободы выборки, потерянных при построении оценки. Для удобства часто вводится понятие жёесткости критерия

.

Значимость проверяемой оценки имеет место быть при жёсткости , когда проверяемая гипотеза о нулевом значении теоретической величины отвергается.

     Например, в качестве проверяемой величины часто используется выборочный коэффициент корреляции между двумя выборками одинакового объёма.

,  

Критерием является следующая величина Стьюдента:

.
3. Многомерные статистические данные

    Измерительные данные, с которыми работает инженер-исследователь или аналитик в процессах проектирования, производства, эксплуатации и мониторинга различных технических, экологических, социально-экономических систем редко бывают одномерными.  Обычно при исследовании объекта или множества объектов измеряется несколько параметров объекта. Таким образом формируется многомерный статистический набор данных. При строительстве и эксплуатации зданий и сооружений могут быть измерены и запротоколированы множество различных параметров (рис. 3.1).

Рис. 3.1. Факторы влияния на здание

 

Измеряемые величины в большинстве случаев являются случайными как по своей природе, так и за счёт ошибок измерения 

,

где  - истинное или среднее значение величины, - флуктуация измеряемой величины,  - ошибка измерительного прибора и измеряющего субъекта. Виды измерений разнообразны и классифицируются по множеству признаков (рис. 3.2).

Рис. 3.2.Виды измерений

 

Приведём несколько примеров наборов статистических данных, как документально оформленных измерений.

 

    Многомерность статистических данных состоит в том, что у каждого наблюдаемого объекта , измеряется (фиксируется) несколько величин-факторов . Измерения могут проводиться как одновременно по n однотипным объектам (пространственные ряды данных), так и n измерений одного объекта в разные моменты времени (временные ряды данных) рис.3.3.

Рис. 3.3. Пространственные и временные ряды данных образуют куб данных

 

Каждый объект, в своём ряду данных, представляется вектором измерений . Объединим все измерения ряда в матрицу измерений.

;

Используя все измерения по n объектам, можем вычислить числовые характеристики по каждому измеримому фактору.

Зная средние значения  и среднеквадратические отклонения  по каждому измеримому фактору, проведём центрирование и нормирование переменных  и тем самым приведём матрицу измерений к стандартному виду, в котором . Помимо единого масштаба для всех измеряемых факторов, такой вид матрицы измерения, как увидим далее, позволяет упростить ряд статистических формул. Поэтому в дальнейшем будем пользоваться именно стандартной формой матрицы измерений, а штрихи будем отпускать. При необходимости всегда можно пересчитать все получаемые величины в реальный масштаб по формуле .

    Помимо преобразования в стандартную форму, рекомендуется проверить измерения на грубые ошибки согласно критерию Смирнова-Греббса [9-10].

    Рассмотрим пример многомерных статистических данных, которые будем анализировать во всех последующих главах. Пример состоит в анализе данных об n =11 земельных участках, проданных на рынке в течение года. Известны данные о следующих m =4 факторах участка:

     - урожайность участка (кг/сотка)

 - экспертная оценка уровня инфраструктуры участка,



Поделиться:


Читайте также:




Последнее изменение этой страницы: 2020-10-24; просмотров: 177; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.225.31.159 (0.143 с.)