Задача №1. Нормальный закон распределения 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Задача №1. Нормальный закон распределения



СОДЕРЖАНИЕ

 

СОДЕРЖАНИЕ. 2

ВВЕДЕНИЕ. 3

1 ЗАДАНИЕ И ИСХОДНЫЕ ДАННЫЕ. 4

1.1 Содержание задания. 4

1.2 Исходные данные. 5

2 ХОД ВЫПОЛНЕНИЯ РАБОТЫ.. 7

2.1 Задача №1. Нормальный закон распределения. 7

2.1.1 Гистограмма распределения. 7

2.1.2 Выборочные числовые характеристики. 9

2.1.3 Метод максимального правдоподобия. 10

2.1.4 Доверительные интервалы.. 11

2.2 Задача №2. Показательный закон распределения. 16

2.2.1 Гистограмма распределения. 16

2.2.2 Выборочные числовые характеристики. 19

2.2.3 Метод моментов. 19

2.2.4 Доверительные интервалы.. 19

2.2.5 Критерий Пирсона. 20

2.3 Задача №3. Случайный вектор. 22

2.3.1 Выборочные числовые характеристики. 22

2.3.2 Гипотеза о независимости. 23

2.3.3 Уравнения регрессии. 25

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.. 27

ПРИЛОЖЕНИЕ А Исходный код для задачи№1

ПРИЛОЖЕНИЕ Б Исходный код для задачи№2

ПРИЛОЖЕНИЕ В Исходный код для задачи№3

 


 

ВВЕДЕНИЕ

 

Математическая статистика - наука, которая занимается анализом случайных данных. Именно эта наука изучает методы (в рамках точных математических моделей), позволяющие отвечать на вопрос, соответствует ли практика, представленная в виде результатов эксперимента, данному гипотетическому представлению о природе явления или нет. При этом имеются в виду не эксперименты, которые позволяют делать однозначные, детерминированные выводы о рассматриваемых явлениях, а эксперименты, результатами которых являются случайные события. С развитием науки задач такого рода становится все больше и больше, поскольку с увеличением точности экспериментов становится все труднее избежать «случайного фактора», связанного с различными помехами и ограниченностью наших измерительных и вычислительных возможностей[1].

В определенном смысле математическая статистика решает задачи, обратные задачам теории вероятностей: она уточняет (выявляет), структуру статистических моделей по результатам проводимых наблюдений. В настоящее время методы математической статистики широко используются в различных технических дисциплинах. Они играют важную роль в экономических исследованиях, сельском хозяйстве, биологии, медицине, физических науках, геологии, психологии и других науках[2].


 


ЗАДАНИЕ И ИСХОДНЫЕ ДАННЫЕ

1.1 Содержание задания

1. Смоделировать случайную величину , имеющую нормальный закон распределения с параметрами . На основе выборки объема исследовать статистические характеристики случайной величины , решив следующие задачи.

1.1. Построить гистограмму распределения и изобразить ее графически одновременно с теоретической плотностью вероятностей.

1.2. Вычислить выборочное среднее и выборочную дисперсию.

1.3. Найти оценки математического ожидания и дисперсии методом максимального правдоподобия. Указать несмещенную оценку дисперсии.

1.4. Построить доверительные интервалы для математического ожидания и дисперсии, соответствующие доверительной вероятности .

1.5. Проверить гипотезу о нормальном распределении случайной величины , используя критерий Пирсона при уровне значимости .

2. Смоделировать случайную величину , имеющую заданный непрерывный закон распределения (отличный от нормального) с заданными параметрами. На основе выборки объема исследовать статистические характеристики случайной величины , решив следующие задачи.

2.1. Построить гистограмму распределения и изобразить ее графически одновременно с теоретической плотностью вероятностей.

2.2. Определить точечные оценки математического ожидания и дисперсии.

2.3. При заданном виде распределения построить оценки входящих в него неизвестных параметров методом моментов.

2.4. Построить доверительные интервалы для математического ожидания и дисперсии, соответствующие доверительной вероятности .

2.5. Проверить гипотезу о виде распределении случайной величины , используя критерий Пирсона при уровне значимости .

3. Смоделировать случайный вектор , имеющий двумерный нормальный закон распределения с параметрами . На основе выборки объема исследовать статистические характеристики случайного вектора , решив следующие задачи.

3.1. Найти точечные оценки параметров, входящих в распределение.

3.2. Проверить гипотезу о независимости случайных величин и при уровне значимости .

3.3. Найти эмпирические уравнения регрессии на и на и изобразить их графически одновременно с выборочными значениями.

Исходные данные

Исходные данные к задаче №1 (гр. 628)

Вариант
    5.1 1.8 0.999 0.001

Исходные данные к задаче №2

Общее показательное распределение:

Исходные данные: a = 2, b = -4, a = 0.05, g = 0.95, n = 400.

Рассчитать аналитически: .

Найти точечные оценки параметров a и b методом моментов.

Исходные данные к задаче №3

Вариант
  -3.7 5.0 0.46

 


 

ХОД ВЫПОЛНЕНИЯ РАБОТЫ

Гистограмма распределения

Имеется наблюдаемая случайная величина X, имеющая нормальный закон распределения с заданными параметрами . Плотность вероятностей случайной величины X определяется по формуле . Для того, чтобы смоделировать эту случайную величину на компьютере будем использовать свободный универсальный математический пакет SciLab v.5.3.3.

В пакете имеется функция grand(), которая может создавать последовательности случайных чисел из различных распределений. Так вызов этой функции с параметрами grand (1, ,'nor', , )вернёт вектор из n значений копий случайной величины X, т.е. выборку из генеральной совокупности объёма n.

Требуется построить гистограмму распределения. Сначала найдем выборочные минимум и максимум, используя стандартные функции min, max. Число интервалов группировки определяем с помощью, так называемого, правила Стургерса, согласно которому полагается . Ширину интервалов группировки легко определить по формуле . В нашем случае , , N = 10,

Полученные результаты представлены в Таблице 1.

 


 

Таблица 1 – Интервальный статистический ряд

Номер интервала
  [- 6.0856004, - 4.3240852)   0.0106667 0.0060554 0.0031589
  [- 4.3240852, - 2.56257)   0.0373333 0.0211939 0.0132465
  [- 2.56257, - 0.8010548)   0.0586667 0.0333047 0.0393487
  [- 0.8010548, 0.9604604)   0.1546667 0.0878032 0.0827993
  [0.9604604, 2.7219756)   0.2186667 0.1241356 0.1234216
  [2.7219756, 4.4834908)   0.232 0.1317048 0.1303238
  [4.4834908, 6.245006)   0.1653333 0.0938586 0.0974819
  [6.245006, 8.0065212)   0.0746667 0.0423878 0.0516527
  [8.0065212, 9.7680364)   0.0346667 0.0196800 0.0193878
  [9.7680364, 11.529552)   0.0133333 0.0075692 0.0051551
Σ          

Здесь – границы интервалов группировки;

– частоты значений;

– относительные частоты;

– высоты гистограммы;

– теоретические значения плотности вероятностей в серединах интервалов. Стоит отметить, что .

Теперь строим гистограмму вызовом стандартной функции histplot(), полигон частот и график теоретической функции вероятностей (вызов функции plot2d()). Результат представлен на Рисунке 1.

 

Рисунок 1 – Гистограмма выборки, полигон частот и график теоретической функции вероятностей

Доверительные интервалы

Пусть наблюдаемая величина имеет функцию распределения , зависящую от неизвестного параметра . При интервальном оценивании параметра ищут две такие статистики и ( и - случайные величины!), для которых при заданном выполняется соотношение . В этом случае интервал называют - доверительным интервалом для параметра , число - доверительной вероятностью (надежностью, коэффициентом доверия), и - нижней и верхней доверительными границами соответственно.

Если наблюдаемая случайная величина имеет нормальный закон распределения с неизвестным математическим ожиданием и неизвестной дисперсией , то доверительный интервал для математического ожидания имеет вид:

где - квантиль распределения Стьюдента с (n —1) степенью свободы, – доверительная вероятность, - выборочное среднее - выборочная дисперсия. Значение квантиля распределения в нашем случае: 1,960. Получили следующий интервал для мат. ожидания:

Доверительный интервал для дисперсии наблюдаемой случайной величины при известном математическом ожидании имеет вид:

После подстановки значений получили:

Доверительный интервал для дисперсии при неизвестном математическом ожидании имеет вид:

);

В нашем случае:

Если наблюдаемая случайная величина имеет нормальный закон распределения с неизвестным математическим ожиданием и известной дисперсией , то доверительный интервал для математического ожидания имеет вид:

После подстановки значений получаем:

Критерий Пирсона

Пусть - выборка объема , представляющая собой результат независимых наблюдений над случайной величиной , относительно распределения которой, выдвинута простая гипотеза
( - теоретическая функция распределения, соответствующая гипотезе ). Наиболее распространенным критерием проверки этой гипотезы является критерии Пирсона[1].

Критерий согласия Пирсона состоит в следующем:

1. По заданному уровню значимости находится порог
.

2. По заданной выборке объема определяется число интервалов группировки так, чтобы . Вычисляется значение статистики .

3. Если , то гипотезу отвергают.

4. Если , то гипотезу принимают.

В нашем случае рассмотрим отдельно случаи неизвестных и известных параметров распределения. Воспользуемся имеющимися интервалами группировки из пункта 2.1.1, объединив некоторые из них так, чтобы в каждом из интервалов частота группировки была не менее 5. Полученные данные занесем в Таблицу 2.

Таблица 2 - Интервальный статистический ряд

Номер интервала
  [- 6.0856004, - 2.56257)   0.048 0.0306273 0.0369132
  [- 2.56257, - 0.8010548)   0.058667 0.0707184 0.0779681
  [- 0.8010548, 0.9604604)   0.1546667 0.1457264 0.1517454
  [0.9604604, 2.7219756)   0.2186667 0.2147801 0.21427
  [2.7219756, 4.4834908)   0.232 0.2264414 0.2195321
  [4.4834908, 6.245006)   0.1653333 0.1707777 0.1632032
  [6.245006, 8.0065212)   0.0746667 0.0921254 0.0880270
  [8.0065212, 9.7680364)   0.00346667 0.0355396 0.0344415
  [9.7680364, 11.529552)   0.0133333 0.0098017 0.0097727
Σ          

Здесь – границы интервалов группировки;

– частоты значений;

– относительные частоты;

– теоретические значения вероятности попадания в интервал; Φ(x) – функция Лапласа;

– выборочные значения вероятности попадания в интервал.

Найдём значения статистик для случаев известных и неизвестных параметров распределения. – статистика для случая известных параметров (N – количество интервалов группировки). – статистика для случая неизвестных параметров.

Значения статистик в нашем случае:

.

Определим пороги для обоих случаев: – порог. Здесь k – число неизвестных параметров распределения.

Таким образом, – порог для случая известных параметров распределения, – порог для случая неизвестных параметров распределения. Получаем следующие пороги:

; .

Следует сравнить значения соответствующих статистик и порогов и сделать вывод о принятии гипотезы о виде распределения. Очевидно, что значения статистик намного меньше, чем получившиеся пороги, следовательно, можно принять гипотезы о видах распределения как с известными, так и с неизвестными параметрами.

 

 


 

Гистограмма распределения

Имеется наблюдаемая случайная величина X, которая имеет общее показательное распределение, с заданными параметрами a и b:

Рассчитаем аналитически числовые характеристики этой случайной величины.

Теперь найдём функцию распределения случайной величины X:

Построим графики плотности вероятностей (Рисунок 2) и функции распределения (Рисунок 3).


 

Рисунок 2 – график функции плотности вероятностей

 

Рисунок 3 – график функции распределения

 

Найдём функцию, обратную к функции распределения:

Таким образом,

Теперь пусть у нас имеется случайная величина . Тогда можно смоделировать случайную величину X как функцию от случайной величины U, обратную функции распределения случайной величины X: . Пронаблюдав эту величину n раз, мы получим выборку объёма n.

Итак, у нас имеется выборка объёма n , полученная при n наблюдениях за случайной величиной X. Требуется построить гистограмму распределения по этой выборке.

Аналогично расчетам из раздела 2.1.1 найдем выборочные максимум, минимум, количество интервалов группировки и ширину интервалов группировки. В нашем случае: , , N = 10, Полученные данные занесем в Таблицу3.

Таблица 3 - Статистический интервальный ряд

Номер интервала Интервал
  [1.0003159; 1.8035824)   0.45 0.5602126 0.5283273
  [1.8035824; 2.606849)   0.27 0.2987800 0.30110961
  [2.606849; 3.4101155)   0.13 0.1618392 0.1715960
  [3.4101155; 4.213382)   0.075 0.0933688 0.0977933
  [4.213382; 5.0166485)   0.0575 0.0715827 0.0557328
  [5.0166485; 5.819915)   0.175 0.0217860 0.0317624
  [5.819915; 6.6231815)   0.015 0.0186738 0.0181015
  [6.6231815; 7.426448)   0.0075 0.0093369 0.0103161
  [7.426448; 8.2297145)   0.005 0.0062246 0.0058792
  [8.2297145; 9.032981]   0.0025 0.0031123 0.0033506
Σ          

Подробное описание величин в таблице можно найти в пункте 2.1.1.

С помощью функции histplot() одновременно строим гистограмму выборки (Рисунок4).

 

Рисунок 4 – гистограмма выборки и график теоретической функции вероятностей

Метод моментов

У нас имеется выборка объёма n , полученная при n наблюдениях за случайной величиной X, имеющей плотность вероятностей с неизвестными параметрами , > 0. Требуется оценить значение параметров методом моментов, т.е. указать для него точечные оценки и .

Составим систему уравнений, используя найденные ранее выражения для дисперсии и математического ожидания.

,

После подсчёта получаем: . Отклонение от реальных значений составляют: .

Доверительные интервалы

Если распределение наблюдаемой случайной величины произвольное (не обязательно нормальное), то, используя асимптотическую нормальность выборочных моментов, можно показать, что при больших объемах выборки приближенными (асимптотическими) доверительными интервалами для математического ожидания и дисперсии являются:

где - выборочное среднее; - выборочная дисперсия; ; - выборочный центральный момент четвертого порядка[1].

В результате вычислений получаем: .Очевидно, как найденные ранее выборочные, так и теоретические значения параметра попадают в полученные интервалы.

Критерий Пирсона

Описание используемого метода, необходимых формул и пояснений к ним соответствуют описанию из раздела 2.1.5. Для случая общего показательного распределения составим таблицу для получившихся интервалов группировки:

Таблица 4 - Статистический интервальный ряд

Номер интервала Интервал
  [1.0003159, 1,8035824)   0.45 0.4394059
  [1,8035824, 2.606848)   0.24 0.2561539
  [2,606848, 3,4101155)   0.13 0.13911087
  [3,4101155, 4,213382)   0.075 0.0755454
  [4,213382, 5,0166485)   0.0575 0.0410262
  [5.0166485, 5,819915)   0.0175 0.0222800
  [5,819915, 6,6231815)   0.015 0.0120995
  [6,6231815, 9.032981]   0.015 0.0120772
Σ        

Подробное описание величин в таблице можно найти в пункте 2.1.5.

Найдём значение статистики: , где N – количество интервалов группировки. Получаем: . Определим порог (здесь k=2 – число неизвестных параметров распределения). Таким образом, искомый порог =15,086.

Теперь следует сравнить значение статистики и порога и сделать вывод о принятии гипотезы о законе распределения. Очевидно, что значение статистики меньше чем значение порога, следовательно, можно принять гипотезу о виде распределения.


Задача №3. Случайный вектор

Гипотеза о независимости

В общем случае для проверки гипотезы о независимости случайных величин и можно воспользоваться критерием независимости проверки гипотезы , заключающейся в том, что функция распределения случайного вектора

,

где и - одномерные функции распределения координат вектора.

Статистикой критерия для проверки данной гипотезы является величина: , где - выборочный коэффициент корреляции.

Таким образом, критерий для проверки гипотезы о равенстве нулю коэффициента корреляции состоит в следующем:

1. По заданному уровню значимости находится порог
.

2. По заданной выборке вычисляется значение статистики .

3. Если , то гипотезу отвергают и делают вывод о том, что случайные величины и являются зависимыми.

4. Если , то гипотезу принимают и считают, что случайные величины и являются независимыми.


Для того чтобы воспользоваться критерием χ2, разобьём выборочные значения на одинаковые интервалы группировки, после чего объединим некоторые из них так, чтобы в каждый прямоугольник группировки попало не менее 5 точек.

В результате получились следующие одномерные таблицы частот.

 

Номер интервала
  [- 3.3244896; 1.6578277)   0.44
  [1.6578277; 2.9034071)   0.2213333
  [2.9034071; 4.1489864)   0.184
  [4.1489864; 9.1313038)   0.152

 

Номер интервала
  [-8,555434; -0.2427536)   0.2613333
  [-0.2427536; 1,8354165)   0.2186667
  [1,8354165; 3.9135866)   0.232
  [3.9135866; 12.226267)   0.2853333

Обозначения в этих двух таблицах аналогичны обозначениям в пункте 2.1.1. Построим также двумерную таблицу частот. В ней по вертикали расположим интервалы первой координаты вектора, а по горизонтали – второй.

 

Номер интервала        
         
         
         
         

 

После этого мы сможем вычислить статистику χ2: , где K, L – число получившихся интервалов группировки для X и Y соответственно; ν – двумерная частота группировки; νX, νY – одномерные частоты группировки для X и Y соответственно. В нашем случае получили: . Зададимся порогом: , который представляет собой (1-α)-квантиль распределения . В нашем случае . Статистика превышает порог, значит, гипотезу о независимости величин X и Y следует отвергнуть.

Теперь проверим ту же гипотезу с помощью критерия значимости корреляции. Статистика этого критерия: , где – выборочный коэффициент корреляции. В нашем случае T = - 8.9744155. Порогом данной статистики является , т.е. -квантиль распределения Стьюдента с числом степеней свободы (n-2). В нашем случае . Так как область для проверки критерия определяется в виде , гипотезу о независимости случайных величин X и Y следует опровергнуть.

Уравнения регрессии

Функцией регрессии случайной величины на случайную величину называется условное математическое ожидание . Эта функция наилучшим (в среднеквадратическом смысле) образом описывает зависимость случайной величины от случайной величины .

Известно, что если случайный вектор имеет двумерный нормальный закон распределения , то функция регрессии случайной величины на случайную величину является линейной и имеет вид (случай нормальной регрессии):

.

Заменяя в этом уравнении на их точечные оценки соответственно, получаем эмпирическое уравнение регрессии случайной величины на случайную величину вида:

.

Аналогично определяется функция регрессии случайной величины на случайную величину :

.

Геометрически уравнение регрессии представляет собой прямую, около которой группируются значения случайного вектора . Чем ближе значение выборочного коэффициента корреляции к 1, тем плотнее значения вектора располагаются вдоль прямой регрессии[1]. В нашем случае:

 

 

Рисунок 5 – график уравнений регрессии

ПРИЛОЖЕНИЕ А

Исходный код для задачи №1

n=375; a=3,1; D=9,1; g=0,96; alpha=0.01;

function p = fx (x) //Функция плотности вероятности

p =1/sqrt(2*%pi*D)*exp((-(x -a)^2)/(2*D));

endfunction;

X = grand(1, n, 'nor', a, sqrt(D));

//1.1

function [ nu, xb ]= solve1 (X, fx)

xmin = min(X);

xmax = max(X);

N = floor(1 + 3.32 * log10 (n)) + 1; // Кол-во точек на графике

delta = (xmax - xmin) / N; // Диапазон ширины

xb = zeros(1, N+1); nu =zeros(1, N); ps=zeros(1, N); h=zeros(1, N); p=zeros(1, N); xc=zeros(1, N+2);

snu = 0; sps = 0; hmax = 0;

xb = xmin + (0:N)'*delta; // Границы интервалов группировки

for i = 1: n,

for j = 1: N,

if (xb (j) <= X (i) & X (i) <= xb (j+1)),

nu (j) = nu (j) + 1; // Вычисление частот

break;

end;

end;

end;

xc(1) = xb (1) - delta / 2; // Escape centre value

xc(N+2) = xb (N+1) + delta / 2; // Escape centre value

for k = 1: N,

snu = snu + nu (k); // Сумма частот

ps(k) = nu (k) / n; //Относительные частоты

sps = sps+ps(k); //Сумма относительных частот

h(k) = ps(k)/delta; //Высоты

xc(k+1) = (xb (k)+ b (k+1)) / 2;

p(k) = fx (xc(k+1)); //Теоретическая вероятность

hmax = max([hmax, h(k)]);

end;

histplot (N, X, style = 2, rect = [xmin - delta, 0, xmax + delta, hmax + 0.05]); // Построение гистограммы

x = [xmin - delta: 0.05: xmax + delta];

plot2d(x, fx (x)); // График теоретической плотности вероятностей

plot2d(xc, [0, h, 0], 5); // Полигон частот

endfunction;

[nu, xb] = solve1 (X, fx);

// 1.2.

sm = mean (X); //Выборочное среднее

disp(abs(sm-a), 'Отклонение мат. ожидания');

sv = mean ((X - sm)^2); //Выборочная дисперсия

disp(abs(sv-D), 'Отклонение дисперсии');

// 1.3.

csv = n / (n - 1) * sv; //Несмещенная оценка дисперсии

disp(abs(csv-D), 'Отклонение');

// 1.4.

//границы доверительных интервалов при неизвестной дисперсии и мат. ожидании



Поделиться:


Последнее изменение этой страницы: 2016-04-23; просмотров: 1761; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.149.233.72 (0.163 с.)