Методические указания по выполнению лабораторных работ 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Методические указания по выполнению лабораторных работ



Институт ВОДНОГО ТРАНСПОРТА

Кафедра вычислительных систем и информатики

А.В. Макшанов

 

ТЕОРИЯ

ИНФОРМАЦИОННЫХ ПРОЦЕССОВ
И СИСТЕМ

 

Методические указания по выполнению лабораторных работ

Часть 3

 

 

Санкт-Петербург

ГУМРФ имени адмирала С. О. Макарова

2020


УДК 514.18

ББК 22.151.3

 

 

Рецензент:

Доктор технических наук, профессор Марлей В.Е.

 

 

Макшанов А. В. Теория информационных процессов и систем. Методические указания по выполнению лабораторных работ. Часть 3. — СПБ.: Изд-во ГУМРФ им. адм. С. О. Макарова, 2017. — 90 с.

 

 

Рассмотрены основные приемы интеллектуального анализа данных, интегрированные в лабораторный практикум. В качестве инструментальной среды разработки используется математическая система MatLab версий 6.5 и выше.

Методические указания предназначены для формирования у студентов академического и прикладного бакалавриатов по направлению 09.03.02 «Информационные системы и технологии» компетенций в соответствии с рабочей программой дисциплины «Теория информационных процессов и систем». Методические указания также могут быть использовано студентами, магистрантами и аспирантами других инженерно–технических специальностей, желающими самостоятельно изучить вопросы анализа экспериментальных данных.

Рекомендовано к изданию в качестве методических указаний по выполнению лабораторных работ по направлению подготовки 09.03.02 «Информационные системы и технологии» заседанием кафедры вычислительных систем и информатики от 30.08.2020, протокол № 5.

 

  © ФГБОУ ВО «ГУМРФ имени адмирала С. О. Макарова», 2017 © А.В. Макшанов, 2020

Оглавление

  Введение 3
1. Центральная предельная теорема 9
2. Точечное оценивание 11
3. Метод Монте-Карло 12
4. Доверительное оценивание 13
5. Проверка параметрических гипотез 15
6. Проверка гипотез согласия 19
7. Непараметрические методы 23
8. Оптимальный линейный прогноз 29
9. Множественная регрессия 33
10. МНК в линейной модели измерений 36
11. Статистические методы в экспертных оценках 40
  Контрольные вопросы 52
  Литература 52

 

Введение

     В теории вероятностей строится модель, позволяющая определить вероятности некоторых относительно простых событий и рассчитать на их основе вероятности более сложных событий. Ожидается, что найденные вероятности можно интерпретировать как относительные частоты и, тем самым, предсказать частоты появления этих сложных событий.

      Математическая статистика – это обратная задача теории вероятностей. В ней заданы те самые частоты, полученные в результате наблюдений, и требуется объяснить эти частоты на основе возможно более простого вероятностного механизма. Эта задача является некорректной, поскольку полученные наблюдения можно объяснить в рамках различных моделей. Чтобы выбрать единственную модель, приходится использовать доступную априорную информацию, заданную в различных формах. В зависимости от формы этой априорной информации статистику разделяют на параметрическую, непараметрическую и робастную.   

     Основное предположение математической статистики состоит в том, что наблюдения представлены в числовой форме и представляют собой независимые измерения одной и той же величины в неизменных условиях. На языке теории вероятностей это означает, что имеются результаты n экспериментов - числа x 1,…, xn, которые являются независимыми реализациями случайной величины X с некоторой функцией распределения F (x). На практике x 1,…, xn – это числа. Для теоретических расчетов считают, что каждое измерение xi – это случайная величина с функцией распределения F (x). Разницу между этими подходами можно прояснить на примере бросания монеты. Если мы бросаем монету n раз в одних и тех же условиях, мы получаем последовательность чисел, нулей и единиц (ноль –«орел», единица – «решка»). Однако можно сразу бросить n монет, тогда результат для i -й монеты – это случайная величина: 0 с вероятностью p, 1 с вероятностью q =1- p. Параметр p зависит от характеристик монеты и используемого способа бросания, при простейшей организации процесса бросания p =1/2.

   Кратко это предположение выражают так: x 1,…, xn образуют выборку с теоретическим законом распределения F (x) или x 1,…, xn образуют выборку из распределения F (x).

   Основная задача математической статистики состоит в том, чтобы предложить вероятностный механизм, породивший именно данные значения x 1,…, xn, т.е. оценить теоретический закон F (x). Оценка любого параметра теоретического распределения на практике выступает как конкретное число, а в теории – как случайная величина, функция от выборочных значений – случайных величин x 1,…, xn. Любая такая функция называется статистикой, для нее можно изучать ее закон распределения, а также ее среднее, дисперсию и т.д.

  Если мы говорим, что x 1,…, xn – выборка, то тем самым мы уже принимаем некоторую вероятностную модель для результатов наблюдения. В частности, если распределение F предполагается непрерывным, мы объявляем, что имеет смысл рассматривать вероятности

,

где  - теоретическая плотность. Иными словами, мы объявляем, что в принципе совокупность из n наблюдений может быть повторена сколько угодно раз, причем n –мерный вектор, получающийся при каждом повторении n наблюдений, будет попадать в множество A с частотой, примерно равной найденной  

      Для удобства вычислений выборочные значения обычно упорядочивают по возрастанию и получают так называемый вариационный ряд

Члены вариационного ряда называют порядковыми статистиками. В частности, широко используется выборочная медиана – оценка медианы теоретического распределения

и выборочный размах x ( n ) - x (1).

   Основной, до сих пор актуальный принцип получения статистических оценок предложил в 1909 г. немецкий философ Карл Пирсон. Он предложил вводить фиктивную, «эмпирическую» случайную величину x *, принимающую значения x 1,…, xn с вероятностью 1/ n. Если нужно оценить некую характеристику теоретического закона распределения, то в качестве оценки предлагается использовать такую же характеристику величины x *. Например, оценкой математического ожидания a теоретического распределения является математическое ожидание x *, т.е. выборочное среднее

Аналогично, оценкой теоретической дисперсии является выборочная дисперсия

а оценкой самой теоретической функции распределения F (x) – эмпирическая функция распределения F* (x), т.е. функция распределения x *. F* (x) – это ступенчатая функция, возрастающая от 0 до 1 и имеющая в каждой точке xi скачок, равный 1/ n. Это – самые простые оценки. В действительности использование такой оценки для момента порядка k связано с допущением, что теоретическое распределение имеет конечные моменты до порядка 2 k. При наличии дополнительной информации о F (x) можно получать оценки более высокого качества. 

Пример выполнения работы

 

Лабораторная работа 1.
clear; clc; n=1000; m=12; X=rand(m,n)-0.5; M=[2 4 8 12]; F=linspace(0,1,n); for k=1:4; x=sum(X(1:M(k),:)); y=sort(x)*12/M(k); subplot(2,2,k); plot(y,F, 'LineWidth',2); grid; FF=normcdf(y,0,1); hold on; plot(y,FF, 'r', 'LineWidth',2); end; figure; for k=1:4; x=sum(X(1:M(k),:)); y=sort(x)*12/M(k); subplot(2,2,k); q=20; [N,xx]=hist(y,q); del=(y(n)-y(1))/q; N1=N/del/n; bar(xx,N1); grid; FF=normpdf(y,0,1); hold on; plot(y,FF, 'r', 'LineWidth',2); end;

 

Рис. 1.1. Сходимость по распределению к нормальному закону

 

Рис. 1.2. Сходимость оценок плотности к плотности нормального закона

 

Пример выполнения работы

 

Лабораторная работа 2.
clear;clc; n=500; a=0; s=1; X=a+s*randn(1,n); F=linspace(0,1,n); X1=sort(X); x=linspace(-3,3,100); a1=mean(X); s1=std(X); D=s1^2; XX=X-a1; AS=mean(XX.^3)/(s1^3); EX=mean(XX.^4)/(s1^4);   q1=[ ' Среднее = ',num2str(a1)]; q2=[ ' СКО = ',num2str(s1)]; q3=[ 'Дисперсия = ',num2str(D)]; q4=[ ' Асимметрия = ',num2str(AS)]; q5=[ ' Эксцесс = ',num2str(EX)];   subplot(3,2,[1 3]); plot(X1,F, 'LineWidth',3); grid; hold on; plot(x,normcdf(x,a,s), 'r', 'LineWidth',3);   subplot(3,2,[2 4]); [N,Z]=hist(X,25); bar(Z,N/(sum(N)*(Z(2)-Z(1)))); grid; hold on; plot(X1,normpdf(X1), 'r', 'LineWidth',3);   subplot(3,2,[5 6]); axis off; text(0,0.8,q1); text(0,0.45,q2); text(0,0.1,q3); text(0.5,0.8,q4); text(0.5,0.45,q5);   %plot(X)

 

 

Рис. 2.1. Оценивание основных характеристик случайной выборки

 

Пример выполнения работы

 

Лабораторная работа 3.
clear; clc; t=linspace(0,2*pi,100); a=3; b=1; x1=a*cos(t); y1=b*sin(t); fi=-30*pi/180; F=[cos(fi) sin(fi); -sin(fi) cos(fi)]; Z1=F*[x1; y1]; Z(1,:)=Z1(1,:)+1; Z(2,:)=Z1(2,:)+1;   W=(rand(2,4000)-0.5)*6+1; plot(W(1,:),W(2,:), '*r'); hold on; plot(Z(1,:),Z(2,:), 'LineWidth',4); grid; axis([-3 5 -3 5]); IN=inpolygon(W(1,:),W(2,:),Z(1,:),Z(2,:)); S=sum(IN)/40000*36; disp(''); disp([pi*a*b S])

 

Экранный вывод (N =4000): Площадь эллипса и его оценка [ 9.4248 9.4320 ]

Рис. 3.1. Вычисление площади эллипса по методу Монте-Карло

 

Пример выполнения работы

Лабораторная работа 4_1
clear; clc; a=2; s=0.5; alp=0.02; n=100; X=a+s*randn(1,n); xL=norminv(alp/2); xU=norminv(1-alp/2); aL=mean(X)-xU*s/sqrt(n); aU=mean(X)-xL*s/sqrt(n); plot([1 3]',[0 0]', 'LineWidth',2); grid; hold on; plot(a,0, 'rs', 'LineWidth',3); hold on; plot(aL,0, 'gs', 'LineWidth',3); hold on; plot(aU,0, 'gs', 'LineWidth',3);

Рис.4.1. Доверительный интервал для среднего

Лабораторная работа 4_ 2
clear; clc; a=2; s=0.5; alp=0.05; n=100; X=a+s*randn(1,n); xL=chi2inv(alp/2,n); xU=chi2inv(1-alp/2,n); aL=cov(X)*n/xU; aU=cov(X)*n/xL; plot([0 1]',[0 0]', 'LineWidth',5); grid; hold on; plot(s,0, 'rs', 'LineWidth',6); hold on; plot(sqrt(aL),0, 'gs', 'LineWidth',6); hold on; plot(sqrt(aU),0, 'gs', 'LineWidth',6);

 

Рис.4.2. Доверительный интервал для дисперсии

Лабораторная работа 4_3
clear; clc; N=1000; n=20; X=randn(n,N); XX=X.^2; Y=sum(XX); Y1=sort(Y); F=linspace(0,1,N); plot(Y1,F, 'LineWidth',4); grid; hold on; plot(Y1,chi2cdf(Y1,n), 'r', 'LineWidth',4);

Рис.4.3. Теоретическая и эмпирическая функции распределения закона хи-квадрат

 

Задачи

  1. Сформировать выборку из распределения N (a, s 2) с параметрами a =2.15; s =0.5; n =10 и проверить по ней гипотезу H0:a=2 на уровне 1- alp, alp =0.02. Дать графическую иллюстрацию.
  2. Сформировать две независимых выборки из распределения N (a, s 2) с параметрами a 1=2; s 1=0.5; n 1=50 и a 2=2.2; s 2=0.7; n 2=60; проверить по ним гипотезу H0: a 1= a 2 на уровне 1- alp, alp =0.02. Дать графическую иллюстрацию.
  3. Сформировать две независимых выборки из распределения N (a, s 2) с параметрами a 1=2; s 1=0.5; n 1=50 и a 2=2.2; s 2=0.7; n 2=60; проверить по ним гипотезу H0: s 1= s 2 на уровне 1- alp, alp =0.02. Дать графическую иллюстрацию.

Пример выполнения работы

Лабораторная работа 5_1
clear; clc; a=2; s=0.5; n=10; a 0= a +0.15; %нулевая гипотеза (неверна!) X=a+s*randn(1,n); %T=(mean(X)-a0)/s*sqrt(n); T=(mean(X)-a0)/std(X)*sqrt(n);   x=-3:0.01:3; y1=normcdf(x,0,1); y2=tcdf(x,n-1); plot(x,y1, 'LineWidth',2); grid; hold on; plot(x,y2, 'r', 'LineWidth',4); hold on;plot(T,0.01, 'gs', 'LineWidth',6);

 

Рис.5.1. Проверка гипотезы о среднем.

Односторонняя гипотеза отвергается с надежностью порядка 0.98

 

Лабораторная работа 5_2
clear; clc; a1=2; s1=0.5; n1=50; X=a1+s1*randn(1,n1); a2=2.2; s2=0.7; n2=60; Y=a2+s2*randn(1,n2); % Нулевая гипотеза H0:a1=a2 - неверна! %T=(mean(X)-mean(Y))/sqrt(s1^2/n1+s2^2/n2); T=(mean(X)-mean(Y))/sqrt(cov(X)/n1+cov(Y)/n2); x=-3:0.01:3; y1=normcdf(x,0,1); plot(x,y1, 'LineWidth',4); grid; hold on; plot(T,0.01, 'gs', 'LineWidth',6);

 

Рис.5.2. Проверка гипотезы о равенстве средних.

Двусторонняя гипотеза отвергается с надёжностью 0.98

 

Лабораторная работа 5.3
clear; clc; a1=2; s1=0.5; n1=50; X=a1+s1*randn(1,n1); a2=2.2; s2=0.7; n2=60; Y=a2+s2*randn(1,n2); T=(n1-1)*cov(X)/(n2-1)/cov(Y); x=0:0.01:3; y1=fcdf(x,n1-1,n2-1); plot(x,y1, 'LineWidth',4); grid; hold on; plot(T,0.01, 'rs', 'LineWidth',6);

 

Рис.5.3. Проверка гипотезы о равенстве дисперсий.

Двусторонняя гипотеза отвергается с надёжностью 0.98

 

Критерий Колмогорова

Этот критерий применяется для проверки простой гипотезы Н 0 о том, что независимые одинаково распределенные случайные величины Х 1, Х 2, …, Хп имеют заданную непрерывную функцию распределения F (x):

Найдем функцию эмпирического распределения Fn (x) и будем искать границы двусторонней критической области, определяемой условием

                            .                                         

А.Н. Колмогоров доказал, что в случае справедливости гипотезы Н 0 распределение статистики Dn не зависит от функции F (x), и при  

                                 

где    

-

- показатель критерия Колмогорова, значения которого можно найти в соответствующих таблицах.

Критическое значение критерия λ n (α) вычисляется по заданному уровню значимости α как корень уравнения .

Можно показать, что приближенное значение вычисляется по формуле

                            ,

где z – корень уравнения

На практике для вычисления значения статистики Dn используется то, что

, где

а  - вариационный ряд, построенный по выборке Х 1, Х 2, …, Хп.

Можно дать следующее геометрическое истолкование критерия Колмогорова: если изобразить на плоскости О ху графики функций Fn (x), Fn (x) ±λ n (α) (рис. 1), то гипотеза Н 0 верна, если график функции F (x) не выходит за пределы области, лежащей между графиками функций Fn (x) -λ n (α) и Fn (x) +λ n (α).

 

Задачи

  1. Сформировать выборку из распределения N (a, s 2) с параметрами a =1; s =0.5; n =100 и проверить по ней гипотезу согласия H0: Fn *(x)=Ф(x, a, s 2) на уровне 1- alp, alp =0.05. Дать графическую иллюстрацию. Критическую зону (она даётся функцией Колмогорова) оценить по методу Монте-Карло.
  2. Смоделировать выборку из нормального закона N (0,1) объёма n =100 и представить её основные вероятностные характеристики включая статистики критериев согласия.

Пример выполнения работы

Лабораторная работа 6_1
clear; clc; n =100; a =1; s =0.5; E = randn (n,1); X = a + s * E; %Гипотеза нормальности XX=sort(X); F=linspace(0,1,n); plot(XX,F', 'LineWidth',3); grid; Y=normcdf(XX,a,s); hold on; plot(XX,Y, 'r', 'LineWidth',4); T=sqrt(n)*max(abs(F-Y')); T % Метод Монте - Карло N=1000; Z=rand(n,N); for k=1:N; z=sort(Z(:,k)); TT(k)=sqrt(n)*max(abs(z-F')); end; TT=sort(TT); FF=linspace(0,1,N); figure; plot(TT,FF, 'LineWidth',4); grid;

 

Рис. 6.1. Эмпирическая функция распределения и гипотетическая функция Ф(x, a, s 2)

T =0.6828 – гипотеза принимается

Рис. 6.2. Функция распределения Колмогорова (метод Монте-Карло)

Лабораторная работа 6_2
%function [X,a,sigma]=Kolm_Smirn; %Параметры теоретического распределения a=0; sigma=1; %Моделирование N=100; X=a+sigma*randn(N,1); %---------------Обработка выборки----------------- X1=sort(X); a1=mean(X); s1=std(X); As=mean((X-a1).^3)/(s1^3); Ex=mean((X-a1).^4)/(s1^4); %Эмпирическая функция распределения Lb=a-3*sigma; Ub=a+3*sigma; x=linspace(Lb,Ub,N); y=linspace(0,1,N); % Статистика Смирнова dS=max(abs(X1(2:N)-y(1:N-1)')); %Статистика Колмогорова dK=sqrt(N)*dS;     %----------------Графический вывод---------------- subplot(2,2,1); plot(X, 'LineWidth',4); grid; title('Выборка'); xlabel('Номер измерения');   subplot(2,2,2); stairs(X1,y); hold on; plot(x,normcdf(x), 'r', 'LineWidth',4); grid; axis([-3 3 0 1]); title('Функции распределения'); xlabel('Вариационный ряд'); ylabel('Вероятность');   subplot(2,2,3); y1=normpdf(x); x1=linspace(-2,2,10); H=hist(X,x1); H=H/max(H)*max(y1); bar(x1,H); hold on; plot(x,y1, 'r', 'LineWidth',4); grid; axis([-3 3 0 max(y1)*1.1]); title('Гистограмма и плотность');   subplot(2,2,4); axis off; text(0,0.9, ' Среднее = ');  text(0.9,0.9,sprintf('%1.3f',a1)); text(0,0.75, ' Дисперсия = '); text(0.9,0.75,sprintf('%1.3f',s1^2)); text(0,0.6, ' Асимметрия = '); text(0.9,0.6,sprintf('%1.3f',As)); text(0,0.45, ' Эксцесс = ');  text(0.9,0.45,sprintf('%1.3f',Ex)); text(0,0.3, ' Статистика Смирнова = '); text(0.9,0.3,sprintf('%1.3f',dS)); text(0,0.15, ' Статистика Колмогорова = '); text(0.9,0.15,sprintf('%1.3f',dK));  

 

Рис. 6.3. Характеристики выборки из нормального закона N (0,1)

Шкалы измерений

 

В математическом смысле шкалой называют правило, по которому состояния системы характеризуются числами. Итак, шкала — это переход от физического (или другого) объекта к числу. В данном смысле шкалой будет любая календарная система - моменту времени приписывается определенная дата. Шкалу представляет собой и при­нятая в школе система оценок, выставляемых ученикам в зависимости отих успехов.

Упомянутые шкалы - длин, температур, времени, успехов — раз­личаются не только по содержанию. Между ними есть и важные фор­мальные различия.

Результатом измерения в любой шкале яв­ляется число. С числами можно проводить арифметические и другие операции. Результаты некоторых операций имеют содержательный смысл и истолковываются в рамках данной шкалы. Допустим, чтомы измеряем длины предметов. Если х и у -  длины отрезков а и b, то х + у - длина отрезка, полученного приставлением а к b, — разница длин отрезков, ху — площадь прямоугольника, образо­ванного этими отрезками, и т. п. Однако ху или, например, log(x)для нас не имеют содержательного толкования.

Если же х и у — две календарные даты, причем х > у, то   х – у   имеет смысл - это время, прошедшее от одного события до другого. Однако х + у, ху, х/у и т. п. содержательного смысла лишены.

Для показателей по шкале успехов еще меньше осмысленных соот­ношений: осмысленно их можно лишь сравнивать по величине, т. е. из соотношения отметок х < у для учеников а и b можно лишь за­ключить, что а учится хуже, чем b. Если же у - х = 1, то утвержде­ние «успехи b на 1 выше, чем успехи а» не объясняет, каково раз­личие между ними. Шкала успехов служит примером порядковой (ранговой) шкалы.

     Выделяют еще номинальную шкалу, где числа служат всего лишь для различения отдельных возможностей, как бы для их названия. Никаких содержательных соотношений, кроме х = у и х у, между такими числами нет. Конечно, выбор чисел (т. е. номинальной шкалы) вместо реальных имен или других способов идентификации не обя­зателен, более того, может привести к недоразумениям.

     Если x 1,…, xn – действительно числа, результаты измерений, то среди них могут содержаться грубые промахи, аномальные измерения. Даже одно такое аномальное значение может увести далеко в сторону большинство статистик – как оценок, так и статистик критериев (критериальных функций). В то же время, на ранговую структуру выборки оно окажет минимальное воздействие. Ранговые методы всегда ориентируются на основное ядро выборки и мало чувствительны к далеко выпадающим значениям.

     Если  - измерения в порядковой шкале, то сами их значения смысла не имеют, важен только их порядок, т.е. их ранговая структура. В номинальной шкале числовой смысл имеют только численности групп.

Ранговые методы.

Критерий Вилкоксона и медиана Ходжеса-Леман а

 

     Пусть  и   - две независимые выборки. Неизвестные законы распределения случайных ве­личин  и    обозначим через  и  соответственно. По данным наблюдениям хотим проверить гипотезу однородности H: .

 Для проверки гипотезы однородности наиболее известен критерий Стьюдента, основанный на сравнении средних значений обеих выборок. Для того, чтобы получаемые на его основе выводы были справедливы, нужно, чтобы обе вы­борки имели близкое к гауссовому распределение с од­ной и той же дисперсией. Можно применять для проверки Н и критерий Смирнова, основанный на разности эмпири­ческих функций распределения, построенных по каждой выборке отдельно. Критерий Смирнова - чисто непара­метрический. Для того, чтобы он был применим, необходи­ма лишь непрерывность истинных функций распределения F  и G.  Более того, вероятность того, что различие между F  и G   будет замечено, если оно вообще существует, растет и приближается к 1 при неограниченном увеличении объемов выборок т и п. К сожалению, скорость роста этой вероят­ности невелика, так что при умеренных значениях т и п мощность критерия Смирнова мала.

Мы хотим применить критерии, основанные на рангах. Для этого объединяем обе выборки в одну группу и ранжируем наблюдения. Достаточно знать ранги только игреков, поскольку ранги иксов можно по ним восстано­вить - это оставшиеся числа из последовательности 1, 2,..., m + n. Обозначим ранги игреков через . Статистика для проверки Н должна быть функцией этих чисел.

Легко понять, что при справедливости гипотезы Н в качестве рангов  с равными вероятностями могут появляться любые п чисел из 1, 2,..., т + п. Это дает возможность рассчитать при выполнении H закон распределе­ния любой статистики, основанной на рангах. Это обстоя­тельство — основная причина перехода к рангам, причина универсальности и простоты ранговых методов.

     Остается выбрать подходящую функцию рангов, на которой основывать проверку H. Для этого, как всегда, надо подумать о конкурирующих гипотезах, т.е. о том, ка­ким образом может нарушаться H. Рассмотрим наиболее удобную для ранговых методов возможность: нарушение равенства F= G в пользу F< G. Таким соотношение между F и G будет, в частности, в том случае, когда G является «сдвигом» F, т. е. при . Такие альтернативы реально возникают в некоторых задачах, например, при измерении какой-то величину, об­ладающей естественной изменчивостью, при различных управляющих воздействиях.

Пример. Сравниваются длительности плавки в мартенов­ской печи при работе по стандартной и усовершенствован­ной технологиям. Естественно считать, что  где  последовательность независимых одинаково распределенных случайных величин, θ - закономерное изменение (сокращение, если θ<0) длительности плавки. Конечно, величина θ не наблюдает­ся. Наблюдаются выборки  и  (Если θ>0, альтернативой к H служит F> G).

Мы надеемся, что сокращение длительности плавки дей­ствительно происходит. Использу­ем обычный логический прием - рассуждение от против­ного. Предположим, что θ=0, т. е. F = G. Если стати­стический материал заставит нас отвергнуть это предложе­ние, придется признать, что θ в самом деле положительно. Надо, следовательно, проверить гипотезу H против аль­тернативы F< G.

Если G действительно превосходит F, т. е. если P (xi < x) < P (yi < x), то элементы выборки  имеют тенденцию располагаться левее элементов выборки . Это значит, что ранги игреков имеют тенденцию располагаться в левой части последовательности

{1, 2,..., т + п }. Поэтому статистика  в случае F< G   склонна к меньшим значениям, нежели в случае F= G. Из этого следует статистическое правило: отвергать гипотезу F= G  (в пользу F < G), если r1 + … rn слишком мала.

Это правило было предложено в 1945 году и  по­служило отправной точкой для всей обширной области ранговых проце­дур. По имени ее автора статистика W = r1+…+ rn на­зывается статистикой Вилкоксона, а основанный на W критерий - критерием Вилкоксона.

Мы выяснили, каково должно быть поведение W при F< G  . Поэтому мы отвергнем H, если W окажется меньше критического значения Wкрит или равным ему. Это критиче­ское значение выбираем так, чтобы  при H была малой.

   Если конкурентом однородности служит возможность F> G, признаком нарушения Н служит слишком большая величина W. Часто применяют двусторонний критерий Вилкоксона, по которому гипотеза Н отвергается, если на­блюденное значение выходит за критические значения  т. е. если не происходит событие  Критические значения находят по таблицам из условия

                                   

Значение α подбирают так, чтобы  была достаточно близка к 1.

Исследования показали, что мощность критерия Вилкоксона против рассмотренных здесь альтернатив на­много превосходит мощность критерия Смирнова. Однако против многих других альтернатив критерий W бессилен, в то время как критерий Смирнова обнаруживает (при неограниченных объемах выборок) любое раз­личие.

Легко увидеть, что в объединенной выборке сумма всех рангов равна

так что на каждое из (m + n) измерений приходится «средний ранг» (m + n+ 1)/2. Мы следим за положением  Если гипотеза H верна, то они распределены в объединенной выборке приблизительно равномерно, так что на их сумму приходится в среднем величина

Дисперсия статистики W вычисляется несколько сложнее:

При достаточно больших m, n (больше 20) распределение W хорошо аппроксимируется нормальным законом:

при меньших m, n есть специальные таблицы.

Составить представление о возможностях W можно, рассмотрев какие-либо конкретные F и G. Пусть  и — выборки из гауссовских распределений с общей дисперсией и различными средними а и b, причем a> b.  Известно, что с определенной точки зрения критерий Стьюдента является наилучшим в этой ситуации. Поэтому именно с ним надо сравнивать критерий Вилкоксона. Оказывается, что при больших объемах выборок их возможности почти одинаковы:  критерий Стьюдента лишь в π/3 раз чувствительнее критерия Вилкоксона. Конечно, при малых выборках преимущества критерия Стьюдента ощутимее.

 

Задачи

  1. Сформировать две выборки из нормального закона (0,1) объёмом n 1=20, n 2=30. Сдвинуть вторую выборку вправо на величину teta=0.3.
  2. Проверить гипотезу однородности с помощью критерия Уилкоксона, используя гауссову аппроксимацию центрального распределения.
  3. Получить оценку параметра сдвига teta с помощью медианы Ходжеса-Лемана, сделать N=50 имитаций и усреднить их результаты

Пример выполнения работы

Лабораторная работа 7_1
clear; clc; clf; %Критерий Уилкоксона и медиана Ходжеса-Лемана teta=0.3; m=20; n=30; X=randn(1,m);    X_ind=zeros(size(X)); Y=randn(1,n)+teta; Y_ind=ones(size(Y)); Z=[X Y; X_ind Y_ind]; [ZZ,R]=sort(Z(1,:)); Z_ind=Z(2,R); Iy=find(Z_ind);  %ненулевые элементы - принадлежат Y W=sum(Iy);       %статистика Уилкоксона MW=n*(m+n+1)/2;  %центральное среднее DW=m*n*(m+n+1)/12; %центральная дисперсия W0=(W-MW)/sqrt(DW); %нормированное значение W disp('Нормированное значение W'); disp(W0);   xx=linspace(-4,4,200); F=normpdf(xx); plot(xx,F, 'LineWidth',3); grid; hold on; plot([W0 W0],[0 normpdf(W0)], 'r', 'LineWidth',3); title(' Статистика Уилкоксона ', 'FontName', 'Courier New Cyr',... 'FontSize',14, 'FontWeight', 'Bold'); xlabel(' Статистика Уилкоксона ', 'FontName', 'Courier New Cyr',... 'FontSize',12, 'FontWeight', 'Bold'); ylabel(' Функция плотности N(0,1)', 'FontName', 'Courier New Cyr',... 'FontSize',12, 'FontWeight', 'Bold');

 

Рис.7.1. Статистика критерия Уилкоксона и её гауссова аппроксимация

Лабораторная работа 7_2
clear; clc; %Медиана Ходжеса-Лемана - 1 выборка teta=2;   %параметр сдвига m=100; N=50;     %число имитаций for k=1:N; Y=teta+randn(1,m); X=-Y; for i=1:m;   R(i,:)=Y-X(i); end; Z=reshape(R,1,m*m); teta_1(k)=median(Z)/2; end; plot([1 N],[teta teta], 'LineWidth',4); grid; hold on; plot(teta_1, 'r', 'LineWidth',4); title('Медиана Ходжеса-Лемана - 1 выборка',... 'FontName', 'Courier New Cyr', 'FontSize',16, 'FontWeight', 'Bold');  

 

Рис.7.2. Медиана Ходжеса-Лемана – 50 имитаций

 

Задачи

  1. Сформировать двумерную выборку из нормального закона (a,S) с заданными параметрами
  2. Построить оптимальный среднеквадратический прогноз второй (ненаблюдаемой) компоненты по первой (наблюдаемой)
  3. Построить прямые среднеквадратической регрессии первой компоненты на вторую и второй на первую

Пример выполнения работы

Лабораторная работа 8
clear; clc; %оптимальный линейный среднеквадратический прогноз ax=1; ay=2; sx=0.5; sy=0.3; r=-0.5; n=200; E=randn(2,n); S=[sx^2 r*sx*sy; r*sx*sy sy^2]; X=S*E; X(1,:)=X(1,:)+ax; X(2,:)=X(2,:)+ay; x=X(1,:); y=X(2,:); plot(y, 'LineWidth',4); grid; y1=ay+sy/sx*r*(x-ax); SS=corrcoef(x',y'); y2=mean(y)+std(y)/std(x)*SS(1,2)*(x-mean(x)); hold on; plot(y1, 'r', 'LineWidth',4); %hold on; plot(y2,'g','LineWidth',4); figure; x3=ax+sx/sy*r*(y1-ay); plot(x,y1, 'b', 'LineWidth',4); grid; hold on; plot(x3,y1, 'g', 'LineWidth',4);

Рис.8.1. Прогноз второй (ненаблюдаемой) компоненты по первой (наблюдаемой)

Рис.8.2. Прямые среднеквадратической регрессии компонент друг на друга

Задачи

  1. Сформировать 3-мерную выборку из нормального закона (a,S) с заданными параметрами
  2. Построить оптимальный среднеквадратический прогноз третьей (ненаблюдаемой) компоненты по двум первым (наблюдаемым)

Пример выполнения работы

Лабораторная работа 9
clear; clc; clf; s1=1; s2=0.5; s3=0.3; r12=0.8; r13=0.9; r23=0.75; S=[s1^2 r12*s1*s2 r13*s1*s3; r12*s1*s2 s2^2 r23*s2*s3; r13*s1*s3 r23*s2*s3 s3^2]; n=100; X0=randn(n,3); X=X0*sqrtm(S); SS=cov(X); Sxx=SS(1:2,1:2); Sxy=SS(1:2,3); Syy=SS(3,3); y=X(:,3)'; y1=Sxy'*inv(Sxx)*X(:,1:2)'; plot(y, 'LineWidth',2); grid; hold on; plot(y1, 'r', 'LineWidth',2); S1xx=S(1:2,1:2); S1xy=S(1:2,3); S1yy=S(3,3); y2=S1xy'*inv(S1xx)*X(:,1:2)'; %hold on; plot(y2,'g','LineWidth',2); cov(y1-y) cov(y2-y)

Рис.9.1. Прогноз третьей (ненаблюдаемой) компоненты по первым двум (наблюдаемым)

 

В ЛИНЕЙНОЙ МОДЕЛИ ИЗМЕРЕНИЙ

  Предположим, что вектор результатов измерений Y =[ y 1,…, yn ] T имеет следующую структуру:

Y = A Θ+ E,                                                                  (10.1)

где Θ = [ θ 1,…, θr ] T – вектор неизвестных, но вполне определенных параметров, подлежащий оцениванию; A = [ aij ] – известная матрица размерности n × r, rn, имеющая максимально возможный ранг r; E =[ ε 1,…, εn ] T – вектор случайных погрешностей измерений. Предположим, что компоненты вектора E – независимые случайные величины со средним 0 и дисперсией σ 2: ME =0, cov(E)= σ 2 I, где I – единичная матрица. Такая схема связи результатов измерений (откликов) и неизвестных параметров (факторов) называется линейной моделью измерений.

   Будем искать оценку вектора Θ из условия

Такой подход к оцениванию неизвестных параметров называется методом наименьших квадратов (МНК). Найдем производную  по правилам, обсуждавшимся в разд.6, и приравняем ее нулю:

откуда

                                    (10.2)

 Оценка является линейной функцией результатов измерений Y, т.е. случайной величиной. Рассмотрим ее вероятностные характеристики.

Таким образом,  является несмещенной оценкой параметра Θ. Матрица (ATA)-1 является симметричной, поэтому

.

Если вектор случайных погрешностей измерений E является гауссовым,  то как линейная функция гауссового вектора подчиняется r -мерному нормальному закону:

                                                      (10.3)

Если дисперсия σ2 неизвестна, то можно использовать ее несмещенную оценку

                                        (10.4)

которая в гауссовом случае оказывается независимой от .

    В гауссовом случае оценка по МНК является оценкой максимального правдоподобия и, тем самым, обладает целым рядом важнейших свойств эффективности. В негауссовых ситуациях при весьма общих предположениях о законе распределения погрешностей измерений она остается эффективной в классе оценок, линейных по y 1,…, yn, но, например, соотношение (10.3) выполняется лишь асимптотически при



Поделиться:


Последнее изменение этой страницы: 2020-12-19; просмотров: 87; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.17.110.58 (0.17 с.)