Выборочные уравнения линейной регрессии 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Выборочные уравнения линейной регрессии



 

На практике, как правило, иметься только выборка. Например, (),…,().

Эмпирический коэффициент корреляции r является мерой тесноты линейной связи между двумя случайными величинами. С геометрической точки зрения это означает, что чем теснее располагаются точки на диаграмме рассеивания вокруг линии регрессии, тем выше абсолютная величина регрессии и наоборот. На рисунке 1-4 изображены несколько диаграмм рассеивания.

       
   
 
 

 


рис.1 рис.2

 

 

       
   
 
 


рис.3 рис.4

 
 


 

 

Диаграмма на рис.1 указывает на отрицательную функциональную связь (r=-1), на рис.2- на относительно высокую степень положительной корреляции (r≈0,8), на рис.3- умеренную степень отрицательной корреляции (r≈ -0,5), на рис.4 – отсутствие корреляции (r=0). По диаграмме рис.4 видно, что если коэффициент корреляции равен 0, то независимо от того, чему равна величина переменной X, оцениваемая величина зависимой переменной всегда равна .

Сначала, для построения диаграммы рассеивания строят корреляционное поле, т.е. наносят на плоскость все точки.

Если видят, что точки имеют тенденцию к линейной

зависимости, начинают строить линейную регрессию.

 

рис.5

 

 

 
 


Если же точки расположены как на рис.6, то строят

параболическую регрессию и уравнение вида параболы.

Обозначим а=МХ, в=МУ, =DX, =DY,

r= . Т.к. наши параметры неизвестны, то

вместо них логично взять их оценки:

 

рис.6 ,

 

; ;

cov(X,Y)=M[(X-MX)(Y-MY)]; cov(X,Y)≈ .Коэффициент корреляции r=

Подставляя в уравнение линейной регрессии оценки, получаем:

-выборочное уравнение линейной регрессии Y на X.

 

- выборочное уравнение линейной регрессии X на Y.

 

Метод наименьших квадратов.

 

Эти уравнения можно получить методом наименьших квадратов:

, где -некоторая ошибка измерений,

 

Метод наименьших квадратов или метод Гаусса сводиться к тому, что коэффициенты и нужно искать из того, что сумма квадратов ошибок стремиться к минимуму, т.е.

→min по всем наблюдениям.

Для этого составляется функция F()= .

Берутся частные производные от F() по и и приравнивают их к 0.

Составляется система из 2-х уравнений с 2-мя неизвестными, откуда и находятся и

Следовательно, получаем уравнение линейной регрессии Y на X:

 
 


Дисперсионный анализ

 

Опр: Дисперсионным анализом называют статистический метод анализа результатов измерений, зависящих от различных одновременно действующих факторов.

Ограничимся рассмотрением простейшего случая, когда действует один фактор. Пусть, например, выборка разбита на r групп, причем i-я группа содержит величин Предположим, что все указанные величины распределены нормально и , j=1,…, ; i=1,…,r.

Нам нужно проверить гипотезу, согласно которой .

В физической постановке эта задача выглядит так: одна и та же величина a измеряется r различными приборами, имеющими одинаковую точность. Нас интересует, имеют ли приборы различные систематические ошибки. В рассматриваемом примере исследуется влияние одного фактора(прибора) на погрешность измерения. Введем следующие обозначения: , , n=

Групповые средние являются несмещенными и состоятельными оценками величин .

Если все одинаковы, то общая средняя не должна сильно отличаться от групповых. В противном случае разброс относительно должен быть более значительным. Представим общую, или полную, сумму квадратов отклонений:

= (1)

в следующем виде: = (2), где = = . (3)

Равенство (2) следует из (1), если воспользоваться формулами:

Опр: Сумму называют суммой квадратов отклонений “между группами”, - суммой квадратов отклонений “внутри групп”.

По лемме Фишера величина , следовательно, имеет распределение степенями свободы.

Можно показать, что если , то и независимы и . Следовательно, при величина

. (4)

 

имеет распределение Фишера с r-1, n-r состояниями свободы. Величина (4) может быть использована для проверки гипотезы о равенстве математических ожиданий

. Если эта гипотеза верна, то и являются состоятельными оценками одной и той же случайной величины а и, следовательно, близки между собой, а величина мала. Если различны, то и сближаются с разными математическими ожиданиями:

,

и, следовательно, сумма должна принимать большие значения. Независимо от предложения о равенстве ,знаменатель в (4) остается оценкой σ². Это означает, что при увеличении расхождения между величина (4) в среднем должна принимать большие значения. Статистический критерий формулируется следующим образом: если , то гипотеза отвергается. Здесь С определяется по таблице распределения Фишера с уровнем значимости

 

 



Поделиться:


Последнее изменение этой страницы: 2016-07-11; просмотров: 369; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 13.58.244.216 (0.017 с.)