Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ

Основные гипотезы, свойства оценок

⇐ ПредыдущаяСтр 2 из 5Следующая ⇒

Применение основной модели линейной регрессии корректно, если выполня- ются следующие гипотезы:

g 1. Между переменными x и z существует линейная зависимость, и (7.10) является истинной моделью, т.е., в частности, правильно определен набор факторов z — модель верно специфицирована.

g 2. Переменные z детерминированы, наблюдаются без ошибок и линейно независимы.

g3. E (ε) = 0.

g4. E (εεt) = σ2 IN .

Гипотеза g 2 является слишком жесткой и в экономике чаще всего нарушается. Возможности ослабления этого требования рассматриваются в следующей главе. Здесь можно заметить следующее: в тех разделах математической статистики, в ко- торых рассматривается более общий случай, и z также случайны, предполагается, что ε не зависит от этих переменных-регрессоров.

7.2. Основные гипотезы, свойства оценок 227

В этих предположениях a относится к классу линейных оценок, поскольку

a = LX, (7.26)

где L

(7. 13)

= (Z t Z)− Z t — детерминированная матрица размерности (n + 1) × N,

и доказывается ряд утверждений о свойствах этих МНК-оценок.

1) a — несмещенная оценка α.

Действительно:

(7. 26), g1

a = L (Z α + ε) = LZ α + L ε

LZ = I n +1

= α + L ε (7.27)

E (a)

= α.

2) Ее матрица ковариации Ma удовлетворяет следующему соотношению:

в частности,

1 2

M a = N σ M

−1 , (7.28)

σ2 1 2 2

a j = N m − , j = 1 ,..., n + 1 (σ

a n +1

≡ σ b),

где m −1 — j -й диагональный элемент матрицы M −1.

Действительно:

(7. 27) g 4

−1 1

Ma = E ((a − α)(a − α)r)

= E (L εεr L r) = σ2 LL r = σ2 (Z r Z)

= σ2 M −1.

Этот результат при n = 1 означает, что σ2 = σ

, и его можно получить, исполь-

a N s 2

зуя формулу (5.17) распространения ошибок первичных измерений.

zi − z ¯

Действительно, a =  d i (x i − x ¯), где d i = 

(zi − z ¯)2

. Тогда

∂ a 1

−

 d + d = d

∂ x i

N l i i l =1

←−−=−0−−→

и в соответствии с указанной формулой:

σ2 2  2

 (zi − z ¯)2

σ 2

σ 2 1

a = σ

d i = σ

 (zi − z ¯)2

2 =  (z

= .

i −

z ¯)2 N s 2

228 Глава 7. Основная модель линейной регрессии

Здесь важно отметить следующее.

Данная формула верна и в случае использования исходной или сокращенной за- писи уравнения регрессии, когда M — матрица ковариации регрессоров. Это сле- дует из (7.17). Но в такой ситуации она (эта формула) определяет матрицу ковариа- ции только оценок коэффициентов регрессии при объясняющих переменных, а дис-

персию оценки свободного члена можно определить по формуле σ2.1 + z ¯t M −1 z ¯.,

как это следует также из (7.17).

Следует также обратить внимание на то, что несмещенность оценок при учете только что полученной зависимости их дисперсий от N свидетельствует о состоя- тельности этих оценок.

Иногда формулу (7.28) используют в другой форме:

M a = σ2 . Z t Z. −1 . (7.29)

3) Несмещенной оценкой остаточной дисперсии σ2 является

s ˆ2 = N

s 2 = 1

e t e. (7.30)

e N − n − 1 e

N − n − 1

Для доказательства этого факта сначала устанавливается зависимость МНК-оценок ошибок от их истинных значений, аналогично (5.10):

e = X − Za

g 1, (7. 27)

= Z α + ε − Z (α + L ε) = (IN − ZL) ε = B ε, (7.31)

и устанавливаются свойства матрицы B (аналогично тому, как это делалось в п. 5.1)

B = IN − ZL = IN − Z (Z r Z)−1 Z r = IN −

Эта матрица:

а) вещественна и симметрична: B r = B,

ZM −1 Z r . (7.32)

б) вырождена и имеет ранг N − n − 1, т.к. при любом ξ ƒ= 0 выполняется B Z ξ = 0

(7. 32)

(поскольку BZ

= 0), а в множестве Z ξ в соответствии с g 2 имеется точно n +1

линейно независимых векторов, в) идемпотентна: B 2 = B,

г) положительно полуопределена в силу симметричности и идемпотентности:

ξr B ξ = ξr B 2ξ = ξr B r B ξ “ 0.

Теперь исследуется зависимость остаточной дисперсии от σ2 :

1 (7. 31) 1 1

s 2

e = N e r e =

εr B r B ε = εr B ε,

N N

E. s 2. = 1 E (εr B ε) g = 4 σ

tr (B) , (7.33)



e N N ←−−→

b ii

7.2. Основные гипотезы, свойства оценок 229

где tr(·)— операция следа матрицы, результатом которой является сумма ее диаго- нальных элементов.

Далее, в силу коммутативности операции следа матрицы

tr (B) = tr (IN ) − tr (ZL) = N − tr (LZ) = N − n − 1.

←−→

n +1

(См. Приложение A.1.2.)

Таким образом, E. s 2. = N − n − 1 σ2 , и E  1



e r e = σ2.

e N

Что и требовалось доказать.

N − n − 1

Тогда оценкой матрицы ковариации Ma является (в разных вариантах расчета)

s ˆ2

e M −1 =

e t e

N (N − n − 1)

M −1 =

e t e

N − n − 1

. Z t Z

.−1 , (7.34)

и, соответственно, несмещенными оценками дисперсий (квадратов ошибок) оценок параметров регрессии:

s ˆ2

= e t e

m −1, j = 1 ,..., n + 1 (s 2

s 2) . (7.35)

a j N (N − n − 1) jj

a n +1 ≡ b

4) Дисперсии a являются наименьшими в классе линейных несмещенных оце- нок, т.е. оценки a относятся к классу BLUE (см. п. 5.1). Это утверждение называ- ется теоремой Г а усса — Маркова.

Доказательство этого факта будет проведено для оценки величины c rα, где c — любой детерминированный вектор-столбец размерности n + 1. Если в качестве c выбирать орты, данный факт будет относиться к отдельным параметрам регрессии.

(7. 26)

МНК-оценка этой величины есть c r a

= c r LX, она линейна, не смещена,

т.к. E (c r a) = c rα, и ее дисперсия определяется следующим образом:

(7. 28) σ2

v ar (c r a) =

c r M −1 c. (7.36)

Пусть d r X — любая линейная оценка c rα, где d — некоторый детерминированный

вектор-столбец размерности N.

E (d r X) g = 1

E (d r Z α + d rε) g = 3

d r Z α , (7.37)

и для того, чтобы эта оценка была несмещенной, т.е. чтобы d r Z α = c rα, необходимо

d r Z = c r . (7.38)

230 Глава 7. Основная модель линейной регрессии

Из (7.37) следует, что d r X = E (d r X)+ d rε, и тогда

v ar (d r X) = E ((d r X − E (d r X))2) = E (d rεεr d)

←−−−− d r−ε−−−→

g = 4 σ2 d r d. (7.39)

И, наконец, в силу положительной полуопределенности матрицы B (из (7.32)):

v ar (d r X) − v ar (c r a)

(7. 36, 7. 40)

= σ d r d −

σ c r M −1 c N

(7. 38)

= σ2 d r



IN −

1 ZM −1 Z r d

(7. 32)

= σ d r Bd “ 0,

т.е. дисперсия МНК-оценки меньше либо равна дисперсии любой другой оценки в классе линейных несмещенных.

Что и требовалось доказать.

Теперь вводится еще одна гипотеза:

g 5. Ошибки ε имеют многомерное нормальное распределение:

ε ∼ N 0, σ2 I N  .

(Поскольку по предположению g 4 они некоррелированы, то по свойству мно- гомерного нормального распределения они независимы).

Тогда оценки a будут также иметь нормальное распределение:

a ∼ N (α, M a) , (7.40)

в частности,

α j

a j ∼ N 

a j

, σ2  , j = 1 ,..., n + 1 (a n +1 ≡ b, α n +1 ≡ β),

они совпадут с оценками максимального правдоподобия, что гарантирует их со- стоятельность и эффективность (а не только эффективность в классе линейных несмещенных оценок).

Применение метода максимального правдоподобия в линейной регрессии рас- сматривается в IV-й части книги. Здесь внимание сосредоточивается на других важных следствиях нормальности ошибок.

Поскольку

a j − α j N (0, 1) , (7.41)

σ a j

для α j можно построить (1 − θ)100-процентный доверительный интервал:

a j

α j ∈.

± σ a j

εˆ1−θ .

(7.42)

7.2. Основные гипотезы, свойства оценок 231

Чтобы воспользоваться этой формулой, необходимо знать истинное значение остаточной дисперсии σ2, но известна только ее оценка. Для получения соответ- ствующей формулы в операциональной форме, как и в п. 5.1, проводятся следую- щие действия.

Сначала доказывается, что

e t e 2

σ2 ∼ χ N − n −1 . (7.43)

Это доказательство проводится так же, как и в пункте 5.1 для (5.9). Только теперь матрица B, связывающая в (7.31) оценки ошибок с их истинными значениями, имеет ранг N − n − 1 (см. свойства матрицы B, следующие из (7.32)), а не N − 1, как аналогичная матрица в (5.10).

Затем обращается внимание на то, что e и a не коррелированы, а значит, не коррелированы случайные величины в (7.41, 7.43).

Действительно (как и в 5.1):

a − α

(7. 27)

= L ε

(7. 31)

g4 −1

co v (a, e) = E ((a − α) e r)

Что и требовалось доказать.

= E (L εεr B) = σ2 (Z r Z)

Z r B

←=−0→

= 0.

Поэтому по определению случайной величины, имеющей t -распределение:

√

σ.

(a j − α j ) N,

e t e

2 / (N − n − 1)

(7. 35)

aj − α j

∼ t N − n −1. (7.44)

−1 σ

s ˆ a j

Таким образом, для получения операциональной формы доверительного интер- вала в (7.42) необходимо заменить σ aj на s ˆ a j и εˆ1−θ на t ˆ N − n −1, 1−θ :

α j ∈.

± s ˆ t .

(7.45)

a j a j ˆ N − n −1, 1−θ .

Полезно заметить, что данный в этом пункте материал обобщает результаты, полученные в п. 5.1. Так, многие приведенные здесь формулы при n = 0 пре- образуются в соответствующие формулы п. 5.1. Полученные результаты можно использовать также и для проверки гипотезы о том, что α j = 0 (нулевая гипотеза).

232 Глава 7. Основная модель линейной регрессии

Рассчитывается t -статистика

t c

a j, (7.46)

s ˆ

j =

a j

которая в рамках нулевой гипотезы, как это следует из (7.44), имеет t -распреде- ление.

Проверка нулевой гипотезы осуществляется по схеме, неоднократно применя- емой в I части книги. В частности, если уровень значимости t -статистики sl (напо-

минание: sl таково, что tc = tN

− n −

1, sl) не превышает θ (обычно 0. 05), то нулевая

гипотеза отвергается с ошибкой (1-го рода) θ и принимается, что α j ƒ= 0. В про-

тивном случае, если нулевую гипотезу не удалось отвергнуть, считается, что j -й

фактор не значим, и его не следует вводить в модель.

Операции построения доверительного интервала и проверки нулевой гипоте- зы в данном случае в определенном смысле эквивалентны. Так, если построенный доверительный интервал содержит нуль, то нулевая гипотеза не отвергается, и на- оборот.

Гипотеза о нормальности ошибок позволяет проверить еще один тип нулевой гипотезы: α j = 0, j = 1 ,..., n, т.е. гипотезы о том, что модель некорректна и все факторы введены в нее ошибочно.

При построении критерия проверки данной гипотезы уравнение регрессии ис- пользуется в сокращенной форме, и условие (7.40) записывается в следующей форме:

. σ2 1.

a ∼ N

α , M − N

, (7.47)

где a и α — вектора коэффициентов при факторных переменных размерности n, M — матрица ковариации факторных переменных. Тогда

N . a t − αt. M (a − α) ∼ χ2 . (7.48)

σ2 n

Действительно:

Матрица M −1 вслед за M является вещественной, симметричной и положительно полуопределенной, поэтому ее всегда можно представить в виде:

M −1 = CC r , (7.49)

где C — квадратная неособенная матрица.

Чтобы убедиться в этом, достаточно вспомнить (6.29) и записать аналогичные со- отношения: M −1 Y = Y Λ, Y r Y = Y Y r = In , Λ “ 0, где Y — матрица, столбцы

7.2. Основные гипотезы, свойства оценок 233

которой есть собственные вектора M −1, Λ — диагональная матрица соответству- ющих собственных чисел. Тогда

M −1 = Y Λ Y r = Y Λ0. 5

Λ0. 5 Y r

(см. Приложение A.1.2). Вектор случайных величин u =

←−− C −→ ←− C −−r →

√ N

−

C −1(a α) обладает следующими свойствами:

по построению E (u) = 0, и в силу того, что

(7. 47) σ2 1

E ((a − α)(a − α)r) =

M −,

− −

cov (u) = E (uu r) = N C −1 E ((a α)(a α)r) C r−1 = C −1 M −1 C r−1 σ2

Следовательно, по определению χ2 случайная величина

u r u = N (a r − αr) C r−1 C −1 (a − α)

(7. 49)

= I n.

σ ←−− M −−−→

имеет указанное распределение (см. Приложение A.3.2).

Как было показано выше, e и a не коррелированы, поэтому не коррелированы случайные величины, определенные в (7.43, 7.48), и в соответствии с определением случайной величины, имеющей F -распределение:

, e t e

σ2

N. a t − αt. M (a − α) (N − n − 1)

Отсюда следует, что при нулевой гипотезе α = 0

σ2 n ∼ F n, N − n −1.

или

a t Ma (N − n − 1) (e t e)

(7. 9)

q (N − n − 1)

s 2

s 2 n ∼ F n, N − n −1,

R 2 (N − n − 1) (1 − R 2) n

= F c ∼ F n, N

− n −

1 . (7.50)

Сама проверка нулевой гипотезы проводится по обычной схеме. Так, если зна- чение вероятности pv статистики F c (величина, аналогичная sl для t -статистики) не превышает θ (например, 0. 05), нулевая гипотеза отвергается с вероятностью ошибки θ, и модель считается корректной. В противном случае нулевая гипотеза не отвергается, и модель следует пересмотреть.

234 Глава 7. Основная модель линейной регрессии

⇐ Предыдущая 123 4 5 Следующая ⇒

Статус республик в составе РФ

Понятие финансов, их функции и особенности

Сущность демографической политии

Последнее изменение этой страницы: 2021-01-08; просмотров: 62; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.119.136.9 (0.168 с.)