Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Основные гипотезы, свойства оценок
Применение основной модели линейной регрессии корректно, если выполня- ются следующие гипотезы: g 1. Между переменными x и z существует линейная зависимость, и (7.10) является истинной моделью, т.е., в частности, правильно определен набор факторов z — модель верно специфицирована. g 2. Переменные z детерминированы, наблюдаются без ошибок и линейно независимы. g3. E (ε) = 0. g4. E (εεt) = σ2 IN . Гипотеза g 2 является слишком жесткой и в экономике чаще всего нарушается. Возможности ослабления этого требования рассматриваются в следующей главе. Здесь можно заметить следующее: в тех разделах математической статистики, в ко- торых рассматривается более общий случай, и z также случайны, предполагается, что ε не зависит от этих переменных-регрессоров.
7.2. Основные гипотезы, свойства оценок 227 В этих предположениях a относится к классу линейных оценок, поскольку a = LX, (7.26) где L (7. 13)
и доказывается ряд утверждений о свойствах этих МНК-оценок. 1) a — несмещенная оценка α.
Действительно:
(7. 26), g1 a = L (Z α + ε) = LZ α + L ε и
LZ = I n +1 = α + L ε (7.27)
E (a) g3 = α.
2) Ее матрица ковариации Ma удовлетворяет следующему соотношению:
в частности, 1 2 M a = N σ M −1 , (7.28)
σ2 1 2 2
a n +1 ≡ σ b),
Действительно: (7. 27) g 4 −1 1 Ma = E ((a − α)(a − α)r) = E (L εεr L r) = σ2 LL r = σ2 (Z r Z) = σ2 M −1. N
1 , и его можно получить, исполь-
зуя формулу (5.17) распространения ошибок первичных измерений. zi − z ¯ Действительно, a = d i (x i − x ¯), где d i = (zi − z ¯)2 . Тогда
− N d + d = d ∂ x i N l i i l =1 ←−−=−0−−→
σ2 2 2 (zi − z ¯)2 σ 2 σ 2 1 a = σ d i = σ (zi − z ¯)2 2 = (z = .
228 Глава 7. Основная модель линейной регрессии
Здесь важно отметить следующее. Данная формула верна и в случае использования исходной или сокращенной за- писи уравнения регрессии, когда M — матрица ковариации регрессоров. Это сле- дует из (7.17). Но в такой ситуации она (эта формула) определяет матрицу ковариа- ции только оценок коэффициентов регрессии при объясняющих переменных, а дис-
как это следует также из (7.17). Следует также обратить внимание на то, что несмещенность оценок при учете только что полученной зависимости их дисперсий от N свидетельствует о состоя- тельности этих оценок. Иногда формулу (7.28) используют в другой форме: M a = σ2 . Z t Z. −1 . (7.29) 3) Несмещенной оценкой остаточной дисперсии σ2 является s ˆ2 = N s 2 = 1 e t e. (7.30) e N − n − 1 e N − n − 1 Для доказательства этого факта сначала устанавливается зависимость МНК-оценок ошибок от их истинных значений, аналогично (5.10): e = X − Za g 1, (7. 27) = Z α + ε − Z (α + L ε) = (IN − ZL) ε = B ε, (7.31) и устанавливаются свойства матрицы B (аналогично тому, как это делалось в п. 5.1) 1 B = IN − ZL = IN − Z (Z r Z)−1 Z r = IN − Эта матрица: а) вещественна и симметрична: B r = B, ZM −1 Z r . (7.32) N б) вырождена и имеет ранг N − n − 1, т.к. при любом ξ ƒ= 0 выполняется B Z ξ = 0 (7. 32) (поскольку BZ = 0), а в множестве Z ξ в соответствии с g 2 имеется точно n +1 линейно независимых векторов, в) идемпотентна: B 2 = B, г) положительно полуопределена в силу симметричности и идемпотентности:
ξr B ξ = ξr B 2ξ = ξr B r B ξ “ 0. Теперь исследуется зависимость остаточной дисперсии от σ2 : 1 (7. 31) 1 1 s 2 e = N e r e = εr B r B ε = εr B ε, N N 2 E. s 2. = 1 E (εr B ε) g = 4 σ tr (B) , (7.33)
b ii
7.2. Основные гипотезы, свойства оценок 229
где tr(·)— операция следа матрицы, результатом которой является сумма ее диаго- нальных элементов. Далее, в силу коммутативности операции следа матрицы tr (B) = tr (IN ) − tr (ZL) = N − tr (LZ) = N − n − 1.
n +1
(См. Приложение A.1.2.) Таким образом, E. s 2. = N − n − 1 σ2 , и E 1 e r e = σ2. e N Что и требовалось доказать. N − n − 1 Тогда оценкой матрицы ковариации Ma является (в разных вариантах расчета) s ˆ2 e M −1 = N e t e N (N − n − 1)
M −1 = e t e N − n − 1 . Z t Z .−1 , (7.34) и, соответственно, несмещенными оценками дисперсий (квадратов ошибок) оценок параметров регрессии:
s ˆ2 = e t e m −1, j = 1 ,..., n + 1 (s 2 s 2) . (7.35) a j N (N − n − 1) jj a n +1 ≡ b
4) Дисперсии a являются наименьшими в классе линейных несмещенных оце- нок, т.е. оценки a относятся к классу BLUE (см. п. 5.1). Это утверждение называ- ется теоремой Г а усса — Маркова. Доказательство этого факта будет проведено для оценки величины c rα, где c — любой детерминированный вектор-столбец размерности n + 1. Если в качестве c выбирать орты, данный факт будет относиться к отдельным параметрам регрессии. (7. 26) МНК-оценка этой величины есть c r a = c r LX, она линейна, не смещена, т.к. E (c r a) = c rα, и ее дисперсия определяется следующим образом: (7. 28) σ2 v ar (c r a) = c r M −1 c. (7.36) N
Пусть d r X — любая линейная оценка c rα, где d — некоторый детерминированный вектор-столбец размерности N.
E (d r X) g = 1 E (d r Z α + d rε) g = 3 d r Z α , (7.37)
и для того, чтобы эта оценка была несмещенной, т.е. чтобы d r Z α = c rα, необходимо d r Z = c r . (7.38)
230 Глава 7. Основная модель линейной регрессии
Из (7.37) следует, что d r X = E (d r X)+ d rε, и тогда v ar (d r X) = E ((d r X − E (d r X))2) = E (d rεεr d) ←−−−− d r−ε−−−→ g = 4 σ2 d r d. (7.39)
И, наконец, в силу положительной полуопределенности матрицы B (из (7.32)): v ar (d r X) − v ar (c r a)
= σ d r d −
(7. 38) = = σ2 d r IN − 1 ZM −1 Z r d N (7. 32)
т.е. дисперсия МНК-оценки меньше либо равна дисперсии любой другой оценки в классе линейных несмещенных. Что и требовалось доказать.
Теперь вводится еще одна гипотеза: g 5. Ошибки ε имеют многомерное нормальное распределение: ε ∼ N 0, σ2 I N . (Поскольку по предположению g 4 они некоррелированы, то по свойству мно- гомерного нормального распределения они независимы). Тогда оценки a будут также иметь нормальное распределение: a ∼ N (α, M a) , (7.40)
в частности,
они совпадут с оценками максимального правдоподобия, что гарантирует их со- стоятельность и эффективность (а не только эффективность в классе линейных несмещенных оценок). Применение метода максимального правдоподобия в линейной регрессии рас- сматривается в IV-й части книги. Здесь внимание сосредоточивается на других важных следствиях нормальности ошибок. Поскольку a j − α j N (0, 1) , (7.41) σ a j для α j можно построить (1 − θ)100-процентный доверительный интервал:
± σ a j εˆ1−θ . (7.42)
7.2. Основные гипотезы, свойства оценок 231 Чтобы воспользоваться этой формулой, необходимо знать истинное значение остаточной дисперсии σ2, но известна только ее оценка. Для получения соответ- ствующей формулы в операциональной форме, как и в п. 5.1, проводятся следую- щие действия. Сначала доказывается, что e t e 2 σ2 ∼ χ N − n −1 . (7.43)
Это доказательство проводится так же, как и в пункте 5.1 для (5.9). Только теперь матрица B, связывающая в (7.31) оценки ошибок с их истинными значениями, имеет ранг N − n − 1 (см. свойства матрицы B, следующие из (7.32)), а не N − 1, как аналогичная матрица в (5.10).
Затем обращается внимание на то, что e и a не коррелированы, а значит, не коррелированы случайные величины в (7.41, 7.43).
Действительно (как и в 5.1):
a − α и (7. 27) = L ε
(7. 31) g4 −1 co v (a, e) = E ((a − α) e r)
Что и требовалось доказать. = E (L εεr B) = σ2 (Z r Z) Z r B ←=−0→ = 0.
Поэтому по определению случайной величины, имеющей t -распределение:
e t e 2 / (N − n − 1)
(7. 35) = aj − α j
∼ t N − n −1. (7.44)
jj s ˆ a j
Таким образом, для получения операциональной формы доверительного интер- вала в (7.42) необходимо заменить σ aj на s ˆ a j и εˆ1−θ на t ˆ N − n −1, 1−θ : α j ∈. ± s ˆ t .
(7.45) a j a j ˆ N − n −1, 1−θ .
Полезно заметить, что данный в этом пункте материал обобщает результаты, полученные в п. 5.1. Так, многие приведенные здесь формулы при n = 0 пре- образуются в соответствующие формулы п. 5.1. Полученные результаты можно использовать также и для проверки гипотезы о том, что α j = 0 (нулевая гипотеза).
232 Глава 7. Основная модель линейной регрессии
Рассчитывается t -статистика t c
a j, (7.46)
a j
которая в рамках нулевой гипотезы, как это следует из (7.44), имеет t -распреде- ление. Проверка нулевой гипотезы осуществляется по схеме, неоднократно применя- емой в I части книги. В частности, если уровень значимости t -статистики sl (напо-
− n − 1, sl) не превышает θ (обычно 0. 05), то нулевая гипотеза отвергается с ошибкой (1-го рода) θ и принимается, что α j ƒ= 0. В про- тивном случае, если нулевую гипотезу не удалось отвергнуть, считается, что j -й фактор не значим, и его не следует вводить в модель. Операции построения доверительного интервала и проверки нулевой гипоте- зы в данном случае в определенном смысле эквивалентны. Так, если построенный доверительный интервал содержит нуль, то нулевая гипотеза не отвергается, и на- оборот. Гипотеза о нормальности ошибок позволяет проверить еще один тип нулевой гипотезы: α j = 0, j = 1 ,..., n, т.е. гипотезы о том, что модель некорректна и все факторы введены в нее ошибочно. При построении критерия проверки данной гипотезы уравнение регрессии ис- пользуется в сокращенной форме, и условие (7.40) записывается в следующей форме: . σ2 1. a ∼ N α , M − N , (7.47)
где a и α — вектора коэффициентов при факторных переменных размерности n, M — матрица ковариации факторных переменных. Тогда N . a t − αt. M (a − α) ∼ χ2 . (7.48) σ2 n
Действительно: Матрица M −1 вслед за M является вещественной, симметричной и положительно полуопределенной, поэтому ее всегда можно представить в виде: M −1 = CC r , (7.49) где C — квадратная неособенная матрица. Чтобы убедиться в этом, достаточно вспомнить (6.29) и записать аналогичные со- отношения: M −1 Y = Y Λ, Y r Y = Y Y r = In , Λ “ 0, где Y — матрица, столбцы
7.2. Основные гипотезы, свойства оценок 233 которой есть собственные вектора M −1, Λ — диагональная матрица соответству- ющих собственных чисел. Тогда M −1 = Y Λ Y r = Y Λ0. 5 Λ0. 5 Y r (см. Приложение A.1.2). Вектор случайных величин u = ←−− C −→ ←− C −−r →
√ N
σ по построению E (u) = 0, и в силу того, что (7. 47) σ2 1 E ((a − α)(a − α)r) = M −, N
Следовательно, по определению χ2 случайная величина
(7. 49) = I n. σ ←−− M −−−→ имеет указанное распределение (см. Приложение A.3.2).
Как было показано выше, e и a не коррелированы, поэтому не коррелированы случайные величины, определенные в (7.43, 7.48), и в соответствии с определением случайной величины, имеющей F -распределение: , e t e
Отсюда следует, что при нулевой гипотезе α = 0 σ2 n ∼ F n, N − n −1.
или a t Ma (N − n − 1) (e t e)
(7. 9) = q (N − n − 1)
R 2 (N − n − 1) (1 − R 2) n = F c ∼ F n, N
− n −
1 . (7.50)
Сама проверка нулевой гипотезы проводится по обычной схеме. Так, если зна- чение вероятности pv статистики F c (величина, аналогичная sl для t -статистики) не превышает θ (например, 0. 05), нулевая гипотеза отвергается с вероятностью ошибки θ, и модель считается корректной. В противном случае нулевая гипотеза не отвергается, и модель следует пересмотреть.
234 Глава 7. Основная модель линейной регрессии
|
|||||||||||||||||||||||||||||||||||||||||
Последнее изменение этой страницы: 2021-01-08; просмотров: 62; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.119.136.9 (0.168 с.) |