Тема 4. Множественный регрессионный анализ 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Тема 4. Множественный регрессионный анализ



4.1 Спецификация модели множественной регрессии

4.2 Вычисление параметров линейной множественной регрессионной модели при помощи МНК.

4.3 Оценка влияния различных факторов на зависимую переменную

4.4 Оценка качества множественных регрессионных моделей

4.5 Мультиколлинеарность и методы ее устранения

4.6 Проблемы построения качественной регрессионной модели

Основные положения

Множественная регрессионная модель (множественная регрессия) представляет собой модель, связывающую несколько независимых (объясняющих) переменных с одной результативной. Общий вид модели, включающей m независимых переменных:

(4.1)

Обычно рассматривают линейную модель, поскольку, как было показано в предыдущей теме, большинство нелинейных моделей достаточно легко сводятся к линейной путем линеаризации. Спецификация модели линейной множественной регрессии имеет вид:

(4.2)

Уравнение линейной множественной регрессии будет выглядеть следующим образом:

(4.3)

В случае применения множественного регрессионного анализа особое внимание следует уделить вопросам отбора переменных для анализа. Для этого используются два подхода: «сверху вниз» и «снизу вверх». Достоинства и недостатки каждого подхода были рассмотрены в теме 1, поэтому мы сразу затронем вопрос практической их реализации. На первом этапе построения модели составляется матрица корреляции размером (m+1) x (m+1), где m – общее число всех возможных независимых переменных (факторов). В нее помещаются коэффициенты корреляции между факторами и результативным признаком, а также попарно между всеми факторами. В ячейке rij указывается коэффициент корреляции между i -м и j -м фактором. Эта матрица будет симметричной относительно главной диагонали, причем на диагонали будут значения, равные 1:

(4.4)

После этого в модель включаются факторы, для которых значение rij по модулю больше заданного критического значения. Обычно критическое значение устанавливают на уровнях 0.5 – 0.9. В то же время не следует включать в модель переменные, между которыми наблюдается тесная взаимосвязь (высокие значения rij в соответствующей ячейке). невыполнение этого условия может привести к некорректному построению модели (см. мультиколлинеарность).

По аналогии с парной регрессией для определения параметров множественной регрессии могут использоваться различные методы, однако чаще всего применяется МНК. Для его применения необходимо выполнение следующих предпосылок:

1. Математическое ожидание случайного отклонения равно 0 для всех наблюдений M(ε)=0

2. Дисперсия случайных отклонений постоянна

3. Случайные отклонения независимы друг от друга

4. Случайное отклонение независимо от объясняющих переменных регрессионной модели:

5. Модель линейна относительно параметров

6. Отсутствие сильной взаимозависимости между объясняющими переменными

7. Случайные ошибки имеют нормальное распределение

При выполнении перечисленных предпосылок неизвестные коэффициенты уравнения регрессии a1, a2, … am найдутся из решения системы уравнений:

(4.5)

где количество уравнений совпадает с числом переменных (m+1), а суммирование осуществляется по выборке из n единиц.

Эта система может быть решена либо каким-нибудь из вычислительных методов линейной алгебры (например, методом Жордана-Гаусса), либо при помощи компьютера (в частности, такая функция реализуется в MS Excel).

Для множественной регрессионной модели актуален вопрос о том, какова сила влияния различных факторов на значение зависимой переменной. Для этого используются два основных метода. Первый основан на построении регрессионной модели в стандартизированной форме, второй – на расчете частных коэффициентов эластичности.

Для преобразования модели к стандартизованной форме осуществляют переход к новым переменным:

(4.6)

уравнение множественной регрессии примет вид:

(4.7)

Оценив параметры этой модели по МНК, по значениям параметров βj при каждой переменной мы можем сделать вывод о сравнительной силе влияния различенных факторов. Большее значение коэффициента говорит о большей силе влияния соответствующего фактора на зависимую переменную, положительное значение – о прямом влиянии, отрицательное – об обратном.

Частные коэффициенты эластичности рассчитываются по формулам:

(4.8)

Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении зависимой на 1 процент и неизменности действия прочих факторов.

Оценка качества построенной модели проводится по тем же этапам, что и для парной регрессии (см. рис. 3.4):

1. Анализ адекватности модели в целом

2. Анализ точности определения оценок коэффициентов регрессии (расчет их дисперсии и стандартного отклонения)

3. Проверка статистической значимости коэффициентов регрессии

4. Интервальная оценка коэффициентов регрессионного уравнения

5. Определение доверительных интервалов для зависимой переменной

Логика всех этапов аналогична парной регрессии.

1. Оценка адекватности модели в целом осуществляется на основе расчета коэффициента детерминации (см. формулы 3.26 – 3.28) и скорректированного коэффициента детерминации , рассчитываемого по формуле:

(4.9)

После несложных преобразований получаем выражение для через :

(4.10)

из последней формулы видно, что скорректированный коэффициент детерминации меньше обычного коэффициента детерминации и, следовательно, является более строгим показателем связи, чем .

Отметим, что корректировка может производиться, только если выполняется соотношение:

(4.11)

После определения значения коэффициента детерминации следует проанализировать его статистическую значимость. Статистическая значимость проверяется путем проверки гипотезы о равенстве коэффициента детерминации 0. Если гипотеза отвергается, то делается вывод о том, что коэффициент детерминации отличен от 0 и статистически значим. Для проверки используют F-статистику:

(4.12)

Полученное фактическое значение сравнивают с критическим Fα; m; n-m-1, если оно оказывается больше критического, то нулевая гипотеза отвергается и делается вывод о статистической значимости коэффициента детерминации и существенности построенной модели. В противном случае модель нельзя использовать на практике.

Для множественной регрессии оценка качества модели в целом также может осуществляться с использованием средней ошибки аппроксимации:

 

(4.13)

Если значение превышает 0,15 (15%), то модель недостаточно хорошо описывает фактические данные.

2. Расчет дисперсии коэффициентов регрессионного уравнения. Точный расчет производится с использованием элементов матричной алгебры и отводится на самостоятельное изучение. Приближенное же вычисление дисперсии можно осуществить по формуле:

(4.14)

где Ri –коэффициент полной корреляции i-й переменной с остальными независимыми переменными (может быть определен как корень квадратный коэффициента детерминации регрессионной модели , где j не равно i).

Покажите, при помощи каких расчетов оценивается статистическая значимость параметров уравнения множественной регрессии и строится доверительный интервал для зависимой переменной?

 

Рассмотрим одну из существенных проблем, возникающих при применении множественного регрессионного анализа – мультиколлинеарности. Под мультиколлинеарностью понимают тесную линейную взаимосвязь объясняющих переменных (рис. 4.1 и 4.2). Термин мультиколлинеарность введен Р. Фришем.

 

Рис. 4.1 Мультиколлинеарность между x1 и x2
a) мультиколлиенеарности нет; b) умеренная мультиколлиенарность;
с) сильная мультиколлинеарность;
d) совершенная мультиколлинеарность

 

В случаях, проиллюстрированных на рис. 4.1 a) и b) в модель можно включать обе независимые переменные, а в случаях с) и d) –только одну из двух переменных.

Проблема мультиколлинеарности связана, прежде всего, со следующими ее последствиями (рис. 4.2).

1. Высокие значения дисперсии оценок коэффициентов, что приводит к ухудшению точности их интервальных оценок, а также уменьшению t-статистик коэффициентов, что может привести к неправильному выводу о несущественности влияния независимой переменной на зависимую.

2. Оценки коэффициентов, полученные по МНК, становятся очень чувствительными к изменениям исходных данных.

 

Рис. 4.2 Причины, последствия, методы обнаружения и устранения мультиколлинеарности

3. Затрудняется измерение вклада каждой из объясняющих переменных в объясняемую уравнением регрессии дисперсию зависимой переменной.

4. Возможно получение неверного знака у коэффициента перед объясняющей переменной.

В то же время при достаточно высоких значениях коэффициента детерминации в моделях, построенных для цели прогнозирования, мультиколлинеарность не является достаточно серьезной проблемой, и построенные модели вполне могут быть использованы на практике.

Проблема мультиколлинеарности обязательно должна быть решена в том случае, если целью модели является анализ характера влияния различных факторов на зависимую переменную.

Мультиколлиеарность можно определить при помощи следующих методов:

1. Анализ значений коэффициентов корреляции между объясняющими переменными. Высокие коэффициенты корреляции между объясняющими переменными

2. Сопоставление коэффициента детерминации и статистической значимости коэффициентов в модели. Коэффициент детерминации модели достаточно высок, но некоторые из коэффициентов в модели статистически незначимы.

3. Анализ вспомогательной регрессии – регрессии между объясняющими переменными. Для обнаружения регрессионной зависимости между объясняющими переменными строятся регрессионные модели типа:

, (4.14)

где j не равно i

для каждой объясняющей переменной.

Затем при помощи критерия Фишера (F-статистики) проверяется ее статистическая значимость:

(4.15)

Полученное значение сравнивается с критическим Fα; m-1; n-m. Если значение Fi оказывается больше критического, то делается вывод о том, что i -я независимая переменная является линейной комбинацией других и, следовательно, в модели присутствует мультиколлинеарность.

4. Анализ определителя матрицы корреляции независимых переменных.

Этот метод основан на том, что матрица, составленная из коэффициентов корреляции между объясняющими переменными, в случае отсутствия мультиколлинеарности имела бы определитель, равный единице (4. 11):

(4.16)

При существовании мультиколлинеарности коэффициенты отличны от 0 (изменяются в пределах от –1 до 1), и определитель матрицы становится меньше. В случае совершенной мультиколлинеарности он равен 0:

(4.17)

Обнаружить мультиколлинеарность можно, проверив статистическую гипотезу по поводу равенства 1 определителя этой матрицы:

H0: det M = 1 (4.18)

Проверка осуществляется на основе критерия χ2(хи –квадрат). Доказано, что величина:

(4.19)

имеет распределение χ2 с степенями свободы. Расчетное значение сравнивается с табличным (приложение 6), и если расчетное значение оказывается больше, то считается, что мультиколлинеарность имеет место.

Рассмотрим методы устранения мультиколлинеакрности.

1. Исключение коррелированных переменных из модели. Это наиболее простой способ борьбы с мультиколлинеарностью. Однако в этом случае возможны серьезные проблемы, связанные с тем, что полученные по упрощенной модели оценки будут смещенными.

2. Получение дополнительных данных или проведение нового наблюдения. Часто мультиколлинеарность проявляется вследствие неполноты данных, и при расширении выборки существенно уменьшается. Однако этот подход связан со значительными издержками, и, кроме того, может быть связан с появлением такого нежелательного явления, как автокорреляция.

3. Изменение спецификации модели. Может быть осуществлено как при помощи изменения аналитического выражения модели, так и путем добавления новых переменных, оказывающих существенное влияние на зависимую переменную. Этот метод целесообразно применять, если добавляемая переменная является «полезной», то есть существенно улучшает качество модели.

4. Использование предварительной информации о значениях некоторых параметров. Иногда значения некоторых неизвестных параметров модели могут быть определены по пробным выборочным наблюдениям, тогда мультиколлинеарность может быть устранена путем установления значений параметра у одной коррелирующих переменных. Ограниченность метода – в сложности получения предварительных значений параметров с высокой точностью.

5. Преобразование переменных. Для устранения мультиколлинеарности можно преобразовать переменные, например, путем линеаризации или получения относительных показателей, а также перехода от номинальных к реальным показателям (особенно в макроэкономических исследованиях).

При построении модели множественной регрессии с точки зрения обеспечения ее высокого качества возникают следующие вопросы:

1. Каковы признаки качественной модели?

2. Какие ошибки спецификации могут быть?

3. Каковы последствия ошибок спецификации?

4. Какие существуют методы обнаружения и устранения ошибок спецификации?

Рассмотрим основные признаки качественной модели множественной регрессии:

1. Простота. Из двух моделей примерно одинаковых статистических свойств более качественной является та, которая содержит меньше переменных, или же более простая по аналитической форме.

2. Однозначность. Метод вычисления коэффициентов должен быть одинаков для любых наборов данных.

3. Максимальное соответствие. Этот признак говорит о том, что основным критерием качества модели является коэффициент детерминации, отражающий объясненную моделью вариацию зависимой переменной. Для практического использования выбирают модель, для которой расчетное значение F-критерия для коэффициента детерминации б четыре раза больше табличного.

4. Согласованность с теорией. Получаемые значения коэффициентов должны быть интерпретируемы с точки зрения экономических явлений и процессов. К примеру, если строится линейная регрессионная модель спроса на товар, то соответствующий коэффициент при цене товара должен быть отрицательным.

5. Хорошие прогнозные качества. Обязательным условием построения качественной модели является возможность ее использования для прогнозирования.

Одной из основных ошибок, допускаемых при построении регрессионной модели, является ошибка спецификации (рис. 4.3). Под ошибкой спецификации понимается неправильный выбор функциональной формы модели или набора объясняющих переменных.

Различают следующие виды ошибок спецификации:

1. Невключение в модель полезной (значимой) переменной.

2. Добавление в модель лишней (незначимой) переменной

3. Выбор неправильной функциональной формы модели

Последствия ошибки первого вида (невключение в модель значимой переменной) заключаются в том, что полученные по МНК оценки параметров являются смещенными и несостоятельными, а значение коэффициента детерминации значительно снижаются.

При добавлении в модель лишней переменной (ошибка второго вида) ухудшаются статистические свойства оценок коэффициентов, возрастают их дисперсии, что ухудшает прогнозные качества модели и затрудняет содержательную интерпретацию параметров, однако по сравнению с другими ошибками ее последствия менее серьезны.

Если же осуществлен неверный выбор функциональной формы модели, то есть допущена ошибка третьего вида, то получаемые оценки будут смещенными, качество модели в целом и отдельных коэффициентов будет невысоким. Это может существенно сказаться на прогнозных качествах модели.

Ошибки спецификации первого вида можно обнаружить только по невысокому качеству модели, низким значениям R2.

Обнаружение ошибок спецификации второго вида, если лишней является только одна переменная, осуществляется на основе расчета t - статистики для коэффициентов. При лишней переменной коэффициент будет статистически незначим.

Рис. 4.3 Ошибки спецификации и свойства качественной регрессионной модели

Если же таких переменных несколько, целесообразно прибегнуть к сравнению значений коэффициентов детерминации модели до и после исключения из модели переменных, которые считаются лишними, при помощи расчета F-критерия по формуле:

(4.20)

где m1 – число объясняющих переменных в первоначальном уравнении, m2 – число объясняющих переменных в уравнении после отброса лишних переменных.

Полученное значение сравнивается с критическим F α;m1–m2;nm1–1. Если расчетное значение меньше, то считается, что исключенные из модели переменные являются лишними.

Ошибки третьего вида можно обнаружить только при помощи содержательной интерпретации модели или визуально анализируя данные или по наличию гетероскедастичности (см. тему 7).

Комплексный анализ ошибок спецификации можно провести, выполнив один или несколько из следующих тестов:

1) Тест Рамсея (Regression specification error test – RESET);

2) Тест максимального правдоподобия (The Likelihood Ratio test);

3) Тест Валда (The Wald test);

4) Тест множителя Лагранжа (The Lagrange multiplier test);

5) Тест Хаусманна (The Hausmann test)

6) Преобразование Бокса-Кокса (Box-Cox transformation)

 

Вопросы для самоконтроля

1. Дайте определение множественной регрессионной модели.

2. Каким образом осуществляется выбор переменных, включаемых в модель?

3. Выполнение каких предпосылок необходимо для применения МНК?

4. Какое количество уравнений в системе, решение которой дает оценку параметров МНК?

5. Какие особенности оценки качества модели множественной регрессии Вы можете назвать?

6. Каким образом оценивается статистическая значимость коэффициента детерминации?

7. Что такое мультиколлинеарность?

8. Какие последствия мультиколлинеарности Вы знаете?

9. Перечислите методы определения мультиколлинеарности.

10. Опишите методы устранения мультиколлинеарности.

11. Назовите основные признаки качественной модели.

12. Что такое ошибка спецификации?

13. Какие виды ошибок спецификации Вы знаете? В чем их суть?

14. Каким образом можно обнаружить ошибки спецификации?

15. Перечислите способы ошибок спецификации

Задания и задачи

1. Запишите спецификацию модели множественной линейной регрессии:

a) рыночного спроса

b) рыночного предложения

c) совокупных расходов в кейнсианской модели «доходы - расходы»

d) рациональных ожиданий

e) трансакционных издержек

2. Проведите линеаризацию следующих моделей множественной регрессии:

a)

b)

c)

3. По данным таблицы построить матрицу корреляции и разработать модель множественной регрессии, которая анализирует факторы, влияющие на объемы продаж в магазинах:

Qd (объем спроса) P (цена товара, руб.) L (расстояние от центра города, в км) Pз. (цена товара-заменителя, руб.) t (время существования магазина, лет)
    2.5      
    2.3      
    2.4      
    2.2      
    2.4      
    2.1      
    2.0      
    2.0      
    1.8      
    1.9      
    2.1      
    1.8      

4. Оцените качество полученной в предыдущем задании модели.

5. Оцените статистическую значимость коэффициентов линейной регрессионной модели Qd = f(P,L, Pв3/3,t) из задания 3.

6. Определите наличие (отсутствие) мультиколлинеарности в модели из задания 3 различными методами.

7. Оцените параметры ПФ Кобба-Дугласа по следующим данным:

№ п/п Q L K
1.      
2.      
3.      
4.      
5.      
6.      
7.      
8.      
9.      
10.      

8. Оцените параметры линейной производственной функции, производственной функции Кобба-Дугласа и производственной функции Леонтьева по следующим эмпирическим данным. Какая функция точнее описывает фактическую зависимость?

Объемы производства (Q), млн. руб.

Объем используемого труда (L), человек              
Объем используемого капитала (K), млн. руб.
  78,8 79,5 79,2 81,5 82,7 81,7 84,3
  91,1 92,1 92,0 92,7 93,8 97,4 98,0
  101,7 104,1 104,8 104,7 106,1 110,3 108,4
  112,8 115,3 115,2 116,8 120,1 121,6 120,4
  122,9 125,7 128,1 129,7 131,4 133,5 135,8
  134,5 135,7 139,0 141,9 142,1 142,1 146,5
  144,3 147,6 147,3 153,0 154,7 155,5 156,3

9. Если в результате построенной вспомогательной регрессии в модели (m=5, n=100) получились следующие результаты:

R1 = 0,77

R2 = 0,28

R3 = 0,56

R4 = 0,92

R5 = 0,07

Какие переменные следует исключить из модели и почему?

Тесты

1. Если m – количество объясняющих переменных, а n – количество единиц наблюдения, то в каком из перечисленных случаев регрессионная модель будет, при прочих равных условиях, наилучшего качества?

a) n + m = 12

b) n = 10; m = 45

c) n/m = 12

d) n – m = 10

2. Скорректированный коэффициент детерминации :

a) Всегда >R2

b) Всегда ≥R2

c) Всегда ≤ R2

d) Равен R2при n > 25

3. Входит ли отсутствие мультиколлинеарности в число предпосылок применения МНК для расчета параметров модели множественной регрессии?

a) Входит

b) Не входит

4. Возможен ли расчет доверительного интервала для зависимой переменной в случае множественной регрессионной модели?

a) возможен

b) невозможен

5. Какое слагаемое не может присутствовать в уравнении из системы для расчета параметров множественной регрессии?

a) c)

b) d)

6. Выберите из представленных моделей ту, которая является более качественной (n = 50)

a) R2 = 0,85, m = 4

b) R2 = 0,92, m = 5

c) R2 = 0,90, m = 3

d) R2 = 0,89, m = 3

7. Какая из ошибок спецификации наименее существенно влияет на качество модели?

a) невключение значимой переменной

b) включение незначимой переменной

c) неправильная спецификация

8. В какой модели параметры могут быть определены по МНК?

a) y = α0 + α1x1 + α1x2 + α3x3 + ε

b) y = eα0 + α1x1 + α2x2 + α3x3 + ε

c) y = α0 + ln(x1α1 + x2α2) + ε

d) y = ln(α01x12x2+ε)

9. Какой размер имеет матрица корреляций?

a) m*m

b) m*n

c) (m + n) * (m + n)

d) (m + 1) * (m + 1)

10. Сумма диагональных элементов матрицы корреляции равна:

a) m+1

b) n

c) 2m

d) m + n

11. Какая из представленных формул предназначена для расчета ?

a)

b)

c)

d)

12. Если мультиколлинеарность отсутствует, то определитель матрицы, составленной из коэффициентов корреляции независимых переменных, равен:

a) 0

b) 1

c) числу независимых переменных

13. На основе какого статистического критерия оценивается существенность добавления в модель переменной на основе сравнения коэффициентов детерминации?

a) t-критерий Стьюдента

b) F-критерий Фишера

c) критерий хи-квадрат

 

14. Какое значение коэффициента детерминации свидетельствует о том, что модель с 7-ю объясняющими переменными, основанная на анализе 30 единиц, статистически значима на 5%- уровне (F0,05;6;20 = 2,60)?

a) 0,4 и больше

b) 0,5 и больше

c) 0,6 и больше

d) 0,7 и больше

Список литературы

1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. Учебник для вузов. – М.ЮНИТИ, 1998. – с. 515 – 590; 621 – 672.

2. Бородич С.А. Эконометрика: Учебное пособие. – Мн.: Новое знание, 2001. – с. 154 – 191; 271 – 280

3. Доугерти К. Введение в эконометрику: Пер. с англ. – М.: ИНФРА-М, 1999. – XIV, с. 134 – 200

4. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для вузов / Под ред. Проф. Н.Ш. Кремера. – М.: ЮНИТИ-ДАНА, 2002. – с. 82 – 100; 108 – 115; 124 – 130; 243 - 256

5. Кулинич Е.И. Эконометрия. – М.: Финансы и статистика, 2001. с. 83 – 89

6. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. 2-е изд. – М.: Дело, 1998. – с. 43 – 69; 74 – 90

7. Практикум по эконометрике: Учебное пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2002. – с. 49 – 105

8. Теория статистики: Учебник / под редакцией Р.А. Шмойловой. – 3-е изд. – М.: Финансы и статистика, 1999. – с. 289 – 295

9. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2002. – с.90 – 175

 



Поделиться:


Последнее изменение этой страницы: 2016-08-01; просмотров: 2915; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.117.183.150 (0.186 с.)