Мультиколлинеарность в моделях более чем с двумя объясняющими переменными 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Мультиколлинеарность в моделях более чем с двумя объясняющими переменными



Предшествующее обсуждение мультиколлинеарности было ограничено случаем двух объясняющих переменных. В моделях с большим числом объяс­няющих переменных мультиколлинеарность также может быть вызвана при­близительно линейной взаимосвязью между ними. Может оказаться затрудни­тельным различить воздействие одной переменной и линейной комбинации остальных переменных. В модели с двумя объясняющими переменными при­мерно линейная зависимость автоматически означает высокую корреляцию, но если их три или больше, то это не обязательно так. Линейная взаимосвязь не связана неизбежно с высокой коррелированностью любой пары из этих пе­ременных. Последствия мультиколлинеарности здесь те же, что и в случае двух объясняющих переменных, и так же, как и в случае двух объясняющих пере­менных, данная проблема не будет серьезной, если теоретическая дисперсия случайного члена мала, число наблюдений велико и велики средние квадраты отклонений объясняющих переменных.

Что можно предпринять в случае мультиколлинеарности?

Различные методы, которые могут быть использованы для смягчения муль­тиколлинеарности, делятся на две категории: прямые попытки улучшить че­тыре условия, ответственные за надежность регрессионных оценок, и косвен­ные методы.

Во-первых, можно попытаться уменьшить ơ2u. Случайный член отражает воздействие на переменную Y всех влияющих на нее переменных, не включен­ных непосредственно в уравнение регрессии. Если вы можете найти важную переменную, которая не включена в модель и, следовательно, вносит свои вклад в значение и, то вы уменьшите теоретическую дисперсию случайного: члена, добавив эту переменную в уравнение регрессии.

Для иллюстрации мы возьмем функцию заработка, обсужденную в преды­дущем разделе, где сильная корреляция между ЕХР, опытом работы и его квадратом EXPSQ. Мы теперь добавляем две новые переменные, которые часто считают важными факторами, влияющими на величину заработка: MALE, пол респондента; и ASVABC, составная переменная, основанная на тестах способ­ности к познанию, разработанных для проверки профессиональной пригод­ности в вооруженных силах США. MALE является качественной переменной и методы работы с такими переменными будут обсуждены в гл. 5.

Результаты расширенной спецификации модели показаны в табл. 3.8. Все эти новые переменные имеют высокие значения t-статистик, и вследствие это­го оценка а2и уменьшается с 166,51 до 155,53 (в верхней правой четверти распе­чатки результатов приведен ее расчет как частного от деления суммы квадратов остатков на число степеней свободы). Однако общий вклад новых переменных в объясняющую способность модели невелик, несмотря на их высокую значи­мость, и, как следствие, проблема мультиколлинеарности остается. Коэффи­циент при ЕХР все еще отрицателен, снижение стандартных ошибок коэффи­циентов ЕХР и EXPSQ мало. Заметим также, что стандартная ошибка коэффи­циента при S в действительности увеличилась. Это объясняется существенной корреляцией (коэффициент 0,58) между S и ASVABC. Это общая проблема для данного подхода при попытке уменьшить проблему мультиколлинеарности. Если новые переменные линейно связаны с одной или несколькими перемен­ными, уже входящими в уравнение регрессии, то их включение может даже усилить проблему мультиколлинеарности.

Следующий фактор для рассмотрения — число наблюдений п. Если вы ра­ботаете с данными перекрестной выборки (индивиды, домохозяйства, пред­приятия и т.д.) и готовитесь провести выборочный опрос, то можно увеличить размер выборки, затратив на это дополнительные средства. Можно сделать больше и при фиксированном бюджете, если

Таблица 3.8

применить метод группировки. Вначале вы делите страну на географические части. Например, в США в опросе NLSY, из которого были взяты данные EAEF, страна была поделена на графства, отдельные города и стандартные столичные статистические зоны. Вы выбираете ряд географических частей случайным образом, возможно, ис­пользуя внутригрупповые случайные выборки, чтобы обеспечить должное представительство столичных, прочих городских и сельских регионов. Далее вы проводите статистический опрос в выбранных зонах. Это сокращает затра­ты времени на поездки сотрудников, позволяя им опросить большее число респондентов.

Если вы работаете с данными временных рядов, то может оказаться возмож­ным увеличить выборку, перейдя к данным для более коротких временных ин­тервалов, например к квартальным или даже месячным данным вместо годо­вых. Это настолько очевидная и простая вещь, что большинство исследовате­лей, работающих с временными рядами, почти автоматически используют квартальные данные, если они имеются, вместо годовых данных (даже если проблема мультиколлинеарности не стоит) просто для того, чтобы минимизи­ровать теоретические дисперсии коэффициентов регрессии. Здесь, однако, есть потенциальные проблемы. Вы можете внести или усилить автокорреляцию (см. гл. 12), но это можно нейтрализовать. Вы можете также внести или усилить сме­щение, вызванное ошибками измерения (см. гл. 8), если квартальные данные измерены менее аккуратно, чем соответствующие годовые данные. Эту пробле­му не так просто решить, но она может быть и не столь серьезной.

В табл. 3.9 представлен результат оценивания регрессии по всем 2714 на­блюдениям совокупности данных EAEF. Сравнив этот результат с полученным по набору данных EAEF 21, мы видим, что стандартные ошибки здесь, как и ожидалось, оказались значительно меньше. Вследствие этого t-статистики S и новых переменных здесь значительно выше.

Однако корреляция между ЕХР и EXPSQ — такая же высокая, как и в более малой выборке: увеличение размера выборки не было достаточно большим, чтобы оказать хоть какое-то влияние на проблему мультиколлинеарности. Ко­эффициенты при ЕХР и EXPSQ по-прежнему имеют не те знаки, которые мы ожидаем, потому что логично было думать, что коэффициент при ЕХР должен быть положительным, а коэффициент при EXPSQ — отрицательным, отражая убывающую отдачу. Коэффициент при EXPSQ имеет большую t-статистику, что должно нас беспокоить. Можно предположить, что это произошло случай­но. Однако это может быть знаком того, что модель имеет неправильную спе­цификацию. Как мы увидим в последующих главах, существуют веские причи­ны предполагать, что зависимая переменная в функции заработка должна быть скорее логарифмом заработка, чем его линейной формой.

Таблица 3.9

 

Третий возможный путь смягчения проблемы мультиколлинеарности со­стоит в увеличении среднеквадратического отклонения объясняющих пере­менных. Это возможно лишь на стадии проектирования проводимого опроса. Например, при планировании проведения опроса домохозяйств для выясне­ния вопроса о влиянии уровня их дохода на структуру расходов необходимо путем группирования выборки обеспечить присутствие в ней относительно богатых и относительно бедных домохозяйств наряду с домохозяйствами со средним уровнем дохода. (Для ознакомления с теорией и методами построения выборок см., например, работы К. Мозера и Г. Калтона (Moser, Kalton, 1985 или Ф. Фоулера (Fowler, 1993)).

Четвертый прямой метод является самым непосредственным из всех. Если вы еще находитесь на стадии планирования опроса, нужно приложить все усилия для получения такой выборки, в которой объясняющие переменные были бы как можно меньше связаны между собой (что, конечно, проще сказать, чем сделать).

Далее, существуют также косвенные методы. Если коррелированные переменные связаны между собой концептуально, то может быть разумным объединить их в единый совокупный индекс. Это как раз то, что было сделано с тремя переменными уровня способностей ASVAB. Переменная ASVABC была рассчитана как взвешенное среднее переменных ASVAB02 (арифметические рассуждения), ASVAB03 (словарный запас), ASVAB04 (понимание смысла выражений). Три составляющие ASVABC высоко коррелированны между собой, комбинируя их, вместо использования по отдельности, нам удастся избежать появления возможной проблемы мультиколлинеарности. ASVAB02 имеет в двараза больший вес, чем две другие составляющие, поэтому численные и словесные элементы представлены в равных количествах, но такое решение является просто субъективным мнением о том, что кажется разумным предположить.

Еще одно возможное решение проблемы мультиколлинеарности состоит в том, чтобы убрать некоторые из коррелированных переменных, если их коэф­фициенты незначимы. Однако всегда есть опасность, что такие переменные на самом деле нужны в модели и что мультиколлинеарность вызывает незначимость их коэффициентов. Невключение переменных, которые должны быть в модели, может вызвать проблему смещения оценок при пропуске объясняющих переменных (см. гл. 6).

Следующий способ смягчения проблемы мультиколлинеарности состоит в том, чтобы использовать внешнюю информацию, если она имеется, относительно коэффициента одной из переменных. Например, предположим, что известно, что совокупный спрос по одной из категорий расходов потребителя Y связан с совокупным располагаемым личным доходом Х ииндексом цен для данной категории Р:

 

Y= β1 + β2X + β3P + u (3.50)

 

Чтобы оценить модель этого вида, нужно использовать данные временного ряда. Если Х и Р имеют сильные временные тренды и поэтому высоко коррелированны, что часто имеет место с переменными, представляющими временные ряды, то мультиколлинеарность, вероятно, будет проблемой. Предположим, однако, что у нас есть также данные перекрестной выборки для Y и X, получен­ные из отдельного опроса домохозяйств. Эти переменные мы обозначим Y’ и Х’, чтобы показать, что представленные ими данные — не совокупные, а отно­сятся к домохозяйствам. Предположив, что все домохозяйства в выборке пла­тили примерно одну и ту же цену за данный товар, построим парную регрес­сию

 

(3.51)

 

Теперь подставим b'2 вместо β2 в модели с временными рядами

(3.52)

вычтем b2’X изобеих частей

 

(3.53)

 

и построим регрессионную зависимость величины Z= Y- b2’X отцены. Это — парная регрессия, так что мультиколлинеарность была устранена.

Имеются две возможные проблемы с использованием этого метода, кото­рые нужно иметь в виду. Во-первых, оценка β3 в (3.53) зависит от точности оценки b'2, которая, конечно, включает ошибку выборки. Во-вторых, вы пред­полагаете, что коэффициент переменной дохода имеет один и тот же смысл для временного ряда и перекрестной выборки, что может быть не так. Для мно­гих предметов потребления краткосрочные и долгосрочные последствия изме­нений дохода могут различаться весьма заметно. Одна из причин — стандарты потребительских расходов подвержены инерции, которая может доминиро­вать над эффектом изменения дохода в краткосрочном периоде. Другой фак­тор — то, что изменение дохода может затрагивать расходы как непосред­ственно, изменяя бюджетное ограничение, так и косвенно, через изменения в образе жизни, и косвенное влияние происходит намного медленнее, чем пря­мое. Как первое приближение, обычно считается, что регрессии на основе вре­менных радов, особенно с короткими периодами выборки, оценивают крат­косрочные воздействия, в то время как регрессии на основе перекрестных вы­борок оценивают воздействия долгосрочные. Для обсуждения этой и связанных с ней проблем см. работу Э. Ку и Дж. Мейера (Kuh, Meyer, 1957).

Наконец, еще один важный подход состоит в использовании теоретическо­го ограничения, которое определяется как гипотетическое соотношение между параметрами модели регрессии. Это будет объяснено на примере модели про­должительности обучения. Предположим, мы выдвигаем гипотезу о том, что число завершенных лет обучения S зависит от ASVABC и от числа полных лет обучения матери и отца респондента (SM и SFсоответственно):

 

(3.54)

 

Оценив параметры модели на основе набора данных EAEF 21, получаем распечатку, представленную в табл. 3.10.

Коэффициенты регрессии показывают, что S увеличивается на 0,13 года на каждый пункт увеличения ASVABC, на 0,05 года в расчете на каждый дополни­тельный завершенный год учебы матери и на 0,11 года в расчете на каждые дополнительный завершенный год учебы отца. Образование матери обычно считается, по крайней мере, столь же важным, если не более, чем образованна отца с точки зрения продолжительности обучения детей, так что относительно малое значение коэффициента при SM выглядит неожиданным. Также удивля­ет, что этот коэффициент незначим (даже на уровне значимости 5%) при ис­пользовании одностороннего теста. Однако формирование супружеских пар с близким уровнем образования ведет к высокой корреляции между SM и SF, и регрессия, очевидно, страдает от мультиколлинеарности.

Предположим, что мы выдвигаем гипотезу о том, что образование матери и отца одинаково важны. Мы можем тогда наложить ограничение β3 = β4. Это позволяет нам записать уравнение как

(3.55)

 

При определении SР как суммы SM и SF уравнение может быть переписано с ASVABC и SP как объясняющими переменными:

 

(3.56)

 

Оценив параметры модели на основе набора данных EAEF21, получаем рас­печатку, представленную в табл. 3.11. Оценка β3 теперь равна 0,083. Неудиви­тельно, что это значение — компромисс между коэффициентами при SM и SF, в предыдущей спецификации. Стандартная ошибка SP намного меньше, чем стандартные ошибки SM и SF, и это указывает на то, что использование ограничения привело к выигрышу в эффективности, и, как следствие этого,

Таблица 3.10

 

t-статистика очень высока. Таким образом, проблема мультиколлинеарности была здесь ограничена. Однако данное ограничение могло оказаться незначимым. Его нуж­но проверить с помощью теста. Мы увидим, как можно это сделать, в гл. 6.

Таблица 3.11

 

 

SP = SM + SF          
S ASVABC SP          
Source SS df MS   Number of obs =  
Model 1177.98338   588.991689   F(2, 537) Prob > F 156.04 0.0000
Residual 2026.99996   3.77467403   R-squared = Adj R-squared = 0.3675 0.3652
  Total      
3204.98333   5.94616574   Root MSE 1.9429
S Coef. Std. Err. t P>|t| [95% Conf. Interval]
ASVABC .1253106 .0098434 12.73 0.000 .1059743 .1446469
SP .0828368 .0164247 5.04 0.000 .0505722 .1151014
_cons 5.29617 .4817972 10.99 0.000 4.349731 6.242608

 

 

3.5. Качество оценивания: коэффициент R2

 

Как и в парном регрессионном анализе, коэффициент детерминации определяет долю дисперсии Y, объясненную регрессией, и определяется как

 

 

(3.57)

 

а также как

 

(3.58)

 

или как квадрат коэффициента корреляции Y и . Этот коэффициент никогда не уменьшается (а обычно увеличивается) при добавлении еще одной переменной в уравнение регрессии, если все ранее включенные объясняющие переменные сохраняются. Для иллюстрации этого предположим, что вы оцениваете регрессию Y на Х2 и Х3 и получаете уравнение вида

 

(3.59)

 

Далее, предположим, что вы оцениваете регрессию Y только на Х2, в результате получив следующее уравнение:

 

(3.60)

Это уравнение можно переписать:

 

(3.61)

 

Если сравнить уравнения (3.59) и (3.61), то коэффициенты в первом из них свободно определялись с помощью метода наименьших квадратов на основе данных для Y, Х2 и Х3 при обеспечении наилучшего качества оценки. Однако в уравнении (3.61) коэффициент Х был произвольно установлен равным нулю. Иоценивание не будет оптимальным, если только по случайному совпадение величина b3 не будет равна нулю, когда оценки будут такими же (в этом случае величина b* 1 будет равна Ь1, а величина Ь2* будет равна Ь2). Следовательно, обычно уровень коэффициента R2 будет выше в уравнении (3.59), чем в уравнении (3.61), и он никогда не станет ниже. Конечно, если новая переменная на самом деле не относится к этому уравнению, то увеличение коэффициента R2 будет, вероятно, незначительным.

Вы можете решить, что поскольку коэффициент R2 измеряет долю диспер­сии, совместно объясненной независимыми переменными, то можно опреде­лить отдельный вклад каждой независимой переменной и таким образом полу­чить меру ее относительной важности. Это было бы очень удобно, если бы можно было так сделать. К сожалению, такое разложение невозможно, если независимые переменные коррелированны, поскольку их объясняющая спо­собность будет перекрываться. Эта проблема рассматривается в разделе 6.2.

F- тесты

В разделе 2.11 F-тест использовался для проверки объясняющей способно­сти модели парной регрессии:

 

(3.62)

 

где в качестве нулевой рассматривалась гипотеза Н0: β2 = 0, а в качестве альтер­нативной — гипотеза Н1: β2 ≠ 0. Нулевая гипотеза — та же самая, что и при выполнении t-теста для коэффициента наклона; выяснилось, что F-тест экви­валентен двустороннему t-тесту. Однако в случае множественной регрессии эти тесты выполняют разные функции: t-тесты проверяют значимость коэф­фициента при каждой переменной по отдельности, в то время как F'-тест про­веряет их совместную объясняющую способность. Нулевая гипотеза, которую мы надеемся отвергнуть, заключается в том, что модель не обладает никакой объясняющей способностью. Модель не обладает объясняющей способнос­тью, если выясняется, что Y не связана ни с одной из объясняющих перемен­ных. Математически, следовательно, если модель имеет вид

 

 

(3.63)

то нулевая гипотеза для F-теста означает равенство всех коэффициентов β2,..., βk нулю:

 

H02=…=βk=0 (3.64)

 

Альтернативная гипотеза Н1 заключается в том, что по крайней мере один из коэффициентов β2,..., βk отличен от нуля, F-статистика записывается как

 

(3.65)

 

и тест выполняется путем сравнения этой величины с критическим уровнем F, приведенным в столбце, соответствующем k-1 степеням свободы, и строке, соответствующей п - к степеням свободы, в соответствующей части табл. А.З в Приложении А.

Данная F-статистика может быть также выражена в терминах R2 путем деле­ния числителя и знаменателя в (3.65) на TSS, общую сумму квадратов отклоне­ний, имея в виду, что ESS/TSS равно R2 и RSS/TSS равно (1 - R2):

(3.66)

 

 

Пример

Иллюстрацией может служить модель продолжительности обучения. Предположим, что переменная S зависит от ASVABC, SM и SF:

(3.67)

 

Нулевая гипотеза для F-теста на общее качество уравнения состоит в том, что все три коэффициента наклона равны нулю:

 

H0: β2 = β3= β4=0 (3.68)

 

Альтернативная гипотеза состоит в том, что, по крайней мере, один из этих коэффициентов не равен нулю. В табл. 3.12 приведена распечатка результатом оценивания регрессии по набору данных EAEF21.

В этом примере число объясняющих переменных к - 1 равно 3, и число сте­пеней свободы п - к равно 536. Числитель F-статистики есть объясненная сум­ма квадратов отклонений, деленная на к- 1. В распечатке программы Stata эти числа (1181,4 и 3 соответственно) приведены в строке Model. Знаменатель здесь есть сумма квадратов остатков, деленная на остающееся число степеней свободы (2023,6 и 536 соответственно). Следовательно, F-статистика равна

(3.69)

как указано в распечатке. Все серьезные регрессионные пакеты рассчитывав эту F-статистику как один из элементов диагностической распечатки результатов оценивания.

Критическое значение F(3; 536) не приведено в таблицах.F-распределения. но мы знаем, что оно должно быть меньше, чем F(3; 500), которое в этих таблицах приведено. При 0,1 %-ном уровне значимости оно равно 5,51. Следователь­но, мы с уверенностью отвергаем Н0 на 0,1 %-ном уровне. Этот результат мол но было ожидать, поскольку как ASVABC, так и SF имеют высоко значимы: t-статистики. Поэтому мы знали заранее, что оба коэффициента β2 и β3 не равны нулю.

Вообще говоря, F-статистика будет значимой, если значима по крайней мере одна из t-статистик. Однако в принципе F-статистика может и не быть значимой в этом случае. Предположим, что вы оценили не имеющую смысл регрессию с 40 объясняющими переменными, каждая из которых не является действительным детерминантом зависимой переменной. В этом случае F-ста тистика должна оказаться достаточно низкой, чтобы гипотеза Н0 не была от­вергнута. Однако если вы выполните t-тесты для коэффициентов наклона на

Таблица 3.12

reg S ASVABC SM SF          
Source SS df MS   Number of obs =  
Model 1181.36981   393.789935   F(3, 536) Prob > F 104.30 0.0000
Residual 2023.61353   3.77539837   R-squared = Adj R-squared = 0.3686 0.3651
Total   3204.98333   5.94616574   Root MSE 1.943
S Coef. Std. Err. t P>|t| [95% Conf. Interval]
ASVABC .1257087 .0098533 12.76 0.000 .1063528 .1450646
SM .0492424 .0390901 1.26 0.208 -.027546 .1260309
SF .1076825 .0309522 3.48 0.001 .04688 .1684851
_cons 5.370631 .4882155 11.00 0.000 4.41158 6.329681

 

5%-ном уровне, с 5%-ной вероятностью ошибки I рода, то в среднем можно ожидать, что 2 из 40 переменных будут иметь «значимые» коэффициенты.

В то же время легко может случиться и так, что F-статистика будет значи­мой при незначимости всех t-статистик. Предположим, у вас имеется модель множественной регрессии, которая правильно специфицирована, и коэффи­циент детерминации R2 высок. Вероятно, в этом случае F-статистика высоко значима. Однако если объясняющие переменные сильно коррелированны и мо­дель подвержена сильной мультиколлинеарности, то стандартные ошибки ко­эффициентов наклона могут оказаться столь велики, что ни одна из t-статис­тик не будет значима. В этом случае вы знаете, что ваша модель хороша, но у вас нет возможности выделить вклад каждой отдельно взятой переменной.

 

 

Дальнейший анализ дисперсии

Помимо проверки уравнения в целом F-тест можно использовать для опре­деления значимости совместного предельного вклада группы переменных. Предположим, что вы сначала оцениваете регрессию

(3.70)

где объясненная сумма квадратов отклонений составляет ESSk. затем вы до­бавляете еще (m - к) переменных и оцениваете регрессию

 

(3.71)

 

где объясненная сумма квадратов отклонений равна ESSm. Таким образом, вы объяснили дополнительную величину (ESSm - ESSk), использовав для этого дополнительные (m - к) степеней свободы, и требуется понять, превышает ли данное увеличение то, которое может быть получено случайно.

Вновь используется F-тест, и соответствующая F-статистика может быть описана следующим образом:

 

Улучшение качества уравнения/Число использованных
F= ________________ степеней свободы _____________________

Необъясненная сумма квадратов отклонений/Оставшееся число степеней свободы

(3.72)

 

Поскольку RSSm необъясненная сумма квадратов отклонений в уравнении со всеми т переменными — равняется TSS-ESSm и RSSk сумма квадратов отклонений в уравнении с к переменными — равняется TSS - ESSk, улуч­шение качества уравнения при добавлении - к) переменных, т.е. ESSm – ESSk, записывается выражением RSSk-RSSm. Следовательно, cсоответствующая F-статистика равна

 

(3.73)

 

При выполнении нулевой гипотезы о том, что дополнительные переменные не увеличивают объясняющей способности уравнения

 

H0: βk+1 = βk+2= …= βm=0 (3.74)

 

эта F'-статистика распределена с (т - к) и (п - т) степенями свободы. В верхней половине табл. 3.13 проведен дисперсионный анализ объясняющей способно­сти первоначальных k - 1 переменных. В нижней половине таблицы это сделано для совместного предельного вклада новых переменных.

 

Пример

Мы проиллюстрируем описанный тест с помощью функции продолжительности обучения. Таблица 3.14 показывает результат оценивания регрессии пе­ременной S на ASVABC с использованием набора данных EAEF21. Заметим, что сумма квадратов отклонений равна здесь 2123,0.

Таблица 3.13. Анализ дисперсии, исходные переменные и группа дополнительных

переменных


Сумма Степени Сумма квадратов, деленная

квадратов свободы на число степеней свободы


F-статистика


 


Объяснено исходными переменными


ESSk


k-1


ESSk/(k-1)


RSSk/(k- 1) RSSk/(n-k)


Остаток


RSSk=TSS-ESSk


n-k


RSSk/(n-k)


 


Объяснено

новыми

переменными


ESSm-ESSk = = RSSk-RSSm


m-k


(RSSk-RSSm) /(m-k)


(RSSk-RSSm) /(m-k) RSSm/ (n-m)

 

Остаток RSSm=TSS-ESSm n-m RSSm/(n-m)

 

 

Таблица 3.14

reg S ASVABC          
Source SS df MS   Number of obs =  
Model 1081.97059   1081.97059   F(1, 538) Prob > F 274.19 0.0000
Residual 2123.01275   3.94612035   R-squared = Adj R-squared = 0.3376 0.3364
Total   3204.98333   5.94616574   Root MSE 1.9865
S Coef. Std. Err. t P>|t| [95% Conf. Interval]
ASVABC .148084 .0089431 . 16.56 0.000 .1305165 .1656516
_cons 6.066225 .4672261 12.98 0.000 5.148413 5.148413

 

 

Теперь добавим группу из двух переменных, представляющих завершенное число лет обучения каждого из родителей респондента (табл. 3.15). Вносят ли эти переменные совместно значимый вклад в объясняющую способность мо­дели? Можно заметить, что t-тест показывает высокую значимость коэффици­ента при SF, но мы все же выполним и /F-тест. Заметим, что RSS- 2023,6.

Улучшение качества регрессии после добавления «родительских» перемен­ных представлено уменьшением суммы квадратов остатков, равным 2123,0 - 2023,6. Ценой этого является потеря двух степеней свободы, поскольку тре­буется оценить два дополнительных параметра. Сумма квадратов отклонений, остающаяся необъясненной после добавления SM и SF, равна 2023,6. Остаю­щееся после добавления переменных число степеней свободы равно 540 - 4 = = 536. Отсюда

 

(3.75)


Таким образом, F-статистика равна 13,16. Критическое значение F(2; 500) на 0,1%-ном уровне равно 7,00. Критическое значение F(2; 536) должно быть еще меньше, и поэтому мы отвергаем H0 и делаем вывод о том, что переменные, отражающие уровень образования родителей респондента, имеют значи­мую совместную объясняющую способность.

Таблица 3.15

reg S ASVABC SM SF          
Source SS df MS   Number of obs =  
Model 1181.36981   393.789935   F(3, 536) Prob > F 104.30 0.0000
Residual 2023.61353   3.77539837   R-squared = Adj R-squared = 0.3686 0.3651
Total   3204.98333   5.94616574   Root MSE 1.943
S Coef. Std. Err. t P>|t| [95% Conf. Interval]
ASVABC .1257087 .0098533 12.76 0.000 .1063528 .1450646
SM .0492424 .0390901 1.26 0.208 -.027546 .1260309
SF .1076825 .0309522 3.48 0.001 .04688 .1684851
_cons 5.370631 .4882155 11.00 0.000 4.41158 6.329681

 

 



Поделиться:


Последнее изменение этой страницы: 2016-08-01; просмотров: 331; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.16.66.206 (0.114 с.)