Какие переменные являются значимыми: t-тест для каждого коэффициента


 

Если F-тест является значимым, то вам известно, что одна или несколько X- переменных могут быть полезны в прогнозировании Y и, следовательно, можно продолжать анализ с помощью t-тестов для отдельных коэффициентов регрессии с целью выяснять, какие именно из Х-переменных действительно полезны. Эти t-тесты определяют - оказывает ли значимое влияние на Y та или иная X - переменная, если все другие Х-переменные остаются при этом неизменными. Следует помнить, что, приняв нулевую гипотезу, вы сделали слабое заключение и, по сути, тем самым не доказали бесполезность Х-переменной, а просто у вас не хватило убедительных доказательств наличия взаимосвязи. Таким образом, взаимосвязь может существовать, но вследствие действия фактора случайности или из-за небольшого размера выборки вы не в состоянии обнаружить ее с помощью тех данных, которые имеются в вашем распоряжении.

Если же F-тест не является значимым, то использовать t-тесты для отдельных коэффициентов регрессии нельзя. В редких случаях эти t-тесты могут быть значимыми даже тогда, когда F-тест не является значимым. При этом F-тест считается более важным и необходимо делать вывод о том, что все коэффициенты являются незначимыми. Поступив иначе, вы повысите ошибку I рода выше объявленного уровня (например, 5%).

t-тест для каждого коэффициента основан на оценке коэффициента регрессии и его стандартной ошибке и использует критическое значение из t-таблицы для n - k - 1 степеней свободы. Доверительный интервал для какого-либо конкретного коэффициента регрессии в генеральной совокупности (например, j-го — βj;) определяется обычным способом.

Доверительный интервал для j-го коэффициента регрессии,

 

От bj – tSbj , до bj + tSbj ,

где t берется из t-таблицы для n - k - 1 степеней свободы.

t-тест является значимым, если заданное значение 0 (указывающее на отсутствие влияния) не попадает в этот доверительный интервал. Здесь нет ничего нового: это обычная процедура для двустороннего тестирования.

Как альтернативный вариант можно сравнить t-статистику bj / Sbj со значением из t-таблицы и сделать вывод о значимости, если абсолютное значение этой t- статистики оказывается больше tтабл. Если посмотреть на последние значения в каждом из столбцов t-таблицы (Табл. 12.1.12), можно увидеть достаточно простой, приблизительный способ определения значимости коэффициентов: значимыми будут те коэффициенты регрессии, для которых t-статистика по абсолютному значению равна или больше 2, поскольку для достаточно больших п и уровня значимости 5% значение из t-таблицы приблизительно равно 2.

Как всегда, оба метода, и на использовании t-статистики, и на использовании доверительного интервала, должны в любом случае обеспечивать одинаковый результат (значимость или не значимость) для каждого теста.

Что же именно в данном случае тестируется? В результате t-теста для βj мы должны принять решение, оказывает ли Xj значимое влияние на Y в исследуемой генеральной совокупности, когда все другие Х-переменные остаются неизменными. В этом случае речь не идет о корреляции между Xj и Y, которая игнорирует все остальные Х-переменные. Скорее, это проверка влияния Хj на Y после внесения поправки на все остальные факторы. Например, в исследованиях уровня заработной платы, цель которых заключается в выявлении возможных фактов дискриминации по признаку пола, обычно делают поправку на уровень образования и стаж работы. Несмотря на то, что мужчины в компании могут (в среднем) получать более высокую заработную плату, чем женщины, очень важно понять, не объясняются ли эти различия какими-либо другими факторами, помимо пола. В результате включения всех этих факторов в множественную регрессию (регрессия Y = заработная плата на Х1 = пол, Х2 = образование и Х3 = стаж работы) коэффициент регрессии для пола будет отражать влияние пола на уровень заработной платы с учетом поправок на уровень образования и стаж работы.



Ниже приведены формулы для гипотез, касающихся проверки значимости j- го коэффициента регрессии.

 

Гипотезы для t-теста j-го коэффициента регрессии

Н0: βj = 0;

Н1: βj ≠ 0;

 

Если вернуться к нашему примеру с тарифами на размещение рекламных объявлений в журналах, то соответствующий t-тест будет иметь n-k-l = 55 - 3 - 1 = 51 степеней свободы. Двустороннее критическое значение из t-таблицы приблизительно равно 1,960 (или, точнее, 2,008).

Табл. 12.1.12.

В табл. 12.1.12 приведена соответствующая информация из компьютерной распечатки.

Две из трех Х-переменных являются значимыми, поскольку для них р-значения оказываются меньше 0,05. Еще один (эквивалентный) способ проверки значимости заключается в том, чтобы выяснить, какие t-статистики (в компьютерной распечатке соответствующий столбец обозначен просто t) оказываются большими, чем 2,008. И еще один (тоже эквивалентный) способ проверки значимости состоит в том, чтобы выяснить, какие из 95% доверительных интервалов для коэффициентов регрессии не включают 0. Как мы и предполагали ранее, величина читательской аудитории оказывает огромное влияние на рекламные тарифы в журналах. Столь высокое значение t (13,48) означает, что влияние величины читательской аудитории на рекламные тарифы является очень высоко значимым (при условии, что процент читателей-мужчин и средний доход остаются постоянными). Влияние среднего дохода на рекламные тарифы в журналах также является значимым (при условии, что процент читателей-мужчин и величина читательской аудитории остаются постоянными).

Очевидно, что процент читателей-мужчин не оказывает на тарифы значительного влияния (при условии, что величина читательской аудитории и средний доход остаются постоянными), поскольку соответствующий t-тест не является значимым. Не исключено, что этот процент оказывает на тарифы определенное влияние только через доход (средний доход у мужчин может быть выше, чем у женщин). Таким образом, после внесения поправки на средний доход можно ожидать, что переменная, соответствующая проценту мужчин, уже не будет нести дополнительной информации для прогнозирования тарифов. Несмотря на то, что оцениваемое влияние процента читателей-мужчин составляет -$123,6, его отклонение от 0 носит лишь случайный характер. Строго говоря, этот коэффициент, -$123,6, не подлежит интерпретации; поскольку он не является значимым, вы “не имеете права” объяснять его. Иными словами, его значение (- $123,6) — лишь видимость, и, по сути, ничем не отличается от $0,00; более того, в действительности вы не можете даже сказать, положительное это число или отрицательное!

Константа, а = $4 043, не является значимой. Она не отличается существенно от нуля. Нельзя сказать ничего определенного и о знаке соответствующего параметра генеральной совокупности, а, поскольку его вполне можно считать равным нулю. В приложениях, связанных с калькуляцией затрат, а зачастую служит оценкой фиксированных затрат производства. Доверительные интервалы и проверки гипотез покажут вам, существует ли в действительности значимый фиксированный компонент в вашей структуре затрат.









Последнее изменение этой страницы: 2016-04-06; Нарушение авторского права страницы

infopedia.su не принадлежат авторские права, размещенных материалов. Все права принадлежать их авторам. Обратная связь