Метод пошагового отбора (stepwise selection) 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Метод пошагового отбора (stepwise selection)



 

            Пошаговый отбор (stepwise selection) начинается так же, как метод пошагового включения, но на каждом шаге переменные проверяются так же, как в методе исключения. Этот метод используется наиболее часто, особенно когда независимые переменные сильно коррелированы, т.е. наблюдается мультиколлинеарность. Поскольку включение в модель, скажем, пятой переменной может уменьшить важность всех уже включенных переменных, одна из включенных в уравнение переменных может быть удалена с использованием метода пошагового исключения. При использовании «чистого» метода пошагового включения эта переменная остается в модели.

 

5.2.2.5. "Оптимальное" число независимых переменных

 

           Рассмотрим, как будут изменяться параметры уравнения, когда мы будем добавлять по очереди дополнительные независимые переменные. Коэффициенты корреляции не должны убывать по мере того, как включаются новые объясняющие переменные. Это утверждение всегда справедливо и в регрессионном анализе. Однако это не означает, что уравнение с огромным числом переменных всегда лучше описывает исследуемый процесс, поскольку по мере того, как растет число параметров, исчерпываются степени свободы, предоставленные выборочными данными. Каждый раз переменная, добавленная в уравнение, вычитает одну степень свободы из суммы квадратов остатков и одна добавляется в сумму квадратов, объясненных регрессией.

           Как уже упоминалось ранее, коэффициент корреляции - весьма оптимистическая мера для определения тесноты связи. Скорректированный коэффициент R2 учитывает это обстоятельство путем введения поправки на число степеней свободы. Скорректированный коэффициент не обязательно возрастает по мере введения дополнительных переменных в уравнение, поэтому он представляет собой более предпочтительную меру качества уравнения регрессии. Эта статистика показана в колонке (рис.5-5) с обозначением Adjusted R Square.

           Наблюдаемое значение R2 не обязательно отражает улучшение выборочных оценок генеральной совокупности данных. Включение неподходящих переменных часто дает серьезные осложнения для интерпретации переменных. С другой стороны, важно не исключить по этим соображением потенциально важную переменную.

 

           При использовании метода включения (Forward), первая переменная для ввода в уравнение определяется наибольшим положительным или отрицательным коэффициентом корреляции с зависимой переменной. Вычисляется F критерий для гипотезы о равенстве нулю коэффициента регрессии включаемой переменной. Для определения того, следует или нет вводить переменную в уравнение (как и каждую последующую) значение F критерия сравнивается с заданным уровнем. В SPSS можно использовать один из двух критериев. Во-первых, это минимальное значение F- статистики, для включения переменной в уравнение. Это значение называемое F- to enter –“Значение F, достаточное для включения” (FIN).

           Другой критерий, который можно использовать для этой цели - вероятность, связанная с F- статистикой, называемая вероятность P, достаточная для включения в уравнение - Probability of F to enter (PIN). В этом случае переменная входит в уравнение только в случае, если вероятность, связанная с F критерием, меньше или равна вероятности по умолчанию или той вероятности, которую мы зададим (по умолчанию это значение 0,05).

           PIN и FIN критерии не обязательно эквивалентны. При добавлении переменных к уравнению число степеней свободы для суммы квадратов остатков уменьшается, в то время как число степеней свободы для суммы квадратов регрессии возрастает. Таким образом, при фиксированном значении F-статистики могут существовать различные уровни значимости, зависящие от текущего числа переменных в уравнении. Для больших выборок этими различиями можно пренебречь.

           Реальный уровень значимости для статистики F-включения не является уровнем значимости, получаемым обычно из F-распределения, поскольку проверяются многие переменные и выбирается наибольшее значение F-статистики. К сожалению, истинный уровень значимости вычислить трудно, так как он зависит не только от числа наблюдений и количества переменных, но и от корреляций между независимыми переменными.

           Если первая переменная, выбранная для включения в уравнение, удовлетворяет соответствующему критерию, процедура последовательного включения продолжается. В противном случае, она завершается, и уравнение остается без переменных. Как только в уравнение добавлена одна переменная, при выборе следующей используются статистики для переменных, не включенных в уравнение. Вычисляются частные коэффициенты корреляции между зависимой переменной и каждой из независимых переменных, не включенных в уравнение, скорректированные по независимым переменным из уравнения. Следующим кандидатом на включение в уравнение становится переменная с наибольшей частной корреляцией. Выбор переменной с наибольшим по абсолютной величине значением частного коэффициента корреляции эквивалентен выбору переменной с наибольшим значением F-статистики.

           Если заданный критерий выполняется, то эта переменная включается в модель, и процедура повторяется заново, завершаясь тогда, когда ни одна из оставшихся переменных, не удовлетворяет критерию включения.

 

           Процедуры исключения (Backward) основана на элиминировании воздействия переменных, когда оценка вариантов начинается с оценки уравнения для всех потенциальных объясняющих переменных, а затем последовательно отбрасываются переменные, статистические характеристики которых оказываются хуже других. Поэтому и критерии отбора в этой процедуре другие: они являются критериями удаления переменных. В SPSS предлагается для этой процедуры также два критерия. Первый определяется как минимальное значение F - статистики для переменной, которая должна оставаться в уравнении. Переменные с критериями менее чем F, должны удаляться из уравнения. В соответствии с избранной терминологией это значение, определяется как F для удаления - F- to remove (FOUT). Переменные с F оценкой меньше, чем это значение являются первоочередными претендентами на исключение из уравнения. Второй критерий - вероятность F- статистики для удаления - probability of F to remove (POUT) – максимальный уровень значения F-статистики, который может иметь эта переменная.

           После исключения переменной – кандидата, модель вычисляется заново уже без удаленной переменной для проверки следующей переменной. Процедура последовательного исключения прекращается, когда значимость рассматриваемой переменной станет меньше эталонного.

           Необходимо отметить, что методы последовательного включения и последовательного исключения переменных, не всегда приводят к одинаковым результатам, даже при сравнимых критериях ввода и удаления.

 



Поделиться:


Последнее изменение этой страницы: 2021-01-08; просмотров: 297; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.63.136 (0.005 с.)