ТОП 10:

Сложности и проблемы, связанные с множественной регрессией



Сложности и проблемы, связанные с множественной регрессией

(Часть 2-я темы)

 

К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этом разделе приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).

Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.

1. Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то, что эти переменные могут хорошо пояснять и прогнозировать Y (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) именно из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.

2. Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х-переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х-переменных, лишние из них будут снижать качество результатов (возможно, по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нуж­ную Х-переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы хорошенько подумать, почему важна та или иная X - переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.

3. Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то, что гистограммы некоторых переменных могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений за­ключается в создании новых Х-переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.

 

Классификация перечня X-переменных по приоритетам

 

Хороший способ определить круг важных Х-переменных заключается в том, чтобы внимательно проанализировать решаемую задачу, имеющиеся данные и цели, которых вы хотите добиться. Затем необходимо составить список Х-переменных, классифицированных по приоритетам. Сделать это можно следующим образом.

1. Выберите переменную Y, которую вам необходимо объяснить, понять или прогнозировать.

2. Выберите Х-переменную, которая, как вам кажется, является наиболее важной в определении или объяснении Y. Если это вызывает у вас затруднения, поскольку все Х-переменные кажутся вам одинаково важными, примите волевое решение.

3. Выберите самую важную среди оставшихся Х-переменных, задав себе во­прос: “Принимая во внимание первую переменную, какая из оставшихся Х-переменных -несет больше новой информации, объясняющей поведение переменной Y?”

4. Продолжайте выбирать по этому принципу самые важные из оставшихся Х-переменных до тех пор, пока не классифицируете по приоритетам весь перечень Х-переменных. На каждой стадии задавайте себе вопрос: “Принимая во внимание уже отобранные Х-переменные, какая из оставшихся Х-переменных несет больше новой информации, объясняющей поведение переменной Y?”

Затем вычислите регрессию, используя лишь те Х-переменные из составленного вами списка, которые кажутся вам важнейшими. Вычислите еще несколько регрессий, включая в свой анализ некоторые из оставшихся Х-переменных (или все эти переменные), и выясните, действительно ли они влияют на прогнозирование переменной Y. Наконец, выберите тот результат регрессии, который кажется вам наиболее полезным.

Несмотря на то, что описанная процедура выглядит достаточно субъективной (поскольку зависит в основном от вашего субъективного мнения), ей присущи два важных преимущества. Во-первых, когда необходимо сделать выбор между двумя Х-переменными, которые практически одинаково объясняют поведение переменной Y, окончательный выбор остается за вами (автоматизированная процедура может в этом случае сделать менее содержательный выбор). Во-вторых, тщательно классифицировав по приоритетам свои независимые Х-переменные, вы можете глубже разобраться в исследуемой ситуации. Такое прояснение решаемой задачи может оказаться не менее полезным, чем результаты множественной регрессии!

Сложности и проблемы, связанные с множественной регрессией

(Часть 2-я темы)

 

К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этом разделе приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).

Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.

1. Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то, что эти переменные могут хорошо пояснять и прогнозировать Y (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) именно из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.

2. Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х-переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х-переменных, лишние из них будут снижать качество результатов (возможно, по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нуж­ную Х-переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы хорошенько подумать, почему важна та или иная X - переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.

3. Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то, что гистограммы некоторых переменных могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений за­ключается в создании новых Х-переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.

 







Последнее изменение этой страницы: 2016-04-06; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.229.118.253 (0.005 с.)