Сложности и проблемы, связанные с множественной регрессией 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Сложности и проблемы, связанные с множественной регрессией

Поиск

Сложности и проблемы, связанные с множественной регрессией

(Часть 2-я темы)

 

К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этом разделе приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).

Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.

1. Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то, что эти переменные могут хорошо пояснять и прогнозировать Y (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) именно из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.

2. Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х-переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х-переменных, лишние из них будут снижать качество результатов (возможно, по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нуж­ную Х-переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы хорошенько подумать, почему важна та или иная X - переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.

3. Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то, что гистограммы некоторых переменных могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений за­ключается в создании новых Х-переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.

 

Классификация перечня X-переменных по приоритетам

 

Хороший способ определить круг важных Х-переменных заключается в том, чтобы внимательно проанализировать решаемую задачу, имеющиеся данные и цели, которых вы хотите добиться. Затем необходимо составить список Х-переменных, классифицированных по приоритетам. Сделать это можно следующим образом.

1. Выберите переменную Y, которую вам необходимо объяснить, понять или прогнозировать.

2. Выберите Х-переменную, которая, как вам кажется, является наиболее важной в определении или объяснении Y. Если это вызывает у вас затруднения, поскольку все Х-переменные кажутся вам одинаково важными, примите волевое решение.

3. Выберите самую важную среди оставшихся Х-переменных, задав себе во­прос: “Принимая во внимание первую переменную, какая из оставшихся Х-переменных -несет больше новой информации, объясняющей поведение переменной Y?”

4. Продолжайте выбирать по этому принципу самые важные из оставшихся Х-переменных до тех пор, пока не классифицируете по приоритетам весь перечень Х-переменных. На каждой стадии задавайте себе вопрос: “Принимая во внимание уже отобранные Х-переменные, какая из оставшихся Х-переменных несет больше новой информации, объясняющей поведение переменной Y?”

Затем вычислите регрессию, используя лишь те Х-переменные из составленного вами списка, которые кажутся вам важнейшими. Вычислите еще несколько регрессий, включая в свой анализ некоторые из оставшихся Х-переменных (или все эти переменные), и выясните, действительно ли они влияют на прогнозирование переменной Y. Наконец, выберите тот результат регрессии, который кажется вам наиболее полезным.

Несмотря на то, что описанная процедура выглядит достаточно субъективной (поскольку зависит в основном от вашего субъективного мнения), ей присущи два важных преимущества. Во-первых, когда необходимо сделать выбор между двумя Х-переменными, которые практически одинаково объясняют поведение переменной Y, окончательный выбор остается за вами (автоматизированная процедура может в этом случае сделать менее содержательный выбор). Во-вторых, тщательно классифицировав по приоритетам свои независимые Х-переменные, вы можете глубже разобраться в исследуемой ситуации. Такое прояснение решаемой задачи может оказаться не менее полезным, чем результаты множественной регрессии!

Сложности и проблемы, связанные с множественной регрессией

(Часть 2-я темы)

 

К сожалению, на практике множественная регрессия не всегда позволяет получить результаты, о которых пишут в учебниках. В этом разделе приведен перечень потенциальных проблем и некоторые соображения по поводу того, как с ними справиться (в тех случаях, когда это возможно).

Существуют три основные разновидности проблем. Ниже приведен краткий обзор каждой из этих разновидностей, а затем следует более подробное их описание.

1. Проблема мультиколлинеарности возникает в тех случаях, когда некоторые из ваших объясняющих переменных (X) оказываются слишком схожими. Несмотря на то, что эти переменные могут хорошо пояснять и прогнозировать Y (на что указывают высокое значение R2 и значимый F-тест), отдельные коэффициенты регрессии плохо поддаются оценке. Это связано с тем, что мы не располагаем достаточной информацией, чтобы решить, какая (или какие) именно из переменных обеспечивает это объяснение. Одно из возможных решений состоит в том, чтобы удалить из уравнения некоторые из переменных с целью избавиться от сомнений. Другое решение заключается в том, чтобы переопределить какие-то из переменных (возможно, путем деления), чтобы отличать одну переменную от другой.

2. Проблема выбора переменных возникает в тех случаях, когда приходится иметь дело с пространным перечнем потенциально полезных объясняющих (независимых) Х-переменных и необходимо решить, какие из этих переменных следует включать в уравнение регрессии. С одной стороны, если у вас слишком много Х-переменных, лишние из них будут снижать качество результатов (возможно, по причине все той же мультиколлинеарности). Часть информации, содержащейся в данных, понапрасну расходуется на оценивание ненужных параметров. С другой стороны, если отбросить нуж­ную Х-переменную, снизится качество прогнозов, поскольку вы проигнорируете полезную информацию. Одно из возможных решений состоит в том, чтобы хорошенько подумать, почему важна та или иная X - переменная, чтобы быть уверенным в том, что каждая включаемая в рассмотрение переменная действительно выполняет важную функцию. Другой подход заключается в том, чтобы воспользоваться автоматической процедурой, которая старается отобрать наиболее важные переменные.

3. Проблема неправильного выбора модели связана с множеством различных потенциальных несоответствий между вашей конкретной задачей и моделью множественной линейной регрессии, которая является фундаментом и каркасом множественного линейного регрессионного анализа. Может получиться так, что ваша конкретная задача не соответствует условиям и допущениям модели линейной множественной регрессии. Анализируя данные, вы можете выявить некоторые потенциальные проблемы, связанные с нелинейностью, неравной изменчивостью и наличием резко отклоняющихся значений. Однако даже наличие подобных проблем еще ни о чем не говорит. Несмотря на то, что гистограммы некоторых переменных могут быть сильно скошенными (несимметричными), а некоторые диаграммы рассеяния могут быть нелинейными, модель множественной линейной регрессии и в таких случаях вполне может быть применима. Существует так называемая диагностическая диаграмма, которая помогает понять, действительно ли обнаруженная проблема является настолько серьезной, что ее необходимо как-то решать. Один из возможных вариантов решений за­ключается в создании новых Х-переменных, которые формируются на основе существующих переменных, и/или преобразовании некоторых или всех этих переменных. Еще одна серьезная проблема возникает в случае, когда приходится иметь дело с временным рядом, применительно к которому допущение модели линейной множественной регрессии о независимости отдельных наблюдений не соблюдается. Проблема временных рядов не имеет простого решения, однако множественную регрессию можно выполнить, используя вместо исходных данных процентные изменения между различными временными периодами.

 



Поделиться:


Последнее изменение этой страницы: 2016-04-06; просмотров: 497; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.36.252 (0.012 с.)