ТОП 10:

Мультиколлинеарность: не слишком ли схожи между собой объясняющие переменные?



 

Когда какие-то из объясняющих Х-переменных слишком схожи между собой, у вас может возникнуть т.н. проблема мультиколлинеарности, поскольку множественная регрессия не в состоянии отличить влияние одной переменной от влияния другой переменной. Последствия мультиколлинеарности могут быть статистическими или вычислительными.

1. Статистические последствия мультиколлинеарности связаны с трудно­стями проведения статистических тестов для отдельных коэффициентов регрессии вследствие увеличения стандартных ошибок. Результатом может быть невозможность объявить ту или иную Х-переменную значимой даже в том случае, если эта переменная (сама по себе) имеет сильную взаимосвязь с Y.

2. Вычислительные последствия мультиколлинеарности связаны с трудно­стями в организации вычислений на компьютере, вызванными “неустойчивостью вычислений”. В крайних случаях компьютер может пытаться выполнить деление на нуль и, таким образом, неудачно завершить анализ данных. Хуже того, компьютер может завершить анализ и выдать бессмысленные и неверные результаты.

Мультиколлинеарность может порождать проблемы, а может и не порождать их — все зависит от конкретных целей выполняемого вами анализа и степени мультиколлинеарности. Небольшая или средняя мультиколлинеарность обычно не представляет проблемы. Очень сильная мультиколлинеарность (например, включение одной и той же переменной дважды) всегда будет представлять проблему и может приводить к серьезным ошибкам (вычислительные последствия). К счастью, если вашей целью является в основном предсказание или прогнозирование Y, сильная мультиколлинеарность может не представлять серьезного препятствия, поскольку качественная программа множественной регрессии может и в этом случае делать оптимальные прогнозы Y (по методу наименьших квадратов), основанные на всех Х-переменных. Однако если вы хотите использовать индивидуальные коэффициенты регрессии для выяснения того, как каждая из Х-переменных влияет на Y, то статистические последствия мультиколлинеарности, по-видимому, вызовут определенные проблемы, ввиду того что эти влияния невозможно отделить друг от друга. В табл. 12.2.1 подытоживается влияние мультиколлинеарности на результаты регрессионного анализа.

 

 

Табл.12.2.1.

Степень мультиколлинеарности Влияние на регрессионный анализ
Незначительная Вообще не представляет проблемы
Средняя Как правило, не представляет проблемы
Сильная Статистические последствия: зачастую представляет собой проблему, если требуется оценить влияние отдельных Х-переменных (т.е. коэффициенты регрессии); может не представлять проблемы, если цель заключается в предсказании или прогнозировании Y
Чрезвычайно сильная Численные последствия: всегда представляет собой проблему; компьютерные вычисления могут даже оказаться неправильными из-за неустойчивости вычислений

 

Как выяснить, действительно ли существует проблема мультиколлинеарности? Один из простейших способов ответить на этот вопрос заключается в анализе обычных двумерных корреляций для каждой пары переменных. Корреляционная матрица представляет собой таблицу, которая содержит коэффициенты корреляции для каждой пары переменных из вашей многомерной совокупности данных. Чем выше коэффициент корреляции между двумя Х-переменными, тем больше мультиколлинеарность. Это объясняется тем, что высокая корреляция (близкая к 1 или -1) указывает на сильную связь и свидетельствует о том, что эти две Х-переменные измеряют очень схожие характеристики, привнося тем самым в анализ “пересекающуюся” информацию.

Основной статистический результат мультиколлинеарности заключается в росте стандартных ошибок некоторых (или всех) коэффициентов регрессии (Sb ). Это вполне естественно: если две Х-переменные содержат “пересекающуюся” информацию, трудно определить влияние каждой из них в отдельности. Высокое значение стандартной ошибки приводит к тому, что компьютер сообщает вам приблизительно следующее: “Я вычислил для вас коэффициент регрессии, но результат неточный, поскольку трудно сказать, эта или какая-то другая переменная является определяющей”. В результате доверительные интервалы для соответствующих коэффициентов регрессии значительно расширяются, а t-тесты вряд ли будут значимыми.

В случае сильной мультиколлинеарности может оказаться, что регрессия очень высоко значима (исходя из результатов F-теста), однако ни один из t- тестов для отдельных Х-переменных значимым не является. Компьютер сообщает вам о том, что Х-переменные, рассматриваемые как единая группа, весьма сильно влияют на Y, но практически невозможно определить важность какой-то конкретной переменной. Следует помнить, что F-тест для конкретной X - переменной измеряет ее влияние на Y при условии, что значения других переменных остаются неизменными. Таким образом, t-тест для переменной Хi выявляет только дополнительную информацию, привнесенную переменной Xi помимо той информации, которую несут другие Х-переменные. Если какая-то другая переменная очень близка к Хi, тогда переменная Хi не привносит в регрессию значимо новую информацию.

Одно из решений заключается в том, чтобы проигнорировать те X- переменные, которые дублируют информацию, уже присутствующую в других Х-переменных. Если, например, ваши Х-переменные включают три различные измерения размера, попробуйте либо избавиться от двух из них, либо объединить все три переменные в единую меру размера (например, воспользовавшись их средним значением).

Другое решение заключается в том, чтобы переопределить некоторые из пе­ременных с тем, чтобы каждая из Х-переменных выполняла четкую, присущую только ей одной роль в определении Y. Распространенный способ применения этой идеи к группе близких друг к другу Х-переменных заключается в том, чтобы взять для представления этой группы одну Х-переменную (можно либо выбрать одну из этих Х-переменных, либо сформировать из них индекс) и представить остальные переменные как относительные показатели (например, величина на единицу другого показателя), построенные из этой представляющей X- переменной. Например, можно представлять зависимость размера объема продаж (Y) с помощью численности населения (Х1) и общего дохода (Х2) для каждого региона. Однако эти переменные являются мультиколлинеарными (т.е. чис­ленность населения и общий доход — высоко коррелированные величины). Эту проблему можно решить, объясняя объем продаж (Y) с помощью численности населения (X1) и размера дохода на одного человека (новая переменная Х2). В результате численность населения будет выполнять роль представляющей переменной, отражая общую величину территории, а доход, вместо того чтобы повторять уже известную нам информацию (о величине соответствующей территории), переопределяется и несет новую информацию (о благосостоянии людей).

 

Пример. Прогнозирование рыночной стоимости на основании величины активов и количества служащих

 

Какова рыночная стоимость фирмы и как она определяется? Рыночная стоимость фирмы представляет собой суммарную стоимость всех выпущенных в обращение акций, которую легко найти, умножив общее количество выпущенных в обращение акций на текущую цену акции. Она определяется соотношением предложения и спроса на рынке ценных бумаг. Финансисты-теоретики говорят, что она представляет текущую стоимость (неопределенных, рисковых) будущих денежных потоков данной фирмы. Но как связана рыночная стоимость с другими характеристиками фирмы? Чтобы ответить на этот вопрос, можно воспользоваться множественной регрессией.

Рассмотрим информацию, представленную в табл. 12.2.2.

 

В этой таблице сопоставляется рыночная стоимость фирмы (переменная Y— зависимая, "объясняемая") и две независимые ("объясняющие") X - переменные: стоимость активов, которыми владеет фирма, и количество служащих фирмы. Эти данные относятся к компаниям из перечня Fortune 500, которые производят компьютеры и офисное оборудование. Нетрудно догадаться, что с этой совокупностью данных у нас наверняка возникнет проблема мультиколлинеарности, поскольку каждая Х-переменная, в принципе, обозначает размер компании. Эти X-переменные несут схожую, "пересекающуюся" информацию, поскольку крупные компании являются крупными во всех отношениях: рыночной стоимости, величине активов и количестве служащих. И наоборот, небольшие компании, как правило, являются небольшими во всех отношениях. В табл. 12.2.3 подведены итоги результатов множественной регрессии, а также корреляционная матрица для компаний, производящих компьютеры и офисное оборудование.

Табл. 12.2.3.

 

Обратите внимание, что в соответствии с F-тестом регрессия является значимой. Свыше трех четвертей (R2 = 81,7%) вариации рыночной стоимости объясняются Х-переменными как единой группой, и этот результат является высоко статистически значимым. Однако вследствие мультиколлинеарносги ни одна отдельно взятая Х-переменная значимой не является. Таким образом, Х-переменные объясняют рыночную стоимость, но мы не можем сказать, какая именно из Х-переменных оказывает наибольшее влияние.

Некоторую полезную информацию о мультиколлинеарности можно получить из корреляционной матрицы (справа на табл. 12.2.3), которая отражает корреляции для каждой пары переменных нашей многомерной совокупности данных. Обратите внимание на чрезвычайно высокую корреляцию между двумя X- переменными: 0,991 между величиной активов и количеством служащих. Столь высокая корреляция свидетельствует о том, что по крайней мере с точки зрения чисел эти две Х-переменные несут практически идентичную информацию. Нет ничего удивительного в том, что регрессионный анализ не делает различия между этими переменными.

Если бы мы сохранили только одну из двух Х-переменных, то получили бы регрессию с очень высоко значимым t-тестом для этой переменной, независимо от того, какую из двух переменных X мы решили оставить. Иными словами, каждая из этих переменных сама по себе вносит весомый вклад в определение рыночной стоимости.

Если вы хотите сохранить всю информацию, содержащуюся в обеих Х-переменных, одну из них можно использовать в качестве переменной, представляющей величину компании, а другую определить как некое отношение. Давайте выберем в качестве переменной, представляющей величину компании, ее активы, поскольку они указывают на фиксированные капиталовложения, необходимые соответствующей компании. После этого вторую переменную можно заменить на отношение количества служащих к величине активов (указывает количество служащих на миллион долларов активов). Теперь активы являются единственной переменной, характеризующей величину компании, а другая переменная несет новую информацию об эффективности использования служащих. Новая совокупность данных представлена в табл. 12.2.5.

 

Посмотрим теперь снова на корреляционную матрицу, представленную в табл. 12.2.3, и выясним, нет ли у нас проблем с мультиколлинеарностью. Эти корреляции выглядят намного лучше. Корреляция между X- переменными (-0,317) уже не является такой большой, как раньше, и она статистически незначима.

На что можно рассчитывать, получив результаты множественной регрессии? Регрессия по-прежнему должна быть значимой, а t-тест для активов на сей раз должен быть значимым по причине отсутствия "конкурирующих" переменных, характеризующих величину компании. Нам осталось разрешить следующую неопределенность: можно ли, располагая данными об активах, утверждать, что соотношение между количеством служащих и активами в значительной степени влияет на рыночную стоимость? Соот­ветствующие результаты представлены в табл. 12.2.7.

 

 

Эти результаты подтверждают наши ожидания. Регрессия (F-тест) является значимой, а t-тeст для активов теперь, когда нам удалось избавиться от сильной мультиколлинеарности, также является значимым. Кроме того, нам удалось установить, что другая переменная (количество служащих на миллион долларов активов) значимой не является.

Множественная регрессия для прогнозирования рыночной стоимости на основании объема активов и количества служащих на миллион долларов активов имеет вид:

 

рыночная стоимость = 14673,67 + 1,154*(активы) - 1655,524*(количество служащих на миллион долларов активов).

 

Очевидно, для этой небольшой группы (n = 14) крупных компаний, производящих компьютеры и офисное оборудование, большая доля вариации рыночной стоимости может объясняться объемом активов этих компаний. Более того, информация о людских ресурсах (количестве служащих) практически не содержит новой информации о рыночной стоимости этих процветающих компаний. Возможно, анализ более крупной выборки компаний позволил бы выявить влияние и этой переменной.

 

Выбор переменной: может быть, мы пользуемся "не теми" переменными?

 

Результаты статистического анализа в значительной мере зависят от имеющейся информации, т.е. от использованных для анализа данных. В частности, особое внимание следует обратить на выбор независимых (“объясняющих”) X-переменных для множественного регрессионного анализа. Включение как можно большего числа Х-переменных просто так, на всякий случай” или потому, что “создается впечатление, будто каждая из них как-то влияет на Y” — далеко не лучшее решение. Поступая таким образом, вы обрекаете себя на возможные трудности при определении значимости для регрессии (F-тест), или — вследствие мультиколлинеарности, вызванной наличием избыточных переменных, — у вас могут возникнуть трудности при решении вопроса о значимости для некоторых отдельных коэффициентов регрессии.

Что происходит, когда вы включаете одну лишнюю, неуместную X- переменную? Значение R2 в этом случае окажется несколько большим, так как несколько большую долю Y можно объяснить за счет случайности этой новой переменной. Однако F-тест значимости регрессии учитывает это увеличение, поэтому такое увеличение R2 нельзя считать преимуществом.

На самом деле включение дополнительной X-переменной может принести не­большой или даже умеренный вред. Оценка того или иного неуместного параметра (в данном случае неуместного коэффициента регрессии) оставляет меньше информации для стандартной ошибки оценки, Se. По техническим причинам следствием этого является менее мощный F-тест, который может не обнаружить значимость даже в том случае, когда Х-переменные в генеральной совокупности на самом деле объясняют Y.

А что произойдет в случае, когда вы проигнорируете необходимую X- перемен­ную? В результате из совокупности данных выпадет важная и полезная информация и ваше прогнозирование Y будет менее точным, чем в случае использования этой Х-переменной. Стандартная ошибка оценки, Se, в этом случае, как правило, оказывается больше (что указывает на большие ошибки прогнозирования), a R2, как правило, оказывается меньшим (что указывает на объяснение меньшей доли вариации Y). Естественно, если вы проигнорируете критически важную X- переменную, то, возможно, F-тест для этой регрессии просто будет незначим.

Ваша задача в данном случае — включить ровно столько Х-переменных, сколько нужно (т.е. не слишком много и не слишком мало), причем включить именно те Х-переменные, которые необходимы. Если у вас есть сомнения, можно включить некоторые из Х-переменных, относительно которых вы не уверены. В таком случае полезен субъективный метод (основанный на приоритетном перечне X- переменных). Существует также множество различных автоматических методов.







Последнее изменение этой страницы: 2016-04-06; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.206.194.161 (0.007 с.)