ТОП 10:

Использование диагностической диаграммы для выяснения наличия проблем



 

Диагностическая диаграмма для множественной регрессии представляет собой диаграмму рассеяния ошибок прогнозирования (остатков) в зависимости от прогнозируемых значений; она позволяет выяснить, можно ли повысить качество прогнозирования, избавившись от соответствующих проблем в исходных данных. Значения остатков, Y – (а + b1 Х1 + b2Х2 + ... + bkXk), откладываются по вертикальной оси, а прогнозируемые значения, а + b1 Х1 +b2Х2 + ... + bkXk , — по горизонтальной. Поскольку методы решения проблем достаточно сложны (удаление резко отклоняющихся значений, преобразования данных и т.п.), проблему можно определить лишь в том случае, если она ясна и ярко выражена.

Внимание!

Не предпринимайте действий, если диагностическая диаграмма не дает ясного и четкого представления о проблеме.

Диагностическая диаграмма “читается” в основном так же, как и любая другая двумерная диаграмма рассеяния (см. главу 11). В табл. 12.2.10 показано, как интерпретировать полученные результаты.

 

 

Почему все происходит именно так, а не иначе? Остаточные значения пред­ставляют собой необъясненные ошибки прогнозирования Y, которые невозможно учесть с помощью модели множественной линейной регрессии, включающей X-переменные. Прогнозируемые значения представляют собой текущее объяснение исходя из Х-переменных. Если в диагностической диаграмме наблюдается определенная достаточно сильная взаимосвязь, текущее объяснение можно и нужно улучшить, внеся изменения, учитывающие эту видимую взаимосвязь.

На рис. 12.2.7 показана диагностическая диаграмма, относящаяся к примеру с рекламными объявлениями в журналах. Здесь величина тарифа на размещение рекламы в журналах (Y) объясняется величиной читательской аудитории (Х1), процентом читателей-мужчин (Х2) и средним доходом (Х3). На диаграмме виден наклон; в нижнем правом углу отчетливо выделяются три резко отклоняющихся значения (выброса). Эти резко отклоняющиеся значения могут существенно ухудшать качество прогнозирования для остальных данных; если нам удастся каким-то образом избавиться от них, мы, возможно, повысим качество уравнения прогнозирования.

Гистограмма величины читательской аудитории, показанная на рис. 12.2.8, демонстрирует очень большую асимметрию, тогда как в гистограммах других переменных (эти гистограммы не показаны) такая асимметрия отсутствует. Несмотря на то, что преобразовывать Х-переменные лишь по причине асимметрии нет большой необходимости, мы все же посмотрим, что произойдет, если преобразовать переменную величины читательской аудитории (X1).

На рис. 12.2.9 показана гистограмма для натуральных логарифмов величины читательской аудитории, (можно воспользоваться функцией LN в Excel).

В результате такого преобразования нам в основном удалось избавиться от асимметрии распределения.

Теперь посмотрим, улучшает ли такое преобразование величины читательской аудитории результат регрессии.

В табл. 12.2.11 представлены результаты множественной регрессии после пре­образования величины читательской аудитории с помощью натурального логарифма. Теперь переменные представляют собой величину тарифа на размещение рекламы в журналах (Y), объясняемую натуральным логарифмом величины читательской аудитории (новая переменная Х1), процентом читателей-мужчин (Х2) и медианой дохода (Х3). Можно отметить несколько небольших улучшений: улучшилось (т.е. увеличилось, что свидетельствует о лучшем объяснении Y) с 78,7 до 80,5% значение R2, а стандартная ошибка оценки несколько уменьшилась с $21 578 до $20 662. Можно сказать, что выполненное нами преобразование позволяет лучше понять и прогнозировать тариф на размещение рекламы в журналах.

 

 

Диагностическая диаграмма для этой регрессии, представленная на рис. 12.2.10, определенно отличается от диагностической диаграммы для исходных данных (рис. 12.2.7): в частности, три потенциально резко отклоняющихся значения теперь находятся среди остальных данных. Однако возникла новая проблема: в данных просматривается определенная нелинейность (с обеих сторон диаграммы наблюдается некоторый подъем). Здесь есть определенный потенциал для улучшения соответствия между уравнением и данными.

 

Теперь давайте попытаемся преобразовать все переменные, которые измеряют количество (т.е. тариф на размещение рекламы в журналах, медиану дохода и размер читательской аудитории), одинаковым способом — с помощью натуральных логарифмов. В табл. 12.2.12 представлены результаты множественной регрессии после преобразования с помощью натурального логарифма тарифа на размещение рекламы в журналах, медианы дохода и величины читательской аудитории.

 

 

Теперь мы имеем логарифм тарифа на размещение рекламы в журналах (новая переменная Y), который объясняется с помощью логарифма величины читательской аудитории (новая переменная Х1), процента читателей-мужчин (Х2) и логарифма медианы дохода (новая переменная Х3). Значение R2 повышается весьма несущественно, что свидетельствует о незначительном общем улучшении. Стандартное отклонение оценки теперь представлено в логарифмической шкале для тарифа на размещение рекламы в журналах, и поэтому его невозможно непосредственно сравнивать с предыдущими значениями. Диагностическая диаграмма подскажет, насколько полезными оказались выполненные преобразования.

Диагностическая диаграмма для этой регрессии, показанная на рис. 12.2.11, свидетельствует о том, что с проблемой нелинейности нам удалось справиться, преобразовав с помощью логарифма величину тарифа на размещение рекламы в журналах, величину читательской аудитории и медиану дохода.

 







Последнее изменение этой страницы: 2016-04-06; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 34.226.244.70 (0.005 с.)