Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь
FAQ
Написать работу

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ Написать работу

Использование диагностической диаграммы для выяснения наличия проблем

↑

⇐ ПредыдущаяСтр 3 из 5Следующая ⇒

Диагностическая диаграмма для множественной регрессии представляет собой диаграмму рассеяния ошибок прогнозирования (остатков) в зависимости от прогнозируемых значений; она позволяет выяснить, можно ли повысить качество прогнозирования, избавившись от соответствующих проблем в исходных данных. Значения остатков, Y – (а + b₁ Х₁ + b₂Х₂ +... + b_k X_k), откладываются по вертикальной оси, а прогнозируемые значения, а + b₁ Х₁ +b ₂Х₂ +... + b_k X_k, — по горизонтальной. Поскольку методы решения проблем достаточно сложны (удаление резко отклоняющихся значений, преобразования данных и т.п.), проблему можно определить лишь в том случае, если она ясна и ярко выражена.

Внимание!

Не предпринимайте действий, если диагностическая диаграмма не дает ясного и четкого представления о проблеме.

Диагностическая диаграмма “читается” в основном так же, как и любая другая двумерная диаграмма рассеяния (см. главу 11). В табл. 12.2.10 показано, как интерпретировать полученные результаты.

Почему все происходит именно так, а не иначе? Остаточные значения представляют собой необъясненные ошибки прогнозирования Y, которые невозможно учесть с помощью модели множественной линейной регрессии, включающей X-переменные. Прогнозируемые значения представляют собой текущее объяснение исходя из Х-переменных. Если в диагностической диаграмме наблюдается определенная достаточно сильная взаимосвязь, текущее объяснение можно и нужно улучшить, внеся изменения, учитывающие эту видимую взаимосвязь.

На рис. 12.2.7 показана диагностическая диаграмма, относящаяся к примеру с рекламными объявлениями в журналах. Здесь величина тарифа на размещение рекламы в журналах (Y) объясняется величиной читательской аудитории (Х₁), процентом читателей-мужчин (Х₂) и средним доходом (Х₃). На диаграмме виден наклон; в нижнем правом углу отчетливо выделяются три резко отклоняющихся значения (выброса). Эти резко отклоняющиеся значения могут существенно ухудшать качество прогнозирования для остальных данных; если нам удастся каким-то образом избавиться от них, мы, возможно, повысим качество уравнения прогнозирования.

Гистограмма величины читательской аудитории, показанная на рис. 12.2.8, демонстрирует очень большую асимметрию, тогда как в гистограммах других переменных (эти гистограммы не показаны) такая асимметрия отсутствует. Несмотря на то, что преобразовывать Х-переменные лишь по причине асимметрии нет большой необходимости, мы все же посмотрим, что произойдет, если преобразовать переменную величины читательской аудитории (X₁).

На рис. 12.2.9 показана гистограмма для натуральных логарифмов величины читательской аудитории, (можно воспользоваться функцией LN в Excel).

В результате такого преобразования нам в основном удалось избавиться от асимметрии распределения.

Теперь посмотрим, улучшает ли такое преобразование величины читательской аудитории результат регрессии.

В табл. 12.2.11 представлены результаты множественной регрессии после преобразования величины читательской аудитории с помощью натурального логарифма. Теперь переменные представляют собой величину тарифа на размещение рекламы в журналах (Y), объясняемую натуральным логарифмом величины читательской аудитории (новая переменная Х₁), процентом читателей-мужчин (Х₂) и медианой дохода (Х₃). Можно отметить несколько небольших улучшений: улучшилось (т.е. увеличилось, что свидетельствует о лучшем объяснении Y) с 78,7 до 80,5% значение R², а стандартная ошибка оценки несколько уменьшилась с $21 578 до $20 662. Можно сказать, что выполненное нами преобразование позволяет лучше понять и прогнозировать тариф на размещение рекламы в журналах.

Диагностическая диаграмма для этой регрессии, представленная на рис. 12.2.10, определенно отличается от диагностической диаграммы для исходных данных (рис. 12.2.7): в частности, три потенциально резко отклоняющихся значения теперь находятся среди остальных данных. Однако возникла новая проблема: в данных просматривается определенная нелинейность (с обеих сторон диаграммы наблюдается некоторый подъем). Здесь есть определенный потенциал для улучшения соответствия между уравнением и данными.

Теперь давайте попытаемся преобразовать все переменные, которые измеряют количество (т.е. тариф на размещение рекламы в журналах, медиану дохода и размер читательской аудитории), одинаковым способом — с помощью натуральных логарифмов. В табл. 12.2.12 представлены результаты множественной регрессии после преобразования с помощью натурального логарифма тарифа на размещение рекламы в журналах, медианы дохода и величины читательской аудитории.

Теперь мы имеем логарифм тарифа на размещение рекламы в журналах (новая переменная Y), который объясняется с помощью логарифма величины читательской аудитории (новая переменная Х₁), процента читателей-мужчин (Х₂) и логарифма медианы дохода (новая переменная Х₃). Значение R² повышается весьма несущественно, что свидетельствует о незначительном общем улучшении. Стандартное отклонение оценки теперь представлено в логарифмической шкале для тарифа на размещение рекламы в журналах, и поэтому его невозможно непосредственно сравнивать с предыдущими значениями. Диагностическая диаграмма подскажет, насколько полезными оказались выполненные преобразования.

Диагностическая диаграмма для этой регрессии, показанная на рис. 12.2.11, свидетельствует о том, что с проблемой нелинейности нам удалось справиться, преобразовав с помощью логарифма величину тарифа на размещение рекламы в журналах, величину читательской аудитории и медиану дохода.

⇐ Предыдущая 1 234 5 Следующая ⇒

Познавательные статьи:

Техника прыжка в длину с разбега

Тактические действия в защите

История Олимпийских игр

История развития права интеллектуальной собственности

Последнее изменение этой страницы: 2016-04-06; просмотров: 738; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.129.210.36 (0.008 с.)