Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основы регрессионного анализа

Поиск

Регрессия – аппроксимация графика рассеяния некоторой кривой. Такая кривая называется линией регрессии.

Термин введен Фрэнсисом Гальтоном (Francis Galton, 1822-1911), который обнаружил, что сыновья высоких отцов в среднем ниже, чем их отцы, и назвал это регрессией посредственности.

Линию регрессии обычно подбирают методом наименьших квадратов (МНК), т.е. таким образом, чтобы . Для линейной модели в случае одной переменной  - называется также уравнением регрессии y на х. Регрессия y на х (рис. ах на y (рис. б).

В курсе ТВ мы рассматривали вывод одномерной регрессии (см. приведенное выше уравнение). Для одномерного случая уравнение для вычисления прогнозных значений можно записать в следующем виде

,                                                                                           (1)

где  и  - соответственно средние значения выходной и входной переменных, a – коэффициент уравнения регрессии, который может быть выражен через оценки коэффициента корреляции rxy или ковариацию cov(x,y) и стандартs Sy, Sx

.                                                                                        (2)

Таким образом, для вычисления уравнения регрессии необходимо знать статистики системы случайных величин x и y. Качество регрессии, т.е. прогнозирования по уравнению регрессии, очевидно, тем выше, чем меньше сумма квадратов отклонений от линии регрессии

, что фактически означает: чем большую долю дисперсии выходной переменной объясняет линия регрессии, тем выше качество прогноза. Для оценки качества регрессии можно использовать схему дисперсионного анализа. Рассчитаем сумму квадратов отклонений уравнения регрессии от среднего выходной переменной

 и общую дисперсию переменной y .

Анализ дисперсий можно представить таблицей

Источник дисперсии Число степеней свободы Суммы квадратов отклонений Оценки дисперсий F -статистика
Линия регрессии Количество входных переменных k=1

Ошибка прогноза n-k-1
Исходные значения выходной переменной n-1  

Пример. Исследовалась зависимость содержания меди y в рудном теле от расстояния от контакта x.

Источник дисперсии Число степеней свободы Суммы квадратов отклонений Оценки дисперсий F -статистика
Линия регрессии 1 4.45 4.45

64.7

Ошибка прогноза 28 1.92 0.069
Исходные значения выходной переменной 29 6.37 0.22  

Вывод: существует значимая линейная зависимость содержания от расстояния.

Величину среднеквадратической ошибки прогноза можно оценить также, используя коэффициент корреляции и общую дисперсию

 или для стандарта ошибки . В данном примере

Многомерная регрессия

В этом случае находится зависимость выходной переменной Y от k входных переменных X. Уравнение (1) можно записать в матричном виде

, где  - вектор столбец (транспонированная i -я строка таблицы X). Вектор коэффициентов уравнения регрессии , где  - матрица взаимных ковариаций выходной и входных переменных;  - ковариационная матрица входных переменных, которые могут быть легко сформированы из ковариационной матрицы  полной системы случайных величин, что показано в приводимых ниже матрице и на рис.

 

 



Поделиться:


Последнее изменение этой страницы: 2021-07-18; просмотров: 86; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.217.26.8 (0.007 с.)