Построение уравнения парной регрессии 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Построение уравнения парной регрессии

Поиск

При линейной связи параметры уравнения парной регрессии:

(66)

находится из системы уравнений:

, (67)

которая получается применением метода наименьших квадратов. Из первого уравнения системы следует, что:

. (68)

Подставив полученное выражение во второе уравнение, получим:

. (69)

Коэффициент корреляции определяется по формуле:

(70)

Учитывая (69) и (70)

(71)

или (72)

Зная значения r, и можно вычислить по выражениям (72) и (68) параметры и линейного уравнения регрессии.

 

Статистический анализ модели

Оценка параметров парной регрессии выполняется исходя из следующих предпосылок [8]. Допустим, что в генеральной совокупности связь между x и y линейна. Наличие случайных отклонений, вызванных воздействием на переменную y множества других, неучтенных в уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин и приобретает вид:

(73)

Здесь - случайные ошибки (отклонения, возмущения). Если были бы известны точные значения отклонений , то можно было бы рассчитать значения параметров и . Так как они неизвестны, то по наблюдениям и можно получить только оценки параметров и , которые сами являются случайными величинами в связи с тем, что соответствуют случайной выборке. Пусть - оценка параметра , - оценка параметра . Тогда оцененное уравнение регрессии будет иметь вид:

(74)

Для того, чтобы оценки и обладали адекватностью ряд остатков должен удовлетворять следующим требованиям:

1. математическое ожидание равно нулю (критерий нулевого среднего);

2. величина является случайной переменной (критерий серий);

3. значения независимы между собой (критерий Дарбина-Уотсона);

4. дисперсия постоянна: для всех i, j;

5. Остатки распределены по нормальному закону (свойство используется для проверки статистической значимости и построения доверительных интервалов при прогнозировании)

Известно, что если данные условия выполняются, то оценки, сделанные с помощью метода наименьших квадратов, обладают следующими свойствами:

1. оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению:

Это вытекает из того, что и свидетельствует об отсутствии систематической ошибки в определении положения линии регрессии;

2. оценки состоятельны, т.к. дисперсии оценок параметров при возрастании числа наблюдений стремятся к нулю: ; , т.е. надежность оценки при увеличении выборки растет;

3. оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра.

Если предположения 3 и 4 нарушены, т.е. дисперсия возмущений непостоянна или значения связаны друг с другом, то свойства несмещенности и состоятельности сохраняется, но свойства эффективности – нет.

Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере.

 

Оценка качества построенной модели

Близость точек исходных данных и линий регрессии на графике корреляционного поля (рис. 17) позволяет судить о качестве модели, но более строгий подход, кроме визуальной оценки, предполагает использование и других критериев.

Рисунок 17

Выбор функции для моделирования взаимосвязи между факторами осуществляется на основе формального и неформального подходов.

Формальный подход позволяет определить соответствие модели исходному объекту (адекватность) и степень близости ее к фактическим данным (точность).

Неформальный подход заключается в логическом исследовании соответствия математической функции, принятой в качестве модели, исследуемой зависимости.

При выборе модели можно сначала на основе содержательного анализа исключить заведомо неподходящие функции, а затем выбрать лучшую из оставшихся моделей и по ней осуществлять моделирование.

Можно подойти к выбору модели иначе: сначала оценить параметры всех моделей и выбрать лучшую из них по формальным признакам, а затем решать вопрос о ее соответствии исследуемой зависимости в содержательном плане.

Формально качество модели определяется ее адекватностью и точностью. Эти свойства исследуются на основе анализа ряда остатков (отклонений расчетных значений от фактических):

(75)

При этом адекватность является более важной составляющей качества, но сначала рассмотрим характеристики точности и нормальности ряда остатков, так как некоторые из них используются при расчете различных критериев адекватности.

Характеристики точности

Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся:

- максимальная ошибка соответствует максимальному значению расчетных значений от физических;

- средняя абсолютная ошибка

(76)

показывает, насколько в среднем отклоняются фактические значения от модели;

- остаточная дисперсия

; (77)

- средняя квадратическая ошибка

. (78)

Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие:

. (79)

К характеристикам точности можно отнести также множественный коэффициент детерминации

, (80)

характеризующий долю дисперсии зависимой переменной, объясненный с помощью регрессии, и множественный коэффициент корреляции (индекс корреляции):

. (81)

В случае парной линейной регрессии значение множественного коэффициента корреляции совпадает с линейным коэффициентом корреляции.

Проверка нормальности ряда остатков может быть выполнена приближенно по условиям (6) (ячейки D106 и D107). В связи с тем, что каждый из относительных показателей формы распределения меньше 1,5 эмпирическое распределение ряда остатков не противоречит нормальному.

 



Поделиться:


Последнее изменение этой страницы: 2016-04-23; просмотров: 373; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 52.15.57.54 (0.01 с.)