Линейный парный регрессионный анализ 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Линейный парный регрессионный анализ



Одним из методов изучения стохастических связей между признаками является регрессионный анализ.

Регрессионный анализ представляет собой вывод уравнения регрессии, с помощью которого находится средняя величина случайной переменной (признака-результата), если величина другой (или других) переменных (признаков-факторов) известна. Он включает следующие этапы:

1) выбор формы связи (вида аналитического уравнения регрессии);

2) оценку параметров уравнения;

3) оценку качества аналитического уравнения регрессии.

Наиболее часто для описания статистической связи признаков используется линейная форма. Внимание к линейной связи объясняется четкой экономической интерпретацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму.

В случае линейной парной связи уравнение регрессии примет вид: . Параметры данного уравнения а и b оцениваются по данным статистического наблюдения x и y. Результатом такой оценки является уравнение: , где , - оценки параметров a и b, - значение результативного признака (переменной), полученное по уравнению регрессии (расчетное значение).

Наиболее часто для оценки параметров используют метод наименьших квадратов (МНК).

Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (u) и независимой переменной (x).

Задача оценивания параметров линейного парного уравнения методом наименьших квадратов состоит в следующем:

получить такие оценки параметров , , при которых сумма квадратов отклонений фактических значений результативного признака - yi от расчетных значений – минимальна.

Формально критерий МНК можно записать так:

.

Проиллюстрируем суть данного метода графически. Для этого построим точечный график по данным наблюдений (xi,yi, i=1;n) в прямоугольной системе координат (такой точечный график называют корреляционным полем). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.

y

 
 


y’i

yi

x

х i

Математическая запись данной задачи:

.

Значения yi и xi i=1;n нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров - , . Чтобы найти минимум функции 2-ух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их нулю, т.е. .

В результате получим систему из 2-ух нормальных линейных уравнений:

Решая данную систему, найдем искомые оценки параметров:

Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм (возможно некоторое расхождение из-за округления расчетов).

Для расчета оценок параметров , можно построить таблицу 1.

Знак коэффициента регрессии b указывает направление связи (если b >0, связь прямая, если b <0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.

Формально значение параметра а – среднее значение y при х равном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра а не имеет смысла.

Оценка тесноты связи между признаками осуществляется с помощью коэффициента линейной парной корреляции - rx,y. Он может быть рассчитан по формуле: . Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b: .

Область допустимых значений линейного коэффициента парной корреляции от –1 до +1. Знак коэффициента корреляции указывает направление связи. Если rx,y>0, то связь прямая; если rx,y<0, то связь обратная.

Если данный коэффициент по модулю близок к единице, то связь между признаками может быть интерпретирована как довольно тесная линейная. Если его модуль равен единице êrx,y ê=1, то связь между признаками функциональная линейная. Если признаки х и y линейно независимы, то rx,y близок к 0.

Для расчета rx,y можно использовать также таблицу 1.

Таблица 1

N наблюдения xi yi xi ∙yi
  x 1 y 1 x 1·y1
  x 2 y 2 x 2·y2
...          
n xn yn xn·yn
Сумма по столбцу åx åy å x·y
Среднее значение

Для оценки качества полученного уравнения регрессии рассчитывают теоретический коэффициент детерминации – R2yx:

,

где d2 – объясненная уравнением регрессии дисперсия y;

e2- остаточная (необъясненная уравнением регрессии) дисперсия y;

s2 y - общая (полная) дисперсия y.

Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака y, объясняемую регрессией (а, следовательно, и фактором х), в общей вариации (дисперсии) y. Коэффициент детерминации R2yx принимает значения от 0 до 1. Соответственно величина 1- R2yx характеризует долю дисперсии y, вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации.

При парной линейной регрессии R2yx=r2yx.



Поделиться:


Последнее изменение этой страницы: 2016-09-05; просмотров: 167; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.17.6.75 (0.011 с.)