Ковариация. Коэффициент ковариации. Показатели качества регрессии: линейный коэффициент регрессии, коэффициент детерминации. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Ковариация. Коэффициент ковариации. Показатели качества регрессии: линейный коэффициент регрессии, коэффициент детерминации.



 

Выборочная ковариация является мерой связи между двумя переменными x и y. Но сделать вывод о силе связи по величине ковариации трудно. ,;

Чтобы выразить данную связь единым числом вводят показательвыборочной корреляции - выборочный коэффициент корреляции.

Уравнение регрессии всегда дополняется показателем тесноты связи – это линейный коэффициент корреляции .

 

, ;

, ;

Величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в линейной форме. Поэтому близость модуля к нулю не означает отсутствие связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной регрессии рассчитывается квадрат линейного коэффициента корреляции . Он называется коэффициентом детерминации и характеризует долю дисперсии результативного признака у, объясняемую уравнением регрессии, в общей доли дисперсии результативного признака.

Соответственно величина характеризует долю дисперсии у, вызванную влиянием остальных не учтённых в модели факторов.

Величина служит одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов, и следовательно, линейная модель хорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака.

=0,982 98,2% - дисперсией результативного признака;

1,8% - дисперсия прочих факторов.

 

Стандартная ошибка уравнения регрессии. Оценка статистической значимости показателей корреляции, параметров уравнения регрессии. Дисперсионный анализ. Критерии Фишера и Стьюдента.

 

После того, как найдено уравнение линейной регрессии, проводится оценка, как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения в целом, даётся с помощью F-критерия. При этом выдвигается гипотеза нулевая, т. е. , т. е. , и следовательно, фактор х не оказывает влияния на у.

Дисперсионный анализ.

Сначала проанализируем дисперсию, он предшествует F-критерию. Центральное место занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части.

Общая сумма Объясненную Необъясненную

квадратов регрессию (остаточную)

отклонений регрессию

Общая сумма квадратов отклонений у от вызвана влиянием множества причин. Условно разделим их на две группы: изучаемый фактор х и прочие факторы.

Если фактор не оказывает влияние на результат, то линия регрессии на графике параллельна оси ОХ и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна 0, и сумма квадратов отклонений, объясняющей регрессией совпадает с общей суммой квадратов.

Т.к. не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, как обусловленный влиянием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линейной регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на долю объясненную вариацией. Если сумма квадратных отклонений, обусловленных регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на у. Это равносильно тому, что .

Любая сумма квадратных отклонений связана с числом степеней свободы (), т. е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом, определяемым по ней константы. Т. о. число степеней свободы должно показать, сколько независимых х отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется независимых отклонений, т. к. по совокупности из n единиц после расчёта среднего уровня свободно варьируется лишь число отклонений.

Например,

, тогда т. к. , то свободно варьируются только 4 отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.

При расчёте объясненной или факторной суммы квадратов используются теоретические (расчётные) значения результативного признака , найденные из уравнения .

В линейной регрессии

, а

- общая дисперсия признака у;

- дисперсия признака у, обусловленная фактором х.

Поскольку при заданном объёме наблюдений по х и у факторная сумма квадратов при ЛР зависит только от одной константы (коэффициента регрессии b), то данная сумма квадратов имеет одну степень свободы.

К этому же выводу можно прийти по другому.

Отсюда следует, что при заданном наборе переменных у и х расчетное значение является в ЛР функцией только одного параметра - коэффициента регрессии, поэтому факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при ЛР составляет . Число степеней свободы для общей суммы квадратов определяется числом единиц, и т. к. мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, то есть .

Разделив каждую переменную сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или дисперсию на 1 степень свободы.

; ; .

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим величину F-критерия.

F-критерий для проверки нулевой гипотезы.

Н0 : .Если Н0 справедлива, то фактическая и остаточная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы Д факт превышала Д ост в несколько раз.

Английский статистик Снедекор разработал таблицу критических значений F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

Вычисленное значение F-отношений признаётся достоверным (отличным от единицы), если оно больше табличного. В этом случае Н0 (отсутствие связи) отклоняется и делается вывод о существенности этой связи: , отклоняется.

Если же , то вероятность Н0 выше заданного уровня (например 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи.

Н0 не отклоняется, а уравнение регрессии становится незначимым.

Величина F-критерия связана с коэффициентом детерминации . Факторную квадратов отклонений можно представить как , ( - общая дисперсия y; - дисперсия y обусловлена фактором x (факторная)), а остаточную сумму (, ). Тогда .

Оценка значимости уравнения регрессии даётся в виде таблицы дисперсионного анализа.

Источники вариации Число степеней свободы квадратов отклонений Дисперсия на 1 степень свободы Fотн
Факт. Табл.
Общая Объясняющая Остаточная     - - - 6,61 -

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных параметров. Поэтому по каждому из параметров определяется его стандартная ошибка: и , .

Стандартная ошибка коэффициента регрессии определяется по формуле: ;

- остаточная дисперсия на одну степень свободы ошибки.

Величина стандартной ошибки совместно с t-распределением Стьюдента при n-2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчёта его доверительных интервалов.

Для оценки существенности коэффициента регрессии его величина сравнивается со стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента.

, который сравнивается с табличным значением при определённом уровне значимости и числе степеней свободы .

Если фактическое значение больше табличного, то гипотезу о несущественности коэффициентов отвергаем. Доверительный интервал для коэффициента регрессии b определим по формуле предельная ошибка ( границы).

Так как коэффициент регрессии носит в эконометрических исследованиях чётко экономическую интерпретацию, то доверительные интервалы не должны содержать противоречивых результатов, например, . То есть, что истинное значение коэффициента одновременно содержит положительные, отрицательные величины и даже 0, чего не может быть.

Стандартная ошибка параметра a определяется:

Процедура оценивания не отличается от рассмотренной выше для b.

, его величина сравнивается с табличным, при .

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитывается t-критерий Стьюдента и доверительные интервалы для каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, то есть о незначительном отличии их от нуля. Оценки значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путём сопоставления их значений с величиной случайной ошибки (S2 остаточная дисперсия на 1 степень свободы, ).

; ; ;

; ; .

Сравниваем фактические и критические (табл.) значения и принимаем или отвергаем Н0

, то Н0 отклоняется, и считается, что и сформировались под влиянием систем фактора x.

Для расчёта доверительного интервала определяем предельную ошибку для каждого показателя.

; .

Формулы для расчёта доверительных интервалов имеют вид:

Если в границы доверительного интервала попадает нуль, то есть нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равный 0, так как не может одновременно принимать положительное и отрицательное значения степенями свободы.

Значимость линейного коэффициента корреляции проверяется на основе величины коэффициента корреляции mr

.

Фактическое значение t-критерия Стьюдента определяется

, данная формула свидетельствует, что в парной линейной регрессии , ибо , а также , следовательно .

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения.

Если при . То есть коэффициент а существенно отличен от нуля – является правильной, а зависимость достоверной.

Рассмотренная формула оценки коэффициента корреляции рекомендуется к применению при большом числе наблюдений и если r не близко к +1 или -1. Если , то распределение его оценок отличается от нормального или распределения Стьюдента, так как величина ограничена значениями (-1+1). Чтобы обойти это затруднение Р. Фишером было предложено для оценки существенности ввести вспомогательную величину z, связанную с следующим отношением

изменяется , что соответствует нормальному распределению. Стандартная ошибка величины определяется , где n – число наблюдений.

При r = 0,991 .

Z можно взять в таблице для соответствующего r.

Выдвигаем гипотезу H0 –т.е. корреляция отсутствует: .

, то есть фактическое значение превышает его табличное значение на уровне значимости и .

В виду того, что r и z связаны между собой приведённым выше отношением, можно вычислить критические значения r, соответствующие каждому из значений z. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Критические значения предполагают справедливость нулевой гипотезы, то есть мало отличается от нуля. Если фактическое значение коэффициента по абсолютной величине превышает табличное, то данное значение считается существенным.

Если же , то фактическое значение r несущественно.

 

 



Поделиться:


Последнее изменение этой страницы: 2017-02-07; просмотров: 471; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.133.109.211 (0.053 с.)