Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Оценка существенности параметров линейной регрессии и корреляции
После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, гак и отдельных его параметров. Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотеза том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат у. Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений ( СКО ) у от среднего значения раскладывается на две части -объясненную и необъясненную: (13) или, соответственно: Здесь возможны два крайних случая: когда общаяСКО в точности равна остаточной и когда общая СКО равна факторной. В первом случае фактор х не оказывает влияния на результат, вся дисперсия у обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и . Во втором случае прочие факторы не влияют на результат, у связан с х функционально, и остаточная СКО равна нулю. Однако на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации у приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент детерминации будет приближаться к единице. Число степеней свободы, (df-degrees of freedom) - это число независимо варьируемых значений признака. Для общей СКО требуется (п-1) независимых отклонений, т.к. , что позволяет свободно варьировать (n-1) значений, а последнее n -е отклонение определяется из общей суммы, равной нулю. Поэтому . Факторную СКО можно выразить так: Эта СКО зависит только от одного параметра b, - поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и . Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы: (14) Таким образом, можем записать: (n-1)=1+(n-2) Из этого баланса определяем, что . Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:
(15) (16) (17) Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим F '- критерий для проверки нулевой гипотезы, которая в данном случае записывается как (18) Если H0 справедлива, то дисперсии не отличаются друг от друга. Для H0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности H0 и различных числах степеней свободы. Табличное значение F- критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы - числителя (она равна единице) и знаменателя, равная п-2, Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного, т.е. . В этом случае H0 отклоняется и делается вывод о существенности превышения Dфакт над Dостат, т.е. о существенности статистической связи между у и х. Если , то вероятность H0 выше заданного уровня (например, 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между у и х. Уравнение регрессии считается статистически незначимым, H0 не отклоняется. В рассмотренном примере: -- это общая СКО. -- это факторная СКО -- это остаточная СКО. D факт==14735; F 0.05(1;5)=6,61; F 0.01(1;5)=16,26. На любом уровне значимости F факт > Fтабл, и можно сделать вывод о значимости уравнения регрессии. Статистическая связь между у и х доказана. Величина F- критерия связана с коэффициентом детерминации. (19) В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. Стандартная ошибка коэффициента регрессии определяется по формуле: (20) S2 - остаточная дисперсия на одну степень свободы (тоже, что и D остат). В рассмотренном примере Величина стандартной ошибки совместно с t - распределением Стьюдента при n-2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.
Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t - критерия Стьюдента (21) которое затем сравнивается с табличным значением при определенном уровне значимости а и числе степеней свободы (п-2). Здесь проверяется нулевая гипотеза в виде также предполагающая несущественность статистической связи между у и х, но только учитывающая значение b, а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Однако общий смысл гипотез один и тот же: проверка наличия статистической связи между у и х или ее отсутствия. Если tb>tтабл(α; n-2), то гипотеза H0:b=0 должна быть отклонена, а статистическая связь у с х считается установленной. В случае tb<tтабл(α; n-2) нулевая гипотеза не может быть отклонена, и влияние x на у признается несущественным. В рассмотренном примере: Для двустороннего α=0,05 и n -2=5 t табл=2,57, tb >tтабл, поэтому гипотезу о несущественности b следует отклонить. Существует связь между tb и F: Отсюда следует, что (22) Доверительный интервал для b определяется как (23) где - рассчитанное (оцененное) по МНК значение коэффициента регрессии. 95%-ные границы в примере составят: 36,84 ± 2,57 • 2,21 == 36,84 ± 5,68, т.е. 31,16≤ b ≤42,52. Это означает, что с вероятностью 0,95 истинное значение b находится в указанном интервале. Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, -10≤ b ≤40. Они не должны включать нуль. Стандартная ошибка параметра a определяется по формуле: (24) Процедура оценивания существенности а не отличаетсяот таковой для параметра b. При этом фактическое значение t - критерия вычисляется по формуле: (25) Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях | r |. В этом случае гипотеза об отсутствии корреляционной связи между у и хH0:r=0 проверяется на основе статистики , (26) которая при справедливости H0 приблизительно распределена по закону Стьюдента с (n-2) степенями свободы. Если tr>tтабл(α;n-2), то гипотеза Но отвергается с вероятностью ошибиться, не превышающей α. Из (19) видно, что в парной линейной регрессии . Кроме того, , поэтому . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Однако при малых выборках и значениях г, близких к ±1, следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу. Чтобы обойти это затруднение, используется так называемое z -преобразование Фишера:
, (27) которое дает нормально распределенную величину z, значения которой при изменении r от -1 до +1 изменяются от -¥ до +¥ Стандартная ошибка этой величины равна: Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r. Для z выдвигается нуль-гипотеза Ho:z=O, состоящая в том, что корреляция отсутствует. В этом случае значения статистики (29) которая распределена по закону Стьюдента с (п-2) степенями свободы, не превышает табличного на соответствующем уровне значимости. Для каждого значения z можно вычислить критические значения r. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.
|
|||||||
Последнее изменение этой страницы: 2017-02-05; просмотров: 563; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.143.17.128 (0.025 с.) |