Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ

Идентификация характеристик технологических объектов с использованием стандартных методов Excel

⇐ ПредыдущаяСтр 16 из 50Следующая ⇒

Суть и этапы регрессионного анализа

Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой так же результативным признаком) с независимыми случайными величинами X₁, X₂,…X_m (называемыми так же факторами).

Форма связи результативного признака Y с факторами X₁, X₂,…X_m получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессии (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.).

В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессии. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией.

При изучении регрессии следует придерживаться определенной последовательности этапов:

1. Задание аналитической формы уравнения регрессии и определение параметров регрессии.

2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии.

3. Проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.

Основное содержание этапов регрессионного анализа

Основное содержание выделенных этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа Microsoft Excel.

Этап 1. Уравнение линейной множественной регрессии имеет вид

, (2.1)

где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии;

– значения факторных признаков;

– параметры уравнения (коэффициенты регрессии).

Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (a_i), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т.е.

. (2.2)

Рассматривая S в качестве функции параметров a_i и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров a_i):

(2.3)

где n – число наблюдений;

m – число факторов в уравнении регрессии.

Решив систему уравнений, находим значения параметров a_i, являющихся коэффициентами искомого теоретического уравнения регрессии.

Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии:

- общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов:

, (2.4)

где – среднее значение результативного признака Y;

- факторную дисперсию результативного признака Y, отображающую влияние только основных факторов:

; (2.5)

- остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов:

. (2.6)

При корреляционной связи результативного признака и факторов выполняется соотношение

, при этом . (2.7)

Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R², называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле

(2.8)

и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.

Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статической значимости коэффициента детерминации R² на основе F -критерия Фишера:

, (2.9)

где n – число наблюдений;

m – число факторов в уравнении регрессии.

Примечание. Если в уравнении регрессии свободный член а₀ = 0, то числитель n-m-1 следует увеличить на 1, т.е. он будет равен n-m.

В математической статистике доказывается, что если гипотеза H₀: R² = 0 выполняется, то величина F имеет F -распределение с k = m и l = n-m-1 числом степеней свободы, т.е.

. (2.10)

Гипотеза H₀: R² = 0 о не значимости коэффициента детерминации R² отвергается, если .

При значениях R² >0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X.

Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R² включает в себя так же и проверку значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии проверяется с помощью t -критерия Стьюдента:

, (2.11)

где – стандартное значение ошибки для коэффициента регрессии .

В математической статистике доказывается, что если гипотеза H₀: a_i = 0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы, т.е.

. (2.12)

Гипотеза H₀: a_i = 0 о незначимости коэффициента регрессии отвергается, если .

Кроме того, зная значение t_кр, можно найти границы доверительных интервалов для коэффициентов регрессии:

(2.13)

Для работы с регрессией открываем вкладку Сервис –> Анализ данных –> Регрессия (см. рис. 2.24.).

Рис. 2.24

В диалоговом окне Регрессия задаются следующие параметры:

1. Входной интервал по Y – вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца.

2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16.

3. Флажок Метки – устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует деактивировать. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона.

4. Уровень надежности – установите данный флажок в активное состояние, если в поле, расположенном напротив флажка необходимо ввести уровень надежности отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R² и коэффициентов регрессии а_i. (Уровень надежности оставляем по умолчанию 95 %).

5. Константа-ноль – установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т.е. а₀ = 0).

6. Выходной интервал/Новый рабочий лист/Новая рабочая книга.

В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные.

В положении Новый рабочий лист открывается новый лист, в который начиная с ячейки А1, вставляются результаты анализа. Если необходимо задать имя открываемого нового рабочего листа, введите его имя в поле, расположенное напротив соответствующего положения переключателя.

В положении Новая рабочая книга открывается новая Книга, на первом листе которой, начиная с ячейки А1, вставляются результаты анализа.

Вывод результатов:

В первой таблице сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям:
1. Множественный R – коэффициенту корреляции R;

2. R-квадрат – коэффициенту детерминации R²;

3. Стандартная ошибка – остаточному стандартному отклонению

; (2.14)

- Наблюдения – числу наблюдений n.

В следующей таблице сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R².

1. Столбец df – число степеней свободы.

Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии .

Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии .

Для строки Итого число степеней свободы определяется суммой .

2. Столбец SS – сумма квадратов отклонений.

Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего:

. (2.15)

Для строки Остаток – это сумма квадратов отклонений эмпирических данных от теоретических:

. (2.16)

Для строки Итого – это сумма квадратов отклонений эмпирических данных от среднего:

или . (2.17)

3. Столбец MS – дисперсии, рассчитываемые по формуле

. (2.18)

Для строки Регрессия – это факторная дисперсия .

Для строки Остаток – это остаточная дисперсия .

4. Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению F_p.

В последней таблице сгенерированы значения коэффициентов регрессии a_i и их статические оценки.

1. Коэффициенты – значения коэффициентов a_i.

2. Стандартная ошибка – стандартные ошибки коэффициентов a_i. 3. t-статистика – расчетные значения t -критерия, вычисляемые по формуле

(2.19)

4. Р-значение – значения уровней значимости, соответствующие вычисленным значениям t_p.

5. Нижние 95% и Верхние 95% - соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии a_i.

⇐ Предыдущая 11 12 13 14 151617 18 19 20 Следующая ⇒

Приготовление дезинфицирующих растворов различной концентрации

Занятость населения и рынок труда

Социальный статус семьи и её типология

Последнее изменение этой страницы: 2016-08-01; просмотров: 379; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.141.41.187 (0.021 с.)