Совместное распределение частот количественных признаков 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Совместное распределение частот количественных признаков



Одна из задач статистики состоит в том, чтобы по данным наблюдений за признаками определить, связаны ли они между собой (зависят ли друг от друга) или нет.

При n=2 частоты распределения представляют в таблице сопряженности (корреляционной таблице):

Таблица 7

Корреляционная таблица

  1
1
N

В этом случае существует только два маргинальных распределения частот — отдельно для 1-го признака (итоговый столбец таблицы сопряженности) и для 2-го признака (итоговая строка).

Критерий Пирсона (Хи квадрат)

Критерий  основан на разнице между наблюдаемыми и ожидаемыми значениями в каждой из ячеек корреляционной таблицы.

Наблюдаемые значения — это те, которые мы получили из данных по выборке (пронаблюдали).

Ожидаемые значения — это те, которые мы бы ожидали увидеть в том случае, если эти переменные независимы.

Для расчета ожидаемых значений используется формула:

= .

Далее производится расчет критерия  :

.

Необходимо:

ü расчетное значение статистики  сравнить со значением 95% квантиля  - распределения (число степеней свободы df (degreesfree) = ( –1)( –1));

ü если расчетное значение не превышает табличное (т.е. является достаточно малым), то нулевая гипотеза [ H 0: переменные независимы] не отвергается, и данные множества признаков считаются независимыми;

ü если расчетное значение больше табличного, то множества признаков определяются как зависимые между собой с уровнем ошибки 5%.

Регрессионный анализ

Регрессионный анализ позволяет определить характер взаимосвязи между переменными

,   i =

 — зависимая (объясняемая) переменная,

 — независимая (объясняющая) переменная (фактор, регрессор),

 — коэффициент регрессии (коэффициент наклона) — параметр уравнения,

 — свободный (постоянный) член — параметр уравнения,

 — случайный член

Причем , , истинные значения параметров регрессии и случайного члена.

На основе выборочного наблюдения оценивается (выборочное) уравнение регрессии. Оценки параметров регрессии и остатки обозначаются соответствующими буквами латинского алфавита.

И уравнение парной регрессии, записанное по наблюдениям, будет иметь следующий вид:

,   i = .

Основная задача регрессионного анализа состоит в наилучшей аппроксимации набора наблюдений (), i=  линейным уравнением.

Требуется подобрать параметры уравнения  и , для чего используется Метод наименьших квадратов (МНК).

Метод наименьших квадратов (МНК) — метод нахождения оптимальных параметров линейной регрессии, таких, чтобы сумма квадратов ошибок (остатков) была минимальна.

Выписываем сумму квадратов регрессионных остатков RSS (ResidualSumofSquares):

RSS =  = .

Приравняв производные к нулю, получаем систему из двух уравнений. Откуда выражаем значения параметров:

 = ,

=  =  = , где

 — дисперсия  — мера разброса (вариации) случайной величины.

 =  =  = ,

 – ковариация (cov) между  и  — количественный показатель силы и направления взаимосвязи 2х переменных (cov > 0 — взаимосвязь положительная)

 =  =

Матрица ковариаций переменных  и  имеет вид:

M = .

Коэффициент корреляции (Пирсона)

 = ,  1

r≈ 0, случайные величины линейно независимы;

r≈ 1, между случайными величинами существует прямая линейная зависимость;

r≈ –1, между случайными величинами существует обратная линейная зависимость.

 



Поделиться:


Последнее изменение этой страницы: 2021-05-12; просмотров: 89; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.20.193 (0.011 с.)