Элементы корреляционного анализа 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Элементы корреляционного анализа



Как известно, если величины Х и У связаны между собой функциональной зависимостью, то зная значение одной величины, можно точно указать значение другой. В теории вероятностей и в математической статистике рассматривается другой, более общий тип зависимости между величинами, а именно, так называемая статистическая (вероятностная) зависимость.

Статистической называется зависимость между переменными вели-чинами Х и У, при которой каждому значению одной величины Х соответ-ствует определенное распределение другой величины У, зависящее от того, какое значение приняла величина Х.

В частности, если при изменении одной из величин изменяется среднее значение другой, то такая статистическая зависимость называется корреля-ционной.

Определение степени зависимости между случайными величинами по эмпирическим данным и является целью корреляционного анализа.

Для простоты будет рассмотрена зависимость между двумя случайными величинами. Если исследуется связь между несколькими случайными величинами, то говорят о множественной корреляции.

10.1. Корреляционная таблица

Пусть произведено достаточно большое число независимых опытов над системой случайных величин (Х, У), причем одно и то же значение наблюдалось раз (j = 1, 2,..., t), одно и то же значение раз (i = 1, 2, …, s), каждая пара значений наблюдалась раз (отдельные значения могут быть нулями). Данные таких опытов обычно группируют и записывают в виде так называемой корреляционной таблицы.

Корреляционная таблица для двух переменных в общем случае имеет вид:

 

Таблица 12

X Y ... ...
y 1 n 11 ...
n 21 n 22 . n 2j . n2t
. . . . . . .
n i1 n i2 . n ij . nit
. . . . . . .
n s1 n s2 . nsj . nst
n x1 n x2 . nxj . nxt n

В первой строке таблицы 12 указаны наблюдавшиеся значения случайной величины X, , в первом столбце – все наблюдавшиеся значения Y. Если число их велико, то каждый из интервалов, в котором заключены наблюдавшиеся значения и соответственно делят на ряд частичных интерва­лов. Тогда значения x j и y i будут средними значениями в каждом частичном интервале.

Очевидно, сумма частот j -го столбца

.

Сумма частот i - ой строки

Сумма всех частот (общее число наблюдений) равна

(10.1)

и помещается в правом нижнем углу таблицы.

Общие средние арифметические переменных x и y равны соответственно

,

.

Корреляционная таблица наглядно показывает распределение значения Y для каждого значения X (и наоборот) и является статистическим ана­ло­гом таблицы распределения вероятностей системы двух случайных величин.

Рассмотрим, например, распределение значений Y при X = xj (см. таблицу 13)

Таблица 13

Значения Y y1 y2 ... y i ... y s Всего
Частоты n 1j n 2j ... n ij ... n sj n xj

 

Средняя арифметическая этого распределения называется условной (групповой) средней переменной Y для данного значения xj и обозначается через . Очевидно, что

(10.2)

Каждому отдельному значению x j переменной X соответствует вполне определенное значение условной средней переменной Y, то есть Следовательно, статистическая зависимость между и X является корреляционной.

Аналогично, средняя арифметическая всех наблюдавшихся значений X при условии Y = y i называется условной (групповой) средней переменной X для данного значения y i:

(i =1,2,... ,s), (10.3)

причем .

Условные средние являются статистическим аналогом условных матема­тических ожиданий в теории вероятностей.

Уравнение называется выборочным (или эмпирическим) уравнением регрессии Y на X, функция f (x) называется выборочной регрессией Y на X, а ее график – выборочной линией регрессии Y на X. Аналогично, уравнение называется выборочным уравнением регрессии X на Y; функция - выборочной регрессией X на Y, а ее график – выборочной линией регрессии X на Y.

Двумя основными задачами теории корреляции являются:

- изучение зависимости условных средних от X (и соответственно от Y), то есть установление вида функции регрессии,

- оценка силы (тесноты) корреляционной зависимости между величинами X и Y.

Отыскание приближенной линии регрессии

По эмпирическим данным

Отметим, прежде всего, одно важное свойство линии регрессии. Можно показать, что справедлива следующая теорема: среднее значение суммы квадратов отклонений величин y i от выборочной линии регрессии меньше, чем от графика любой другой функции.

По опытным данным можно построить эмпирическую (“истинную”) линию регрессии, но она представляет собой ломаную линию, и уравнение еë для практического использования непригодно. Поэтому обычно строят приближенную (теоретическую) линию регрессии того или иного вида, определяя неизвестные параметры этой функции из условия минимума D.

Можно показать, что если переменные X и Y представляют собой суммы большого числа независимых (или почти независимых) случайных величин, то X и Y связаны линейной корреляционной зависимостью (если она вообще существует). Так как на практике именно этот случай реализуется чаще всего, то приближенную функцию регрессии ищут, как правило, в виде линейной функции При этом задача сводится лишь к отысканию неизвестных параметров a и в. Это можно сделать различными способами. Наиболее распространенным из них, позволяющим получить в некотором смысле наилучшее приближение к экспериментальным данным, является метод наименьших квадратов.

Метод наименьших квадратов

Суть метода состоит в следующем: пусть известны результаты эксперимента (x 1, y 1), (x 2, y 2),...,(x n, y n) и выбран с точностью до k неизвестных парамет­ров вид функции

y = f (x, a 1, a 2,..., a k), (10.4) аппроксимирующей экспериментальные данные.

Согласно методу наименьших квадратов неизвестные параметры a i вы­би­ра­ются так, чтобы сумма квадратов отклонений была минимальной

. (10.5)

Под отклонением понимается разность между наблюдавшимся значени­­ем y i и расчетным значением y, вычисленным по уравнению (10.4) при x=xi.

Для отыскания значений обеспечивающих минимум левой части уравнения (10.5), необходимо приравнять нулю производные по Тогда получим

(10.6)

Здесь числа - значения частных производных функции по параметрам в точке x i. Число уравнений в системе (10.6) равно числу неизвестных параметров.

В интересующем нас случае функция

линейна и содержит два неизвестных параметра. Необходимыми условиями минимума суммы квадратов отклонений условных средних (то есть “истинной” линии регрессии) от приближенной функции регрессии являются условия

где

.

В результате получим два линейных уравнения

или

Так как

с учетом обозначений (10.1), (10.2) можно записать

откуда следует:

. (10.7)

Функция , коэффициенты которой определяются по формуле (10.7), называется линейной среднеквадратической регрессией Y на X.



Поделиться:


Последнее изменение этой страницы: 2016-08-26; просмотров: 288; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.97.248 (0.013 с.)