Основы корреляционного анализа 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основы корреляционного анализа



Одной из главных задач корреляционного анализа является установление зависимости (связи) между признаками (частота пульса, артериальное давление, показатель анализа крови) – случайными величинами. Пусть Х и У – случайные величины. Зависимостьих друг от друга (если она существует) называется корреляционной зависимостью. Эта зависимость может быть установлена качественно – по форме корреляционного поля, и количественно – путем вычисления коэффициента корреляции. При установлении корреляционной зависимости экспериментально для каждого обследованного объекта получают соответствующие пары значений величин Х и У (например, роста и массы тела людей определенного пола и возраста):

Значения величины Х х 1 х 2 х 3 ... хn
Значения величины У у 1 у 2 у 3 ... уn

Объем выборки – n. Каждой паре значений ( хi, уi ) на плоскости х О у соответствует одна точка. Всего будет n точек.

 
 

Область на графике у (х), занятая этими точками, образует корреляционноеполе. Разные виды таких полей показаны на рис. 11. Если форма корреляционного поля близка к кругу (рис. 11 б), то связи между признаками Х и У нет. Если же корреляционное поле вытянуто (рис. 11 а, 11 в), то корреляционная связь между признаками Х и У есть, она тем сильнее, чем более вытянуто корреляционное поле.

По экспериментальным данным, для каждого значения признака Х можно найти .Зависимость x = f (x) называется эмпирическим уравнением регрессии У на Х. Аналогично можно получить зависимость у = j (у) – уравнение регрессии Х на У. Графики этих функций называются линиями регрессии. Если они представляют собой прямые, то корреляционная связь между признаками Х и У называется линейной и оценивается с помощью выборочного коэффициента корреляции r. Он равен:

r = .

Значения r по модулю не превышают 1, но могут быть как положительными, так и отрицательными:

–1 £ r £ 1 или | r | £ 1.

При r = 0 линейная связь между Х и У отсутствует; при значениях | r | до 0,3 – связь слабая; от 0,3 до 0,7 – умеренная; от 0,7 до 1 – сильная; если | r |» 1 – связь полная или, иначе, функциональная – в этом случае существует функция
Y = f (X), жестко связывающая значения Y и X.

При r > 0 связь между признаками Х и У прямая, т.е. с увеличением значений одного признака значения другого тоже увеличиваются; при r < 0 связь обратная, т.е. с увеличением значений одного признака, значения другого уменьшаются.

Пример 1. Х – рост, У –масса тела людей определенного пола и возраста. При работе с разными выборками для этих признаков r» 0,9, т.е. связь между признаками сильная и прямая (с увеличением роста весьма вероятно увеличение массы тела).

Пример 2. Х – охват населения прививками по разным районам области некоторого региона, У – показатель заболеваемости (обычно на 10000 чел.). Здесь
r» - 0,8; связь сильная и обратная: с увеличением охвата населения прививками вероятность заболевания уменьшается.

Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте зависимости между признаками, полученное по данным выборки, можно распространить и на генеральную совокупность. Например, для оценки коэффициента корреляции rг нормально распределенной генеральной совокупности (при n ³ 50) можно воспользоваться формулой.

< rг < .

 


* Перинатальный период охватывает внутриутробное развитие плода, начиная с 28-й недели беременности, период родов и первые 7 суток жизни ребенка.

* В этом случае считают, что значения некоторой случайной величины Х могут лежать в интервале (-¥; ¥), т.е. на всей числовой оси.

* Обычно случайные величины обозначают прописными буквами латинского алфавита, а их возможное значение и вероятности этих значений – строчными.

* Приведем пример, поясняющий этот факт. Пусть случайная величина – уровень осадков, выпавших за год. Она может принимать любые значения из некоторого интервала. Однако, вероятность того, что в заданный год этот уровень окажется точно равен 40 см, фактически равна 0.

 

** Иногда рассматривают интервал (– ¥; + ¥)

* В математической статистике ранжированным рядом часто называется последовательность всех полученных в эксперименте вариант, записанных в порядке возрастания.

* Точнее S 2 называется “исправленная выборочная дисперсия”

* Иногда вместо доверительной вероятности используется величина a = 1 - g, которая называется уровнемзначимости (см. 1.5, гл. I).

* В медицинской и биологической литературе эта величина иногда обозначается буквой m и называется ошибкой репрезентативности.

** См. Приложения в [4, 5, 9] списка литературы.



Поделиться:


Последнее изменение этой страницы: 2016-08-26; просмотров: 376; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.93.178.221 (0.005 с.)