Коэффициент корреляции Пирсона 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Коэффициент корреляции Пирсона



Если переменные «х» и «у» измерены в числовых шкалах в качестве меры связи между ними выступает коэффициент корреляции Пирсона (rxy). Обычно коэффициент корреляции Пирсона называют выборочным коэффициентом корреляции или просто коэффициентом корреляции.

Данный коэффициент измеряет только степень прямолинейной связи и направление связи. Криволинейную (нелинейную) связь данный коэффициент не измеряет.

Рабочая формула для вычисления коэффициента корреляции:

В числителе – ковариация – разность между суммой произведений «х» на «у» и произведением сумм по «х» и «у», деленная на объем выборки. В знаменателе – корень квадратный из произведения SSx на SSy.

Коэффициент корреляции варьирует от - 1 до + 1. Эти два предела варьирования представляют собой функциональные связи: обратную (r = - 1) и прямую (r = 1). при приближении к нулю связь уменьшается, при r = 0 связь полностью отсутствует.

В дополнении к коэффициенту корреляции часто вычисляют коэффициент детерминации (D), который представляет собой квадрат коэффициента корреляции:

Коэффициент детерминации показывает долю изменчивости переменных, которая детерминируется корреляцией между ними.

Значение r = 0,7 является пороговым, ниже которого связь считается слабой или средней, но выше – сильной.

Пример 4. Получены данные о длине листовой пластинки («х», мм) и диаметре штамба («у», см) у 31 сеянца алычи (табл. 5.12.):

Таблица 5.12. Длина листовой пластинки «х», мм и диаметр штамба «у», см у 31 сеянца алычи

х 76,6 72,2 67,0 66,5 63,3 65,4 63,9 63,1 63,0 62,5 62,2
у 4,56 4,79 4,49 4,32 4,59 4,32 4,67 4,29 4,57 4,20 4,12
х 61,0 60,2 60,0 59,6 59,5 58,9 58,0 57,8 57,6 57,0  
у 4,13 4,70 3,80 4,23 3,76 4,08 4,61 4,37 4,30 4,00  
х 56,8 55,4 55,0 53,8 53,7 52,0 51,4 51,0 50,9 48,5  
у 3,82 4,12 4,19 4,16 4,09 4,12 4,02 4,31 4,06 4,03  

Необходимо вычислить коэффициент корреляции между длиной листовой пластинки и диаметром штамба.

Решение:

1. Копируем исходные данные в табличный редактор Excel. Транспонируем таблицу. Формируем два столбца: для признаков «х» и «у».

2. Строим точечную корреляционную решетку, задаем нужный формат осям абсцисс и ординат, добавляем линию тренда.

Рис 6.4. Точечная корреляционная решетка и тренд распределения 31 сеянца алычи по длине листовой пластинки (х) и диаметру штамба (у)

Исходя из распределения точек на корреляционной решетке, следует вывод о том, что связь между признаками, несомненно, имеется, прямая, средней степени.

Вычисляем компоненты формулы коэффициента корреляции:

Σ xiyi = 7868,663

Σ xi = 1843,8

Σ yi = 131,82

Σ x 2 i = 110851,4

Σ y 2 i = 562,6978

3. Вычислим коэффициент корреляции:

4. Вычислим коэффициент детерминации: 0,562=0,31

5. Вывод: корреляция между длиной листовой пластинки и диаметром штамба прямая, ниже средней степени.

Достаточный объём выборки для оценки достоверности коэффициента корреляции Пирсона. Достаточная численность выборки (N) при изучении коэффициента корреляции представляет собой число пар значений переменных (признаков) у объектов.

Для её расчета необходимо коэффициент корреляции «r» преобразовать в величину «z». Преобразование «r» в «z» можно также осуществлять по специальной статистической таблице (приложение 2.8) или вручную.

Достаточная численность выборки определяется по формуле:

где: z – преобразованная величина «r»;

tst – критерий Стьюдента t 05 или t 01.

Пример 5. Планируется определить достаточный объём выборки (число пар значений признаков у различных сортов абрикоса) для оценки достоверности коэффициента корреляции «r» между признаками «диаметр плода, мм» и «масса плода, г.

Единицами выборки будут выступать различные сорта абрикоса. У каждого сорта будут определяться две средние арифметические: 1) по диаметру плода (мм); 2) по массе плода (г). Для этого по каждому сорту отбирается репрезентативная выборка, например, по 10-15 плодов, и у каждого плода измеряются 2 параметра «диаметр плода, мм» и «масса плода, г. После этого вычисляются по каждому сорту пара средних арифметических. Совокупность этих пар у разных сортов абрикоса и является исходными данными для вычисления коэффициента корреляции.

Достоверность коэффициента корреляции во многом зависит от объема выборки. В малых выборках достоверность корреляции, как правило, трудно доказать. В больших выборках достоверность корреляции доказать значительно проще. Для доказательства достоверности используют преобразование «r» в показатель «z».

Зададим необходимые для вычислений параметры. Основным параметром является величина коэффициента корреляции «r». Предположим, различные степени связи: от слабой до сильной. Зададим следующие 5 величин «r»: 0,10; 0,30; 0,50; 0,70; 0,90. Рабочая гипотеза состоит в том, что связь между диаметром и массой плода сильная и близка к функциональной. Однако, для исследования зависимости достаточного объема выборки от величины коэффициента корреляции проанализируем все 5 значений коэффициента корреляции. Вначале проведем z -преобразование:

Преобразование коэффициентов корреляции Пирсона «r» в показатели «z»

r z
0,10 0,1003
0,30 0,3095
0,50 0,5493
0,70 0,8673
0,90 1,4722

Зададим величину t -критерия: t 01=2,58 и вычислим достаточную численность пар значений признаков у различных сортов абрикоса (N) при различных «z»:

На основе сравнительного анализа достаточных объемов выборок можно утверждать следующее:

1) для доказательства достоверности слабых связей ( r <<0,3) необходимы очень большие по объему выборки: N около 700 и более;

2) для связей средней величины (r = 0,3-0,6) N варьирует от 25 до 75 пар значений признаков;

3) для сильных связей (r >0,7) N варьирует от 6 до 12 пар значений признаков, то есть, выборки могут быть очень малыми.

Определим достоверность коэффициентов корреляции путем сравнения t 01 =2,58 с величиной . Если t 01 >  нулевая гипотеза принимается, связь недостоверная. Если t 01 <  нулевая гипотеза отвергается, связь достоверная:

Таблица 5.14. Достаточные объемы выборок (N) при различных величинах коэффициента корреляции (t 01=2,58)

r z N t= H0
0,10 0,1003 662 0,26 принимается
0,30 0,3095 73 2,59 отклоняется
0,50 0,5493 25 2,58 отклоняется
0,70 0,8673 12 2,60 отклоняется
0,90 1,4722 6 2,94 отклоняется

Таким образом, для доказательства достоверности очень слабой корреляции (r = 0,10 и менее) необходимы выборки, включающие более 670 пар значений признаков. Для доказательства достоверности всех остальных корреляций (r >0,1) допустимы достаточные объемы от 6 до 73 пар значений признаков.

Практическое задание 6.4. У 20 плодов яблони сорта «Айдаред» были измерены масса плода «х» (г) и диаметр плода «у» (мм). Постройте точечную корреляционную решетку, вычислите коэффициент корреляции Пирсона, коэффициент детерминации.

х 165 176 175 168 167 172 175 180 179 173
y 56 75 70 61 61 63 72 80 76 68
x 166 178 169 169 170 176 180 169 177 176
y 58 76 60 64 63 71 78 63 75 71

Решение:

Работа сдана «____» ______________ 20__ г.

____________________________________

(подпись студента, электронная



Поделиться:


Последнее изменение этой страницы: 2021-05-12; просмотров: 71; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.14.132.214 (0.014 с.)