Занятие 7. Корреляция и регрессия 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Занятие 7. Корреляция и регрессия



 

Расчетное время – 2 часа.

В агрономических исследованиях чаще всего встречаются такие соотношения между переменными, когда каждому значению признака Х соответствует не одно, а множество возможных значений признака У, т.е. их распределение. Такие связи, обнаруживаемые лишь при массовом изучении признаков, в отличии от функциональных (когда каждому значению одной величины соответствует строго определённое значение другой) называются вероятностными, или корреляционными.

Корреляционные связи характеризуются двумя основными показателя- ми – теснотой связи и формой связи. Для измерения тесноты и формы связи используют статистические методы, называемые корреляцией и регрессией.

Зависимость называется корреляционной, если с увеличением средней величины первого признака увеличивается средняя величина второго, или, наоборот, с увеличением средней величины первого признака второй уменьшается. В первом случае корреляция и регрессия – прямая, или положительная, во втором – обратная, или отрицательная (направление корреляции). По форме корреляция  и регрессия может быть линейной и криволинейной. Корреляцию и регрессию называют простой, или парной, если исследуется связь между двумя признаками, и множественной, когда изучается зависимость между тремя и более признаками.

Регрессией называют изменение результативного признака У (функции) при определённом изменении одного или нескольких факториальных (аргументов). Связь между функцией и аргументом выражается уравнением регрессии, или корреляционным уравнением. При простой регрессии уравнение кратко обозначается У=f(X) и при множественной У=f (X, Z, V…). Для оценки тесноты (силы) связи используют коэффициенты корреляции и корреляционное отношение.

Линейная корреляция – это такая зависимость между двумя признаками Х и У, которая носит линейных характер и выражается уравнением приямой линии У = а+вХ. Это уравнение называется уравнением регрессии У на Х, а соответствующая ему прямая линия – выборочной линией регрессии У на Х. Линейная регрессия – это такая зависимость, когда при любом значении аргумента Х одинаковые приращения его вызывают одинаковые изменения функции У. Когда при одинаковых приращениях аргумента функция имеет неодинаковые изменения, регрессия называется криволинейной.

В агрономии большинство связей криволинейные. Однако некоторые из них близки к линейным и их удобней анализировать как линейные зависимости, вычисляя коэффициент корреляции (r) – числовой показатель простой линейной корреляции, указывающий на тесноту (силу) и направление связи Х с У. Данный показатель рассчитывается по формуле:

 

.

 

Значение коэффициента корреляции лежит в пределах от +1 до -1. Если

r = 0,0 – корреляция отсутствует;

r £ 0,3 – корреляция слабая;

r = 0,3-0,7 – корреляция средняя;

0,7 < r <1,0 – корреляция тесная (сильная);

r = 1,0 – корреляция полная (функциональная зависимость).

Квадрат коэффициента корреляции (r2) называется коэффициентом детерминации и обозначается dУХ. Он показывает долю (%) тех изменений, которые в данном явлении зависят от изучаемого фактора.

Задача 1. Провести анализ зависимости между длинной листьев озимой пшеницы и их площадью (табл. 24).

Таблица 24. Вычисление корреляционной зависимости между длиной листа озимой пшеницы (см) и его площадью (см2).

№ пар Длина листа, см (Х) Площадь листа, см2 (У) Х- У- (Х- )(У- ) (Х- )2 (У- )2
1 15,0 6,21 -6,4 -7,89 49,9 38,4 60,8
2 16,2 7,50 -5,2 -6,5 33,8 27,0 42,3
3 17,5 9,10 -3,9 -4,9 19,1 15,2 24,0
4 18,9 10,0 -2,5 -4,0 10,0 6,25 16,0
5 20,2 11,7 -1,2 -2,3 2,76 1,44 5,29
6 20,5 12,0 -0,9 -2,0 1,8 0,81 4,0
7 20,7 12,5 -0,1 -1,5 0,15 0,01 2,25
8 20,9 12,9 -0,5 -1,1 0,55 0,25 1,21
9 21,3 13,1 -0,1 -0,9 0,09 0,01 0,81
10 21,7 13,6 0,3 -0,4 -1,2 0,09 0,16
11 22,0 14,0 0,6 0,0 0 0,36 0,0
12 22,2 15,0 0,8 1,0 0,8 0,64 1,0
13 22,2 15,5 0,8 1,5 1,2 0,64 2,25
14 22,6 15,8 1,2 1,8 2,16 1,44 3,24
15 22,9 16,2 1,5 2,2 3,3 2,25 4,84
16 23,0 17,0 1,6 3,0 4,8 2,56 9,0
17 24,1 18,1 2,7 4,1 11,1 7,29 16,81
18 24,9 19,1 3,5 5,1 17,9 12,3 26,0
19 25,4 20,2 4,0 6,2 24,8 16,0 38,4
20 25,3 21,1 3,9 7,1 27,7 15,21 50,4
Сумма 427,5 279,81 Σ≈0 Σ≈0 Σ= 210 Σ = 148 Σ =309
Среднее = 21,4 = 14,0 - - - - -

Количество пар (n) = 20.

 

Корреляционный анализ. Вычисления проводят по формулам:

1. Коэффициент корреляции

.

2. Стандартная ошибка коєффициента корреляции

.

3. Критерий достоверности коэффициента корреляции

.

Теоретическое значение критерия Стьюдента находят по числу степеней свободы νr = n-2 = 20-2 = 18;

     t0,95 = 2,1; t0,99 = 2,88.

Вывод 1. Так как коэффициент корреляции r = 0,98 (≈ 1), то связь между длиной листа озимой пшеницы и его площадью сильная, почти полная. При этом знак «+» показывает, что коэффициент корреляции положительный, а, следовательно, корреляция прямая.

 

Вывод 2. В связи с тем, что фактический критерий достоверности коэффициента корреляции равен 20,9, что значительно больше теоретических значений to,95 (2,1) и t0,99 (2,88), поэтому связь между длиной листа озимой пшеницы и его площадью достоверна на наивысших уровнях значимости.

 

Если количество пар незначительное, тогда оценка достоверности коэффициента корреляции искажается. Р. Фишер предложил оценивать достоверность по критерию tZ, пользуясь формулой tZ =

Значения Z находят в приложении 7 для определённого значения коэффициента корреляции r. Например, n = 7, r = 0,69. В этом случае               

Z = 0,848, а tZ = 0,848 = 1,7.

Число степеней свободы νr = n-2 = 7-2 = 5, для которого t0,95 = 2.57, а    t0,99 = 4,03. Так как tZ = 1,7, что меньше t0,95 и t0,99, то связь недостоверная.

Для оптимизации количества пар (повторностей) при изучении корреляционной связи применяют формулу

nОПТ = ,

где t – критерий Стьюдента для νr, которое для приведеного выше примера составляет n-2 = 7-2 = 5. При этом t0,95 = 2,57, a t0,99 = 4,03; Z – показатель, предложенный Р.Фишером, в нашем примере равен 0,848.

Оптимальное количество пар определяют по формулам

1) n0,95 = 2,572/0,8482 + 3 = 12,2 ≈ 13 (пар);

2) n0,99 = 4,032/0,8482 + 3 = 25,6 ≈ 26  (пар).

Таким образом, для проведения корреляционного анализа на уровне Р0,95 необходимо иметь выборку из 13, а на уровне Р0,99 – из 26 пар.

Регрессионный анализ. При сильной и достоверной связи в любом направлении (прямой или обратной) осуществляют регрессионный анализ.

1. Коэффициент регрессии – Ryx. Для нашего примера логично вычислить изменение площади листа озимой пшеницы при изменении его длины на 1 см:

 

(см2 на 1 см длины).

 

2. Площадь листа (У) при его длине (Х) вычисляют по уравнению 

регрессии

 

у =  + Ryx (х - ) = 14+1,42 (х-21,4).

Значения х получают после измерения длины 20-30 листьев пшеницы и определения их средней длины. Например, среднее значение длины листа составляет 21,7 см (10-я пара в табл. 24). Фактическое значение площади листа при этой длине составляет 13,6 см2, а расчетное будет таким:

у = 14+1,42 (21,7-21,4)= 14+0,43 = 14,4 см2.

Разница между расчётной площадью и фактической составляет           14,4 – 13,6 = 0,8 см2, или х = 0,8·100/13,6 = 5,9%.

Таким образом, по уравнению регрессии площадь листа вычислена с удовлетворительной точностью. Умножив площадь одного листа на их количество, получим общую листовую поверхность на одном растении или на определённой площади посева.

 

 

          Производственный сельскохозяйственный опыт



Поделиться:


Последнее изменение этой страницы: 2021-02-07; просмотров: 399; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.225.35.81 (0.013 с.)