Кореляційно – регресійний аналіз. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Кореляційно – регресійний аналіз.



Основні завдання кореляційного аналізу:

1. Описання за допомогою рівняння регресії (рівняння кореляційного зв’язку) зв’язку між досліджуваними ознаками.

2. Оцінка тісноти зв’язку.

Передумови застосування кореляційного аналізу:

· наявність причинно-наслідкових зв’язків між досліджуваними ознаками;

· достатність варіації (варіація вважається достатньою, якщо коефіцієнт варіації V>10%);

· однорідність сукупності (визначається за τ - критерієм);

· числовий вираз досліджуваних ознак.

Графічне зображення статистичних показників дає наочне уявлення про наявність зв’язку між досліджуваними ознаками. При побудові кореляційного поля на осі абсцис відкладають факторну ознаку, на осі ординат - результативну. На поле наносяться точки з координатами, які відповідають значенням ознак окремих одиниць спостереження. За розташуванням точок можна виявити характер залежності. Чим більший розкид точок по кореляційному полю, тим слабкіша залежність. Розкид точок у певному напрямі свідчить про прямий чи обернений зв’язок. Як правило, на кореляційне поле наносять лінію регресії y по x, а також лінії, які відповідають середнім значенням ознак.

Залежно від форми зв’язку між факторною і результативною ознаками вибирають тип математичного рівняння. Прямолінійну форму зв’язку визначають за рівнянням прямої лінії

yx = a0 + a1∙х,

де yx - теоретичні значення результативної ознаки;

a0, a1 - коефіцієнти регресії.

Коефіцієнт регресії a0 , з економічної точки зору, не несе ніякої інформації. Коефіцієнт регресії a1 показує, на скільки зміниться результативна ознака при зміні факторної ознаки на одиницю.

При прямому зв’язку між корелюючими ознаками коефіцієнт регресії a1 матиме додатне значення, при зворотному - від’ємне.

Параметри a0 і a1 рівняння регресії обчислюють способом найменших квадратів. Суть цього способу полягає в знаходженні таких параметрів рівняння зв’язку, при яких сума квадратів відхилень фактичних значень від теоретичних буде мінімальною:

∑(у-ух) = min.

Спосіб найменших квадратів зводиться до складання і розв’язання системи двох рівнянь з двома невідомими:

n∙a0 + a1∙∑x =∑y

a0∙∑x + a1∙∑x2= ∑ x∙y.

Для оцінки тісноти зв’язку між досліджуваними ознаками застосовують:

· Індекс кореляції - універсальний показник, який використовують при будь-яких формах зв’язків:

Індекс кореляції змінюється в межах від 0 до +1.

· Коефіцієнт кореляції - використовують тільки при прямолінійних зв’язках:

Коефіцієнт кореляції знаходиться в межах від 0 до +1 при прямому зв’язку і від -1 до 0 - при зворотному зв’язку. Чим ближче коефіцієнт кореляції до ± 1, тим тісніший зв’язок між досліджуваними ознаками, чим ближче коефіцієнт кореляції до 0, тим слабший зв’язок між ознаками.

· Коефіцієнт детермінації, який показує, на скільки відсотків варіація результативної ознаки зумовлена варіацією факторної ознаки:

Приклад. Побудувати рівняння регресії, що описує залежність урожайності озимої пшениц, ц/гаі (у) від якості грунту, балі (х)

Оцінити щільність зв’язку між досліджуваними ознаками.

Таблиця 8.4.1.

Вихідні та розрахункові дані для побудови рівняння регресії

п/п у х у х у х у ух
1 33,4 74 1115,56 5476 2471,6 38,2669 182898,4
2 39,6 83 1568,16 6889 3286,8 40,5278 272804,4
3 39,8 83 1584,04 6889 3303,4 40,5278 274182,2
4 36,4 85 1324,96 7225 3094,0 41,0302 262990,0
5 37,6 84 1413,76 7056 3158,4 40,7790 265305,6
6 39,5 83 1560,25 6889 3278,5 40,5278 272115,5
7 40,2 87 1616,04 7569 3497,4 41,5326 304273,8
8 42,4 81 1797,76 6561 3434,4 40,0253 278186,4
9 40,2 75 1616,04 5625 3015,0 38,5181 226125,0
10 40,6 74 1648,36 5476 3004,4 38,2669 222325,6
11 42,2 70 1780,84 4900 2954,0 37,2621 206780,0
12 43,8 81 1918,44 6561 3547,8 40,0253 287371,8
13 43,9 87 1927,21 7569 3819,3 41,5326 332279,1
14 43,1 80 1857,61 6400 3448,0 39,7741 275840,0
15 35,9 69 1288,81 4761 2477,1 37,0109 170919,9
16 40,6 86 1648,36 7396 3491,6 41,2814 300277,6
17 43,0 79 1849,00 6241 3397,0 39,5229 268363,0
18 43,2 80 1866,24 6400 3456,0 39,7741 276480,0
19 33,0 72 1089,00 5184 2376,0 37,7645 171072,0
20 40,0 88 1600,00 7744 3520,0 41,7838 309760,0
21 42,2 83 1780,84 6889 3502,6 40,5278 290715,8
22 33,4 70 1115,56 4900 2338 37,2621 163660,0
23 40,0 89 1600,00 7921 3560 42,0350 316840,0
24 35,8 73 1281,64 5329 2613,4 38,0157 190778,2
25 43,8 81 1918,44 6561 3547,8 40,0253 287371,8
993,6 1997 39766,92 160411 79592,5 993,60 6409716

25a + 1997a = 993,6

1997a + 160411a = 79592,5

a + 79,88 a = 39,744

a + 80,326 a = 39,856

Звідси, a = 19,6779

a = 0,2512

Рівняння регресії має вигляд: у = 19,6779 +0,2512х.

Коефіцієнт регресії a = 0,2512 показує, що із покращенням якості грунту на 1 бал, урожайність озимої пшениці підвищується, в середньому, на 0,2512 ц/га.

Для оцінки тісноти зв’язку між досліджуваними ознаками обчислюємо:

1) індекс кореляції:

= 0,56

2) Коефіцієнт кореляції:

= = 0,5

3) Коефіцієнт детермінації, який показує, на скільки відсотків варіація результативної ознаки зумовлена варіацією факторної ознаки:

R = 0,5 х 100% = 25 %.

Варіація урожайності озимої пшениці на 25% зумовлена варіацією якості грунту, балів.

Суттєвість коефіцієнта кореляції перевіримо за допомогою F- критерію Фішера.

Формулюємо нульову гіпотезу Н : коефіцієнт кореляції є несуттєвим.

F=

F= = 7,57

При рівні ймовірності Р=0,95, число ступенів вільності становить:

На підставі заданого рівня ймовірності та визначеного числа ступенів вільності із таблиць визначаємо критичну точку: F =4,28

Так як фактичне значення F- критерію перевищує критичну точку, то нульова гіпотеза не приймається, тобто коефіцієнт кореляції є суттєвим.

 

При криволінійній формі зв’язку збільшення факторної ознаки призводить до нерівномірного збільшення (або зменшення), або ж зростання її величини змінюється зниженням, а зменшення - збільшенням результативної ознаки.

Нелінійні форми зв’язку різні. Для визначення зв’язку між ознаками, взаємозалежність яких передбачає можливість існування оптимальних розмірів опеацій, використовують рівняння параболи:

yx = a0 + a1∙х+ a2∙х2.

Для визначення параметрів рівняння необхідно розв’язати систему з трьох

рівнянь:

n∙a0 + a1∙∑x + a2∙∑x2 =∑y;

a0∙∑x + a1∙∑x2 + a2∙∑x3= ∑ x∙y;

a0∙∑x2 + a1∙∑x3 + a2∙∑x4= ∑ x∙y 2.

Однією з особливостей цього типу кривої є те, що вона завжди має точку перетину, яка характеризує оптимальний варіант розміру величини результативної ознаки і змінює напрям свого руху лише один раз. Якщо в рівнянні величина a1 виражена від’ємним числом, а a2 - додатнім, то крива змінюватиме напрям зниження на зростання.

Для оцінки тісноти зв’язку, як вже зазначалось, при криволінійних зв’язках використовують індекс кореляції та коефіцієнт детермінації.

Для дослідження впливу двох і більше факторів на зміну результативного показника застосовують множинну кореляцію.

Припущення про існування лінійного рівняння множинної регресії може бути представлено у вигляді:

yx1, х2...хn = a0 + a1∙х1+ a2∙х2+ a3∙х3 + ··· + an∙хn.

Окремі коефіцієнти рівняння регресії характеризують вплив відповідного фактора на результативний показник, при умові, що інші фактори еліміновані. Вільний член рівняння a0 не має економічного змісту і не інтерпретується.

Параметри рівняння множинної регресії розраховують за системою нормальних рівнянь:

n∙a0 + a1∙∑x1 + a2∙∑x2 =∑y;

a0∙∑x1 + a1∙∑x12 + a2∙∑x1∙х2= ∑ x1∙y;

a0∙∑x2 + a1∙∑ x1∙х2 + a2∙∑x22= ∑ x2∙y.

 

Показниками тісноти зв’язку при множинній кореляції є парні, часткові, множинний коефіцієнти кореляції, множинний коефіцієнт детермінації і часткові коефіцієнти детермінації.

Парні коефіцієнти кореляції характеризують тісноту зв’язку між двома ознаками без урахування їх взаємодії з іншими ознаками:

 

 

Часткові коефіцієнти кореляції характеризують тісноту заявку результативної ознаки з однією факторною ознакою при умові, що інші факторні ознаки еліміновані:

 

Множинний коефіцієнт кореляції характеризує тісноту зв’язку між всіма досліджуваними в моделі факторами:

або

Множинний коефіцієнт детермінації розраховують за формулою:

D = R2 ∙100%.

В свою чергу, множинний коефіцієнт детермінації розкладають на часткові коефіцієнти детермінації, які характеризують на скільки відсотків варіація результативної ознаки залежить від варіації кожної із факторних ознак.

D = d1 + d2.

Крім цього, здійснюють перевірку суттєвості множинного коефіцієнта кореляції (за F- критерієм) та коефіцієнтів регресії (за t - критерієм).

Важливими показниками кореляційного аналізу є коефіцієнти еластичності і β - коефіцієнти.

Коефіцієнти еластичності показують, на скільки відсотків змінюється результативна ознака при зміні факторної ознаки на 1%. Обчислюють їх за формулою:

β - коефіцієнти показують, на скільки середніх квадратичних відхилень змінюється результативна ознака при зміні відповідного фактора на одне середнє квадратичне відхилення. Їх визначають за формулою:

Непараметрична кореляція

Якщо характер розподілу досліджуваної сукупності невідомий, то тісноту кореляційного зв’язку визначають за допомогою непараметричних методів. Особливістю цих методів є те, що коефіцієнт кореляції між ознаками визначають не за кількісними значеннями варіантів ознак, а за допомогою порівняння їх рангів. Ранг - порядковий номер відповідної одиниці сукупності в ранжированому ряді. Чим менша розбіжність між порядковими номерами порівнюваних ознак, тим тісніший зв’язок між ними.

До непараметричних критеріїв кореляційних зв’язків належать: коефіцієнт кореляції рангів, коефіцієнт Фехнера, коефіцієнт контингенції, та коефіцієнт асоціації

Коефіцієнт кореляції рангів - це один із найпростіших показників тісноти кореляційної залежності. Обчислюють його за формулою Спірмена:

де d - різниця між рангами досліджуваних ознак; n - кількість спостережень.

Коефіцієнт кореляції рангів може приймати значення від 0 до +1 і від 0 до -1. Якщо обидва ряди повністю збігаються, то ∑ d 2 = 0 і коефіцієнт кореляції дорівнює +1. При повному зворотному зв’язку, коли ранги розташовані у зворотному порядку, коефіцієнт кореляції дорівнює -1.

Коефіцієнт Фехнера визначають шляхом зіставлення знаків відхилень від середнього і підрахунку числа співпадань і неспівпадань знаків:

,

де З – число пар з однаковими знаками відхилень х і у від від ;

Н – число пар з різними знаками відхилень х і у від від .

Коефіцієнт Фехнера може приймати значення від 0 до +1 і від 0 до -1. Знак «+», «-» вказує на напрям зв’язку.

Для оцінки тісноти зв’язку між альтернативними ознаками із протилежними (взаємовиключними) характеристиками, застосовують коефіцієнт асоціації і коефіцієнт контингенції. Для обчислення коефіцієнта асоціації та коефіцієнта контингенції використовують таблиці взаємної спряженості.

Коефіцієнт асоціації обчислюють за формулою:

.

Якщо >0,3, між досліджуваними ознаками існує зв'язок.

Наприклад, визначити вплив мінеральних добрив на урожайність озимої пшениці. Вихідні дані наведено в таблиці:

Урожайністьз ділянок Обсяг добрив, га Разом
внесених невнесенених
Підвищено 110 10 120
Не підвищено 10 70 80
Разом 120 80 200

Коефіцієнт асоціації:

.

Отже, зв'язок між удобрюванням ділянок і врожайністю озимої пшениці – дуже щільний.

Коефіцієнт контингенції обчислюють за формулою:

.

Коефіцієнт контингенції може приймати значення від – 1 до 0 і від 0 до +1.

 

Питання для самоконтролю

1. Який зв'язок називають функціональним?

2. Який зв'язок називають кореляційним?

3. У чому полякає суть аналітичного групування?

4. Що характеризує кореляційне відношення?

5. Назвіть основні завдання кореляційно-регресійного аналізу.

6. Назвіть передумови застосування кореляційно-регресійного аналізу.

7. Що являє собою рівняння регресії?

8. Як обчислюють параметри лінійного рівняння регресії?

9. Які показники використовуються для оцінки тісноти зв’язку в кореляційно-регресійній моделі?

10. Що являють собою коефіцієнти еластичності?

11. Як перевіряють істотність коефіцієнтів регресії?

12. Як перевіряють істотність зв’язку в кореляційно-регресійній моделі?

13. В яких випадках використовують непараметричні методи вимірювання зв’язку?

14. Що являє собою коефіцієнт кореляції рангів? Методика його обчислення.

15. Що таке коефіцієнт Фехнера?

16. В яких випадках використовують коефіцієнти асоціації та контингенції?

 

Завдання для самостійної роботи

 

Задача 1.

За даними 25 господарств району (додаток А) обчислитити лінійне рівняння кореляційної залежності урожайністі зернових культур, ц/га від якості грунтів, балів. Оцінити щільність зв’язку між ознаками за допомогою коефіцієнта кореляції. Зробити висновки.

Задача 2.

За даними 25 господарств району (додаток А) обчислитити лінійне рівняння кореляційної залежності собівартості 1 ц льонотрести, грн. від урожайності льоноволокна, ц/га. Оцінити щільність зв’язку між ознаками за допомогою коефіцієнта кореляції. Зробити висновки.

Задача 3.

За даними 25 господарств району (додаток А) обчислитити лінійне рівняння кореляційної залежності ціни реалізації 1 ц льонотрести від урожайністі льоноволокна, ц/га. Оцінити щільність зв’язку між ознаками за допомогою коефіцієнта кореляції. Зробити висновки.

 

Задача 4.

За даними 25 господарств району (додаток А) обчислитити лінійне рівняння кореляційної залежності продуктивності праці, грн. від фондоозброєності праці, тис.грн. Оцінити щільність зв’язку між ознаками за допомогою коефіцієнта кореляції. Зробити висновки.

 

Задача 5.

За даними 25 господарств району (додаток А) обчислитити лінійне рівняння кореляційної залежності урожайністі зернових культур, ц/га від кількості внесених мінеральних добрив, ц д.р. Оцінити щільність зв’язку між ознаками за допомогою коефіцієнта кореляції. Зробити висновки.

 

Задача 6.

За даними 25 господарств району (додаток А) обчислитити лінійне рівняння кореляційної залежності урожайністі льоноволокна, ц/га від якості льонотрести, номерів. Оцінити щільність зв’язку між ознаками за допомогою коефіцієнта кореляції. Зробити висновки.



Поделиться:


Последнее изменение этой страницы: 2017-02-07; просмотров: 423; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.189.2.122 (0.07 с.)