Розділ 2. Нелінійна регресія. Множинна лінійна регресія




ЗНАЕТЕ ЛИ ВЫ?

Розділ 2. Нелінійна регресія. Множинна лінійна регресія



 

Деякі види нелінійної регресії

 

Якщо рівняння регресії або не є лінійними, то регресію називають нелінійною, або криволінійною. Теорія нелінійної регресії розглядає ті ж задачі, що й теорія лінійної регресії, тобто встановлення форми й тісноти кореляційного зв'язку.

Розглянемо, наприклад, параболічну регресію другого порядку

 

, (2.1.1)

 

де , , – невідомі параметри, які треба знайти.

Як і у випадку лінійної регресії, використовуємо метод найменших квадратів. Відповідно до цього методу ми будуємо функцію

 

,

 

тобто .

 

Для відшукання її найменшого значення дорівнюємо нулю її частинні похідні:

 

У цьому випадку одержимо наступну нормальну систему:

 

(2.1.2)

 

Знайдені із системи параметри , , підставляють в (2.1.1) і одержують шукане рівняння регресії.

Приведемо нормальні системи для знаходження невідомих параметрів деяких інших типів рівнянь регресії.

1. (гіперболічна регресія).

Нормальна система має вигляд:

(2.1.3)

 

2. (логарифмічна регресія).

 

(2.1.4)

 

Приклад.Собівартість одиниці продукції перебуває (за інших рівних умов) у зворотній залежності до числа одиниць, що випускаються.

На підставі наведених в таблиці 18 даних скласти залежність між собівартістю й числом одиниць, що випускаються, якщо рівняння регресії має вигляд .

Таблиця 18

Число одиниць (у тис.штук) (х)
Собівартість 1 одиниці в грн. (у) 15,60 15,40 15,00 14,20 13,90

 

Розв’язання. Складемо розрахункову таблицю 19 для знаходження даних, що знаходяться в системі (2.1.3)

 

Таблиця 19

 

15,60 0,00050 0,00000 0,0078
15,40 0,00043 0,00000 0,0067
15,0 0,00036 0,00000 0,0053
14,20 0,00027 0,00000 0,0038
13,90 0,00024 0,00000 0,0033
  74,10 0,00180 0,00000 0,0269

 

У такий спосіб маємо систему:

Розв’язавши цю систему, знайдемо

a = 14,9 , b = 5333,3.

 

Отже, .

 

Кореляційне відношення

 

При оцінці тісноти нелінійного зв'язку можна використовувати наступні міркування. Нехай дані спостережень над кількісними ознаками і зведені в кореляційну таблицю 20.

Таблиця 20

 

4,6 3,7

 

До першої групи віднесемо 10 значень , які відповідають .

До другої групи віднесемо ті 20 значень , які відповідають .

Умовні середні тепер можна назвати груповими середніми: групова середня першої групи групова середня другої групи

Введемо міжгрупове середнє квадратичне відхилення – середнє квадратичне відхилення умовних (групових) середніх щодо загальної середньої , а також загальне середнє квадратическое відхилення – середнє квадратическое відхилення значень ознаки всієї сукупності щодо загальної середньої.

Як уже говорилося, на зміну ознаки впливає не тільки ознака , але й ряд інших факторів, які ми не враховуємо. Мірою загального розсіювання , що викликається всіма факторами, які впливають на його зміну, є величина . Деяку частину становить розсіювання, викликане дією ознаки . Його мірою служить величина Тому величина

 

 

характеризує частку розсіювання величини , викликану ознакою , у загальному розсіюванні величини . Природно припустити, що може служити характеристикою тісноти кореляційного зв'язку між ознаками у вибірці.

Кореляційним відношенням до називається величина

 

, (2.2.1)

де = , = .

У формулі (2.2.1)

 

, (2.2.2)

 

, (2.2.3)

 

де п – сума всіх частот (об'єм вибірки),

– частота значення х ознаки ,

– частота значення ознаки ,

– загальна середня ознаки ,

– умовна середня ознаки .

 

Аналогічно визначається кореляційне відношення до :

 

.

 

Розглянемо деякі властивості кореляційного відношення.

1. .

2. Якщо , то ознака не зв'язана кореляційною залежністю з ознакою .

3. Ознака пов'язаний з ознакою функціональною залежністю тоді й тільки тоді, коли .

4. Кореляційне відношення не менше абсолютної величини коефіцієнта кореляції:

.

 

5. Між ознаками й існує лінійна залежність тоді й тільки тоді, коли кореляційний момент дорівнює абсолютній величині коефіцієнта кореляції:

.

 

Можна довести, що при зростанні кореляційного відношення зв'язок з стає усе більше тісним: значення , що відповідають певному значенню , усе менше різняться між собою.

У процесі доведення вищевказаних властивостей ніде не приймається в увагу вид кореляційного зв'язку між і , тому кореляційне відношення є мірою тісноти будь-якого виду зв'язку: чим ближче до нуля, тим зв'язок слабкіше; ніж ближче до одиниці, тим зв'язок тісніше, переходячи при = 1 у функціональний

Американський математик ХХ в. Чеддок запропонував наступну таблицю 21 якісної оцінки тісноти зв'язку:

Таблиця 21

 

Величина кореляційного відношення 0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99
Тіснота зв'язку слабка помірна помітна висока досить висока

 

Приклад.Знайти рівняння регресії за даними, наведеними у кореляційній таблиці 22. Оцінити силу кореляційного зв'язку по кореляційному відношенню.

 

Таблиця 22

Розв’язання. Складемо розрахункову таблицю 23 для знаходження даних, що входять у систему (2.1.2):

Таблиця 23

47,1
108,67
 

 

Підставимо числа, що знаходяться в останньому рядку таблиці 23, у систему (2.1.2):

 

Розв’язавши цю систему (наприклад, методом Гаусса), знайдемо:

 

 

Шукане рівняння регресії має вигляд:

 

 

Для обчислення кореляційного відношення треба знайти загальну середню , загальне середнє квадратическое відхилення і міжгруппове середнє квадратичне відхилення .

 

.

 

Значення та знайдемо по формулах (2.2.2) і (2.2.3):

 

Тут значення взяті з таблиці 23. а дорівнює

 

Шукане кореляційне відношення дорівнює:

 

.

 

Якщо використовувати таблицю 21, то кореляційний зв'язок досить високий.

Множинна лінійна кореляція

 

До цього пункту розглядався кореляційний зв'язок між двома ознаками ( йього іноді називають парним). Перед дослідником часто виникає питання про вивчення так званої множинної кореляції , тобто кореляційної залежності даної ознаки від декількох факторів – ознак. У найпростішому випадку число ознак дорівнює трьом і зв'язок між ними лінійний:

(2.3.1)

 

Тут - функція, і - аргументи.

У цьому випадку виникають наступні задачі:

1) знайти по даним спостережень коефіцієнти регресії і , параметр а ;

2) оцінити тісноту зв'язку між і обома ознаками , ;

3) оцінити тісноту зв'язку між і (при постійному ), між і (при постійному ).

Як же розв’язуються ці задачі методами математичної статистики? Скористаємося для ілюстрації даними таблиці 24.

Таблиця 24

Час фризерування молочного морозива (хв) (х)
Температура морозива, яке випускається із фризера (0С) ( ) -3,0 -3,1 -3,2 -3,3 -3,4 -3,5 -3,6 -3,7 -3,8 -3,9 -4,0 -4,1
Взбитість морозива (%) ( )

 

 

Переглядаючи ці дані, можна бачити, що ступінь взбитости морозива (як одного з найважливіших показників його якості) залежить як від часу його фризерування (заморожування суміші для морозива), так і від його температури при випуску із фризера. Можна статистично визначити тісноту зв'язку взбитости морозива з першим і другим факторами, обчислюючи коефіцієнти кореляції.

Коефіцієнт кореляції між взбитістю морозива і часом його фризерування обчислений нижче (див. формули (1.6.3) і (1.6.4)) Необхідні розрахункові дані наведені в таблиці 25.

Таблиця 25

 
 
 
 
 
 
 
 
 
 
 
 
 

 

Таким чином, коефіцієнт кореляції свідчить про прямий і дуже тісний зв'язок між взбитістю морозива і часом його фризерування.

Далі можна обчислити коефіцієнт кореляції між взбитістью морозива і його температурою при випуску із фризера (показники температури беруться в їхньому абсолютному значенні: ріст цього значення розглядається як збільшення «холоду»). Проміжні розрахунки наведені в таблиці 26.

 

 

Таблиця 26

 
  3,0 186,0 9,00
  3,1 217,0 9,61
  3,2 233,6 10,24
  3,3 264,0 10,89
  3,4 285,6 11,56
  3,5 322,0 12,25
  3,6 342,0 12,96
  3,7 358,9 13,69
  3,8 399,0 14,44
  3,9 417,3 15,21
  4,0 432,0 16,00
  4,1 442,8 16,81
42,6 3900,2 152,66

 

 

Залежність взбитости морозива від його температури також дуже тісна. Чим нижче температура, тобто чим більше «холод», тим вище ступінь взбитости морозива.

Як же впливають на ступінь взбитости морозива обидві умови одночасно: час фризерування і температура морозива при випуску його із фризера? Для того, щоб відповісти на це питання, необхідно обчислити сукупний коефіцієнт кореляції , або, як його ще називають, коефіцієнт множинної кореляції. Цей коефіцієнт можна визначити як кореляційне відношення, маючи на увазі рівняння лінії регресії на і . Сукупний коефіцієнт кореляції можна знайти по формулі:

 

. (2.3.2)

 

Порівняйте цю формулу з формулою (2.2.1)

Спочатку знайдемо рівняння регресії на і :

 

 

Для знаходження параметрів цього рівняння необхідно скласти наступну систему нормальних рівнянь:

 

 

яка випливає з методу найменших квадратів.

Всі необхідні дані для складання цих рівнянь, за винятком , знайдені при обчисленні коефіцієнтів кореляції і . Обчислимо :

 

3,0 12,0
3,1 18,6
3,2 25,6
3,3 33,0
3,4 40,8
3,5 49,0
3,6 54,0
3,7 59,2
3,8 64,6
3,9 70,2
4,0 76,0
4,1 82,0
    585,0

 

Система нормальних рівнянь має вигляд:

 

 

У результаті розв’язання системи одержимо: 50,3244; =3,05;

-0,1841.

Таким чином, зв’язок збитости морозива з часом його фрезерування і його температурою при випуску із фризера, має вигляд:

 

 

Підставивши в це рівняння відповідні значення іможна визначити середнє квадратическое відхилення , потрібне для обчислення сукупного коєффициента кореляції

 

 

62,0 3844,00
68,1 4637,61
74,1 5490,81
80,2 6432,04
86,3 7447,69
92,4 8537,76
95,4 9101,16
98,4 9682,56
101,5 10302,25
104,5 10920,25
107,5 11556,25
110,6 12232,36
1081,0 100184,74

 

Звідси

.

.

 

Вище була обчислена необхідна для визначення середнього квадратического відхилення сума квадратів (див. таблицю 25). Отже,

 

.

 

Сукупний коефіцієнт кореляції знайдемо по формулі (2.3.2):

 

 

Сукупний коефіцієнт кореляції свідчить про те, що взбитість морозива значною мірою визначається спільним впливом часу фризерування і температури морозива при виході із фризера. Треба, однак, відзначити, що цей коефіцієнт мало відрізняється від обчислених вище коефіцієнтів, що характеризують залежність взбитости морозива від кожної із двох зазначених умов окремо, і . Таким чином, виявляється, що ступінь тісноти зв'язку досліджуваної ознаки з кожною з вищевказаних умов майже така ж, як і у випадку, коли ця ознака корелюється з обома цими умовами одночасно. Чим же це обумовлено?

Для того, щоб відповісти на це питання, необхідно обчислити коефіцієнт кореляції між самими умовами - тривалістю фризерування і температурою морозива після фризерування. Цей коефіцієнт такий:

 

Як і слід було очікувати, між самими умовами, що визначають, збитість морозива, існує дуже тісний зв'язок: чим тривалеіше фризерування морозива, тим нижче його температура після виходу із фризера. Наявність тісного зв'язку між ознаками - факторами вплинуло й на величину сукупного показника. Ці ознаки піддаються настільки сильному взаємному впливу, що коефіцієнт кореляції взбитости морозива з одним з них є в сутності показником тісноти зв'язку з обома. Зрозуміло, що за таких умов характеристика тісноти зв'язку з обома ознаками - факторами одночасно повинна мало відрізнятися від характеристики тісноти зв'язку з кожним фактором окремо, тому що включення другого з них у кореляційний аналіз практично нічого додаткового не дає.

Описуване положення стане ще більше ясним, якщо на додаток до зробленого аналізу обчислити так звані частинні коефіцієнти кореляції. Ці частинні коефіцієнти відрізняються від звичайних (повних) коефіцієнтів тим, що при їхньому вирахуванні кореляція між двома ознаками визначається при усуненні впливу на них третьої ознаки (якщо в аналіз вводяться три ознаки). У розглянутому випадку частинний коефіцієнт кореляції між ступенем взбитости морозива й тривалістю фризерування буде отриманий, якщо усунути вплив на обидві ці ознаки температури морозива при виході його із фризера. При усуненні ж впливу тривалості фризерування як на взбитість морозива, так і на його температуру після фризерування буде отриманий інший частинний коефіцієнт кореляції вже між двома цими ознаками.

Якщо обчислені «звичайні» (повні) коефіцієнти кореляції і , то математична статистика пропонує при наявності прямолінійної форми зв'язку наступні прості формули для обчислення частинних коефіцієнтів кореляції(при введенні в аналіз трьох ознак):

 

(2.3.3)

 

(2.3.4)

 

Значок ліворуч від позначає фактор, вплив якого усунуто. Обчислюючи по цих формулах частинні коефіцієнти між ступенем взбитости морозива і тривалістю фризерування, а також між ступенем взбитости морозива і його

температурою при виході із фризера, одержуємо наступні результати:

 

;

.

Частинний коефіцієнт кореляції між взбитістю морозива і тривалістю фризерування значно менше повного коефіцієнта ( ). Це обумовлено тим, що при обчисленні повного коефіцієнта до дії тривалості фризерування приєднався ще вплив температури, яка тісно пов'язана із часом фризерування. Коли ж був усунутий вплив температури на обидві ознаки, які корелюються, що діяв в тім же напрямку, що і час фризерування, і тому підсилював його ефект, зв'язок між взбитістю морозива і тривалістю фризерування, природно, повинен був послабитися.

Другий частинний коефіцієнт кореляції, що характеризує зв'язок між взбитістью морозива і його температурою при випуску із фризера, невеликий ( ). Повний коефіцієнт кореляції між цими ознаками дорівнював . Зіставлення цих двох показників дозволяє зробити наступний висновок: коли корелювалися ступінь взбитости морозива з його температурою, те ця ознака ставилася у зв'язок не стільки з температурою, скільки із тривалістю фризерования. Температура морозива при випуску його із фризера є показником, який залежить від часу фризерування: чим більше час фризерування, тим нижче температура. Отже, при корелюванні взбитости морозива з його температурою через останню робила свій вплив і тривалість фризерування. Це з очевидністю і виявилося при обчисленні частинного коефіцієнта кореляції, коли «чистий » вплив температури при усуненні впливу тривалості фризерування виявився дуже слабким. Можна сказати, що введення в аналіз такого показника, як температура морозива, з'явилося взагалі зайвим, оскільки він носить лише похідний характер.

Сукупний коефіцієнт кореляції визначався вище у вигляді кореляційного відношення після визначення лінії регресії по і . Якщо зв'язок між досліджуваними ознаками може бути представлений як прямолінійний і якщо повні й частинні коефіцієнти кореляції між цими ознаками вже обчислені, то визначити величину сукупного коефіцієнта кореляції можна й через ці коефіцієнти, не знаходячи попередньо лінію регресії.

Сукупний коефіцієнт кореляції пов'язаний з повними коефіцієнтами між парами ознак так:

 

 

Якщо підставити в цю формулу значення повних коефіцієнтів кореляції між парами ознак, то вийде

 

 

Значення збіглося з обчисленим раніше по формулі (2.3.2). Із частинними коефіцієнтами кореляції сукупний коефіцієнт кореляції зв'язаний наступною формулою:

 

Підставивши значення зазначених коефіцієнтів, одержимо:

.

 

У висновку ще раз підкреслимо, що введені коефіцієнти, як і «звичайний» коефіцієнт кореляції, служать для оцінки лінійного зв'язку між ознаками, причому

 

Рангова кореляція





Последнее изменение этой страницы: 2016-04-26; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.236.156.34 (0.041 с.)