Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Факторні та результативні ознаки

Поиск

Перш ніж застосовувати кореляційний аналіз, варто визначити, які з досліджуваних ознак є факторними (такими, що від них залежать інші), а які — результативними (такими, що самі за­лежать від інших). Як приклад розглянемо дані про кількість хронічно хворих на астму та концентрацію чадного газу в кіль­кох містах (табл. 10.8). Очевидно, що коли між цими ознаками існує залежність, то саме кількість хронічно хворих залежить від концентрації чадного газу, а не навпаки. Тобто концентрація чадного газу є факторною ознакою, а кількість хронічно хворих на астму — результативною.

Графічний аналіз кореляційного зв'язку

Як же визначити, чи існує залежність між двома ознаками? Най­простіший спосіб — побудувати діаграму розсіювання (рис. 10.5). У Microsoft Excel такі діаграми називають точковими. На осі X діаграми розсіювання розміщують значення факторної ознаки, на осі у — результативної.

На цій діаграмі усі точки розташовані вздовж деякої уявної лінії, спрямованої зліва знизу вправо вверх. Називається вона лінією тренду. Саме через таку спрямованість лінії тренду можна гово­рити про наявність прямого кореляційного зв’язку між ознаками (рис. 10. 6, а): що вища концентрація чадного газу, то вищий рівень захворюваності на астму. Коли лінія тренду спрямована вправо вниз (рис. 10. 6, б), кореляційний зв’язок є оберненим, а якщо дані розсіяні хаотично і напрямок лінії тренду визначити важко (рис. 10.6, в), то кореляційний зв’язок взагалі відсутній.

Коефіцієнт кореляції

Міцність зв’язку між двома величинами можна виразити і за допо­могою коефіцієнта кореляції. Це число k з інтервалу [-1, 1]. Якщо k близьке до -1, то кореляційний зв’язок між величинами є обер­неним, а якщо k близьке до 1 — прямим. Чим ближче k до нуля, тим кореляційний зв’язок слабший. Якщо говорити більш доклад­но, то міцність лінійного кореляційного зв’язку оцінюється так:

· |k|> 0,8 — сильний кореляційний зв’язок;

· 0,4 |k| < 0,8 — кореляційний зв’язок наявний;

· |k| < 0,4 — кореляційний зв’язок відсутній,

У Microsoft Excel для обчислення коефіцієнта кореляції вико­ристовується функція КОРРЕЛ(діапазон_1;діапазон_2), де діапазони діапазонні та діапазон_2 містять набори значень, між якими шукається залежність. У разі визначення коефіцієнта ко­реляції двох вибірок, поданих на рис. 10.5, такими масивами бу­дуть дані у діапазонах В2:Н2 та ВЗ:НЗ. Результатом функції КОРРЕЛ у нашому випадку буде число 0,9862, що свідчить про наявність дуже сильного кореляційного зв’язку між концентрацією чадного газу в повітрі та кількістю хронічно хворих на астму.

Зазначимо, що функція КОРРЕЛ визначає коефіцієнт лінійної ко­реляції, яка свідчить про наявність саме лінійного зв’язку між ознаками. Цей зв’язок буде тим сильніший, чим ближче до певної прямої розташовані точки на діаграмі розсіювання. Насправді існують й інші типи зв’язків. Наприклад, той факт, що точки на діаграмі розсіювання розташовані близько до певної парабо­ли, свідчить про наявність між ознаками квадратичного зв’язку; щоправда, коефіцієнт лінійної кореляції при цьому може бути незначним.

Кореляційна матриця

Коли потрібно порівняти не два, а більше масивів експерименталь­них даних, будують кореляційну матрицю — таблицю, у якій коефіцієнти кореляції між ознаками розташовані на перетині від­повідних рядків і стовпців. Для побудови кореляційної матриці використовують інструмент Кореляція, який запускається за допо­могою команди Сервіс ► Аналіз даних ► Кореляція.

ПРИМІТКА. Якщо меню Сервіс не містить команди Аналіз даних, необхід­но виконати команду Сервіс ► Надбудови та встановити прапорець Пакет аналізу.

Регресійний аналіз

Як уже зазначалося, основне завдання регресійного аналізу — прогнозування. Щоб навести приклад задачі на прогнозування, повернімось до вибірок з табл. 10.8. Значення факторної ознаки (концентрації чадного газу), отримані в результаті статистичного спостереження, коливаються в межах від 1,2 до 4,8 мг/м3. Для цих значень рівень захворюваності на астму відомий. Але задамо­ся питанням: яким буде цей рівень, якщо концентрація чадного газу становитиме 10 мг/м3? Тобто спробуємо спрогнозувати зна­чення результативної ознаки у разі виходу значення факторної ознаки за межі інтервалу вибірки.

Основним методом, який використовується для прогнозування, є побудова на основі вибіркових даних рівняння регресії вигляду y=f(x), що зв’язує факторну ознаку х і результативну ознаку у, та визначення за цим рівнянням невідомих значень результатив­ної ознаки. Рівняння можна подати як аналітично (за допомогою формул), так і графічно. Згадана вище лінія тренду — це не що інше, як графік рівняння регресії.

У Microsoft Excel передбачена можливість автоматичної побудови лінії тренду. Для цього спочатку слід виділити діаграму розсіюван­ня та виконати команду Діаграма ► Додати лінію тренду.Далі у вікні Лінія тренду на вкладці Тип (рис. 10.7, а) потрібно вибрати тип за­лежності між факторною та результативною ознаками — лінійна, поліноміальна (квадратична, кубічна тощо), логарифмічна та ін. На вкладці Параметри цього вікна (рис. 10.7, б) можна задати, зокрема, величину прогнозу (на скільки прогнозоване значення буде більшим за найбільше вибіркове чи меншим за найменше вибіркове). Це роблять за допомогою лічильників вперед на та на­зад на в області Прогноз.

На рис. 10.8 показано графік лінії тренду, доданий до точкової діаграми, зображеної на рис. 10.5. Величина прогнозу вперед для цього графіка становить 5 одиниць. З графіка видно, що за кон­центрації чадного газу 10 мг/м3 рівень захворюваності на астму становитиме приблизно 120 людей на 1000 жителів міста.

Коефіцієнт детермінації

Близькість рівняння регресії та лінії тренду до вибіркових да­них характеризується величиною коефіцієнта детермінації R2 (0 < R2 < 1). Рівняння регресії найбільше відповідає дійсності, коли R2 наближається до свого максимального значення. Цей по­казник використовується в першу чергу для порівняння різних моделей прогнозу та вибору найкращої з них. На точковій діагра­мі як значення R2, так і саме рівняння регресії можна відобразити біля лінії тренду (див. рис. 10.8). Для цього на вкладці Параметри вікна Лінія тренду слід встановити прапорці показувати величину віро­гідності апроксимації (R^2) на діаграмі та показувати рівняння на діаграмі (див. рис. 10.7, б). Для лінії тренду, яка наведена на рис. 10.8, R2 = 0,9726. Це означає, що лінійне рівняння регресії добре узгод­жується з вибірковими даними.

Виконання вправи 3.

Практичне завдання.

Вправа 1. Побудова інтервального ряду розподілу

У файлі Bnpaвa_1.xIs наведено відомості про зріст учнів класу. По­трібно побудувати ряд розподілу учнів за зростом з п’ятьма рівни­ми інтервалами, зобразити його графічно та зробити висновок щодо характеру зв’язку між зростом та кількістю учнів цього зросту.

1. Відкрийте файл Bnpaвa_1.xls. У клітинки С1 та С2 уведіть формули для обчислення мінімального і максимального зросту учня: = MIN(A2:A21) та =МАХ(А2:А21). Ці значення мають бути такими: xmin = 151, xmax = 176.

2. У клітинці С3 обчисліть величину інтервалу групування h = . Вона повинна дорівнювати 5.

3. Обчисліть межі між інтервалами у клітинках D2:D5. У клітин­ці D2 обчисліть значення межі у1 = хmin + h. У клітинку D3 уведіть формулу =D2+C$3. Скопіюйте цю формулу у клітинки D4:D5, і ви отримаєте значення всіх інших меж. Фактично ми реалізували формулу yi+1=yi + h. Оскільки значення уі змінюється, посилання D2 є відносним. А оскільки величина h незмінна, номер рядка у посиланні С$3 зафіксовано.

4. Уведіть межі інтервалів у клітинки F2:F6 (рис. 10.3).

5. Виділіть діапазон G2:G6 та, скориставшись кнопкою fx (Встав­ка функції), уведіть функцію ЧАСТОТА. Її аргументи будуть та­кими: діапазон вибірки — А2:А21, діапазон меж інтервалів — D2:D5. Увівши аргументи функції, не клацайте кнопку ОК, а натисніть клавіші Ctrl+Shift+ Enter. Частоти буде обчислено.

6. Самостійно створіть гістограму частот (див. рис. 10.3). Як будувати та форматувати діаграми, ви знаєте з уроку 46-47.

7. Уведіть у клітинку F2 формулу, після копіювання якої в діа­пазон F3:F6 у ньому буде автоматично відображено інтервали, як на рис. 10.3.

Вправа 2. Обчислення статистичних показників

У файлі Bnpaвa_2.xls показано ряд розподілу підприємств міста N за прибутком. Обчисліть середній прибуток та стандартне відхи­лення прибутку цих підприємств. Зробіть висновки.

1. Відкрийте файл Bnpaвa_2.xls. У ньому на аркуші Аркуші на­ведено інтервальний ряд розподілу: у стовпці А вказано нижні межі інтервалів, у стовпці С — верхні, у стовпці D зазначено частоти.

2. Щоб обчислити статистичні показники, інтервальний ряд роз­поділу необхідно перетворити на дискретний. Для цього слід насамперед обчислити середини інтервалів. Уведіть у клітин­ку Е2 формулу =(А2+С2)/2, скопіюйте її в діапазон ЕЗ:Е11, і се­редини інтервалів буде відображено у стовпці Е.

3. Обчисліть величини nіxі та nixi2, де ni — частоти, a xi — се­редини інтервалів. Для цього введіть у клітинки F2 та G2 формули =D2*E2 та =D2*E2^2 і скопіюйте їх у діапазон F3:G11.

4. Обчисліть суми величин ni, nіxі, nixi2 у клітинках D12, F12 і G12, скориставшись функцією СУММА.

5. Визначте у клітинках Е15:Е16 середнє значення та стандартне відхилення за формулами (1)—(3). Ви маєте отримати такі значення, як на рис. 10.4.

6. Виходячи з отриманих значень середнього та стандартного відхилення, зробіть висновки щодо розподілу підприємств за величиною прибутку.

Вправа 3. Виявлення кореляційного зв'язку

Протягом року продовольча компанія здійснювала рекламу своєї продукції шляхом виготовлення та розповсюдження рекламних листівок у кількості від 89 000 до 345 000 шт. за місяць. По­трібно визначити, чи був цей захід ефективним та як вплине на дохід компанії виготовлення та розповсюдження протягом місяця 500 000 листівок.

1. Створіть нову електронну таблицю, введіть у неї дані, зазна­чені на рис. 10.9, і збережіть документ у файлі Вправа_3.хІs.

Оскільки нас цікавить залежність доходу від кількості поши­рених листівок, то кількість рекламних листівок є факторною ознакою, а дохід компанії — результативною.

2. Побудуйте для створеної таблиці точкову діаграму, скористав­шись кнопкою Майстер діаграм. На осі X має відображати­ся кількість листівок, на осі У — дохід компанії (рис. 10.10).

Як бачите, множина точок на діаграмі розсіювання витягнута зліва знизу вправо вверх. Це свідчить про існування пря­мого кореляційного зв’язку між кількістю розповсюджених рекламних листівок та доходом компанії.

3. Розрахуйте коефіцієнт кореляції, увівши в клітинку В6 фор­мулу =КОРРЕЛ(ВЗ:МЗ;В4:М4). Отримане значення коефіцієнта кореляції (0,89) підтверджує висновок про наявність сильного прямого лінійного кореляційного зв’язку між кількістю роз­повсюджених рекламних листівок та доходом компанії. Отже, рекламний захід можна вважати ефективним.

4. Додайте до точкової діаграми лінію тренду лінійного типу з відображенням регресійного рівняння та значення коефі­цієнта детермінації на діаграмі. Величину прогнозу вперед задайте рівною 200. Отримане значення R2= 0,7924 свідчить про те, що лінійна регресія достатньо добре відповідає вибір­ковим даним. Запишіть це значення у клітинці В7.

5. Перегляньте графік лінії тренду та визначте за ним, на який приблизно дохід компанії можна розраховувати в разі поши­рення 500 000 рекламних листівок за місяць (рис. 10.11).

6. Самостійно побудуйте поліноміальні лінії тренду другого і третього степенів. Порівняйте коефіцієнти детермінації та значення прогнозу для цих ліній тренду з відповідними зна­ченнями для лінійного тренду. Зробіть висновки.

Підсумок уроку.

Домашнє завдання.

1. Вивчити конспект.

2. Виконати завдання 3.



Поделиться:


Последнее изменение этой страницы: 2016-12-09; просмотров: 1421; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 52.15.191.241 (0.013 с.)