Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ

Факторні та результативні ознаки

⇐ ПредыдущаяСтр 3 из 3

Перш ніж застосовувати кореляційний аналіз, варто визначити, які з досліджуваних ознак є факторними (такими, що від них залежать інші), а які — результативними (такими, що самі залежать від інших). Як приклад розглянемо дані про кількість хронічно хворих на астму та концентрацію чадного газу в кількох містах (табл. 10.8). Очевидно, що коли між цими ознаками існує залежність, то саме кількість хронічно хворих залежить від концентрації чадного газу, а не навпаки. Тобто концентрація чадного газу є факторною ознакою, а кількість хронічно хворих на астму — результативною.

Графічний аналіз кореляційного зв'язку

Як же визначити, чи існує залежність між двома ознаками? Найпростіший спосіб — побудувати діаграму розсіювання (рис. 10.5). У Microsoft Excel такі діаграми називають точковими. На осі X діаграми розсіювання розміщують значення факторної ознаки, на осі у — результативної.

На цій діаграмі усі точки розташовані вздовж деякої уявної лінії, спрямованої зліва знизу вправо вверх. Називається вона лінією тренду. Саме через таку спрямованість лінії тренду можна говорити про наявність прямого кореляційного зв’язку між ознаками (рис. 10. 6, а): що вища концентрація чадного газу, то вищий рівень захворюваності на астму. Коли лінія тренду спрямована вправо вниз (рис. 10. 6, б), кореляційний зв’язок є оберненим, а якщо дані розсіяні хаотично і напрямок лінії тренду визначити важко (рис. 10.6, в), то кореляційний зв’язок взагалі відсутній.

Коефіцієнт кореляції

Міцність зв’язку між двома величинами можна виразити і за допомогою коефіцієнта кореляції. Це число k з інтервалу [-1, 1]. Якщо k близьке до -1, то кореляційний зв’язок між величинами є оберненим, а якщо k близьке до 1 — прямим. Чим ближче k до нуля, тим кореляційний зв’язок слабший. Якщо говорити більш докладно, то міцність лінійного кореляційного зв’язку оцінюється так:

· |k|> 0,8 — сильний кореляційний зв’язок;

· 0,4 |k| < 0,8 — кореляційний зв’язок наявний;

· |k| < 0,4 — кореляційний зв’язок відсутній,

У Microsoft Excel для обчислення коефіцієнта кореляції використовується функція КОРРЕЛ(діапазон_1;діапазон_2), де діапазони діапазонні та діапазон_2 містять набори значень, між якими шукається залежність. У разі визначення коефіцієнта кореляції двох вибірок, поданих на рис. 10.5, такими масивами будуть дані у діапазонах В2:Н2 та ВЗ:НЗ. Результатом функції КОРРЕЛ у нашому випадку буде число 0,9862, що свідчить про наявність дуже сильного кореляційного зв’язку між концентрацією чадного газу в повітрі та кількістю хронічно хворих на астму.

Зазначимо, що функція КОРРЕЛ визначає коефіцієнт лінійної кореляції, яка свідчить про наявність саме лінійного зв’язку між ознаками. Цей зв’язок буде тим сильніший, чим ближче до певної прямої розташовані точки на діаграмі розсіювання. Насправді існують й інші типи зв’язків. Наприклад, той факт, що точки на діаграмі розсіювання розташовані близько до певної параболи, свідчить про наявність між ознаками квадратичного зв’язку; щоправда, коефіцієнт лінійної кореляції при цьому може бути незначним.

Кореляційна матриця

Коли потрібно порівняти не два, а більше масивів експериментальних даних, будують кореляційну матрицю — таблицю, у якій коефіцієнти кореляції між ознаками розташовані на перетині відповідних рядків і стовпців. Для побудови кореляційної матриці використовують інструмент Кореляція, який запускається за допомогою команди Сервіс ► Аналіз даних ► Кореляція.

ПРИМІТКА. Якщо меню Сервіс не містить команди Аналіз даних, необхідно виконати команду Сервіс ► Надбудови та встановити прапорець Пакет аналізу.

Регресійний аналіз

Як уже зазначалося, основне завдання регресійного аналізу — прогнозування. Щоб навести приклад задачі на прогнозування, повернімось до вибірок з табл. 10.8. Значення факторної ознаки (концентрації чадного газу), отримані в результаті статистичного спостереження, коливаються в межах від 1,2 до 4,8 мг/м3. Для цих значень рівень захворюваності на астму відомий. Але задамося питанням: яким буде цей рівень, якщо концентрація чадного газу становитиме 10 мг/м3? Тобто спробуємо спрогнозувати значення результативної ознаки у разі виходу значення факторної ознаки за межі інтервалу вибірки.

Основним методом, який використовується для прогнозування, є побудова на основі вибіркових даних рівняння регресії вигляду y=f(x), що зв’язує факторну ознаку х і результативну ознаку у, та визначення за цим рівнянням невідомих значень результативної ознаки. Рівняння можна подати як аналітично (за допомогою формул), так і графічно. Згадана вище лінія тренду — це не що інше, як графік рівняння регресії.

У Microsoft Excel передбачена можливість автоматичної побудови лінії тренду. Для цього спочатку слід виділити діаграму розсіювання та виконати команду Діаграма ► Додати лінію тренду.Далі у вікні Лінія тренду на вкладці Тип (рис. 10.7, а) потрібно вибрати тип залежності між факторною та результативною ознаками — лінійна, поліноміальна (квадратична, кубічна тощо), логарифмічна та ін. На вкладці Параметри цього вікна (рис. 10.7, б) можна задати, зокрема, величину прогнозу (на скільки прогнозоване значення буде більшим за найбільше вибіркове чи меншим за найменше вибіркове). Це роблять за допомогою лічильників вперед на та назад на в області Прогноз.

На рис. 10.8 показано графік лінії тренду, доданий до точкової діаграми, зображеної на рис. 10.5. Величина прогнозу вперед для цього графіка становить 5 одиниць. З графіка видно, що за концентрації чадного газу 10 мг/м3 рівень захворюваності на астму становитиме приблизно 120 людей на 1000 жителів міста.

Коефіцієнт детермінації

Близькість рівняння регресії та лінії тренду до вибіркових даних характеризується величиною коефіцієнта детермінації R² (0 < R² < 1). Рівняння регресії найбільше відповідає дійсності, коли R² наближається до свого максимального значення. Цей показник використовується в першу чергу для порівняння різних моделей прогнозу та вибору найкращої з них. На точковій діаграмі як значення R², так і саме рівняння регресії можна відобразити біля лінії тренду (див. рис. 10.8). Для цього на вкладці Параметри вікна Лінія тренду слід встановити прапорці показувати величину вірогідності апроксимації (R^2) на діаграмі та показувати рівняння на діаграмі (див. рис. 10.7, б). Для лінії тренду, яка наведена на рис. 10.8, R² = 0,9726. Це означає, що лінійне рівняння регресії добре узгоджується з вибірковими даними.

Виконання вправи 3.

Практичне завдання.

Вправа 1. Побудова інтервального ряду розподілу

У файлі Bnpaвa_1.xIs наведено відомості про зріст учнів класу. Потрібно побудувати ряд розподілу учнів за зростом з п’ятьма рівними інтервалами, зобразити його графічно та зробити висновок щодо характеру зв’язку між зростом та кількістю учнів цього зросту.

1. Відкрийте файл Bnpaвa_1.xls. У клітинки С1 та С2 уведіть формули для обчислення мінімального і максимального зросту учня: = MIN(A2:A21) та =МАХ(А2:А21). Ці значення мають бути такими: x_min = 151, x_max = 176.

2. У клітинці С3 обчисліть величину інтервалу групування h = . Вона повинна дорівнювати 5.

3. Обчисліть межі між інтервалами у клітинках D2:D5. У клітинці D2 обчисліть значення межі у1 = х_min + h. У клітинку D3 уведіть формулу =D2+C$3. Скопіюйте цю формулу у клітинки D4:D5, і ви отримаєте значення всіх інших меж. Фактично ми реалізували формулу yi+1=yi + h. Оскільки значення уі змінюється, посилання D2 є відносним. А оскільки величина h незмінна, номер рядка у посиланні С$3 зафіксовано.

4. Уведіть межі інтервалів у клітинки F2:F6 (рис. 10.3).

5. Виділіть діапазон G2:G6 та, скориставшись кнопкою fx (Вставка функції), уведіть функцію ЧАСТОТА. Її аргументи будуть такими: діапазон вибірки — А2:А21, діапазон меж інтервалів — D2:D5. Увівши аргументи функції, не клацайте кнопку ОК, а натисніть клавіші Ctrl+Shift+ Enter. Частоти буде обчислено.

6. Самостійно створіть гістограму частот (див. рис. 10.3). Як будувати та форматувати діаграми, ви знаєте з уроку 46-47.

7. Уведіть у клітинку F2 формулу, після копіювання якої в діапазон F3:F6 у ньому буде автоматично відображено інтервали, як на рис. 10.3.

Вправа 2. Обчислення статистичних показників

У файлі Bnpaвa_2.xls показано ряд розподілу підприємств міста N за прибутком. Обчисліть середній прибуток та стандартне відхилення прибутку цих підприємств. Зробіть висновки.

1. Відкрийте файл Bnpaвa_2.xls. У ньому на аркуші Аркуші наведено інтервальний ряд розподілу: у стовпці А вказано нижні межі інтервалів, у стовпці С — верхні, у стовпці D зазначено частоти.

2. Щоб обчислити статистичні показники, інтервальний ряд розподілу необхідно перетворити на дискретний. Для цього слід насамперед обчислити середини інтервалів. Уведіть у клітинку Е2 формулу =(А2+С2)/2, скопіюйте її в діапазон ЕЗ:Е11, і середини інтервалів буде відображено у стовпці Е.

3. Обчисліть величини nіxі та nixi², де ni — частоти, a xi — середини інтервалів. Для цього введіть у клітинки F2 та G2 формули =D2*E2 та =D2*E2^2 і скопіюйте їх у діапазон F3:G11.

4. Обчисліть суми величин ni, nіxі, nixi² у клітинках D12, F12 і G12, скориставшись функцією СУММА.

5. Визначте у клітинках Е15:Е16 середнє значення та стандартне відхилення за формулами (1)—(3). Ви маєте отримати такі значення, як на рис. 10.4.

6. Виходячи з отриманих значень середнього та стандартного відхилення, зробіть висновки щодо розподілу підприємств за величиною прибутку.

Вправа 3. Виявлення кореляційного зв'язку

Протягом року продовольча компанія здійснювала рекламу своєї продукції шляхом виготовлення та розповсюдження рекламних листівок у кількості від 89 000 до 345 000 шт. за місяць. Потрібно визначити, чи був цей захід ефективним та як вплине на дохід компанії виготовлення та розповсюдження протягом місяця 500 000 листівок.

1. Створіть нову електронну таблицю, введіть у неї дані, зазначені на рис. 10.9, і збережіть документ у файлі Вправа_3.хІs.

Оскільки нас цікавить залежність доходу від кількості поширених листівок, то кількість рекламних листівок є факторною ознакою, а дохід компанії — результативною.

2. Побудуйте для створеної таблиці точкову діаграму, скориставшись кнопкою Майстер діаграм. На осі X має відображатися кількість листівок, на осі У — дохід компанії (рис. 10.10).

Як бачите, множина точок на діаграмі розсіювання витягнута зліва знизу вправо вверх. Це свідчить про існування прямого кореляційного зв’язку між кількістю розповсюджених рекламних листівок та доходом компанії.

3. Розрахуйте коефіцієнт кореляції, увівши в клітинку В6 формулу =КОРРЕЛ(ВЗ:МЗ;В4:М4). Отримане значення коефіцієнта кореляції (0,89) підтверджує висновок про наявність сильного прямого лінійного кореляційного зв’язку між кількістю розповсюджених рекламних листівок та доходом компанії. Отже, рекламний захід можна вважати ефективним.

4. Додайте до точкової діаграми лінію тренду лінійного типу з відображенням регресійного рівняння та значення коефіцієнта детермінації на діаграмі. Величину прогнозу вперед задайте рівною 200. Отримане значення R²= 0,7924 свідчить про те, що лінійна регресія достатньо добре відповідає вибірковим даним. Запишіть це значення у клітинці В7.

5. Перегляньте графік лінії тренду та визначте за ним, на який приблизно дохід компанії можна розраховувати в разі поширення 500 000 рекламних листівок за місяць (рис. 10.11).

6. Самостійно побудуйте поліноміальні лінії тренду другого і третього степенів. Порівняйте коефіцієнти детермінації та значення прогнозу для цих ліній тренду з відповідними значеннями для лінійного тренду. Зробіть висновки.

Підсумок уроку.

Домашнє завдання.

1. Вивчити конспект.

2. Виконати завдання 3.

⇐ Предыдущая 1 23

Читайте также:

Где возникла философия и почему?

Относительная высота сжатой зоны бетона

Сущность проекции Гаусса-Крюгера и использование ее в геодезии

Тарифы на перевозку пассажиров

Последнее изменение этой страницы: 2016-12-09; просмотров: 1385; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.138.138.144 (0.022 с.)