ТОП 10:

Кореляційний і регресивний аналіз



Важливим завданням аналізу є встановлення і оцінка взаємозв’язків між окремими ознаками для певної сукупності об’єктів. Цю роботу починають з побудови кореляційних таблиць (таблиць спряженості двох ознак або двовимірних таблиць). Вони дають можливість упорядкувати інформацію про розподіл сукупності об’єктів за двома ознаками.

Такі таблиці мають прямокутну форму. Кількість рядків у них дорівнює кількості можливих значень однієї ознаки, а кількість стовпчиків – кількості можливих значень другої ознаки.

У табл. 20.3 у клітинці на перетинанні другого рядка і третього стовпчика знаходиться число 42 (у центрі клітинки) – кількість робітниць (значення ознаки «стать» – «жіноча»), що незадоволені умовами роботи (значення ознаки «задоволеність умовами роботи» – «незадоволений»).

 

Таблиця 20.3

Двовимірна таблиця

(ознаки «Стать» і «Задоволеність умовами роботи»)

Стать Задоволений Не зовсім задоволений Не задоволений Усього
Чоловіки 18,40 % 86,67 % 75,94 % 64,66 % 5,66 % 22,22 %   60,92 %
Жінки 4,41 % 13,33 % 64,71 % 35,34 % 30,88 % 77,78 %   39,08 %
Усього 12,93 % 71,55 % 15,52 % 100 %

 

Крім того, двовимірна таблиця, як правило, містить ще один додатковий стовпчик і ще один додатковий рядок. Так званий маргінальний стовпчик і рядок.

У табл. 20.3 маргінали позначені словом «Усього». Кожна клітинка маргінального стовпчика містить суму чисел відповідного рядка, тобто кількість об’єктів, що мають відповідне значення першої ознаки (незалежно від того, яке значення для цих об’єктів набуває друга ознака), а також відсоток, що складає це число щодо загальної кількості об’єктів.

Так, з маргінального стовпчика таблиці бачимо, що на підприємстві працює 136 жінок (39,08 % загальної кількості працюючих). Маргінальний рядок містить відповідні суми стовпчиків таблиці. У кожній клітинці таблиці, як правило, записують відсоток щодо відповідного значення в маргінальному стовпчику (цей відсоток записують вище самого числа) і відсоток щодо відповідного значення в маргі-нальному рядку (записують нижче числа).

Якщо знову повернутися до клітинки в другому рядку третього стовпчика таблиці, то побачимо, що:

· кількість незадоволених умовами роботи жінок (таких на підприємстві 42) складає 30,88 % від загальної кількості жінок (усього на підприємстві 136 жінок);

· 77,78 % від загальної кількості незадоволені умовами роботи (усього умовами роботи на підприємстві не задоволені 54 працівника).

Числа в таблиці свідчать, що серед жінок відсоток незадоволених умовами роботи на підприємстві значно вищий, ніж серед чоловіків. Отже, є підстави для гіпотези, що стать працівника і його задоволеність умовами роботи взаємозалежні.

Вміння читати двовимірні таблиці приходить з досвідом. Нелегко знаходити закономірності в досить великих за розмірами таблицях. Крім того, далеко не завжди можна побачити зв’язок між ознаками. Тому на практиці наявність зв’язку між двома ознаками встановлюють за допомогою так званого критерію x2, що базується на аналізі частот, записаних у клітинках таблиці. Це дає можливість дійти висновку про те, чи можливо висувати і аналізувати гіпотезу при наявності зв’язку між двома ознаками.

Застосовуючи зазначений критерій, необхідно обчислити коефіцієнт x2за формулою (формула залежить від частот у клітинках таблиці та маргінальних частот), а отримане значення порівняти з таб-личним (критичним). При цьому варто мати на увазі певний рівень значущості (ймовірність ухвалення помилкового рішення). У соціології він, як правило, 0,05 або 0,01.

Крім того, табличне значення залежить від кількості ступенів свободи, що визначаються за кількістю рядків і стовпчиків таблиці.

Отже, для заданого рівня значущості і кількості ступенів свободи необхідно знайти в таблиці критичне значення і порівняти його з виявленим. Якщо обчислене значення більше критичного, то факт існування зв’язку можна вважати встановленим.

Силу зв’язку можна оцінити обчисленням і аналізом коефіцієнтів спряженості (Пірсона, Чупрова, Крамера).

Значення цих коефіцієнтів знаходяться в інтервалі від нуля до одиниці і мають наступний зміст: чим ближче значення до одиниці, тим щільніший зв’язок.

Якщо обидві ознаки, між якими вивчають зв’язок, мають лише по два значення (тобто фіксують наявність чи відсутність даної ознаки в об’єкті), то для таких «чотириклітинкових» таблиць обчислюють коефіцієнти асоціації і контингенції.

Якщо певному значенню однієї величини відповідає сукупність значень другої, то між цими двома величинами існує кореляційний зв’язок. Він виявляється тоді, коли на досліджуване явище впливає не один, а кілька факторів.

Наприклад, стаж впливає на продуктивність праці, але не остаточно визначає її, тому що залежить від рівня освіти, віку, кваліфікації працівника та багато інших факторів. Оскільки явища громадського життя складні та багатофакторні, зв’язок між ознаками в соціології практично завжди є кореляційним.

Якщо кожному значенню однієї ознаки відповідає сукупність значень другої ознаки, розміщених біля свого середнього значення (тобто всі значення сукупності не дуже відрізняються від свого се-реднього арифметичного), то такий кореляційний зв’язок вважають більш сильнішим. Кількісно силу кореляційного зв’язку оцінюють за допомогою коефіцієнтів кореляції.

Для кількісних ознак часто використовують коефіцієнт Пірсона (r), що оцінює силу зв’язку за лінійною кореляцією (тобто в припущенні, що значення однієї ознаки пов’язане з відповідними середніми значеннями другої ознаки лінійною залежністю).

Усі значення коефіцієнта кореляції Пірсона належать до інтервалу від –1 до 1. Знак коефіцієнта показує напрямок зв’язку:

· додаткове значення свідчить про «прямий» зв’язок (зростання однієї ознаки визначає зростання другої);

· негативне значення – про «зворотній» зв’язок;

· значення «0» – про відсутність лінійного кореляційного зв’язку.

Наприклад, зв’язок між заробітною платою робітника і кількістю виготовлених ним деталей – прямий, а між заробітною платою і кількістю бракованих деталей – зворотний. При r = 1 чи r = –1 ми маємо функціональний зв’язок між ознаками (тобто, кожному значенню однієї ознаки відповідає одне значення другої ознаки і ці значення, пов’язані лінійною залежністю).

Отже, чим далі значення коефіцієнта Пірсона від нуля (чим більше його абсолютна величина), тим щільніше лінійний кореляційний зв’язок між ознаками.

Але якщо r = 0, те це означає відсутність тільки лінійного зв’язку, а не відсутність зв’язку між ознаками взагалі: зв’язок може існувати, але тільки нелінійний. Для оцінки сили нелінійного зв’язку використовують кореляційне відношення, що набуває значення між 0 і 1 (0 означає відсутність зв’язку, 1 – функціональний зв’язок).

Для ознак, заданих у порядкових шкалах, застосовують рангові коефіцієнти кореляції (Спірмена і Кендела), що також набувають значення між –1 і 1 та інтерпретуються так само, як і коефіцієнт кореляції Пірсона.

Встановлення кореляції між двома ознаками ще не означає встановлення причинного зв’язку між ними. Це лише свідчить про те, що одна з ознак частково породжує іншу (або обидві ознаки) і є наслідком деяких загальних для них причин.

Кількісна оцінка кореляційних зв’язків не може замінити спеціальних знань, але може допомогти досліднику:

· відкинути несуттєві зв’язки;

· чіткіше позначити напрямок пошуку;

· порівняти вплив різних факторів і т.п.

Крім того, коефіцієнти часткової кореляції дають можливість оцінити зв’язок між двома ознаками, усуваючи вплив однієї або декіль-кох інших ознак.

Якщо після усунення впливу третьої ознаки коефіцієнт кореляції між двома ознаками збільшується, то третя ознака послаблює зв’язок, а якщо зменшується, то саме ця третя ознака певною мірою служить причиною наявності цього зв’язку (тобто зв’язок, можливо, є лише наслідком впливу цієї третьої ознаки).

Обчислити коефіцієнти часткової кореляції через коефіцієнти кореляції Пірсона досить складно. Обсяг обчислень зростає за кіль- кістю тих ознак, вплив яких бажають усунути. Силу загального зв’язку сукупності ознак дає можливість оцінити коефіцієнт множинної кореляції.

Методи регресивного аналізу забезпечують не тільки оцінку сили зв’язку між двома ознаками, але і встановлення виду цього зв’язку у вигляді рівняння (рівняння регресії), що описує залежність між середнім значенням однієї ознаки (залежної, поведінку якої вивчають) і значеннями визначеної сукупності ознак (незалежних, вплив яких на залежну ознаку намагаються оцінити).

У соціологічних дослідженнях, як правило, відбувається пошук такої залежності в лінійному вигляді (лінійного рівняння), тому мова йде про рівняння багатомірної (множинної) лінійної регресії.

Знання залежності у вигляді рівняння дає можливість не тільки пояснювати поведінку залежної ознаки, але і прогнозувати її значення за різними змінами значень незалежних ознак.

Наприклад, на основі аналізу факторів, що впливають на рівень заробітної плати на підприємстві, було побудовано рівняння лінійної регресії:

 

у = 4,27 х · 1,83 х – 9,20.

Воно описує зв’язок між заробітною платою в (залежна ознака, вимірюється в гривнях) і двома незалежними ознаками працівника: стаж х (вимірюється в роках) і освітній рівень х(вимірюється в роках).

Аналіз цього рівняння наводить на думку, що зростання виробничого стажу працівника на один рік визначає зростання його середньої заробітної плати на 4,27 грн, а зростання освітнього рівня на один рік – зростання середньої заробітної плати лише на 1,83 грн.

Таким чином, на даному підприємстві виробничий стаж істотніше впливає на середню заробітну плату працівника, ніж його освітній рівень. Якість рівняння регресії (наскільки точно рівняння регресії описує зв’язок між ознаками) оцінюють коефіцієнтом множинної кореляції.

Істотним для одержання надійних, статистично обґрунтованих результатів є оцінка значущості статистичних показників. Це – комп-лекс математичних процедур, що дають можливість відповісти на ряд питань щодо розрахованих статистичних показників і параметрів вибіркової сукупності.

Обчисливши коефіцієнт кореляції між двома ознаками та одержавши число, що не дорівнює нулю, логічно виникають питання:

· Чи справді цей коефіцієнт істотно відрізняється від нуля (тобто, фіксує наявність лінійного кореляційного зв’язку)?

· Випадкова ця різниця чи викликана похибкою нашої вибірки?

Відповідь на них можна дати, оцінивши значущість відмінності коефіцієнту кореляції від нуля і звернувши особливу увагу на обсяг вибірки і рівень значущості (імовірність ухвалення помилкового рішення). Ця процедура так само, як і процедура застосування критерію в2 дає можливість обчислити критерій за визначеною формулою. Отримане значення порівнюється з табличним. На основі результатів порівняння і робиться висновок.

Також часто застосовують і процедури оцінки:

· значущості різниці між двома відсотками (наприклад, різниці між відсотками незадоволених умовами роботи на даному підприєм- стві серед жінок і чоловіків);

· різниці між двома середніми (між середньою заробітною платою на одному та іншому підприємствах);

· двох коефіцієнтів кореляції.

Для кожної такої задачі існують формула обчислення критерію і статистичні таблиці, якими користуються для порівняння.

3. Методи багатомірної статистики:
факторний і кластерний аналіз

Якщо аналіз даних передбачає використання великої кількості взаємозалежних ознак, доцільно застосувати спеціальні методи і алгоритми багатомірної статистики. Ці методи вимагають значних обчислень, для ефективного застосування яких необхідно мати обчислювальну техніку і спеціальне програмне забезпечення.

Серед методів багатомірної статистики найчастіше застосовують аналіз:

· факторний;

· кластерний.

 

Суть факторного аналізуполягає в тому, що групу сильно скорельованих ознак можна пояснити і описати невеликою кількістю схованих (латентних) факторів, що безпосередньо не спостерігаються, але розкривають значення ознак цієї групи.

Наприклад, за такими ознаками, як: «кількість прочитаних книг», «кількість книг у домашній бібліотеці», «кількість відвідувань театрів і музеїв» схований фактор, який можна було б назвати «рівень культурного розвитку особистості».

Факторний аналіз дає можливість:

· знайти ці латентні фактори;

· описати залежність між ними і первинними ознаками;

· обчислити значення всіх побудованих у такий спосіб факторів для кожного об’єкта.

У результаті виникає можливість без значних втрат інформації перейти від аналізу великої кількості первинних ознак до аналізу порівняно невеликої кількості факторів.

Алгоритми кластерного аналізу дають можливість поділити сукупність об’єктів на однорідні за певним формальним критерієм подібності групи (кластери).

Основною властивістю цих груп є те, що об’єкти, які належать до одного кластера, більш схожі між собою, ніж об’єкти з різних клас-терів. Таку класифікацію можна виконувати одночасно за досить великою кількістю ознак.

Наприклад, відомо чимало статистичних показників, що характеризують рівень соціально-економічного розвитку адміністративних районів країни:

· кількість населення;

· кількість безробітних;

· протяжність шосейних доріг;

· кількість квадратних метрів житла на одну людину і т.п.

Для організації опитування необхідно згрупувати райони у великі утворення (регіони). Але це варто зробити так, щоб у кожному такому регіоні були райони, близькі за своїм соціально-економічним розвитком. Це дасть можливість вибрати в такому регіоні один типовий район і результати опитування в ньому узагальнити щодо всього регіону.

Таке групування може бути ефективно проведено методом кластерного аналізу, оскільки в даному випадку враховується та узагальнюється велика кількість показників.

Підсумок аналізу та інтерпретації соціологічних даних набуває форму документів: звіту за результатами дослідження, інформаційної чи аналітичної довідки. Вони містять відомості, висновки і рекомендації для прийняття практичних (управлінських) рішень. У науково-дослідному плані – це банк соціологічних даних наукового аналізу.

 

 

Модуль 3

 







Последнее изменение этой страницы: 2016-04-19; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.231.167.166 (0.013 с.)