Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Кластерні процедури класифікації

Поиск

 

У табл. 7 наведені дані про структуру зайнятості населення за регіонами України. Необхідно провести класифікацію регіонів України за рівнем зайнятості методами кластерного аналізу, привести основні характеристики виділених класів, дати інтерпретацію отриманих результатів.

 

Таблиця 7

Структура зайнятості населення по регіонам

№ п/п Регіон Структура зайнятості, %
сільське господарство (СГ) промисловість (П)
       
1. Автономна Республіка Крим    
2. Вінницька    
3. Волинська    
4. Дніпропетровська    
5. Донецька    
6. Житомирська    
7. Закарпатська    
8. Запорізька    
9. Івано-Франківська    
10. Київська    

Продовження табл.7

       
11. Кіровоградська    
12. Луганська    
13. Львівська    
14. Миколаївська    
15. Одеська    
16. Полтавська    
17. Рівненська    
18. Сумська    
19. Тернопільська    
20. Харківська    
21. Херсонська    
22. Хмельницька    
23. Черкаська    
24. Чернівецька    
25. Чернігівська    

 

Запускаємо програму Statistica і формуємо таблицю (файл) вихідних даних. Для того, щоб результати аналізу були представлені наглядніше, пропонується ввести замість номерів регіонів їхні назви. Це можна зробити подвійним натисканням кнопки миші на номері об’єкта (регіону).

Перед тим, як проводити аналіз, зверніть увагу на те, у якому вигляді представлені вихідні дані. Якщо вихідні дані мають різні одиниці або масштаб вимірів, то перед початком аналізу їх необхідно стандартизувати. Це можна зробити наступним чином: виділити стовпці та натиснути праву кнопку миші Fill/Standardize Block → Standardize Columns. Якщо ж розмірність однакова для всіх аналізованих ознак, то стандартизацію можна не проводити.

Спочатку проведемо кластеризацію ієрархічним методом. На панелі інструментів Statistics або в меню Statistics виберемо функцію Cluster AnalysisКластерний аналіз і у вікні, що з’явилося, виберемо Ієрархічний метод кластеризаціїJoining (tree clustering). Обравши цей метод, отримаємо стартове вікно ієрархічного методу кластеризації (рис. 22).

 

Рис. 22. Стартове вікно ієрархічного методу кластерного аналізу

 

У цьому вікні оберемо змінні, за якими буде проводитися кластеризація (кнопка VariablesЗмінні). У рядку Input file необхідно задати форму представлення вихідних даних (спостережувані – Rawdata або матриця відстаней – Distance matrix). У рядку Cluster потрібно вибрати вид класифікації (класифікація Випадків (рядків)Cases (rows) або класифікація Змінних (стовпців)Variables (columns)).

Нижче вибирається алгоритм кластеризації та міра відстані.

У Statistica можна вибрати один з наступних методів (алгоритмів) ієрархічного об'єднання кластерів:

Single linkage – метод одиночного зв’язку;

Complete linkage – метод повного зв’язку;

Unweighted pair-group average – незважений метод „середнього зв’язку”;

Weighted pair-group average – зважений метод „середнього зв’язку”;

Unweighted pair-group centroid – незважений центроїдний метод;

Weighted pair-group centroid (median) – зважений центроїдний метод;

Ward's method – метод Уорда.

У Statistica реалізовані наступні міри відстаней: евклідова відстань, квадрат евклідової відстані, манхеттенівська відстань (або „відстань міських кварталів”), метрика Чебишева, метрика Мінковського, пірсонівський коефіцієнт кореляції та ін.

Наприклад, виберемо алгоритм Уорда й Евклідову відстань (дивіться установки на рис. 17).

Після натискання кнопки ОК одержуємо вікно результатів ієрархічного кластерного аналізу (рис. 23). В інформаційній частині вікна зазначена наступна інформація: кількість аналізованих змінних і випадків (в даному разі – регіонів), вид класифікації, спосіб обробки пропущених значень, алгоритм кластеризації та міра відстаней. У функціональній частині вікна є ряд кнопок, що дозволяють різнобічно переглянути результати кластеризації.

 

Рис. 23. Вікно результатів кластеризації ієрархічним методом

 

Наглядно результати кластеризації ієрархічними методами представляються на дендрограмі (дереві класифікації), для побудови якої призначені дві кнопки у вікні результатів – Horizontal hierarchical tree plot (горизонтальна дендрограма) та Vertical icicle plot (вертикальна дендрограма). Вид дерева класифікації обирається суб’єктивно. На рис. 24 показано горизонтальне дерево класифікації регіонів за двома показниками.

 

Рис. 24. Горизонтальна дендрограма

 

Розглянемо отриману дендрограму. На ній наглядно представлено об’єднання регіонів у кластери. Якщо умовно „розрізати” дендрограму на рівні 45, то одержимо три кластери (класи регіонів). У перший кластер увійшли 10 регіонів: Черкаська, Луганська, Донецька, Харківська, Запорізька, Закарпатська, Житомирська, Сумська, Львівська і Дніпропетровська області. У другий кластер увійшли також 10 регіонів: Чернівецька, Миколаївська, Рівненська, Кіровоградська, Київська, Чернігівська, Тернопільська, Волинська, Хмельницька і Вінницька області. У третій кластер увійшли 5 регіонів: Херсонська, Івано-Франківська, Одеська, Полтавська області й Автономна Республіка Крим. На дендрограмі також зазначені відстані, на яких відбулося об’єднання елементів (регіонів) у кластери, алгоритм, міра відстаней і кількість оброблених випадків.

Матрицю приєднань, у якій зазначені об'єкти (регіони) і відстані, на яких відбулося об'єднання регіонів у кластери, можна побачити, натиснувши кнопку Amalgamation schedule (список приєднань). З цього списку також можна встановити, які регіони об’єдналися в кластери.

Матрицю відстаней між регіонами можна побачити, натиснувши кнопку Distance matrix. Ініціювавши кнопку Descriptive statisticsОписова статистика, отримаємо матрицю, у якій будуть указані середні значення показників та їх стандартні відхилення для кожного об’єкта.

Проведемо кластеризацію методом k-середніх і порівняємо отримані результати.

На панелі інструментів Statistics або в меню Statistics вибрати функцію Cluster AnalysisКластерний аналіз, а у вікні, що з’явилося, вибрати ітеративний метод кластеризації – k-means clustering. Обравши цей метод, отримаємо стартове вікно для кластеризації (рис. 25).

 

Рис. 25. Стартове вікно методу k-середніх

 

У стартовому вікні аналізу вибираються змінні для класифікації (кнопка Variables), вибирається бажана кількість кластерів (Number of clusters), кількість ітерацій (Number of iterations). Тут також задаються початкові умови вибору центрів кластерів (три опції внизу): Choose observations to maximize initial between-cluster distances – вибрати як центри такі елементи, щоб максимізувати відстань між кластерами; Sort distances and take observations at constant intervals – вибрати відстані в постійних інтервалах; Choose the first N (Number of clusters) observations – як центри взяти перші N елементів (дивіться установки на рис. 25).

Після натискання кнопки ОК одержуємо вікно результатів кластерного аналізу методом k-середніх (рис. 26).

 

Рис. 26. Вікно результатів кластеризації методом k-середніх

 

В інформаційній частині вікна зазначена кількість показників, за якими проведена класифікація, кількість оброблених випадків, метод кластеризації, спосіб обробки пропущених значень, кількість виділених кластерів і номер ітерації, після якої закінчився процес класифікації.

У функціональній частині вікна є ряд кнопок, що дозволяють усебічно розглянути результати класифікації. Призначення кнопок наведено у табл. 8.

Результати ініціалізації кнопок наведені на рис. 27, 28

На графіку середніх (рис. 27) зображені середні значення змінних у кластерах. Так у третій кластер увійшли регіони з низькою зайнятістю в сільському господарстві і високою зайнятістю в промисловості. У другому кластері спостерігається протилежна ситуація. У перший кластер увійшли регіони із середніми значеннями зайнятості в сільському господарстві та у промисловості.

 

Таблиця 8



Поделиться:


Последнее изменение этой страницы: 2016-09-05; просмотров: 209; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.167.11 (0.009 с.)