Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Короткий огляд математичних методів

Поиск

Далі пропонується короткий загальний опис математичних методів і алгоритмів, використовуваних методом кластеризації.

1. Кожен атрибут має бути приведений до нормального вигляду. Для цього кожен показник ділиться на різницю між найбільшим і найменшим значенням, які приймає розглянутий атрибут на конкретному наборі даних. Наприклад, якщо розглянутий атрибут - вік, і його найбільше значення - 72, а найменше - 16, то значенням 32 буде відповідати нормалізована величина 0.5714.

2. Виходячи з бажаної кількості кластерів, випадковим чином вибирається така ж кількість рядків даних. Ці рядки будуть використовуватися в якості початкових центрів мас кластерів.

3. Для кожного рядка даних визначається відстань від цього рядка до центру мас кластера (випадковим чином вибраного рядка даних) за допомогою методу найменших квадратів.

4. Кожен рядок набору даних входить у той кластер, відстань до центру мас якого виявилося найменшим.

5. У кожному кластері визначається новий центр мас як набір середніх значень по стовпцях на безлічі елементів цього кластеру.

6. Визначається відстань від кожного елемента даних до нового центру мас. Якщо при цьому розподіл елементів по кластерах не змінюється, розбиття даних на кластери закінчено, і всі групи даних визначені. Якщо склад кластерів змінюється, слід повернутися до п.3 і повторювати цей процес до тих пір, поки розбиття на кластери не стане незмінним.

Для того щоб розбити набір даних з 10 рядків на три кластери за допомогою електронних таблиць, потрібно приблизно півгодини напруженої роботи. Можна уявити, скільки часу займе розбиття на 10 кластерів набору з 100000 записів. Але комп'ютер здатний виконати подібні розрахунки за кілька секунд.

Набір даних для WEKA

Для побудови моделі кластеризації ми знову скористаємося даними дилерського центру BMW. Співробітники центру зібрали дані про усіх відвідувачів демонстраційного залу, машинах, які їх зацікавили, і про те, наскільки часто відвідувачі демонстраційного залу в підсумку купували автомобіль, який їм сподобався. Тепер дилерському центру треба проаналізувати ці дані для того, щоб виділити різні групи відвідувачів і зрозуміти, чи не можна визначити будь-які тенденції в їх поведінці. У нашому прикладі використовується 100 записів, і кожен стовпець описує певний етап, який, як правило, проходить покупець у процесі вибору та придбання автомобіля. Відповідно, значення 1 у стовпці говорить про те, що відвідувач пройшов конкретний етап, а 0 - що відвідувач цей етап не пройшов. Файл з даними у форматі ARFF приведений нижче.

 

Дані для кластерного аналізу засобами WEKA

@Attribute Dealership numeric @Attribute Showroom numeric @Attribute ComputerSearch numeric @Attribute M5 numeric @Attribute 3Series numeric @Attribute Z4 numeric @Attribute Financing numeric @Attribute Purchase numeric   @Data 1,0,0,0,0,0,0,0 1,1,1,0,0,0,1,0 ...

Кластеризація в WEKA

Завантажте файл bmw-browsers.arff в WEKA, виконавши ті ж кроки, які ми виконали раніше для відкриття даних у закладці Preprocess. Витратьте кілька хвилин на візуальний аналіз даних, зверніть увагу на атрибути даних, розподіл даних по стовпцях, і так далі. Після завантаження даних ваш екран WEKA повинен виглядати так, як показано на рис. 5.


Рис. 5. Дані BMW для кластеризації

Оскільки ми хочемо розбити наявні в нас дані на кластери, замість закладки Classify нам буде потрібно закладка Cluster. Натисніть на кнопку Choose і в пропонованому меню виберіть опцію SimpleKMeans (в рамках даної роботи ми будемо користуватися цим методом кластеризації). У результаті вікно WEKA Explorer буде виглядати так, як показано на рис. 6.



Рис. 6. Алгоритм кластеризації даних BMW

 

Тепер нам потрібно вибрати необхідні параметри для нашого алгоритму кластеризації. Клацніть на опції SimpleKMeans (дизайн користувальницького інтерфейсу залишає бажати кращого, але працювати з ним можна). Єдиний атрибут алгоритму, який нас цікавить - це поле numClusters, яке вказує на кількість кластерів для розбиття (нагадуємо, що це значення вам потрібно вибрати ще до створення моделі). Змінимо значення за замовчуванням (2) на 5. Постарайтеся запам'ятати послідовність кроків, щоб ви змогли згодом змінити кількість кластерів. Тепер ваше вікно WEKA Explorer має виглядати так, як показано на рис. 7. Натисніть на кнопку OK, щоб зберегти вибрані параметри.


Рис. 7. Налаштування алгоритму кластеризації

 

Тепер ми можемо приступити до створення моделі. Як вже зазначалося вище, для розбиття 100 рядків на 5 кластерів за допомогою електронних таблиць було б потрібно декілька годин, проте WEKA видає нам результат менш ніж за секунду. Результат обробки наших даних показаний нижче.

Результати кластеризації

Cluster#Attribute Full Data 0 1 2 3 4 (100) (26) (27) (5) (14) (28)==================================================================================Dealership 0.6 0.9615 0.6667 1 0.8571 0Showroom 0.72 0.6923 0.6667 0 0.5714 1ComputerSearch 0.43 0.6538 0 1 0.8571 0.3214M5 0.53 0.4615 0.963 1 0.7143 03Series 0.55 0.3846 0.4444 0.8 0.0714 1Z4 0.45 0.5385 0 0.8 0.5714 0.6786Financing 0.61 0.4615 0.6296 0.8 1 0.5Purchase 0.39 0 0.5185 0.4 1 0.3214 Clustered Instances 0 26 (26%)1 27 (27%)2 5 (5%)3 14 (14%)4 28 (28%)

 

Як нам інтерпретувати отриманий результат? Дані кластеризації показують, яким чином сформований кожен кластер: значення «1» означає, що у всіх даних в цьому кластері відповідний атрибут дорівнює 1, а значення «0» означає, що у всіх даних в цьому кластері відповідний атрибут дорівнює 0. Дані відповідають середньому значенню атрибута у кластері. Кожен кластер характеризує певний тип поведінки клієнтів, таким чином, на підставі нашого розбиття ми можемо зробити деякі корисні висновки:

· Кластер 0 - цю групу відвідувачів можна було б назвати «мрійники». Вони бродять навколо дилерського центру, розглядаючи машини, виставлені на зовнішній парковці, але ніколи не заходять всередину, і, гірше того, ніколи нічого не купують.

· Кластер 1 - цю групу слід було б назвати «шанувальники М5», оскільки вони відразу ж підходять до виставлених автомобілів цієї моделі, повністю ігноруючи BMW серії 3 або Z4. Тим не менш, ця група не відрізняється високими показниками покупки машин - всього 52%. Це потенційно може свідчити про недостатньо продуману стратегію продажів і про необхідність поліпшити роботу дилерського центру, наприклад, за рахунок збільшення кількості продавців у секції M5.

· Кластер 2 - ця група настільки мала, що ми могли б назвати її вибраковуванням. Справа в тому, що дані цієї групи статистично досить розкидані, і ми не можемо зробити будь-яких певних висновків щодо поведінки відвідувачів, що потрапили в цей кластер (подібна ситуація може вказувати на те, що вам слід скоротити кількість кластерів в моделі)

· Кластер 3 - цю групу слід було б назвати «улюбленці BMW», тому що відвідувачі, що потрапили в цей кластер, завжди купують машину і отримують необхідне фінансування. Зверніть увагу, дані цього кластеру демонструють цікаву модель поведінки цих покупців: спочатку вони оглядають виставлені на парковці машини, а потім звертаються до пошукової системи дилерського центру. Як правило, вони купують моделі M5 або Z4, але ніколи не беруть моделі третьої серії. Дані цього кластеру вказують на те, що дилерському центру слід активніше привертати увагу до пошукових комп'ютерів (можливо, винести їх на зовнішню парковку), і крім того, слід знайти якийсь спосіб виділити моделі M5 і Z4 в результатах пошуку, щоб гарантовано звернути на них увагу відвідувачів. Після того, як відвідувач, що потрапив в цей кластер, вибрав певну модель автомобіля, він гарантовано отримує необхідний кредит і здійснює покупку.

· Кластер 4 - цю групу можна назвати «початківці власники BMW», оскільки вони завжди шукають моделі 3 серії і ніколи не цікавляться більш дорогими M5. Вони відразу ж проходять в демонстраційний зал, не витрачаючи час на огляд машин на зовнішній стоянці. Крім того, вони не користуються пошуковою системою центру. Приблизно 50% цієї групи отримують схвалення по кредиту, тим не менш, покупку роблять всього 32% учасників. Аналізуючи дані цього кластеру, можна зробити наступний висновок: відвідувачі цієї групи хотіли б купити свій перший BMW і точно знають, яка машина їм потрібна (модель 3 серії з мінімальною конфігурацією). Однак, для того щоб купити машину, їм потрібно отримати позитивне рішення по кредиту. Щоб підвищити рівень продажів серед відвідувачів 4 кластера, дилерському центру слід було б знизити рівень вимог для отримання кредиту або знизити ціни на моделі 3 серії.

Ще один цікавий спосіб вивчення результатів кластеризації - це візуальне подання даних. Клацніть правою кнопкою мишки в секції Result List закладки Cluster. У контекстному меню виберіть опцію Visualize Cluster Assignments. В результаті відкриється вікно з графічним представленням результатів кластеризації, налаштування якого ви можете вибрати найбільш зручним для вас чином. Для нашого прикладу, змініть настройку осі X так, щоб вона відповідала кількості автомобілів М5 (M5 (Num)), а настройку осі Y - так, щоб вона показувала кількість куплених автомобілів (Purchase (Num)), і вкажіть виділення кожного кластера окремим кольором (для цього встановіть значення поля Color в Cluster (Nom)). Такі налаштування допоможуть нам оцінити розподіл по кластерах залежно від того, скільки людина цікавилося BMW M5, і скільки чоловік купило цю модель. Крім того, посуньте покажчик Jitter приблизно на три чверті у бік максимуму, це штучно збільшить розкид між групами точок, щоб нам було зручніше їх переглядати.

Чи відповідає візуальне відображення кластеризації тим висновкам, які ми зробили на підставі даних в одержаному результаті кластеризації? Як ми бачимо, поблизу точки X = 1, Y = 1 (відвідувачі, які цікавилися автомобілями моделі M5 і купили їх) розташовані тільки два кластери: 1 і 3. Аналогічно, поблизу точки X = 0, Y = 0 розташовані тільки два кластери: 4 і 0. Чи відповідає це нашим висновкам? Так, відповідає. Кластери 1 і 3 купують BMW M5, в той час як кластер 0 не купує нічого, а кластер 4 шукає BMW серії 3. На рис. 8 показано візуальне відображення кластерів нашої моделі. Пропонуємо вам самостійно попрактикуватися у виявленні інших трендів і течій, змінюючи налаштування осей X і Y.

 


Рис. 8. Візуальне відображення кластеризації

 

Контрольні запитання

 

1. З якими методами інтелектуального аналізу даних ми ознайомилися в даній лабораторній роботі?

2. Під якими іншими назвами відомий метод класифікації?

3. У чому полягає основна перевага класифікаційних дерев?

4. Суть підходу створення моделі на основі навчальної послідовності (training set).

5. З якою метою в методі класифікаційного аналізу набір відомих даних ділиться на дві частини?

6. Принцип відсікання гілок. Для чого може бути потрібно видаляти інформацію з дерева рішень?

7. Сенс проблеми помилкового розпізнавання. Що є більш небажаним: хибно-позитивне чи хибно-негативне розпізнавання? Яке співвідношення хибно-негативних розпізнавань до хибно-позитивних може вважатися прийнятним?

8. В результаті аналізу для тестового і навчального набору даних одержана приблизно однакова точність. Як це вплине на нові дані які будуть використовуватися в цій моделі в майбутньому?

9. Коли використовується метод кластерного аналізу?

10. Основний недолік методу кластеризації.


Лабораторна робота №3

 



Поделиться:


Последнее изменение этой страницы: 2016-04-19; просмотров: 339; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.119.112.208 (0.012 с.)