Методическая характеристика занятия 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Методическая характеристика занятия



Цель работы: получение навыков анализа больших массивов данных, относящихся к деятельности предприятия.

Продолжительность – 4 часа.

Техническое обеспечение: персональные компьютеры.

Программное обеспечение: программный комплекс Microsoft Office, программный комплекс – Statistica Basic Academic for Windows 10

Теоретические сведения

Кластерный анализ

Кластерный анализ – это метод группировки экспериментальных данных в классы. Наблюдения, попавшие в один класс, в некотором смысле ближе друг к другу, чем к наблюдениям из других классов.

Задачей кластерного анализа является организация наблюдаемых данных в наглядные структуры. Для решения данной задачи в кластерном анализе используются следующие методы:

- Иерархические агломеративные методы или древовидная кластеризация (Joining /tree clustering);

- Метод К средних (K - means clustering);

- Двухвходовое объединение (Two-way joining).

В данной лабораторной работе будут рассматриваться древовидная кластеризация и двухвходовое объединение.

Термин “кластерный анализ” в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии.

Техника кластеризации применяется в самых разнообразных областях. Например, в области медицины - кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В области защиты информации методы кластерного анализа применяются для анализа лог файлов серверов за большие промежутки времени и т.д. В общем, всякий раз, когда необходимо классифицировать «горы» информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Дендрограммы (древовидная кластеризация) - это полное дерево вложенных кластеров.

Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является дендрограмма - иерархическое дерево.

Рассмотрим горизонтальную дендрограмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы «ослабляете» Ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, Вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, Вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных дендрограммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную «структуру» в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Меры расстояния.

Объединение, или метод древовидной кластеризации, используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве.

Существуют следующие типы расстояний:

Квадрат евклидова расстояния (Squared Euclidean Distances.) - это расстояние вычисляется следующим образом:

Евклидово расстояние (Euclidean Distances) оно является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:

 

Расстояние городских кварталов (манхэттенское расстояние) (City-block (Manhattan) Distances) - Это расстояние является просто средним разностей по координатам и вычисляется по формуле:

Расстояние Чебышева (Chebychev Distances) - вычисляется по формуле:                  

Степенное расстояние (Power Distances) - позволяет прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Степенное расстояние вычисляется по формуле:

 

где r и p - параметры, определяемые пользователем. Если оба параметра - r и p, равны двум, то это расстояние совпадает с расстоянием Евклида.

Процент несогласия (Percent Disagreement) - используется в тех случаях, когда данные являются категориальными. Это расстояние вычисляется по формуле:



Поделиться:


Последнее изменение этой страницы: 2020-12-09; просмотров: 167; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.173.112 (0.007 с.)