Классификация и кластеризация 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Классификация и кластеризация



 

Классификация – это разделение объектов на группы (классы) в соответствии с некоторыми признаками.Классификация может проводиться по заранее заданным строгим правилам. В этом случае задача классификации считается корректно поставленной, решается достаточно просто, однако границы между классами могут оказаться условными, таким образом, различие в пределах одного класса окажется сильнее, чем между соседними классами.

В ряде случаев правила классификации подбираются специально, чтобы получить максимально разделённые классы.Если набор правил имеет сложный характер или классификация сложилась традиционно (а вопрос классификации новых объектов открыт), то используют методы дискриминантного анализа, в т.ч. на основе искусственных нейронных сетей. Задачей дискриминантного анализа является поиск переменных, наилучшим образом разделяющих классы.

В случае, когда правил не создано, но необходимо разбить данные на классы, помощь может оказать метод кластерного анализа.

Кластерный анализ (кластеризация) – это совокупность методов, позволяющих разбить серию данных, представляющую совокупность признаков (факторное пространство) на отдельные группы (классы, кластеры), близкие между собой по значениям признаков.

Кластеризация является одной из некорректно поставленных задач и одним из вариантов «обучения без учителя».Кластеризация фактически предоставляет исследователю материал, гипотезу для дальнейшей проверки. Кластерный анализ не гарантирует правильное распределение данных по уже имеющимся классам.

Задача кластеризации относится к одной из разновидностей задач оптимизации.

 

Практическая работа № 10

Изучение методов кластерного анализа

 

Цель работы: изучить методы кластерного анализа.

Задачи:

1. Получить задание в виде набора данных (как правило, химический состав сырья).

2. Провести кластеризацию различными методами на основе различных параметров.

3. Сделать вывод о возможностях кластеризации.

Краткие теоретические сведения

    Одним из наиболее распространённых методов кластеризации является метод k-средних (k-mean). В этом методе сначала всю серию объектов случайно разбивают на кластеры, а затем находят центр масс каждого кластера. Относительно полученных центров масс все имеющиеся точки перераспределяются по кластерам (наиболее удалённую перемещают в более близкий кластер, и т.д.). Окончанием будет стабилизация центров масс и невозможность «удачных» перемещений.

    Другим алгоритмом кластеризации является иерархический (объединительный) метод. В нём находят наиболее близкие точки, объединяя их в один кластер. Затем процесс продолжают, объединяя как точку с точкой, так и точку с уже сформированным кластером (расстояние до кластера определяют по центру масс), а также объединяют два уже сформированных кластера. Процесс ведут до тех пор, пока не останется требуемое количество кластеров.

    Метод формальных элементов предполагает поиск центров кластеризации. Сначала за такой центр берут случайную точку, строят вокруг неё окружность, сферу, гиперсферу фиксированным радиусом, все объекты, находящиеся в её пределах, формируют кластер. Новый центр кластера пересчитывают как центр масс, после чего производят пересчёт. Когда центр масс перестанет меняться, сформированный кластер удаляют из дальнейшего рассмотрения.

Ход работы

Обучающиеся получают задание в виде таблицы (например, таблица химического состава пищевых продуктов). Данные таблицы вводят в программу кластерного анализа (например, свободное ПО, разработанное преподавателем, https://sourceforge.net/projects/vvfstat/files/ClusterAnalysis/) и проводят кластеризацию всеми имеющимися методами, задавая количество разное классов (кроме метода формальных элементов, где подбирают радиус). Для каждого метода проводят несколько повторений, проверяя, насколько его результаты воспроизводимы; итоговый результат рассматривают как наиболее часто встречающийся.

Результаты, полученные разными методами, сравнивают друг с другом. Далее проводят кластеризацию по отдельным параметрам, сравнивая результаты. По окончании работы необходимо сделать вывод о наилучшей классификации и о количестве параметров, достаточных для неё.

Содержание отчёта

Общие требования к содержанию отчёта приведены в рамках практической работы № 1.В данной работе в разделе «ход работы» необходимо представить исходную таблицу данных и результаты проведения кластерного анализа разными методами с разными параметрами. В качестве вывода следует привести наиболее эффективный метод.

Вопросы для самоконтроля

1. Что такое кластеризация? В чём её отличие от классификации?

2. Почему задачу кластеризации называют некорректно поставленной?

3. Какие Вы знаете методы кластеризации? В чём их особенности?

 

 



Поделиться:


Последнее изменение этой страницы: 2021-01-08; просмотров: 317; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.41.214 (0.008 с.)