Назначение кластерного анализа и математико-статистические идеи, лежащие в его основе. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Назначение кластерного анализа и математико-статистические идеи, лежащие в его основе.



Кластерный анализ решает задачу построения классификации, то есть разделения исходного множества объектов на группы, классы, кластеры. При этом предполагается, что у исследователя нет исходных допущений ни о составе классов, ни об их отличии друг от друга. Приступая к кластерному анализу, исследователь располагает лишь информацией о характеристиках (признаках) для объектов, позволяющей судить о сходстве\различии объектов, либо только данными об их попарном сходстве\различии. В литературе часто встречаются синонимы кластерного анализа: автоматическая классификация, таксономический анализ, анализ образов.

Варианты кластерного анализа — это множество простых вычислительных процедур, используемых для классификации объектов. Классификация объектов — это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов. Более точно, кластерный анализ — это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям.

Существует множество вариантов кластерного анализа, но наиболее ши­роко используются методы, объединенные общим названием иерархический кластерный анализ.

Кластерный анализ объектов, для которых заданы значения количественных признаков начинается с расчета различий для всех пар объектов. Пользователь может выбрать по своему усмотрению меру различия (мр – должны быть определены между всеми парами объектов и иметь числовое выражение. Симметрия, неразличимость идентичных объектов, различимость нетождественных объектов, неравенство треугольника). В качестве меры различия выбирается расстояние между объектами в Р-мерном пространстве признаков, чаще всего — евклидово расстояние или его квадрат. На первом шаге кластерного анализа путем перебора всех пар объектов определяется пара (или пары) наиболее близких объектов, которые объединяются в первичные кластеры. Далее на каждом шаге к каждому первичному кластеру присоединяется объект (кластер), который к нему ближе. Этот процесс повторяется до тех пор, пока все объекты не будут объединены в один кластер. Критерий объединения объектов (кластеров) может быть разным и определяется методом кластерного анализа. Основным результатом применения иерархического кластерного анализа является дендрограмма — графическое изображение последовательности объединения объектов в кластеры. Как правило, на дендрограмме номера объектов следуют по вертикали, а по горизонтали отмечены расстояния (в условных единицах), на которых происходит объединение объек­тов в кластеры. На первых шагах происходит образование кластеров. Процесс заканчивается объединением всех объектов в один кластер. Количество кластеров определяет по дендрограмме сам исследователь.

Кластерный анализ — это комбинаторная процедура, имеющая простой и наглядный результат. Широта возможного применения кластерного анализа очевидна настолько же, насколько очевиден и его смысл. Классифицирование или разделение исходного множества объектов на различающиеся группы — всегда первый шаг в любой умственной деятельности, предваряющий поиск причин обнаруженных различий.

Можно указать ряд задач, при решении которых кластерный анализ является более эффективным, чем другие многомерные методы:

- разбиение совокупности испытуемых на группы по измеренным призна­кам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам;

- применение кластерного анализа как значительно более простого и наглядного аналога факторного анализа, когда ставится только задача группировки признаков на основе их корреляции;

- классификация объектов на основе непосредственных оценок различий между ними (например, исследование социальной структуры кол­лектива по данным социометрии — по выявленным межличностным предпочтениям).

Несмотря на различие целей проведения кластерного анализа, можно выделить общую его последовательность как ряд относительно самостоятельных шагов, играющих существенную роль в прикладном исследовании:

1. Отбор объектов для кластеризации. Объектами могут быть, в зависимости от цели исследования: а) испытуемые; б) объекты, которые оцени­ваются испытуемыми; в) признаки, измеренные на выборке испытуемых.

2. Определение множества переменных, по которым будут различаться объекты кластеризации. Для испытуемых — это набор измеренных призна­ков, для оцениваемых объектов — субъекты оценки, для признаков — испытуемые. Если в качестве исходных данных предполагается исполь­зовать результаты попарного сравнения объектов, необходимо четко определить критерии этого сравнения испытуемыми (экспертами).

3. Определение меры различия между объектами кластеризации. Это первая проблема, которая является специфичной для методов анализа различий: многомерного шкалирования и кластерного анализа.

4. Выбор и применение метода классификации для создания групп сходных объектов. Это вторая и центральная проблема кластерного анализа. Ее весомость связана с тем, что разные методы кластеризации порождают разные группировки для одних и тех же данных. Хотя анализ и заключа­ется в обнаружении структуры, наделе в процессе кластеризации струк­тура привносится в данные, и эта привнесенная структура может не со­впадать с реальной.

5. Проверка достоверности разбиения на классы.



Поделиться:


Последнее изменение этой страницы: 2017-02-05; просмотров: 391; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.12.101 (0.005 с.)