Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Иерархические кластер-структуры
В статистических исследованиях группировка первичных данных является основным приемом решения задачи классификации. Обычно эта задача решается так. Из множества признаков, описывающих объект, отбирается один, наиболее информативный с точки зрения исследователя, и проводится группировка в соответствии со значениями данного признака. Если требуется провести классификацию по нескольким признакам (по степени важности), то сначала производится классификация по первому признаку, затем каждый из полученных классов разбивается на подклассы по второму признаку и т.д. Задача классификации при наличии нескольких признаков может быть решена и другими методами, одним из которых является метод кластерного анализа. Пусть исследуется совокупность n объектов, каждый из которых характеризуется по k замеренным на нем признакам X, то есть исходными данными служит таблица: . Требуется разбить эту совокупность на однородные в некотором смысле группы (классы). Полученные в результате разбиения группы называются кластерами. Методы нахождения кластеров называются кластер-анализом. Основным этапом решения задачи поиска кластеров является выбор способа вычисления расстояний или близости между объектами или признаками. Так может быть использовано обычное евклидово расстояние: , где – величина l-ой компоненты у i-ого признака (j-ого) объекта l =1,2,…, k, i, j =1,2,…, n. Расстояние между группами элементов особенно важно в так называемых иерархических кластер-процедурах. Принцип работы иерархических процедур состоит в последовательном объединении различных групп элементов сначала самых близких (далеких), а затем все более отдаленных (близких) друг от друга. Расстояние между кластерами S l и S (m,q) можно найти по формуле: . Существуют и другие формулы для нахождения расстояний между элементами и кластерами. При реализации алгоритма иерархической классификации предусматривается графическое представление классификации в виде дендрограммы. Пример. Провести классификацию 6 объектов, каждый из которых характеризуется двумя признаками.
Решение. Расстояние между объектами будем вычислять, как обычное евклидово.
. Очевидно, что р 11=0. Аналогично находим расстояния между остальными объектами и строим матрицу расстояний: R 1= p (xi, x j)= . Из этой матрицы расстояний следует, что наиболее близки четвертый и пятый объект r (4,5)=1 и поэтому их объединяем в один кластер. После объединения имеем пять кластеров:
Расстояние между кластерами будем определять по указанной выше формуле. Так расстояние между объектом S 1 и кластером S (4,5): . Таким образом, расстояние равно расстоянию от объекта 1 до ближайшего к нему объекта, входящего в кластер S (4,5), то есть . В этом случае говорят, что расстояние между кластерами определяем по принципу «ближайшего соседа». Следующая матрица расстояний имеет вид: R 2= . Здесь наименьшее расстояние , то есть объекты 2,3 объединяем в кластер S (2,3) и получаем четыре кластера
S (1), S (2,3), S (4,5), S (6).
Находим вновь матрицу расстояний, используя матрицу R 2. Например: = . После расчетов, получим матрицу расстояний: R 3= . Здесь наименьшее расстояние . Объединяем эти элементы в один кластер. В результате получаем три кластера: S (1), S( 2,3), S (4,5,6).
Для этих кластеров матрица расстояний имеет вид:
R 4= .
В этой матрице наименьшее расстояние . Объединяем кластеры S (1) и S (2,3). Получаем два кластера
S (1,2,3), S (4,5,6).
Результаты такой иерархической классификации объектов можно представить в виде дендрограммы:
r
5
4
3 2 1
1 2 3 4 5 6
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее изменение этой страницы: 2021-12-15; просмотров: 65; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 52.14.85.76 (0.007 с.) |