Технологии анализа и интерпретации данных 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Технологии анализа и интерпретации данных



2.2.1 Технологии оперативной аналитической обработки данных OLAP и многомерные модели данных. Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации) обозначает методы, которые дают возможность пользователям многомерных баз данных в реальном времени генерировать описательные и сравнительные сводки ("views") данных и получать ответы на различные другие аналитические запросы [16]. Несмотря на свое название, этот метод не подразумевает интерактивную обработку данных (в режиме реального времени); он означает процесс анализа многомерных баз данных (которые, в частности, могут содержать и динамически обновляемую информацию) путем составления эффективных "многомерных" запросов к данным различных типов. Средства OLAP могут быть встроены в корпоративные (масштаба предприятия) системы баз данных и позволяют аналитикам и менеджерам следить за ходом и результативностью своего бизнеса или рынка в целом (например, за различными сторонами производственного процесса или количеством и категориями совершенных сделок по разным регионам). Анализ, проводимый методами OLAP, может быть как простым (например, таблицы частот, описательные статистики, простые таблицы), так и достаточно сложным (например, он может включать сезонные поправки, удаление выбросов и другие способы очистки данных). Технологии OLAP были разработаны для анализа данных в системах баз данных с целью поддержки принятия решений и ориентированы, главным образом, на обработку нерегламентированных интерактивных запросов. Основной целью анализа является количественная и качественная оценка достигнутых результатов и/или динамики деятельности компании. Используемые для этого методы сводятся к генерации различного рода выборок, формированию агрегированных данных, трансформациям способов представления данных. OLAP имеет дело, как правило, с историческими данными, которые обычно не представлены в оперативных информационных системах, поскольку для поддержки бизнес-процессов компании требуются чаще всего данные, относящиеся к текущему моменту времени.

В силу особенностей интерактивной аналитической обработки для ее реализации нужны средства управления данными, несколько иные по сравнению с предоставляемыми традиционными системами управления базами данных, ориентированными на обработку транзакций [15,16]. По указанным причинам в качестве источников данных для OLAP часто используют не оперативные базы данных, а хранилища данных.

Термин OLAP был введен в 1993 году Эдгаром Коддом (Edgar Codd), основателем реляционного подхода в технологиях баз данных. Кодд сформулировал основные принципы этих технологий в виде требований к функциональности программных продуктов, которые предназначены для их поддержки. Среди этих требований центральное место занимает поддержка многомерного представления данных и анализа данных. Дляобеспечения эффективности технологий OLAP необходимо, чтобы используемые в хранилищах данных методы моделирования данных были адекватны потребностям средств анализа данных. Многомерное представление данных идеально удовлетворяет этим потребностям.

В многомерной модели данных база данных представляется в виде одного или нескольких кубов данных, называемых иногда гиперкубами [15]. Такой куб имеет несколько независимых измерений, своего рода систему координат представляемого им многомерного пространства данных. Каждому измерению соответствует некоторый атрибут, характеризующий какое-либо качественное свойство данных. Примерами таких атрибутов являются время, территория, категория продукции и т.д.

На множестве значений некоторых атрибутов измерений (элементов) могут быть определены иерархические отношения. Например, для атрибута-времени может использоваться иерархия «годы — кварталы — месяцы», для атрибута-территории — «регион — город — район».

Наборы значений измерений по одному для каждого из них определяют точки куба, называемые ячейками. С ячейками ассоциируются значения различных других количественных атрибутов, называемых показателями.

Для целей анализа могут строиться сечения куба данных (называемые также его проекциями) путем фиксации значений различных наборов атрибутов-координат. Может также осуществляться сжатие куба на основе использования значений атрибутов измерений более высоких уровней иерархии и соответствующего агрегирования значений ассоциированных с ними показателей. Возможна также и обратная операция детализации данных. Таким образом, возможен анализ данных с нужной степенью детализации. Для удобства восприятия данных в процессе анализа используются различные операции визуализации данных, в частности вращение куба путем изменения порядка измерений.

Важно заметить, что куб данных рассматривается в технологиях OLAP как концептуальное, а не физическое представление данных. Такое многомерное представление чаще всего поддерживается над реляционной базой данных. Однако имеются и инструментальные средства OLAP, основанные на СУБД, непосредственно поддерживающих многомерные модели данных. Существуют также и гибридные реализации. Соответствующие разновидности технологий OLAP в зависимости от способа организации источников данных называются ROLAP (Relational OLAP), MOLAP (Multi-Dimentional OLAP) и HOLAP (Hybrid OLAP) [15-17].

Для технологий ROLAP в настоящее время широко используется подход к организации данных в базе данных, основанный на применении схемы типа звезды или типа снежинки.

Схема типа звезды — это схема реляционной базы данных, служащая для поддержки многомерного представления содержащихся в ней данных. Описываемая база данных включает таблицу фактов и ряд таблиц измерений.

Каждая строка таблицы фактов содержит набор фактов и по одному значению внешнего ключа для каждой таблицы измерений. Наряду с ато­марными фактами строки этой таблицы могут также содержать агреги­рованные факты, соответствующие некоторым совокупностям значений элементов измерений. Таблица фактов, таким образом, связана с каждой таблицей измерений с помощью соответствующего внешнего ключа.

Строки таблиц измерений содержат значения первичных ключей, представляющих собой значения атрибутов, соответствующих различным измерениям. При обработке запросов выполняются операции соединения таблицы фактов и участвующих в запросе таблиц измерений. Таблицы измерений могут иметь составные первичные ключи и являются денормализованными. Благодаря этому упрощается восприятие структуры данных пользователем и формулировка запросов, уменьшается количество операций соединения таблиц при обработке запросов [16]. Однако в связи с избыточностью данных возрастает требуемый для их хранения объем памяти.

Для того чтобы минимизировать эту избыточность, используется раз­новидность схемы типа звезды, называемая схемой типа снежинки. В ней таблицы измерений нормализованы путем их декомпозиции.

В процессе анализа данных в хранилищах данных методами OLAP пользователям часто бывают необходимы агрегированные данные. При больших объемах данных их вычисление требует значительных ресурсов. Если такие запросы относительно некоторых совокупностей агрегированных данных носят регулярный характер, то одним из способов ускорения обработки подобных запросов является заблаговременное вычисление соответствующих представлений данных и их сохранение в базе данных. Такой подход, называемый техникой материализованных представлений (Materialized Views), возможен, поскольку данные в хранилищах данных практически не подвергаются изменениям. Они отражают уже состоявшиеся факты. Вот почему вычисленные хранимые представления остаются актуальными на протяжении времени, и их не требуется вычислять каждый раз, когда содержащиеся в них данные необходимы для выдачи ответа на запрос пользователя.

2.2.2 Технология глубинного анализа данных. Наряду со средствами OLAP для анализа данных и поддержки принятия решений в хранилищах данных, как уже указывалось, используются технологии глубинного анализа данных (Data Mining). Заметим, что термин «Data Mining» в отечественной литературе часто переводится буквально, как добыча данных. Этот термин появился в научно-технической литературе в середине 90-х годов, и обозначаемые им технологии быстро получили широкое практическое применение для поддержки принятия решений в крупных компаниях на основе различных источников данных, в качестве которых могут использоваться информационные ресурсы больших баз данных, в том числе унаследованных, хранилищ данных, а также Web. Специфика систем глубинного анализа данных состоит в том, что пользовательские запросы не только имеют, как правило, нерегламентированный характер, но и, в отличие от запросов в OLAP, нечетко формулируются.

Хотя методы добычи данных можно применять к любой, предварительно не обработанной и даже неструктурированной информации, их можно также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью более углубленного исследования, как правило, в более высоких размерностях. В этом смысле методы добычи данных можно рассматривать как альтернативный аналитический подход (служащий иным целям, нежели OLAP) или как аналитическое расширение систем OLAP.

Технологии глубинного анализа данных позволяют анализировать структурированные данные с помощью математических моделей, осно­ванных, как правило, на статистических, вероятностных или оптимиза­ционных методах, с целью выявления в них заранее неизвестных зако­номерностей или зависимостей и извлечения различной непредвиденной информации.

К настоящему времени в области глубинного анализа данных сложился традиционный круг задач, для решения которых разработаны математические модели и эффективные в смысле вычислительной сложности алгоритмы. На этой основе различными поставщиками создаются программные продукты. Они ориентируются обычно на источники данных определенного вида, например на SQL-серверы баз данных или на какую-либо конкретную СУБД.

К числу традиционных задач глубинного анализа данных относятся в настоящее время задачи классификации, кластеризации, выявления ассоциаций, поиска типовых образцов на заданном множестве (например, определение типичного набора продуктов в покупках — классическая задача глубинного анализа данных о типовой рыночной корзине), выявления объектов данных, не соответствующих характеристикам и поведению, общим для всех рассматриваемых данных, моделирования тенденций во временных рядах и т.д. При решении этих задач обрабатываются большие объемы данных, поддерживаемых в хранилищах данных. Поэтому одной из злободневных проблем здесь является создание эффективных алгоритмов и подходящей техники организации данных.

Задачи указанных классов являются традиционным предметом иссле­дований в прикладной математике уже в течение нескольких десятилетий. Были разработаны многочисленные постановки этих задач и методы их решения. Новизна связанных с ними проблем в области глубинного анализа данных заключается в том, что нужно принимать во внимание организацию источника данных, весьма значительный объем исходных данных и, следовательно, большие размерности задач. Поэтому главные сферы интересов специалистов в данной области заключаются в разработке новых методов анализа данных, создании эффективных масштабируемых алгоритмов, а также в расширении области применения рассматриваемых технологий.

Формирующиеся в последнее время новые подходы в глубинном анализе данных базируются на интеграции этих технологий с технологиями OLAP. Соответствующее новое направление называется интерактивным глубинным анализом данных (On-Line Analytical Mining или OLAP Mining, OLAM) [15-17].

2.2.3 Технология визуализации данных. Важной составной частью технологий анализа данных является также визуализация данных. В процессе анализа данных оказываются полезными разнообразные формы графического представления данных, облегчающие их понимание и обеспечивающие возможности визуальной качественной оценки их свойств. При этом пользователю чаще всего недостаточно иметь возможность пассивного восприятия данных в графической форме. Необходимы также средства для выполнения различных операций над данными в терминах такого их представления. В частности, здесь применяются уже упоминавшаяся операция вращения куба данных, операция «пролистывания» сечений куба — перехода от одного его сечения к другому путем последовательной фиксации различных значений атрибута какого-либо измерения, которым эти сечения соответствуют, и др.

Разведочный анализ данных (РАД)

2.3.1. Основные методы разведочного статистического анализа. Разведочный анализ данных (РАД) применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы. Вычислительные методы разведочного анализа данных включают основные статистические методы, а также более сложные, специально разработанные методы многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных. К основным методам разведочного статистического анализа относится процедура анализа распределений переменных (например, чтобы выявить переменные с несимметричным или негауссовым распределением, в том числе и бимодальные), просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения, или анализ многовходовых таблиц частот (например, "послойный" последовательный просмотр комбинаций уровней управляющих переменных) [17].

- Анализ распределений переменных. Важным способом описания переменной является форма ее распределения, которая показывает, с какой частотой значения переменной попадают в определенные интервалы. Эти интервалы, называемые интервалами группировки, выбираются исследователем. Обычно исследователя интересует, насколько точно распределение можно аппроксимировать нормальным. Простые описательные статистики дают об этом некоторую информацию. Например, если асимметрия (показывающая отклонение распределения от симметричного) существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично. Итак, у симметричного распределения асимметрия равна 0. Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. Далее, если эксцесс (показывающий "остроту пика" распределения) существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0 [17].

Более точную информацию о форме распределения можно получить с помощью критериев нормальности (например, критерия Колмогорова-Смирнова или W критерия Шапиро-Уилка). Однако ни один из этих критериев не может заменить визуальную проверку с помощью гистограммы -графика, показывающего частоту попаданий значений переменной в отдельные интервалы.

Гистограмма позволяет "на глаз" оценить нормальность эмпирического распределения. На гистограмму также накладывается кривая нормального распределения. Гистограмма позволяет качественно оценить различные характеристики распределения. Например, на ней можно увидеть, что распределение бимодально (имеет 2 пика). Это может быть вызвано, например, тем, что выборка неоднородна, возможно, извлечена из двух разных популяций, каждая из которых более или менее нормальна. В таких ситуациях, чтобы понять природу наблюдаемых переменных, можно попытаться найти качественный способ разделения выборки на две части.

- Разведочный анализ корреляционных матриц. Корреляция представляет собой меру зависимости переменных. Наиболее известна корреляция Пирсона. При вычислении корреляции Пирсона предполагается, что переменные измерены, как минимум, в интервальной шкале. Некоторые другие коэффициенты корреляции могут быть вычислены для менее информативных шкал. Коэффициенты корреляции изменяются в пределах от -1.00 до +1.00. Значение -1.00 означает, что переменные имеют строгую отрицательную корреляцию. Значение +1.00 означает, что переменные имеют строгую положительную корреляцию. Значение 0.00 означает отсутствие корреляции.

Отрицательная корреляция. Две переменные могут быть связаны таким образом, что при возрастании значений одной из них значения другой убывают. Это и показывает отрицательный коэффициент корреляции. Про такие переменные говорят, что они отрицательно коррелированы.

Положительная корреляция. Связь между двумя переменными может быть следующей - когда значения одной переменной возрастают, значения другой переменной также возрастают. Это и показывает положительный коэффициент корреляции. Про такие переменные говорят, что они положительно коррелированны.

Наиболее часто используемый коэффициент корреляции Пирсона (r) называется также линейной корреляцией, т.к. измеряет степень линейных связей между переменными.

Простая линейная корреляция (Пирсона r). Корреляция Пирсона (далее называемая просто корреляцией) предполагает, что две рассматриваемые переменные измерены в интервальной шкале. Она определяет степень, с которой значения двух переменных пропорциональны друг другу. Важно, что значение коэффициента корреляции не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же, независимо от того, проводились измерения в дюймах и фунтах или в сантиметрах и килограммах. Пропорциональность означает просто линейную зависимость. Корреляция высокая, если на графике зависимость выражена прямой линией (с положительным или отрицательным углом наклона).

Интервальная шкала. Эта шкала измерений позволяет не только упорядочить наблюдения, но и количественно выразить расстояния между ними (на шкале не обязательно присутствует абсолютная нулевая отметка).

Коэффициент корреляции Пирсона (r) представляет собой меру линейной зависимости двух переменных. Если возвести его в квадрат, то полученное значение коэффициента детерминации представляет долю вариации, общую для двух переменных (иными словами, "степень" зависимости или связанности двух переменных). Чтобы оценить зависимость между переменными, нужно знать как величину корреляции, так и ее значимость.

Уровень значимости, вычисленный для каждой корреляции, представляет собой главный источник информации о надежности корреляции. Значимость определенного коэффициента корреляции зависит от объема выборок. Критерий значимости основывается на предположении, что распределение остатков (т.е. отклонений наблюдений от регрессионной прямой) для зависимой переменной у является нормальным (с постоянной дисперсией для всех значений независимой переменной х). Исследования методом Монте-Карло показали, что нарушение этих условий не является критичным, если размеры выборки не слишком малы, а отклонения от нормальности не очень большие.

Во многих исследованиях первый шаг анализа состоит в вычислении корреляционной матрицы всех переменных и проверке значимых (ожидаемых и неожиданных) корреляций. После того как это сделано, следует понять общую природу обнаруженной статистической значимости. Иными словами, понять, почему одни коэффициенты корреляции значимы, а другие нет. Однако следует иметь в виду, если используется несколько критериев, значимые результаты могут появляться очень часто, и это будет происходить чисто случайным образом. Например, коэффициент, значимый на уровне 0.05, будет встречаться чисто случайно один раз в каждом из 20 подвергнутых исследованию коэффициентов. Нет способа автоматически выделить "истинную" корреляцию. Поэтому следует подходить с осторожностью ко всем не предсказанным или заранее не запланированным результатам и попытаться соотнести их с другими (надежными) результатами [17,20]. Самый убедительный способ проверки состоит в проведении повторного экспериментального исследования. Такое положение является общим для всех методов анализа, использующих множественные сравнения и статистическую значимость.

- Анализ многовходовых таблиц частот. Таблицы частот или одновходовые таблицы представляют собой простейший метод анализа категориальных (номинальных) переменных. Часто их используют как одну из процедур разведочного анализа, чтобы просмотреть, каким образом различные группы данных распределены в выборке.

Кросстабуляция - это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить связи между табулированными переменными. Обычно табулируются категориальные (номинальные) переменные или переменные с относительно небольшим числом значений [16]. Если вы хотите табулировать непрерывную переменную (например, доход), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, доход: низкий, средний, высокий).

Номинальные переменные. Переменные, которые могут принимать конечное множество значений, например, Пол = {Муж, Жен}.

В целях исследования отдельные строки и столбцы таблицы удобно представлять в виде графиков. Полезно также отобразить целую таблицу на отдельном графике. Таблицы с двумя входами можно изобразить на 3-мерной гистограмме. Другой способ визуализации таблиц сопряженности -построение категоризованной гистограммы, в которой каждая переменная представлена индивидуальными гистограммами на каждом уровне другой переменной. Преимущество ЗМ гистограммы в том, что она позволяет представить на одном графике таблицу целиком. Достоинство категоризованного графика в том, что он дает возможность точно оценить отдельные частоты в каждой ячейке.

Многовходовые таблицы с категориальными переменными. Когда кросстабулируются только две переменные, результирующая таблица называется двухвходовой. Конечно, общую идею кросстабулирования можно обобщить на большее число переменных.

Теоретически любое число переменных может быть кросстабулировано в одной многовходовой таблице. Однако на практике возникают сложности с проверкой и "пониманием" таких таблиц, даже если они содержат более четырех переменных. Рекомендуется анализировать зависимости между факторами в таких таблицах с помощью более продвинутых методов, таких как Логлинейный анализ или Анализ соответствий.

Графическое представление многовходовых таблиц. Можно построить "дважды категоризованные" гистограммы, ЗМ гистограммы или линейные графики, позволяющие свести частоты для более чем 3-х факторов в один график. Наборы (каскады) графиков используются для интерпретации сложных многовходовых таблиц.

Практически каждый исследовательский проект начинается с построения таблиц частот. Например, в социологических опросах таблицы частот могут отображать число мужчин и женщин, выразивших симпатию тому или иному политическому деятелю, число респондентов из определенной этнических групп, голосовавших за того или иного кандидата и т.д.

Ответы, измеренные в определенной шкале (например, в шкале: интерес к футболу) также можно свести в таблицу частот. В медицинских исследованиях табулируют пациентов с определенными симптомами. В маркетинговых исследованиях - покупательский спрос на товары разного типа у разных категорий населения. В промышленности - частоту выхода из строя элементов устройства, приведших к авариям или отказам всего устройства при испытаниях на прочность (например, для определения того, какие детали телевизора действительно надежны после эксплуатации в аварийном режиме при большой температуре, а какие нет). Обычно, если в данных имеются группирующие переменные, то для них всегда вычисляются таблицы частот.

2.3.2 Методы многомерного разведочного анализа. Методы многомерного разведочного анализа специально разработаны для поиска закономерностей в многомерных данных (или последовательностях одномерных данных). К ним относятся: кластерный анализ, факторный анализ, анализ дискриминантных функций, многомерное шкалирование, логлинейный анализ, канонические корреляции, пошаговая линейная и нелинейная регрессия, анализ соответствий, анализ временных рядов и деревья классификации.

- Кластерный анализ. Термин кластерный анализ (впервые ввел Тrуоn, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними.

Кластерный анализ является не столько обычным статистическим методом, сколько набором различных алгоритмов распределения объектов по кластерам. Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны р-уровни (как, например, в методе К средних).

Техника кластеризации применяется в самых разнообразных областях. В области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, когда необходимо классифицировать массу информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Объединение (древовидная кластеризация). Назначение этого алгоритма состоит в объединении объектов (например, животных) в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.

Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим, что постепенно вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Кластеризация, как по наблюдениям, так и по переменным может привести к достаточно интересным результатам. Например, представьте, что медицинский исследователь собирает данные о различных характеристиках (переменные) состояний пациентов (наблюдений), страдающих сердечными заболеваниями. Исследователь может захотеть кластеризовать наблюдения (пациентов) для определения кластеров пациентов со сходными симптомами. В то же самое время исследователь может захотеть кластеризовать переменные для определения кластеров переменных, которые связаны со сходным физическим состоянием. Можно проводить кластеризацию в обоих направлениях. Модуль Кластерный анализ содержит эффективную двухвходовую процедуру объединения, позволяющую сделать именно это. Однако двухвходовое объединение используется (относительно редко) в обстоятельствах, когда ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров. Так, возвращаясь к предыдущему примеру, можно предположить, что медицинскому исследователю требуется выделить кластеры пациентов, сходных по отношению к определенным кластерам характеристик физического состояния. Трудность с интерпретацией полученных результатов возникает вследствие того, что сходства между различными кластерами могут происходить из (или быть причиной) некоторого различия подмножеств переменных. Поэтому получающиеся кластеры являются по своей природе неоднородными. В сравнении с другими описанными методами кластерного, двухвходовое объединение является, наименее часто используемым методом. Однако некоторые исследователи полагают, что он предлагает мощное средство разведочного анализа.

Метод К средних. Этот метод кластеризации существенно отличается от таких методов, как Объединение (древовидная кластеризация) и Двухвходовое объединение. Предположим, уже существуют гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе, образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода К средних. В общем случае метод К средних строит ровно К различных кластеров, расположенных на возможно больших расстояниях друг от друга.

В примере с физическим состоянием медицинский исследователь может иметь "подозрение" из своего клинического опыта, что его пациенты в основном попадают в три различные категории. Далее он может захотеть узнать, может ли его интуиция быть подтверждена численно, то есть, в самом ли деле кластерный анализ К средних даст три кластера пациентов, как ожидалось? Если это так, то средние различных мер физических параметров для каждого кластера будут давать количественный способ представления гипотез исследователя (например, пациенты в кластере 1 имеют высокий параметр 1, меньший параметр 2 и т.д.).

С вычислительной точки зрения можно рассматривать этот метод, как дисперсионный анализ "наоборот". Программа начинает с К случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) -максимизировать изменчивость между кластерами. Данный способ аналогичен методу "дисперсионный анализ (ANOVA) наоборот" в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом К средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA) [15-17].

Интерпретация результатов: когда результаты кластерного анализа методом К средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале нужно получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.

- Факторный анализ. Главными целями факторного анализа являются:
сокращение числа переменных (редукция данных) и определение
структуры взаимосвязей между переменными
, т.е. классификация
переменных. Поэтому факторный анализ используется или как метод
сокращения данных или как метод классификации.

Подтверждающий факторный анализ. Моделирование структурными уравнениями (SEPATH) позволяет проверять частные гипотезы о факторной структуре для множества переменных (подтверждающий факторный анализ) в одной или нескольких выборках (например, можно сравнить факторные структуры разных выборок (опытов)).

Анализ соответствий. Анализ соответствий - это описательные/разведочные методы, предназначенные для анализа двух- и многовходовых таблиц, содержащих некоторые взаимосвязи между строками и столбцами. Результаты этого анализа дают информацию, похожую на ту, которую предоставляет факторный анализ, и позволяют изучить структуру категориальных переменных, входящих в таблицу.

- Факторный анализ как метод редукции данных. Предположим, нужно измерить удовлетворенность людей жизнью, для чего составляется
вопросник с различными пунктами; среди других вопросов задаются
следующие: удовлетворены ли люди своим хобби (пункт 1) и как интенсивно
они им занимаются (пункт 2). Результаты преобразуются так, что средние
ответы (например, для удовлетворенности) соответствуют значению 100, в то
время как ниже и выше средних ответов расположены меньшие и большие
значения, соответственно. Две переменные (ответы на два разных пункта)
коррелированны между собой. Из высокой коррелированности двух этих
переменных можно сделать вывод об избыточности двух пунктов опросника.

Объединение двух переменных в один фактор. Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных.

Итак, фактически, сокращается число переменных и заменяются две одной. Новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.

- Факторный анализ как метод классификации. Возвратимся к интерпретации результатов факторного анализа. Термин факторный анализ теперь будет включать как анализ главных компонент, так и анализ главных факторов. Предполагается, что исследователь находится в той точке анализа, когда в целом знает, сколько факторов следует выделить. Чтобы узнать значимость факторов, то есть, можно ли интерпретировать их разумным образом и как это сделать, производятся действия в обратном порядке, то есть, начинают с некоторой осмысленной структуры, а затем смотрят, как она отражается на результатах.

- Анализ дискриминантных функций. Дискриминантный анализ
используется для принятия решения о том, какие переменные различают
(дискриминируют) две или более возникающие совокупности (группы).
Например, некий исследователь в области образования может захотеть
исследовать, к



Поделиться:


Последнее изменение этой страницы: 2017-02-10; просмотров: 348; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.224.214.215 (0.061 с.)