В.В. Марков, Ю. А. Кравченко 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

В.В. Марков, Ю. А. Кравченко



В.В. Марков, Ю. А. Кравченко

Компьютерные технологии в науке и образовании

УЧЕБНОЕ ПОСОБИЕ

ЧАСТЬ1

 

ТАГАНРОГ 2006

УДК 621.3

 

 

Марков В.В., Кравченко Ю.А. Компьютерные технологии в науке и образовании: Учебное пособие – Таганрог: Изд-во ТРТУ, 2006. - 133 с.

 

 

В работе рассматривается перспективные направления применения современных информационных технологий в научных исследованиях и организации процессов обучения. Предназначено для студентов очной формы обучения специальностей: 230104 (2203) «Системы автоматизированного проектирования», 050202 (0301) Информатика и магистрантов, проходящих обучение по направлению «Информатика и вычислительная техника».

Ил. 13. Библиогр.: 53.

 

 

Рецензенты:

Я.Е. Ромм, доктор технических наук, профессор, зав. кафедрой информатики ТГПИ, г. Таганрог

В.И. Финаев, доктор технических наук, профессор, зав. кафедрой САУ ТРТУ, г. Таганрог

© Таганрогский государственный радиотехнический университет, 2006

ОГЛАВЛЕНИЕ

 

 

АББРЕВИАТУРА……………………………………………………………5

ПРЕДИСЛОВИЕ……………………………………………………………..7

ВВЕДЕНИЕ………………………..…………………………………………8

 

ГЛАВА 1. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В НАУЧНЫХ ИССЛЕДОВАНИЯХ И РАЗРАБОТКАХ…………………………………..…..10

1.1. Понятие информационной технологии как научной дисциплины……………………………………………………..10

1.2. Структура предметной области информационной технологии …………………………………………………...…12

1.3. Место информационной технологии в современной системе научного знания…………………………………...…..12

1.4. Новая информационная технология …………………..…14

1.5. Основные научные направления развития информационных технологий…………………………………19

1.6. Методологический аппарат науки как информационная технология………………………………………………...…….22

 

ГЛАВА 2. КОМПЬЮТЕРНЫЕ МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА И ИНТЕРПРЕТАЦИИ ДАННЫХ ……………………………………………...23

2. 1. Технологии и методы анализа и интерпретации данных……23

2. 2. Технологии анализа и интерпретации данных....... ……25

2. 2. 1. Технологии оперативной аналитической обработки данных ОLАР и многомерные модели данных…………….……25

2.2.2. Технология глубинного анализа данных……………..29

2.2.3.Технология визуализации данных…………………….31

2. 3. Разведочный анализ данных (РАД)…………………………31

2.3.1. Основные методы разведочного статистического анализа……………………………………………………………..31

2.3.2. Методы многомерного разведочного анализа……….38

2.3.3. Нейронные сети…………………….………………….64

2.3.4. Графические методы РАД (визуализация данных)…..80

 

ГЛАВА 3. КОМПЬЮТЕРНЫЕ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ………………………………………………………………...……..85

3.1. Задачи компьютерных систем поддержки принятия решений ………………………………………………………...85

3.2. Влияние неопределенности и субъективности оценок на компьютерную поддержку принятия решения…………….…87

3.3. Трудности, возникающие при использовании компьютер­ных систем поддержки принятия решений и возможности их преодоления ………………………………………………….…90

3.4. Структура системы поддержки принятия решений …….92

3.5. Компьютерные системы поддержки принятия решений и экспертные системы на предприятиях ……………………..…92

3.6. Компьютерная поддержка принятия решений в САПР..109

3.7. Групповая обработка данных …………………………...118

 

 

ЗАКЛЮЧЕНИЕ…………………………………………………………....125

КОНТРОЛЬНЫЕ ВОПРОСЫ…………………………………………….127

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ………………………129

АББРЕВИАТУРА

 

САПР – Системы автоматизированного проектирования

ОТИ – общая теория информации

ИТ – информационная технология

ПО – программное обеспечение

ИС – информационная система

НИТ – новые информационные технологии

АСНИ – автоматизированные системы научных исследований

АСУ – автоматизированные системы управления

РАД – разведочный анализ данных

OLAP – On-Line Analytical Processing

ROLAP – Relational OLAP

MOLAP – Multi-Dimentional OLAP

HOLAP – Hybrid OLAP

МНШ – многомерное шкалирование

ФА – факторный анализ

БД – база данных

МАС – многомерный анализ соответствий

АКФ – автокорреляционная функция

ИНС – искусственные нейронные сети

НПС – нейропроцессорные сети

НС – нейронные сети

ЦНП – цифровые нейропроцессоры

ЦНА – цифровые нейропроцессорные ансамбли

ГА – генетический алгоритм

ЦП – центральный процессор

СППР – системы поддержки принятия решений

ЛПР – лицо, принимающее решение

АРМ – автоматизированное рабочее место

CBR – case-based Reasoning

СИМ – сетевая имитационная модель

СУБД – система управления базой данных

СПП – система поддержки переговоров

ПРЕДИСЛОВИЕ

 

Настоящее учебное пособие ориентировано на студентов специальностей: 230104 (2203) «Системы автоматизированного проектирования», 050202 (0301) Информатика и магистрантов, проходящих обучение по направлению «Информатика и вычислительная техника», изучающих курс «Компьютерные технологии в науке и образовании». Пособие может быть также использовано при проведении занятий и самостоятельных работ студентами и преподавателями других специальностей, а также при самообучении.

Данное учебное пособие основано на материалах [1-53], а также на сведениях, находящихся в сети Интернет. Для лучшего усвоения студентами изложение материала сопровождается рассмотрением примеров. Кроме того, предлагаются основные направления для индивидуальных исследований по рассматриваемым темам.

Настоящее учебное пособие носит экспериментальный характер, все возможные замечания, предложения и дополнения будут приняты и учтены при доработке и последующих редакциях данного пособия.

Авторы

 

ВВЕДЕНИЕ

 

Результаты научных исследований показывают, что информация и научные знания в последние годы играют все большую роль в жизни общества. Об информации сегодня говорят как о стратегическом ресурсе общества, определяющем уровень развития государства, его экономический потенциал и положение в мировом сообществе.

Во многих развитых странах мира сегодня активно идет процесс перехода от индустриального к информационному обществу. В этих условиях средства создания и использования информационных ресурсов в любой развитой стране должны быть на уровне современных требований.Такимисредствами являются:

• научная методология, используемая в информационной сфере общества;

• программно-аппаратные средства информатизации;

• современные информационные технологии.

Указанные средства в последние годы широко используются практически во всех сферах социальной практики.Что же касается информационных технологий, то, повышая эффективность использования информационных ресурсов, они выступают не только как важнейший инструмент деятельности в информационной сфере общества, но также и как средство развития научно-технического прогресса. Именно поэтому проблема развития и совершенствования информационных технологий сегодня занимает одно из приоритетных мест в стратегии научно-технического и социально-экономического развития передовых стран мира, является важным аспектомихнациональной политики.

В то же время, если говорить о фундаментальных научных аспектах проблемы развития информационных технологий, то положение здесь оставляет желать лучшего. До сих пор информационные технологии, как научное направление исследований, так и не сформировалось. Нет объективных критериев эффективности различных видов информационных технологий и методов их количественной сопоставительной оценки. Не разработаны на необходимом уровне методы анализа и синтеза высокоэффективных информационных технологий. Нет даже общепринятой классификации информационных технологий, хотя определенные попытки во всех этих направлениях уже предпринимаются [3,5-8].

Так, например, в работе в качестве универсального количественного критерия эффективности информационных технологий предложена экономия социальноговремени, которая достигается в результате их социального использования. Ведь известно, что любая экономия может быть сведена к экономии времени. Однако этот подход применительно к информационным технологиям еще не получил своего необходимого развития, хотя и представляется весьма перспективным.

Поэтому сегодня следует констатировать, что имеется существенное отставание теоретических разработок в области информационных технологий от потребностей социальной практики, которые быстро возрастают. Ведь мир стоит на пороге новой цивилизации, которую не без оснований называют постиндустриальным информационным обществом [13]. Информация и научные знания получат в этом обществе приоритетное развитие, что позволит существенным образом сократить затраты других видов ресурсов и решить на этой основе многие современные глобальные проблемы развития цивилизации.

Наиболее важной отличительной чертой этой цивилизации станет повсеместное и высокоэффективное использование информации и ее наиболее высокоорганизованной формы — научных знаний. Информация и научные знания будут не только стратегическими ресурсами и факторами развития общества, но также и наиболее распространенными в этом обществе предметами и результатами труда.

С использованием информации ученые связывают свои надежды на решение глобальных энергетических и экологических проблем развитии общества, а также проблем дальнейшего развития науки, образования и культуры, достижения нового уровня интеллектуального и духовного развития человека и общества, его переход на путь безопасного и устойчивого развития [10].

Фундаментальной основой нового технологического уклада общества, вероятнее всего, станут высокоэффективные информационные технологии, для реализации которых будут использоваться разнообразные средства информатики, построенные на новых физических принципах. В ближайшие годы следует ожидать появления целого ряда принципиально новых научных и практических результатов. Таким образом, существующие в настоящее время прогнозы о формировании и становлении постиндустриальной информационной цивилизации являются вполне реалистичными и подтверждаются реальным ходом исторического процесса.

 

 

Семантические концентраторы

Естественно, что формирова­ние такого рода проблемно-ориен­тированных сегментов баз данных и знаний является делом весьма трудоемким и потребует привлече­ния для этих целей высококвали­фицированных специалистов. Од­нако эффективность использова­ния таких сегментов в научных це­лях, а также в системе образования может оказаться весьма значитель­ной. Ведь сама "архитектура" фор­мируемого таким образом массива информации содействует сосредо­точению внимания пользователя на все более "плотных" участках информации, обеспечивая концентрацию его соз­нания на тех семантических на­правлениях, которые должны бы­стрее привести к решению той или иной задачи.

В то же время "коническая структура" семантических инфор­мационных сегментов позволяет исследователю периодически воз­вращаться к исходным позициям и обозревать те или иные инфор­мационные "срезы" данной про­блемы целиком на достаточно представительном поле данных и знаний.

Информационные технологии данного вида предлагается на­зывать "семантически концентри­рованными". Можно предполо­жить, что в будущем в процессе развития методов искусственного интеллекта и их приложений в области создания и использова­ния информационных систем бу­дут созданы также и специальные автоматизированные "семантиче­ские концентраторы" []. Их можно представить в виде программно-аппаратных комплексов, специ­ально ориентированных на созда­ние семантически концентриро­ванных сегментов по заданным параметрам проблемной области. Исходной информацией для ра­боты таких семантических кон­центраторов, вероятнее всего, бу­дут служить распределенные базы данных в глобальных информа­ционных сетях нашей планеты, которые активно формируются уже сегодня.

 

Разведочный анализ данных (РАД)

2.3.1. Основные методы разведочного статистического анализа. Разведочный анализ данных (РАД) применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы. Вычислительные методы разведочного анализа данных включают основные статистические методы, а также более сложные, специально разработанные методы многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных. К основным методам разведочного статистического анализа относится процедура анализа распределений переменных (например, чтобы выявить переменные с несимметричным или негауссовым распределением, в том числе и бимодальные), просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения, или анализ многовходовых таблиц частот (например, "послойный" последовательный просмотр комбинаций уровней управляющих переменных) [17].

- Анализ распределений переменных. Важным способом описания переменной является форма ее распределения, которая показывает, с какой частотой значения переменной попадают в определенные интервалы. Эти интервалы, называемые интервалами группировки, выбираются исследователем. Обычно исследователя интересует, насколько точно распределение можно аппроксимировать нормальным. Простые описательные статистики дают об этом некоторую информацию. Например, если асимметрия (показывающая отклонение распределения от симметричного) существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично. Итак, у симметричного распределения асимметрия равна 0. Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. Далее, если эксцесс (показывающий "остроту пика" распределения) существенно отличен от 0, то распределение имеет или более закругленный пик, чем нормальное, или, напротив, имеет более острый пик (возможно, имеется несколько пиков). Обычно, если эксцесс положителен, то пик заострен, если отрицательный, то пик закруглен. Эксцесс нормального распределения равен 0 [17].

Более точную информацию о форме распределения можно получить с помощью критериев нормальности (например, критерия Колмогорова-Смирнова или W критерия Шапиро-Уилка). Однако ни один из этих критериев не может заменить визуальную проверку с помощью гистограммы -графика, показывающего частоту попаданий значений переменной в отдельные интервалы.

Гистограмма позволяет "на глаз" оценить нормальность эмпирического распределения. На гистограмму также накладывается кривая нормального распределения. Гистограмма позволяет качественно оценить различные характеристики распределения. Например, на ней можно увидеть, что распределение бимодально (имеет 2 пика). Это может быть вызвано, например, тем, что выборка неоднородна, возможно, извлечена из двух разных популяций, каждая из которых более или менее нормальна. В таких ситуациях, чтобы понять природу наблюдаемых переменных, можно попытаться найти качественный способ разделения выборки на две части.

- Разведочный анализ корреляционных матриц. Корреляция представляет собой меру зависимости переменных. Наиболее известна корреляция Пирсона. При вычислении корреляции Пирсона предполагается, что переменные измерены, как минимум, в интервальной шкале. Некоторые другие коэффициенты корреляции могут быть вычислены для менее информативных шкал. Коэффициенты корреляции изменяются в пределах от -1.00 до +1.00. Значение -1.00 означает, что переменные имеют строгую отрицательную корреляцию. Значение +1.00 означает, что переменные имеют строгую положительную корреляцию. Значение 0.00 означает отсутствие корреляции.

Отрицательная корреляция. Две переменные могут быть связаны таким образом, что при возрастании значений одной из них значения другой убывают. Это и показывает отрицательный коэффициент корреляции. Про такие переменные говорят, что они отрицательно коррелированы.

Положительная корреляция. Связь между двумя переменными может быть следующей - когда значения одной переменной возрастают, значения другой переменной также возрастают. Это и показывает положительный коэффициент корреляции. Про такие переменные говорят, что они положительно коррелированны.

Наиболее часто используемый коэффициент корреляции Пирсона (r) называется также линейной корреляцией, т.к. измеряет степень линейных связей между переменными.

Простая линейная корреляция (Пирсона r). Корреляция Пирсона (далее называемая просто корреляцией) предполагает, что две рассматриваемые переменные измерены в интервальной шкале. Она определяет степень, с которой значения двух переменных пропорциональны друг другу. Важно, что значение коэффициента корреляции не зависит от масштаба измерения. Например, корреляция между ростом и весом будет одной и той же, независимо от того, проводились измерения в дюймах и фунтах или в сантиметрах и килограммах. Пропорциональность означает просто линейную зависимость. Корреляция высокая, если на графике зависимость выражена прямой линией (с положительным или отрицательным углом наклона).

Интервальная шкала. Эта шкала измерений позволяет не только упорядочить наблюдения, но и количественно выразить расстояния между ними (на шкале не обязательно присутствует абсолютная нулевая отметка).

Коэффициент корреляции Пирсона (r) представляет собой меру линейной зависимости двух переменных. Если возвести его в квадрат, то полученное значение коэффициента детерминации представляет долю вариации, общую для двух переменных (иными словами, "степень" зависимости или связанности двух переменных). Чтобы оценить зависимость между переменными, нужно знать как величину корреляции, так и ее значимость.

Уровень значимости, вычисленный для каждой корреляции, представляет собой главный источник информации о надежности корреляции. Значимость определенного коэффициента корреляции зависит от объема выборок. Критерий значимости основывается на предположении, что распределение остатков (т.е. отклонений наблюдений от регрессионной прямой) для зависимой переменной у является нормальным (с постоянной дисперсией для всех значений независимой переменной х). Исследования методом Монте-Карло показали, что нарушение этих условий не является критичным, если размеры выборки не слишком малы, а отклонения от нормальности не очень большие.

Во многих исследованиях первый шаг анализа состоит в вычислении корреляционной матрицы всех переменных и проверке значимых (ожидаемых и неожиданных) корреляций. После того как это сделано, следует понять общую природу обнаруженной статистической значимости. Иными словами, понять, почему одни коэффициенты корреляции значимы, а другие нет. Однако следует иметь в виду, если используется несколько критериев, значимые результаты могут появляться очень часто, и это будет происходить чисто случайным образом. Например, коэффициент, значимый на уровне 0.05, будет встречаться чисто случайно один раз в каждом из 20 подвергнутых исследованию коэффициентов. Нет способа автоматически выделить "истинную" корреляцию. Поэтому следует подходить с осторожностью ко всем не предсказанным или заранее не запланированным результатам и попытаться соотнести их с другими (надежными) результатами [17,20]. Самый убедительный способ проверки состоит в проведении повторного экспериментального исследования. Такое положение является общим для всех методов анализа, использующих множественные сравнения и статистическую значимость.

- Анализ многовходовых таблиц частот. Таблицы частот или одновходовые таблицы представляют собой простейший метод анализа категориальных (номинальных) переменных. Часто их используют как одну из процедур разведочного анализа, чтобы просмотреть, каким образом различные группы данных распределены в выборке.

Кросстабуляция - это процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка (клетка) в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Таким образом, кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно определить связи между табулированными переменными. Обычно табулируются категориальные (номинальные) переменные или переменные с относительно небольшим числом значений [16]. Если вы хотите табулировать непрерывную переменную (например, доход), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, доход: низкий, средний, высокий).

Номинальные переменные. Переменные, которые могут принимать конечное множество значений, например, Пол = {Муж, Жен}.

В целях исследования отдельные строки и столбцы таблицы удобно представлять в виде графиков. Полезно также отобразить целую таблицу на отдельном графике. Таблицы с двумя входами можно изобразить на 3-мерной гистограмме. Другой способ визуализации таблиц сопряженности -построение категоризованной гистограммы, в которой каждая переменная представлена индивидуальными гистограммами на каждом уровне другой переменной. Преимущество ЗМ гистограммы в том, что она позволяет представить на одном графике таблицу целиком. Достоинство категоризованного графика в том, что он дает возможность точно оценить отдельные частоты в каждой ячейке.

Многовходовые таблицы с категориальными переменными. Когда кросстабулируются только две переменные, результирующая таблица называется двухвходовой. Конечно, общую идею кросстабулирования можно обобщить на большее число переменных.

Теоретически любое число переменных может быть кросстабулировано в одной многовходовой таблице. Однако на практике возникают сложности с проверкой и "пониманием" таких таблиц, даже если они содержат более четырех переменных. Рекомендуется анализировать зависимости между факторами в таких таблицах с помощью более продвинутых методов, таких как Логлинейный анализ или Анализ соответствий.

Графическое представление многовходовых таблиц. Можно построить "дважды категоризованные" гистограммы, ЗМ гистограммы или линейные графики, позволяющие свести частоты для более чем 3-х факторов в один график. Наборы (каскады) графиков используются для интерпретации сложных многовходовых таблиц.

Практически каждый исследовательский проект начинается с построения таблиц частот. Например, в социологических опросах таблицы частот могут отображать число мужчин и женщин, выразивших симпатию тому или иному политическому деятелю, число респондентов из определенной этнических групп, голосовавших за того или иного кандидата и т.д.

Ответы, измеренные в определенной шкале (например, в шкале: интерес к футболу) также можно свести в таблицу частот. В медицинских исследованиях табулируют пациентов с определенными симптомами. В маркетинговых исследованиях - покупательский спрос на товары разного типа у разных категорий населения. В промышленности - частоту выхода из строя элементов устройства, приведших к авариям или отказам всего устройства при испытаниях на прочность (например, для определения того, какие детали телевизора действительно надежны после эксплуатации в аварийном режиме при большой температуре, а какие нет). Обычно, если в данных имеются группирующие переменные, то для них всегда вычисляются таблицы частот.

2.3.2 Методы многомерного разведочного анализа. Методы многомерного разведочного анализа специально разработаны для поиска закономерностей в многомерных данных (или последовательностях одномерных данных). К ним относятся: кластерный анализ, факторный анализ, анализ дискриминантных функций, многомерное шкалирование, логлинейный анализ, канонические корреляции, пошаговая линейная и нелинейная регрессия, анализ соответствий, анализ временных рядов и деревья классификации.

- Кластерный анализ. Термин кластерный анализ (впервые ввел Тrуоn, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними.

Кластерный анализ является не столько обычным статистическим методом, сколько набором различных алгоритмов распределения объектов по кластерам. Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение". Поэтому проверка статистической значимости в действительности здесь неприменима, даже в случаях, когда известны р-уровни (как, например, в методе К средних).

Техника кластеризации применяется в самых разнообразных областях. В области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, когда необходимо классифицировать массу информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Объединение (древовидная кластеризация). Назначение этого алгоритма состоит в объединении объектов (например, животных) в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.

Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим, что постепенно вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер.

В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Кластеризация, как по наблюдениям, так и по переменным может привести к достаточно интересным результатам. Например, представьте, что медицинский исследователь собирает данные о различных характеристиках (переменные) состояний пациентов (наблюдений), страдающих сердечными заболеваниями. Исследователь может захотеть кластеризовать наблюдения (пациентов) для определения кластеров пациентов со сходными симптомами. В то же самое время исследователь может захотеть кластеризовать переменные для определения кластеров переменных, которые связаны со сходным физическим состоянием. Можно проводить кластеризацию в обоих направлениях. Модуль Кластерный анализ содержит эффективную двухвходовую процедуру объединения, позволяющую сделать именно это. Однако двухвходовое объединение используется (относительно редко) в обстоятельствах, когда ожидается, что и наблюдения и переменные одновременно вносят вклад в обнаружение осмысленных кластеров. Так, возвращаясь к предыдущему примеру, можно предположить, что медицинскому исследователю требуется выделить кластеры пациентов, сходных по отношению к определенным кластерам характеристик физического состояния. Трудность с интерпретацией полученных результатов возникает вследствие того, что сходства между различными кластерами могут происходить из (или быть причиной) некоторого различия подмножеств переменных. Поэтому получающиеся кластеры являются по своей природе неоднородными. В сравнении с другими описанными методами кластерного, двухвходовое объединение является, наименее часто используемым методом. Однако некоторые исследователи полагают, что он предлагает мощное средство разведочного анализа.

Метод К средних. Этот метод кластеризации существенно отличается от таких методов, как Объединение (древовидная кластеризация) и Двухвходовое объединение. Предположим, уже существуют гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе, образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода К средних. В общем случае метод К средних строит ровно К различных кластеров, расположенных на возможно больших расстояниях друг от друга.

В примере с физическим состоянием медицинский исследователь может иметь "подозрение" из своего клинического опыта, что его пациенты в основном попадают в три различные категории. Далее он может захотеть узнать, может ли его интуиция быть подтверждена численно, то есть, в самом ли деле кластерный анализ К средних даст три кластера пациентов, как ожидалось? Если это так, то средние различных мер физических параметров для каждого кластера будут давать количественный способ представления гипотез исследователя (например, пациенты в кластере 1 имеют высокий параметр 1, меньший параметр 2 и т.д.).

С вычислительной точки зрения можно рассматривать этот метод, как дисперсионный анализ "наоборот". Программа начинает с К случайно выбранных кластеров, а затем изменяет принадлежность объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и (2) -максимизировать изменчивость между кластерами. Данный способ аналогичен методу "дисперсионный анализ (ANOVA) наоборот" в том смысле, что критерий значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с внутригрупповой при проверке гипотезы о том, что средние в группах отличаются друг от друга. В кластеризации методом К средних программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый результат при проведении дисперсионного анализа (ANOVA) [15-17].

Интерпретация результатов: когда результаты кластерного анализа методом К средних получены, можно рассчитать средние для каждого кластера по каждому измерению, чтобы оценить, насколько кластеры различаются друг от друга. В идеале нужно получить сильно различающиеся средние для большинства, если не для всех измерений, используемых в анализе. Значения F-статистики, полученные для каждого измерения, являются другим индикатором того, насколько хорошо соответствующее измерение дискриминирует кластеры.

- Факторный анализ. Главными целями факторного анализа являются:
сокращение числа переменных (редукция данных) и определение
структуры взаимосвязей между переменными
, т.е. классификация
переменных. Поэтому факторный анализ используется или как метод
сокращения данных или как метод классификации.

Подтверждающий факторный анализ. Моделирование структурными уравнениями (SEPATH) позволяет проверять частные гипотезы о факторной структуре для множества переменных (подтверждающий факторный анализ) в одной или нескольких выборках (например, можно сравнить факторные структуры разных выборок (опытов)).

Анализ соответствий. Анализ соответствий - это описательные/разведочные методы, предназначенные для анализа двух- и многовходовых таблиц, содержащих некоторые взаимосвязи между строками и столбцами. Результаты этого анализа дают информацию, похожую на ту, которую предоставляет факторный анализ, и позволяют изучить структуру категориальных переменных, входящих в таблицу.

- Факторный анализ как метод редукции данных. Предположим, нужно измерить удовлетворенность людей жизнью, для чего составляется
вопросник с различными пунктами; среди других вопросов задаются
следующие: удовлетворены ли люди своим хобби (пункт 1) и как интенсивно
они им занимаются (пункт 2). Результаты преобразуются так, что средние
ответы (например, для удовлетворенности) соответствуют значению 100, в то
время как ниже и выше средних ответов расположены меньшие и большие
значения, соответственно. Две переменные (ответы на два разных пункта)
коррелированны между собой. Из высокой коррелированности двух этих
переменных можно сделать вывод об избыточности двух пунктов опросника.

Объединение двух переменных в один фактор. Зависимость между переменными можно обнаружить с помощью диаграммы рассеяния. Полученная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая переменная будет включить в себя наиболее существенные черты обеих переменных.

Итак, фактически, сокращается число переменных и заменяются две одной. Новый фактор (переменная) в действительности является линейной комбинацией двух исходных переменных.

- Факторный анализ как метод классификации. Возвратимся к интерпретации результатов факторного анализа. Термин факторный анализ теперь будет включать как анализ главных компонент, так и анализ главных факторов. Предполагается, что исследователь находится в той точке анализа, когда в целом знает, сколько факторов следует выделить. Чтобы узнать значимость факторов, то есть, можно ли интерпретировать их разумным образом и как это сделать, производятся действия в обратном порядке, то есть, начинают с некоторой осмысленной структуры, а затем смотрят, как она отражается на результатах.



Поделиться:


Последнее изменение этой страницы: 2017-02-10; просмотров: 170; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.17.162.247 (0.047 с.)