Назначеные и классификация многомерных методов. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Назначеные и классификация многомерных методов.



Многомерность свойственна психологическим данным по природе, поскольку они чаще всего состоят по крайней мере из нескольких наблюдений за поведением одного человека или группы лиц. Многомерные методы и были созданы для совместной обработки таких данных, например для их исследований с целью обнаружения присущих им базисных характеристик либо, в случае дедуктивного подхода, для проверки или оценки априорных гипотез в отношении этих данных. В своих лучших образцах многомерный анализ представляет собой обобщение одномерного анализа, так что в тех случаях, когда данные состоят из значений только одной переменной, многомерный метод будет давать тот же результат, что и соответствующий одномерный метод. Так, есть статистики, базирующиеся на многомерном распределении случайных величин, которые можно свести к таким хорошо известным одномерным статистикам, как F-квадрат или t-критерий.

Многомерный анализ включает широкий спектр математических статистических методов и, вообще говоря, не существует общепринятого определения границ этой области. По общей договоренности, однако, такие специализированные предметы, как теория надежности или теория латентных черт, не считаются разделами многомерного анализа в силу их обособленных традиций в сфере психол. исслед. Методы анализа множественных дихотомических переменных часто рассматриваются и изучаются под своими названиями, например логлинейные модели. Также анализ повторных наблюдений, проведенных на одном человеке или на каком-то др. объекте - классе, обычно относится к особой области, называемых анализом временных рядов.

Мно­гомерные методы выполняют такие интеллектуальные функции, как:

1 струк­турирование эмпирической информации (факторный анализ, кластерный анализ, многомерное шкалирование),

2 классификация (кластерный анализ),

3 экстраполяция (множественный регрессионный ана­лиз),

4 распознавание образов (дискриминантный анализ) и т. д.

Список многомерных методов, которые будут упомянуты ниже, не претендует на полноту и состоит из методов, наиболее часто применяемых в психологии.

Эти методы можно классифицировать по трем основаниям: по назначению; по способу сопоставления данных – по сходству (различию) или пропорциональности (корреляции); по виду исходных эмпирических данных.

Классификация методов по назначению:

1. Методы предсказания (экстраполяции): множественный регрессионный анализ. Пред­сказывает значения метрической «зависимой» переменной по множеству из­вестных значений «независимых» переменных, измеренных у множества объектов (испытуемых).

2. Методы классификации: варианты кластерного анализа и дискриминан­тный анализ. Кластерный анализ («классификация без обучения») по изме­ренным характеристикам у множества объектов (испытуемых) либо по дан­ным об их попарном сходстве (различии) разбивает это множество объектов на группы, в каждой из которых содержатся объекты, более похожие друг на друга, чем на объекты из других групп. Дискриминантный анализ («класси­фикация с обучением», «распознавание образов») позволяет классифициро­вать объекты по известным классам, исходя из измеренных у них признаков, пользуясь решающими правилами, выработанными предварительно на вы­борке идентичных объектов, у которых были измерены те же признаки.

3. Структурные методы: факторный анализ и многомерное шкалирование. Факторный анализ направлен на выявление структуры переменных как совокупности факторов, каждый из которых – это скрытая, обобщающая при­чина взаимосвязи группы переменных. Многомерное шкалирование выяв­ляет шкалы как критерии, по которым поляризуются объекты при их субъек­тивном попарном сравнении.

Классификация методов по исходным предположениям о структуре данных:

1. Методы, исходящие из предположения о согласованной изменчивости признаков, измеренных у множества объектов. На корреляционной модели основаны факторный анализ, множественный регрессионный анализ, отчас­ти – дискриминантный анализ.

2. Методы, исходящие из предположения о том, что различия между объек­тами можно описать как расстояние между ними. На дистантной модели основаны кластерный анализ и многомерное шкалирование, частично – дис­криминантный анализ. Многомерное шкалирование и дискриминантный ана­лиз добавляют предположение о том, что исходные различия между объекта­ми можно представить как расстояния между ними в пространстве небольшого числа шкал (функций).

Классификация методов по виду исходных данных:

1. Методы, использующие в качестве исходных данных только признаки, измеренные у группы объектов. Это множественный регрессионный анализ. дискриминантный анализ и факторный анализ.

2. Методы, исходными данными для которых могут быть попарные сход­ства (различия) между объектами: это кластерный анализ и многомерное шкалирование. Многомерное шкалирование, кроме того, может анализиро­вать данные о попарном сходстве между совокупностью объектов, оценен­ном группой экспертов. При этом совместно анализируются как различия между объектами, так и индивидуальные различия между экспертами.Представленные классификации свидетельствуют о необходимости зна­ния возможностей и ограничений многомерных методов уже на стадии общего замысла исследования. Например, ориентируясь только на фактор­но-аналитическую модель, исследователь ограничен в выборе процедуры ди­агностики: она должна состоять в измерении признаков у множества объек­тов. При этом исследователь ограничен и в направлении поиска: он изучает либо взаимосвязи между признаками, либо межгрупповые различия по изме­ряемым признакам. Общая осведомленность о других многомерных методах позволит исследователю использовать более широкий круг психодиагности­ческих процедур, решать более широкий спектр не только научных, но и прак­тических задач.Применение многомерных методов требует соответствующего программного обеспечения. Широко известны и распространены универсальные статистические программы STATIST1CA, SPSS, STATGRAPH, STADIA, содержащие практически весь спектр статистических методов – от простейших до самых современных. Стоит обратить внимание на пакет STADIA, поскольку он – отечественный, а потому сравнительно дешевый.

21. Факторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.

Таким образом, можно выделить 2 цели Факторного анализа -определение взаимосвязей между переменными, (классификация переменных), т. е. «объективная R-классификация»;сокращение числа переменных необходимых для описания данных.

 

При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонентов внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа.

 

Факторный анализ может быть:

-разведочным — он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках;

-конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках.

 

Условия применения факторного анализа:

-Практическое выполнение факторного анализа начинается с проверки его условий. В обязательные условия факторного анализа входят:

-Все признаки должны быть количественными.

-Число наблюдений должно быть в два раза больше числа переменных.

-Выборка должна быть однородна.

-Исходные переменные должны быть распределены симметрично.

-Факторный анализ осуществляется по коррелирующим переменным.

Основные понятия факторного анализа

-Фактор — скрытая переменная

-Нагрузка — корреляция между исходной переменной и фактором

 

ДИСКРИМИНАНТНЫЙ АНАЛИЗ.

Дискримина́нтный ана́лиз — раздел вычислительной математики, представляющий набор методов статистического анализа для решения задач распознавания образов, который используется для принятия решения о том, какие переменные разделяют (т.е. «дискриминируют») возникающие наборы данных (так называемые «группы)

АНАЛИЗ ДИСКРИМИНАНТНЫЙ - группа методов многомерной статистики, предназначенных для 1) описания различий между классами и 2) классификации объектов, не входивших в первоначальную выборку обучающую (см.). Переменные (см.), используемые в А.Д., называются дискриминантными.

Для решения первой задачи строится пространство канонических дискриминантных функций, которые позволяют с максимальной эффективностью "разделить" классы. Для того чтобы разделить k классов, требуется не более (k - 1) канонических дискриминантных функций (например, для разделения двух классов достаточно одной функции, для разделения трех классов - двух функций и т.д.). Канонические дискриминантные функции можно рассматривать как аналог регрессии, построенной для целей классификации; дискриминантные (исходные) переменные являются в них переменными независимыми (см.). Для измерения абсолютного и относительного вклада дискриминантных переменных в разделение классов используются нестандартизированные и стандартизированные коэффициенты канонических функций.

В пространстве канонических дискриминантных функций можно также решать задачу классификации объектов, не принадлежавших к первоначальной выборке.

Для этого вычисляются расстояния от каждого "нового" объекта до геометрического "центра" каждого класса. Могут учитываться априорные вероятности принадлежности к классам, а также цена ошибок классификации.

Альтернативным подходом к классификации объектов является вычисление классифицирующих функций Фишера - по одной для каждого класса. Эти функции также можно рассматривать как аналог регрессионных уравнений с "независимыми" дискриминантными переменными. Объект относится к тому классу, для которого вычисленное значение классифицирующей функции является максимальным.

<="" p="">

>Первоначальная выборка, для каждого объекта из которой априорно известна классовая принадлежность и на основе которой строятся как классифицирующие, так и канонические дискриминантные функции, называется обучающей. По ней же оценивается эффективность решающих процедур. Для этого строится специальная классификационная матрица, которая показывает, к какому классу объект принадлежал априорно и в какой класс был классифицирован с помощью канонических дискриминантных или классифицирующих функций.

Метод А.Д. предъявляет к данным довольно строгие требования. В модели должно быть не менее двух классов, в каждом классе - не менее двух объектов из обучающей выборки, число дискриминантных переменных не должно превосходить объем обучающей выборки за вычетом двух объектов.

Дискриминантные переменные должны быть количественными и линейно независимыми (не должны коррелировать друг с другом). Выполнение этих требований проконтролировать достаточно легко. Для каждого класса требуется также приблизительное равенство матриц ковариации и многомерная нормальность распределения. Нарушение последнего требования может привести к ошибкам классификации в "пограничных" зонах, где вероятности принадлежности объекта к двум или нескольким классам приблизительно равны.

 

23.Многомерное шкалирование начало свое интенсивное развитие в 60-х годах в работах американских ученых Торгерсона (Torgerson) [9], Шепарда (Shepard) [8], Краскэла (Kruskal) [6]. Круг советских специалистов, занимающихся этой проблемой, достаточно узок, и основные их усилия направлены на разработку формализованных методов и вычислительных процедур, реализующих известные модели на ЭВМ. К настоящему времени методы многомерного шкалирования, к сожалению, не получили широкого применения в психометрических исследованиях в нашей стране. Видимо, причинами тому являются малочисленность группы специалистов и отсутствие хороших пакетов программ.

 

Задача многомерного шкалирования и пути ее решения:

 

Задача многомерного шкалирования в самом общем виде состоит в том, чтобы выявить структуру исследуемого множества стимулов. Под выявлением структуры понимается выделение набора основных факторов, по которым различаются стимулы, и описание каждого из стимулов в терминах этих факторов. Процедура построения структуры опирается на анализ объективной или субъективной информации о близостях между стимулами либо информации о предпочтениях на множестве стимулов. В случае анализа субъективных данных решаются одновременно две задачи. С одной стороны, выявляется объективная структура субъективных данных, с другой — определяются факторы, влияющие на процесс принятия решения.

 

Методы многомерного шкалирования могут использовать разные типы данных: данные о предпочтениях субъекта на множестве стимулов, данные о доминировании, о близостях между стимулами, данные о профилях и т. п. Как правило, с каждым типом данных принято соотносить определенную группу методов их обработки. Однако такое соотнесение не должно быть слишком жестким, поскольку часто не представляет особого труда перейти от одного типа данных к другому. Так, например, данные о профилях можно легко преобразовать в данные о близостях, для этого необходимо только воспользоваться подходящей метрикой. Данные о предпочтениях содержат в себе информацию о доминировании. С другой стороны, подсчитав корреляции между столбцами матрицы предпочтений, получим матрицу близостей между стимулами, а корреляции между строками той же матрицы дадут нам матрицу близостей между субъектами. В настоящей работе будет обсуждаться только анализ близостей.

 

В основе многомерного шкалирования лежит идея геометрического представления стимульного множества. Предположим, что нам задано координатное пространство, каждая ось которого соответствует одному из искомых факторов. Каждый стимул представляется точкой в этом пространстве, величины проекций этих точек на оси соответствуют значениям или степеням факторов, характеризующих данный стимул. Чем больше величина проекций, тем большим значением фактора обладает стимул. Мера сходства между двумя стимулами обратна расстоянию между соответствующими им точками. Чем ближе стимулы друг к другу, тем выше мера сходства между ними (и ниже мера различия), далеким точкам соответствует низкая мера сходства. Чтобы точным образом измерить близости, необходимо ввести метрику в искомом координатном пространстве; выбор этой метрики оказывает большое влияние на результат решения.

 

Обычно используется метрика Минковского:

где r — размерность пространства, djk — расстояние между точками, соответствующими j-му и k-му стимулам, Xjt, Xkt — величины проекций j-й и k-й точек на t-ю ось. Наиболее распространенными ее случаями являются: евклидова метрика (р=2):

и метрика «city-block» (р=1)

В некоторых случаях пользуются метрикой доминирования (р стремится к бесконечности):

Использование равномерных метрик предполагает, что при оценке сходств (различий) субъект в одинаковой мере учитывает все факторы. Когда же имеется основание утверждать, что факторы неравноценны для индивида и он учитывает их в разной степени, прибегают к взвешенной метрике, где каждому фактору приписывается определенный вес. Разные индивиды могут принимать во внимание разные факторы. Тогда каждый индивид характеризуется своим собственным набором весов Wti. Взвешенная метрика Минковского имеет вид:

Такая модель называется «индивидуальным шкалированием» или «моделью взвешенных факторов» [2, 12, 13]. Геометрически она интерпретируется следующим образом. Пусть в координатном пространстве имеется конфигурация точек, отражающая восприятие некоторого «среднего индивида» в группе. Для того чтобы получить пространство восприятия i-го субъекта, необходимо растянуть «среднюю конфигурацию» в направлении тех осей, для которых Wti > Wtср, и сжать в направлении осей, для которых Wti < Wtср. Например, если в пространстве двух факторов для «среднего индивида» все стимулы лежат на окружности, то для индивида, характеризующегося весами W1i=2, W2i=1, эти стимулы будут располагаться на эллипсе, вытянутом вдоль горизонтальной оси, а для индивида, характеризующегося весами W2i=2, W1i=1, на эллипсе, вытянутом вдоль вертикальной оси.

Схема многомерного шкалирования включает ряд последовательных этапов. На первом этапе необходимо получить экспериментальным способом субъективные оценки различий. Процедура опроса и вид оценок должны выбираться исследователем в зависимости от конкретной ситуации. В результате такого опроса должна быть сконструирована субъективная матрица попарных различий между стимулами, которая будет служить входной информацией для следующего этапа.

На втором этапе решается задача построения координатного пространства и размещения в нем точек-стимулов таким образом, чтобы расстояния между ними, определяемые по введенной метрике, наилучшим образом соответствовали исходным различиям между стимулами. Для решения этой формальной задачи не требуется никаких сведений о самих стимулах, достаточно располагать только матрицей попарных различий между ними. Для построения искомого координатного пространства используется достаточно разработанный аппарат линейной или нелинейной оптимизации. Вводится критерий качества отображения, называемый «стрессом» и измеряющий степень расхождення между исходными различиями Djk и результирующими расстояниями djk. Ищется такая конфигурация точек, которая давала бы минимальное значение этому «стрессу». Значения координат этих точек и являются решением задачи.

Используя эти координаты, мы строим геометрическое представление стимулов в пространстве невысокого числа измерений. Оно должно быть в достаточной степени адекватно исходным данным. Стимулы, которым в исходной матрице соответствуют большие меры различий, должны находиться далеко друг от друга, а стимулы, которым соответствуют малые меры различий, — близко. Формальным критерием адекватности может служить коэффициент корреляции, он должен быть достаточно высоким. Средство повышения точности формального решения состоит в увеличении числа измерений, т. е. размерности пространства r. Чем выше размерность пространства, тем больше возможностей получить более точное решение.

На третьем этапе решается содержательная задача интерпретации формального результата, полученного на предыдущей стадии. Координатные оси построенного стимульного пространства должны получить смысловое содержание, они должны быть проинтерпретированы как факторы, определяющие расхождения между стимулами. Эта работа является достаточно сложной и может быть выполнена только специалистом, хорошо знакомым с исследуемым материалом. Если на предыдущем этапе достаточно было только информации о попарных различиях между стимулами, то для содержательной интерпретации необходимо тщательное изучение их характеристик.

 



Поделиться:


Последнее изменение этой страницы: 2016-06-28; просмотров: 2352; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.141.30.162 (0.035 с.)