ТОП 10:

Двумерное распределение двух номинальных признаков



Crosstable Var #60 with Var #66

#Valid Observations=1345, #Missing Observations=0

 

------------|------------|------------|------------|------------|------------

| 0 | 1 | 2 | 3 | 4 |

|-----------|------------|------------|------------|------------|------------|

| 0 | 2 7.41%| 5 18.52%| 3 11.11%| 4 14.81%| 12 44.44%|

| |11.11% 0.15%| 2.66% 0.37%| 0.62% 0.22%| 2.41% 0.30%| 2.73% 0.89%|

|-----------|------------|------------|------------|------------|------------|

| 1 | 1 0.72%| 43 31.16%| 39 28.26%| 22 15.94%| 26 18.84%|

| | 5.56% 0.07%|22.87% 3.20%| 8.01% 2.90%|13.25% 1.64%| 5.92% 1.93%|

|-----------|------------|------------|------------|------------|------------|

| 2 | 1 0.57%| 36 20.69%| 90 51.72%| 12 6.90%| 27 15.52%|

| | 5.56% 0.07%|19.15% 2.68%|18.48% 6.69%| 7.23% 0.89%| 6.15% 2.01%|

|-----------|------------|------------|------------|------------|------------|

| 3 | 6 0.84%| 95 13.25%| 296 41.28%| 91 12.69%| 210 29.29%|

| |33.33% 0.45%|50.53% 7.06%|60.78%22.01%|54.82% 6.77%|47.84%15.61%|

|-----------|------------|------------|------------|------------|------------|

| 4 | 2 2.90%| 3 4.35%| 21 30.43%| 5 7.25%| 35 50.72%|

| |11.11% 0.15%| 1.60% 0.22%| 4.31% 1.56%| 3.01% 0.37%| 7.97% 2.60%|

|-----------|------------|------------|------------|------------|------------|

| 5 | 1 1.03%| 1 1.03%| 7 7.22%| 19 19.59%| 65 67.01%|

| | 5.56% 0.07%| 0.53% 0.07%| 1.44% 0.52%|11.45% 1.41%|14.81% 4.83%|

|-----------|------------|------------|------------|------------|------------|

| 6 | 5 5.75%| 5 5.75%| 21 24.14%| 10 11.49%| 43 49.43%|

| |27.78% 0.37%| 2.66% 0.37%| 4.31% 1.56%| 6.02% 0.74%| 9.79% 3.20%|

|-----------|------------|------------|------------|------------|------------|

| 7 | | | 3 50.00%| 1 16.67%| 2 33.33%|

| | | | 0.62% 0.22%| 0.60% 0.07%| 0.46% 0.15%|

|-----------|------------|------------|------------|------------|------------|

| 8 | | | 7 23.33%| 2 6.67%| 19 63.33%|

| | | | 1.44% 0.52%| 1.20% 0.15%| 4.33% 1.41%|

|-----------|------------|------------|------------|------------|------------|

|Column tot.| 18 1.34%| 188 13.98%| 487 36.21%| 166 12.34%| 439 32.64%|

|-----------|------------|------------|------------|------------|------------|


 

 

|------------|------------|

| 5 | Row totals |

|-----------|------------|------------|

| 0 | 1 3.70%| 27 2.01%|

| | 2.13% 0.07%| |

|-----------|------------|------------|

| 1 | 7 5.07%| 138 10.26%|

| |14.89% 0.52%| |

|-----------|------------|------------|

| 2 | 8 4.60%| 174 12.94%|

| |17.02% 0.59%| |

|-----------|------------|------------|

| 3 | 19 2.65%| 717 53.31%|

| |40.43% 1.41%| |

|-----------|------------|------------|

| 4 | 3 4.35%| 69 5.13%|

| | 6.38% 0.22%| |

|-----------|------------|------------|

| 5 | 4 4.12%| 97 7.21%|

| | 8.51% 0.30%| |

|-----------|------------|------------|

| 6 | 3 3.45%| 87 6.47%|

| | 6.38% 0.22%| |

|-----------|------------|------------|

| 7 | | 6 0.45%|

| | | |

|-----------|------------|------------|

| 8 | 2 6.67%| 30 2.23%|

| | 4.26% 0.15%| |

|-----------|------------|------------|

|Column tot.| 47 3.49%| 1345 100.0%|

|-----------|------------|------------|

 

Chi-Squared=239.6 with 40 degrees of freedom, Significance=0.000

Cramer's V=0.1887, Contingency coeff=0.3888, Corrected=0.4259

Pearson's R=0.2386, Kendall's Tau=0.2243, Significance=0.000

 

Это пример технически посложнее, прежде всего, из-за размерности таблицы, которую предварительно нужно привести к удобному для анализа виду - необходима склейка, чтобы понять, что к чему относится. Пустые квадранты обозначают отсутствие наблюдений. Проанализируйте данный пример самостоятельно. Содержание вопросов следующее:

 


60. Укажите, пожалуйста, в каком жилье Вы проживаете? (Только один ответ).

Индивидуальный дом 10,3

Часть индивидуального дома 13,0

Отдельная квартира 53,2

Общая (коммунальная ) квартира 5,1

Общежитие 7,3

Снимаю жилое помещение у частника 6,4

Передвижной домик, вагончик, балок 0,4

Другое жилое помещение, напишите 2,2

Нет ответа 2,0

66. Как вы считаете, приспособлено ли жилое помещение, в котором проживает ваша семья, для проживания в местных климатических условиях? (Только один ответ).

Да 22,3

В основном да 36,2

В основном нет 13,0

Нет 20,9

1 Затрудняюсь ответить 6,6

Нет ответа 1,0

Измерения для интервальных (метрических) переменных Измерение связи между двумя интервальными переменными осуществляется посредством корреляции произведения моментов Пирсона r, известной также как коэффициент корреляции. Этот коэффициент описывает силу и направление связей, используя те же принципы, что и ранее, - относительное ограничение ошибки в предположениях о значениях одной переменной на основе данных о значениях другой. Однако способ, которым это делается, равно как и тип данных, для которых предназначен этот коэффициент, гораздо более сложен, чем те что мы обсуждали нами ранее. Подсчет (r) начинается с изучения уже известной нам диаграммы рассеяния, т.е.графического изображения распределения случаев по двум переменным. На горизонтальной линии, или оси Х, отложена интервальная независимая переменной (как мы предполагаем), а на вертикальной линии, или оси Y, отложена порядковая зависимая переменная и каждая точка представляет расположение одного случая относительно обеих переменных. Именно поэтому так наглядно графическое представление двух (любых) переменных в виде гистограммы и т.д..

Следующий шаг - провести через это множество точек прямую, которая называется линией регрессии, так, чтобы ни одна другая линия не смогла бы пройти ближе ко всем точкам. Такая, наиболее подходящая линия для двух взаимосвязанных переменных линия регрессии (аналогичная среднему геометрическому в одномерных описательных статистиках, которое представляет наиболее типичный случай в частотном распределении), также представляет наиболее типичную связь между двумя переменными. Как среднее геометрическое используется для определения значений переменной при отсутствии дополнительной информации, так и линия регрессии может использоваться для определения значений одной переменной на основании сведений о значениях другой. Если, например, нам известно значение Х для данного случая, мы можем провести вертикаль от этой точки на оси до пересечения с линией регрессии, затем - горизонтальную линию до пересечения с осью Y. Точка пересечения с осью Y и даст предполагаемое значение Y.

Но точно так же, как среднегеометрическое может быть единственным наиболее типичным значением, но не очень хорошо при этом отражать распределение в целом, так и линия регрессии может наилучшим образом обобщать взаимозависимость двух переменных, но не быть при этом очень полезным обобщением. И соответственно так же, как мы используем стандартное отклонение (s), в качестве меры дисперсии или близости к среднему геометрическому, мы используем коэффициент корреляции, или более полно соответствующий требованиям интерпретации этот коэффициент, возведенный в квадрат (r І), в качестве меры близости различных точек, обозначающих наши данные, к линии регрессии. По сути дела, это мера того, насколько типично отражает эта линия обобщенное распределение значений по двум переменным. В тех случаях, когда все точки лежат точно на этой линии, она наилучшим образом описывает взаимосвязь между двумя переменными. Если точки в целом сгруппированы в направлении, обозначенном линией, но не лежат точно на ней, то линия представляет взаимосвязи между этими переменными лишь приблизительно. И если, не существует линии, которая расположена ближе к точкам, чем любая другая, между переменными не существует связи.

Приведем пример двумерное распределение номинального и метрического признака

Crosstable Var #25 with Var #68

#Valid Observations=3737, #Missing Observations=313

Value Freq Min Max Ave Dev

=============================================

0 15 23.00 54.00 39.87 9.150

1 599 0.000 82.00 34.90 12.43

2 400 0.000 82.00 36.55 11.23

3 454 0.000 82.00 40.00 12.92

4 913 0.000 64.00 36.73 11.57

5 861 0.000 63.00 36.34 11.99

6 320 0.000 64.00 34.10 11.49

7 108 0.000 63.00 37.81 10.64

8 59 18.00 66.00 41.10 11.12

9 8 0.000 45.00 30.38 13.02

=============================================

Total 3737 0.000 82.00 36.60 12.02

Hypothesis: NOT all variances are equal,- Significance=0.0359

Hypothesis: NOT all averages are equal,- Significance=0.0000

Determination=0.1964%

Вопрос 25. Какие ценности наиболее значимы для современных северян? (Дайте не более 3-х ответов)

1 Образование 16,0

2 Прочная семья 10,7

Обеспеченная старость 12,2

3 Здоровье членов семьи 24,4

4 Материальный достаток 23,0

5 Престижная и высокооплачиваемая работа 8,6

6 Северная доброжелательность, гостеприимство,

добрососедство 2,9

7 Личная безопасность 1,6

8 Другое, напишите, пожалуйста 0,2

0 Нет ответа 0,4

Вопрос № 68. Ваш возраст ______полных лет?

 

При анализе данного распределения, прежде всего, необходимо обратить внимание на ценности, которые важны для определенных возрастных групп (выделяемых на основании средней).

1. Самая младшая группа со средним значением в пределах 34 лет – ценности 1 и 6 ‑ образование и престижная высокооплачиваемая работа.

2. Возрастная группа в пределах 36 лет – ценности 2, 4, 5 – семья, здоровье, материальный достаток.

3. Почти 38 лет (37,8) основная ценность – 7, северная доброжелательность, гостеприимство, добрососедство.

4. Возрастная группа 40, 0 – 41,1 лет, основные ценности – 3, 8 - обеспеченная старость, личная безопасность.

Главное достоинство такого типа распределения определяется тем, что оно позволяет выделить латентную группу респондентов, которая отказалась назвать свои ценности – это «0» позиция. Однако мы имеем средний возраст этой группы – 39,87 года, что очень близко к 3 и 8 позиции – 41,1 года. С большой долей вероятности мы ее к ним и относим.

Стандартное отклонение (dev – deviation) необходимо рассматривать отдельно. Коэффициент детерминации равен 0,2 что свидетельствует о неравенстве средних, что мы и подтвердили своим описанием. Укажем на то, что данная процедура, это своего рода факторный анализ вручную, для номинального признака в сочетании с «метрикой», поскольку он позволил нам выявить очень четкие типологические группы. Кратко и метафорически их можно типологизировать как: 1 – «интеллектуалы»; 2. «семейные»; 3. «традиционалисты»; 4. «осторожные».

 

Двумерное распределение рангового и метрического признака

Вопрос 2. Изменилось ли за последние три года благосостояние вашей семьи?: улучшилось, осталось прежним, ухудшилось.

Вопрос 79. Сколько времени Вы проживаете в Красноселькупском районе?

 

Var #2 with Var #79

#Valid Observations=1345, #Missing Observations=0

Value Freq Min Max Ave Dev

=============================================

0 34 0.000 33.00 13.56 9.546

1 204 0.000 48.00 12.20 10.04

2 624 0.000 51.00 14.41 9.811

3 483 0.000 58.00 15.93 9.209

=============================================

Total 1345 0.000 58.00 14.60 9.709

Hypothesis: NOT All Variances Are Equal,- Significance=0.3837

Hypothesis: NOT All Averages Are Equal,- Significance=0.0001

Correlation=0.0666, Determination=0.5055%

Hypothesis: Non-linear Dependence,- Significance=0.7562

 

Для самостоятельной работы: Попробуйте прокомментировать последнее распределение (2*79) самостоятельно, коэффициент детерминации которого достаточно значим.

 

 

07.11.2008 9:21:31

ГЛАВА 27. МНОГОМЕРНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ СОЦИОЛОГИЧЕСКОГО ИССЛЕДОВАНИЯ

Ключевые понятия. Автотрансформация признаков. Интерпретация данных. Латентные группировки. Группы факторов. Коэффициенты линейной и ранговой корреляции. Согласованность изменений. Связи казуальные и опосредованные. Статистическая связь. Вероятностное состояние. Функциональная детерминация. Корреляционная матрица. Объясняемая дисперсия. Канонические компоненты. Таксономические процедуры. Факторный анализ. Метод «главных компонент». Латентно-структурный анализ. Многомерная классификация. Кластерный анализ. Меры классификации. Регрессионный анализ. Процедуры усреднения. Вращенная факторная матрица. Факторный вес признака. Объясняющая сила фактора.

 

Углубляясь в познание методов анализа данных, социологам необходимо понимать, что их задача заключается, прежде всего, в использовании того, что заложено в процедурах пакетов статистической обработки данных. С другой стороны, необходимо четкое знание основных понятий статистики. Некоторые понятия мы рассмотрели в предыдущей теме. В данном разделе рассмотрим ряд понятий и процедур относящихся к многомерному анализу данных. В обыденной жизни термин «статистика» обозначает просто числа или данные относительно сфер материальной или духовной жизни. В науке статистика связана с искусством извлечения полезной и осмысленной информации из наборов чисел, в том числе отражающих формализацию данных социологического опроса. Именно это нас и интересует. Для овладения большинством процедур статистической обработки данных используемых в социологии достаточно тех знаний, которые заложены в курсе естественно-научных дисциплин. Более того, зачастую просто здравый смысл является самым острым инструментом анализа, что мы попытались проиллюстрировать на примерах линейных распределений и модальных значений номинальных признаков.

Одна из особых задач социолога, решаемых в ходе обработки данных, это использование методов многомерного анализа имеющих самые разнообразные цели. Ими могут быть, например, автотрансформация ‑ перевод анализируемых переменных анкеты из линейного в матричное и, следовательно, свернутое описание, что дает возможность одновременного и объемного оценивания величины и характера их корреляционных взаимозависимостей. Использование процедур многомерного шкалирования для получения новой переменной, отражающей, например, совокупный объем управленческой деятельности в организации. Предназначение факторного или кластерного анализов, заключается в потенциальной возможности выявления скрытых латентных, типологических группировок в структуре первичных данных, проявляющихся в виде статистически взаимосвязанных групп факторов или переменных в кластере (если конечно такая зависимость между ними есть, но это не факт). С этой точки зрения, итоговым результатом, задачами применения многомерного анализа является получение интерпретируемого содержательного результата, объясняющего например, типы предпринимательского поведения конкретного коренного этноса в условиях перехода к рынку, типологию различных социально-культурных досуговых групп населения, а не просто величины расстояний от центра кластера или веса набора факторов.С этих позиций и рассмотрим основные многомерные процедуры.

Корреляционный анализ.Исходной процедурой практически для всех многомерных методов является корреляционный анализ. Корреляционный анализ(от лат. correlatio — соотношение) - математические процедуры, предназначенные для изучения статистических связей между отдельными признаками или группами признаков социальных объектов. Наиболее распространенной является процедура полного парного анализа связей между всеми переменными, выделенных для анализа блока или блоков анкет. Корреляционные матрицы исследуемых признаков являются, как правило, основой для последующих видов многомерного анализа и сохраняются в виртуальной памяти компьютера на время расчетов разных заданий. Существуют различные коэффициенты корреляции: равные произведению моментов, энтропийные и многие другие. Научная литература в этой области знаний очень обширна. Отметим еще раз, что для количественных признаков рассчитываются коэффициенты линейной корреляции. Для ранговых могут подсчитываться различные коэффициенты связи: ранговой корреляции Спирмена, Кэндалла, коэффициенты линейной корреляции - или коэффициетны контингенции (Пирсона), который рассчитывается также для номинальных признаков. В основе большинства процедур измерения сопряженности признаков, лежит идея о том, что связь между переменными величинами выражается во взаимной согласованности их изменений (изменений частот распределения одного признака относительно частот другого). Чем выше коэффициент корреляции между двумя переменными, тем полнее можно предсказать значения одной из них по значениям другой. Однако коэффициент корреляции между двумя переменными не содержит информации о том, является ли данная связь между ними причинно-следственной или связью сопутствия, связью опосредования, порожденной действием неких более общих причин. Этот вопрос решается исследователем на основе контекста - содержательных концептуальных представлений о структуре и динамике изучаемых социальных объектов выявленных на этапе предварительного системного анализа объекта и, на основе анализа корреляций между всеми изучаемыми признаками.

Последнее осуществляется с помощью метода множественного корреляционного анализа, где устанавливается корреляционная зависимость между множеством ранговых и метрических признаков, описывающих какое либо явление. В исходной матрице мы получаем коэффициенты связи каждого признака с каждым, после чего мы выделяем наиболее значимые связи (связи превышающие пороговые значения). Если матрица описаний включает «n» признаков, возможно вычисление n (n-1)/2 коэффициентов парной корреляции. Разновидностью данного анализа является каноническая корреляция, которая определяет взаимосвязь одной группы переменных с другой группой переменных, либо одного признака с группой других переменных.

Совокупность всех коэффициентов образует корреляционную матрицу, которая симметрична (подобно социометрической или экспертной), поскольку порядок сопоставления каждого с каждым признака не влияет на величину коэффициентов корреляции, а элементы ее главной диагонали равны единице (корреляция признака с самим собой). Социальная практика требует от исследователя выделения существенных связей между социально важным (ми) признаком (ми) и определяющими его факторами (вспомним методологию социологического эксперимента). В отличие от функциональной или прямой зависимости, статистическая связь характеризуется многозначной зависимостью между признаками и отражает некоторую тенденцию наличия/отсутствия зависимости одного признака от другого. Следовательно, статистическая связь предоставляет возможность только вероятностного предсказания состояния одного признака при известном состоянии другого. Между тем признаки, как правило, детерминируются многими факторами. Если бы эти факторы, в свою очередь, не зависели друг от друга, то их влияние, вычисляемое, например, в процентах объясняемой дисперсии, на управляемый признак можно было бы суммировать. И тогда, добавление нового фактора, в соответствии с гипотезой, приближало бы нас к постижению полной функциональной детерминации этого признака (текучесть кадров, миграционная подвижность, удовлетворенность трудом и т.п.). Однако в социуме существует не только множественная факторная (причинная) взаимозависимость. Существуют другие переменные (ценностные ориентации, обязательства, социальная принадлежность и т.п.), которые перекрывают (опосредуют) влияние данных факторов на управляемый признак. В силу этого парная статистическая связь является относительно слабым инструментом изучения причинности, хотя и позволяет, на основе таблиц, дать понятное и детерминированное, в разной степени, описание состояния социальной действительности.

Преодолеть этот недостаток возможно методами многомерного статистического анализа. Рассчитанные матрицы коэффициентов корреляции обычно сохраняются в виртуальном файле на время сеанса работы с программой, и используются для конкретных типов многомерного анализа – факторного, канонического, кластерного, регрессионного и других. Как правило, программы вычисляют скорректированные коэффициенты связи допустимые для конкретной пары признаков и размерности шкал, что упрощает анализа и интерпретацию данных расчетов. В противном случае, при написании отчета приходилось не только бы объяснять смысл факторных весов признаков, или смысл зависимости, но и объяснять, чем один коэффициент корреляции лучше другого, что делало бы их нечитабельными. Программы обработки позволяют также распечатывать матрицы с парными коэффициентами корреляции, уровень значимости которых не ниже порогового или выше и т.д.

Одним из основных методов статистического анализа данных, позволяющий связывать объясняемые и объясняющие характеристики социальных явлений и процессов в единое целое, в некую теоретическую систему является каноническая корреляция - анализ связи между двумя группами признаков. Логическая задача здесь формулируется следующим образом: количественно характеризовать долю, степень с которой характеризуемое многими переменными явление или процесс объясняется выбранной совокупностью факторов (обычо это признаки двух различных блоков анкет). Процесс расчетов связан с преобразованием исходной корреляционной матрицы на блоки признаков: определяемых и определяющих, каждый из которых трансформируется в нормированный вектор описания с последующим их преобразованием в канонические величины, с максимизацией коэффициента множественной корреляции, который отражает величину односторонней зависимости блоков признаков.

Объясняемый процент дисперсии переменных (как и при факторном анализе), выражается средним квадратным весов признаков в его канонической переменной, для которой также важно максимизировать процент дисперсии и веса первой канонической переменной (независимой). Для этого разработан метод анализа канонических компонент, для которого необходимо указание заданности обясняемых и обясняющих переменных – т.е. направления расчетов, что приводит к однозначному подсчету процентного отношения дисперсии объясняемой совокупности.

Как мы уже отмечали, корреляция отражает только статистическую зависимость и может свидетельствовать не о прямой, а о связи опосредованной многими промежуточными явлениями. Поэтому возникает необходимость выделения существенного в исходных признаках и установления соотношения «общего» и «специфического» в группе анализируемы переменных. Решать эти задачи позволяют таксономические процедуры.

Таксономические процедуры (от греч. taxis - расположение по порядку и nomos — закон) — математико-статистические методы многомерной типологизации социальных объектов. Таксономические процедуры называют также автоматической классификацией, кластерным анализом, распознаванием образов. Они дополняют корреляционный и факторный анализы, которые чаще всего нацелены на классификацию не самих объектов, а их свойств. С помощью таксономических процедур, рассматриваемые социальные объекты сравниваются по выраженности некоторых признаков: например, различные группы работников — по выраженности деловых качеств, различные предприятия — по показателям экономической, инновационной деятельности, различные страны — по показателям развития культуры. К одному типу (таксону, кластеру) статистика (программа обработки) относит такие объекты, которые по результатам подобных сравнений оказываются ближе друг к другу, чем к остальным объектам рассматриваемой совокупности. В разных таксономических процедурах используемые математические формулы вычисления различий ("расстояний") между объектами не одинаковы. От исследователя, проработавшего концепцию на этапе создания теоретической модели, разработки инструментария исследования, и пользующегося затем таксономическими процедурами, зависит выбор признаков, по которым осуществляется сравнение социальных объектов, а также "весов" (нагрузки), которые он придает различиям по каждому из этих признаков. Одни и те же объекты можно классифицировать с разной степенью дробности, и это тоже зависит от того, какой уровень их близости исследователь выберет в качестве порогового, какие факторы он будет считать «параллельными», «синонимичными» и отбросит их в ходе анализа. Чтобы получить содержательно интерпретируемые результаты применения таксономических процедур, анализируют характеристики ключевых (таксонообразующих) объектов, варьируют "веса" признаков или несколько изменяют их набор, подвергают факторному анализу те признаки, на основе которых произведена типологизация социальных объектов. То есть результаты зависят от гибкости концепта и возможности перебора его составляющих признаков.

Факторный анализ. В настоящее время в анализе данных используется ряд процедур факторного анализа, которые мы рассмотрим в пределах допустимого объема текста раздела, и доведем его до содержательного результата. Начнем с метода «главных компонент». При его использовании исходят из посылки, что при анализе информация не должна теряться и задача состоит только в ее упорядоченности по степени важности. Поэтому модель не предусматривает выделения специфичных факторов и предполагает число факторов равных числу анализируемых переменных, а выявленные факторы объясняют всю дисперсию анализируемых признаков. Это позволяет получать однозначное решение для последующей интерпретации, поскольку с математической точки зрения задача сводится к пространственному повороту координатных осей – процедуре основанной на методах линейной алгебры. Главные компоненты ‑ это линейные комбинации первичных измерений включенных в матрицу, веса которых нормированы так, что сумма их квадратов равняется единице, а их совокупность является вектором, выражающим некоторое направление распределения. Так, первая главная компонента определяет направление наибольшей дисперсии в многомерном пространстве признаков, вторая главная компонента – направление ортогональное к первой ‑ с последующей по величине дисперсией и т.д. Эти направления совпадают с осями эллипсоидов в многомерном пространственном (геометрическом) нормального распределения, выражающих места одинаковой плотности вероятностей наблюдений. А поскольку число главных компонент равно числу измерений в матрице описаний, то метод ГК сводится к повороту координатных осей так, чтобы они совпадали с главными осями эллипсоидов распределения. Когда учтены все главные компоненты, исчерпывается вся дисперсия первоначального измерения и для исследователя не теряется ни какой информации.

Однако, в таком случае, мы имеем не так уж много преимуществ по сравнению с вдумчивым анализом средних величин (моды, медианы) частотных распределений. Идея заключается в том, чтобы найти возможность отбрасывания некоторых компонент с малой дисперсией, для получения боле плотного многомерного пространства. Потеря информации тогда небольшая, а преимущества значительны. Во–первых, новые переменные становятся независимы друг от друга, а во–вторых, их число значительно меньше исходного, а в-третьих – выделяются наиболее весомые. Так как главные компоненты являются собственными векторами так называемой ковариационной матрицы, достаточно установить собственные значения этой матрицы, расположить их по величине и вычислить соответствующие собственные матрицы. Поскольку главные компоненты, как мы отмечали, исчерпывают всю дисперсию матрицы описаний, нетрудно определить процент дисперсий объясняемой каждой главной компонентой – он равняется λi / Σ λi * 100% ‑ где λi есть i-e собственное значение. Это позволяет определить, сколько главных компонент необходимо учитывать, чтобы сократить количество переменных описания без существенной потери информации.

В свою очередь, часто бывает невозможно проинтерперетировать полученные методом главных компонент результаты исследований, где одной из целей является построение гипотетической модели предмета исследования, поскольку одноальтернативное решение для этого малопригодно. Эта задача часто решается вращением выделенных главных компонент так, чтобы их можно было интерпретировать с содержательной точки значения. Факторная матица после вращения содержит корреляционные значения главных компонент и их допустимые единичные вектора, расположенных в убывающем порядке. В других методах факторного анализа заранее предполагается, что число факторов существенно меньше числа переменных участвующих в анализе и что эти факторы не исчерпывают всей объясняемой дисперсии, специфической для каждого признака.

В настоящее время признаны классическим и такие процедуры факторного анализа как метод максимального правдоподобия, канонического анализа, альфа-факторного анализа. В основе последнего, лежит понятие обобщенности анализируемых переменных. Основное предположение заключается в том, что фактор общий для всех переменных, определяется как линейная комбинация бесконечного числа переменных, которые образуют генеральную совокупность. Тогда фактор, извлекаемый при анализе переменных выборки (не случайной), определяется как имеющий максимальную корреляцию с соответствующим общим фактором генеральной совокупности. Общее правило использования ФА заключается в том, что структура анализируемых данных должна соответствовать математической модели, а через них - структуре изучаемых социальных явлений и характеру собранных данных (чем выше уровень шкал, тем лучше).

Исходя из сказанного, нельзя, однако, утверждать, что один метод анализа лучше другого. Все же надо отметить, что факторный анализ обоснован только для метрических признаков, в которые можно перевести и номинальные. Тем не менее, для ранговых признаков рекомендуется неметрический факторный анализ, или латентно-структурный анализ.

Латентно-структурный анализ (от лат. latentis — скрытый, невидимый) — метод статистического анализа эмпирических данных, позволяющий по ответам респондентов на некоторое множество вопросов выявить их распределение по некоторому скрытому (латентному) признаку. Этот признак нельзя измерить непосредственно, но использованное социологом множество вопросов позволяет зафиксировать различные его проявления. Метод предложен американским социологом П. Лазарсфельдом (1901 —1976). По своим задачам латентно-структурный анализ сходен с факторным анализом, но в отличие от последнего, требующего, чтобы исходные признаки были количественными, предназначен для анализа качественных переменных. Существуют также обобщения метода латентно-структурного анализа (например, метод латентно-профильного анализа У. Гибсона), которые позволяют анализировать и количественные признаки, причем итоговый (латентный) признак может быть как качественным, так и количественным. Несмотря на наличие некоторых преимуществ по сравнению с методом факторного анализа, латентно-структурный анализ не получил широкого распространения в исследованиях отечественных социологов.

Многомерная классификация. Классификация это упорядочение определенной совокупности объектов в классы (группы) на основании их родства, сходства или иных подобных отношений. В этом смысле понятие «классификации» означает и процесс исследовательской деятельности и ее результат. При многомерном подходе к анализу данных понятие «совокупность объектов» можно заменить понятием «кластер» ‑ и как исходная совокупность и как результат процесса обработкит. Математически, кластер – это некоторая геометрическая область пространства признаков, внутри которой все точки (отображение классифицируемых объектов) считаются одинаковыми, а объекты отраженные в разных областях пространства – разными. Такая классификация объектов представляет собой логическую замену группы похожих, но не идентичных объектов «обобщенными», «типичными» для данной группы объектов. Поэтому такая группировка всегда связана с потерей информации, так как индивидуальные вариации оценок признаков внутри группы (пусть и небольшие) не учитываются и все включенные в нее объекты считаются одинаковыми. По сути, это как раз и отражает методологическую суть спора между «количественниками» и «качественниками»: Что важнее – типичное или индивидуальное в социуме, позволяющее определить его истинную природу?

Таким образом, при кластеризации может возникнуть явное противоречие – чем больше выделено типов, тем меньше потерь информации, но тем меньше пользы от классификации - так как нет типологий. Поэтому оптимальной считается такая классификация, которая дает минимальное число кластеров, при условии, что потеря информации не превышает некоторых допустимых условий и отвечает поставленным исследовательским целям.

Основной вопрос классификации – считать ли рассматриваемое множество конечным, а все его члены заданными, или принять его за выборку из некоторого большого (лучше бесконечного) множества. В первом случае у нас не возникает проблем, но кластеры отражают только данную совокупность объектов (например, специфический исследовательский отраслевой коллектив). Во втором случае результаты представляются как теоретические, но возникает ряд статистических вопросов. Однако здесь важна позиция социолога. Первое. Требуется проверка полезности кластеров с помощью дополнительной информации об объектах. Полезность – это новые, ранее не раскрытые, эмерджентные социальные свойства, что можно проиллюстрировать известным изречением Аристотеля «Это собака – следовательно, она лает и кусается». Второе. Использованная модель классификации апробируется на новой выборке, на той же популяции (объекте), с проведением сравнительного анализа полученных результатов. Понятно, что это самый надежный, но практически не выполнимый путь проверки истинности классификации. При классификации используются такие понятия, как «сходство», «различие», «близость», «родственность» «однородность» которые при классификации по качественным признакам обычно определяются интуитивно и относительно приближенно. При количественной классификации вводятся количественные оценки этих понятий.

Выделяют три вида мер, используемых в кластерном анализе: Первое. Меры, характеризующие сходство/различие двух объектов, представленных точками в многомерном пространстве. А также сходство объекта с некоторым кластером и сходство двух кластеров; Второе. Меры, характеризующие компактность или однородность отдельного кластера; Третье. Меры качества классификации, выделяющие различие между двумя исходными объектами или кластерами и кластером, полученным при объединении исходных.

Меры сходства – в метрическом многомерном пространстве это либо расстояние между объектами, либо некоторая невозрастающая функция этого расстояния. В неметрическом пространстве – либо евклидово расстояние, либо сумма абсолютных величин разницы оценок по всем признакам.

В процедурах сравнения обычно определяется типичный представитель кластера: «ближайший сосед» ‑ «самый дальний сосед» и сходство определяется по месту на этом континууме, объектов из двух сравниваемых кластеров. Развитие метода привело к смещению роли места соседа в методе. Лучшим представителем стал считаться центр тяжести кластера, координаты которого – средние оценки по каждому признаку входящего в кластер. Поэтому сходство фиксируется по сходству центров тяжести. Однако, при объединении двух кластеров с неодинаковым числом объектов центр вновь полученного кластера лежит близко к центру исходного кластера с большим числом членов, а характерные особенности меньшего кластера как бы растворяются. Здесь в расчетах используется среднее сходство двух кластеров на основании исчисления попарного сходства членов сравниваемых кластеров, где сумма полученных оценок делится на произведение чисел учтенных пар, что стало легко рассчитывать на новых современных РС.

Существуют также меры компактности и меры качества классификации, которые основаны на той же математической логике: сходство центров тяжести, сходство членов кластера. Поскольку избранный на каждом шагу способ классификации обычно предопределяет дальнейший ход анализа важно выбирать на каждом этапе оптимальный способ классификации. Мерой качества может служить разница оценок компактности. Для оценки классификации в целом, чтобы из нескольких вариантов выбрать наилучший, чаще всего используется средняя оценка компактности всех кластеров.

Все указанные меры позволяют использовать самые различные классификационные системы, объединяемые в две группы: иерархические системы и системы кластерного анализа. Последние предполагают некоторую оптимизацию компактности кластеров для выявления типичного, иерархические же сводятся к построению дендрограмм, для выявления конечного перечня объектов.







Последнее изменение этой страницы: 2016-09-05; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.93.74.227 (0.018 с.)