ТОП 10:

НЕКОТОРЫЕ ВАЖНЫЕ ПРОБЛЕМЫ ФАКТОРНОГО АНАЛИЗА



Проблемы, обсуждаемые в этой главе, могут быть решены несколькими методами. Обычно разные методы факторного анализа приводят к одному и тому же решению. Когда этого не происходит, результаты интерпретируются на основе содержательного понимания и научной ценности найденных решений.

Оценка общностей

В факторном анализе (в отличие от метода главных компонент) перед факторизацией на главной диагонали матрицы взаимосвязей R ставятся не единицы, а значения общностей (числа между 0 и 1). Использование общностей вместо единиц позволяет исключить специфичные и ошибочные дисперсии каждой наблюдаемой переменной. Решение получается только на основе анализа общих дисперсий, объясняемых факторами. Однако в настоящее время нет единого мнения о том, как проводить оценку общностей. Круг задач, связанных с этой оценкой (процедуры, способы задания, критерии и т.д.) называется проблемой общности.

Так как дисперсия каждой переменной берется равной единице (все переменные вначале стандартизируются), то общность в модели классического факторного анализа (содержащей ряд общих факторов и по одному характерному на каждую переменную) не может превышать единицу и составляет ту часть дисперсии, которая обусловливается общими факторами (без учета специфичной и ошибочной дисперсий).

Таким образом, каждая переменная обладает общностью, которая должна быть меньше единицы. В предельном случае, когда общая дисперсия приближается к единице, общность также равна единице. В этом случае значения специфичной и ошибочной дисперсий должны быть около нуля. Крайний случай, когда эти дисперсии равны нулю, на практике не встречается, так как в экспериментах всегда присутствуют погрешности измерения и в модели факторного анализа всегда проводится различие между общими и специфичными факторами, которые также всегда должны присутствовать.

Итак, общности могут принимать значения от нуля до единицы. К.Иберла (1980) указывает, что эту область принятия значений можно ограничить еще больше: от квадрата коэффициента множественной корреляции переменной до квадрата коэффициента ее надежности (единица минус дисперсия ошибки).

Формальное определение общности переменной как суммы квадратов нагрузок общих факторов не дает однозначного ответа при оценке общности. Уже из этого определения видно, что общность тесно связана с количеством общих факторов. Проблема оценки общностей — уязвимое место многофакторного анализа. В настоящее время разработано довольно много вычислительных процедур (только один Тэрстоун предложил 12 различных способов), но ни одна из них не получила исчерпывающего теоретического обоснования.

Тэрстоун (Thurstone, 1961) указал только эмпирические методы и разработал практические вычислительные процедуры без достаточного теоретического обоснования.

Другие авторы (напр., Albert, 1944а,Ь) пытались найти аналитическое решение проблемы общности, формулируя ее следующим образом: при известных внедиагональных элементах матрицы взаимосвязей R нужно подобрать такие значения диагональных элементов, чтобы ранг полученной редуцированной матрицы был по возможности минимальным.

Установив значения всех общностей, можно воспроизвести редуцированную матрицу взаимосвязей (в том числе определить ее ранг, т.е. минимально необходимое для ее воспроизведения количество факторов). Могут иметь место два альтернативных случая. В первом случае вначале определяют общности, а затем количество выделяемых факторов (прямая оценка общностей). Во втором — сначала устанавливают количество факторов, подлежащих выделению, а затем подбирают значения общностей таким образом, чтобы ранг редуцированной матрицы приближался к этому числу.

Лоули (Lawley, 1940) и Pao (Rao, 1955) определили общности как величины, которые при статистически значимых факторах позволяют воспроизвести матрицу взаимосвязей наилучшим образом. Значимые факторы и общности получаются в результате итеративных процедур.

На практике (при определении общностей в конкретном случае) теоретический подход имеет второстепенное значение и выбирается в зависимости от имеющейся компьютерной программы и индивидуальных предпочтений самого исследователя. При большом количестве переменных вполне достаточно грубых оценок, так как в этом случае неточные оценки общностей большей частью не оказывают сильного влияния на окончательное факторное решение. Читатель, интересующийся теоретическими вопросами, может обратиться к обзорам, приведенным в книгах Хармана (1972) и Иберлы (1980).

К сожалению, работ, посвященных сравнению точности оценок, полученных различными способами, пока мало, хотя такие исследования относительно легко провести путем компьютерного моделирования.

В большинстве случаев решение проблемы общности состоит в нахождении соответствующих значений, которые определяют общую дисперсию каждой переменной и лежат в интервале между квадратом коэффициента множественной корреляции и квадратом коэффициента надежности.

Гуттман (Guttman, 1940) доказал, что с увеличением количества переменных при постоянном количестве факторов значение общности приближается к квадрату множественной корреляции. Выбор квадрата множественной корреляции в качестве оценки общности в настоящее время теоретически обоснован и чаще всего рекомендуется к использованию при большом количестве переменных для предварительной грубой оценки. На главной диагонали записывается с положительным знаком (независимо от его исходного алгебраического знака) наибольший коэффициент корреляции данного столбца матрицы R. Этот способ распространен благодаря своей простоте, хотя наибольший коэффициент корреляции в столбце матрицы R является случайной величиной и не имеет непосредственной связи с общностью.

Кроме того, для оценки общности можно применять средние коэффициенты корреляции столбца или строки. Ясно, что это значение должно быть меньше наибольшего коэффициента корреляции каждого столбца.

Промежуточное положение в использовании наибольшего и среднего коэффициентов корреляции занимает метод триад. Для оценки общности i-й переменной в i-м столбце матрицы R отыскиваются два наибольших коэффициента корреляции rki и rji. Их значения вместе с коэффициентом корреляции между обеими переменными k и j подставляются в следующую формулу:

Hi2= rkirji /rkj, (22)

Следует упомянуть еще один распространенный способ определения общностей — итерационный. Оценка общностей обычно начинается с вычисления коэффициентов множественной корреляции (КМК) каждой переменной, рассматриваемой как зависимая по отношению к остальным, выступающим в роли независимых. По этим значениям диагональных элементов матрицы R выполняется факторизация и вычисляются новые оценки общностей, которые затем подправляются при помощи итерационных процедур (которые могут выполняться «вручную») так, чтобы соответствие между матрицей, воспроизведенной с помощью небольшого количества факторов, и наблюдаемой корреляционной матрицей было максимальным. Опять выполняется факторизация матрицы R с новыми диагональными элементами. Когда последовательно получаемые оценки общностей сильно сближаются и перестают меняться от итерации к итерации, процесс прекращается. Окончательные оценки общностей также являются КМК, только теперь уже между каждой переменной (в качестве зависимой) и факторами (в качестве независимых). Окончательные общности представляют собой долю дисперсии переменной, объясняемую глубинными факторами. При ортогональном вращении значения общностей не меняются.

На практике процедура данного способа часто сходится, хотя формального обоснования сходимости итеративного процесса не существует. Теоретически пока не доказано, при каких условиях такая сходимость осуществляется и совпадают ли достигнутые предельные значения с истинными величинами общностей. Вполне возможно также, что данная процедура приведет к значениям общностей, сильно отклоняющимся от истинных. Поэтому нет теоретических оснований рекомендовать данный способ. В любом случае при выборе начальных значений общностей следует соблюдать границы, указанные формулой (22).

При факторизации образов в качестве общностей используются дисперсии из образной ковариационной матрицы. Из-за того, что при выполнении этого алгоритма общности никак не меняются, получается единственное решение. Метод максимального правдоподобия вместо общностных значений оценивает количество факторов и изменяет внедиагональные корреляции для получения наилучшего соответствия между наблюдаемой и воспроизведенной матрицами.

Программы SPSS, SAS и BMDP предусматривают несколько начальных вариантов статистики для общностных оценок. BMDP предлагает пользователю в качестве исходных общностных оценок либо самому устанавливать значения КМК (коэффициенты множественной корреляции), либо использовать максимальную абсолютную корреляцию с любой другой переменной. SPSS допускает, чтобы пользователь самостоятельно устанавливал начальные значения общностей только для метода главных факторов, а во всех остальных случаях использует КМК. SAS предлагает для каждой переменной выбор между КМК, подправленными таким образом, чтобы сумма общностей была равна сумме максимальных абсолютных корреляций со всеми остальными переменными (значениями), заданными пользователем, и числами между 0 и 1, выбранными случайным образом. SYSTAT использует КМК. Итерационный процесс, использующий в качестве начальных значений КМК, сходится (заканчивается) быстрее.

Если способ дает завышенные значения общностей, то часть характерной дисперсии переходит в общую дисперсию, что вызывает изменение факторного отображения. Если способ дает заниженные значения общностей, то происходит потеря части общей дисперсии для процесса выделения факторов.

Если переменных более 20, выбор КМК в качестве первоначальных общностей вполне разумен. В подобных случаях количество элементов на главной диагонали значительно меньше общего количества элементов во всей матрице R[12] и их значения не очень влияют на решение.

Если общности для всех переменных имеют приблизительно одну и ту же величину, результаты методов главных компонент и факторного анализа оказываются очень близкими между собой (Velicer, Jackson, 1990).

Последующее вращение сглаживает ошибки в оценках, и качество оценок в итоге не оказывает влияния на интерпретацию факторов. Поэтому при большом количестве переменных не так уж важно иметь точные оценки общностей. При малом количестве переменных качество оценок влияет на факторное решение. Поэтому исследователю рекомендуется включать в анализ не менее 20 переменных.

Ситуация, когда общности равны или превышают единицу, указывает на наличие каких-то проблем с решением: либо слишком мало данных, либо начальные общности заданы неправильно, либо количество факторов выбрано неверно. Понизить значение общности можно путем добавления или исключения факторов. Слишком низкие значения общностей свидетельствуют о том, что соответствующие переменные не связаны с другими переменными в наборе данных. В программе SAS предусмотрено два способа работы с общностями, большими единицы: специальная опция HEYWOOD понижает их до единицы, а опция ULTRAHEYWOOD допускает превышение ими единицы.







Последнее изменение этой страницы: 2016-04-08; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.235.45.196 (0.007 с.)