ТОП 10:

Критерии оценки соответствия количества факторов и факторной модели экспериментальным данным



Нахождение наиболее адекватной факторной модели связано с определением количества факторов, так как включение в предлагаемую факторную модель большего количества факторов улучшает соответствие между наблюдаемой и вычисляемой матрицами взаимосвязей и увеличивает процент дисперсии в исходной информации, объясняемый факторным решением. Вместе с тем, соображения экономного решения требуют ограничивать количество выделенных факторов и из двух конкурирующих моделей принимать ту, которая содержит наименьшее количество факторов. Теоретически учесть абсолютно все дисперсии и ковариации набора данных возможно только в том случае, когда количество факторов равно количеству наблюдаемых переменных. Поэтому совершенно очевидно, что следует соблюдать разумный баланс: с одной стороны, стремиться к достаточному количеству факторов для максимизации соответствия, с другой — помнить о принципе экономии. Выбор количества факторов — в определенном смысле более ответственный момент, чем выбор метода факторизации и вращения или задание начальных значений для общностей. В конфирматорном анализе выбор количества факторов соответствует выбору количества теоретических латентных переменных, составляющих базис исследуемой области. Полученный в результате процедуры конфирматорного анализа ответ на вопрос о том, насколько теоретически предполагаемое количество факторов соответствует набору исходных данных, является частичным подтверждением гипотетической факторной структуры.

Общепризнанного метода определения количества факторов, подлежащих выделению, не существует (представители различных школ расходятся во мнении о том, какой метод более достоверен и пригоден для практики), но есть несколько часто употребляемых критериев. Некоторые из них альтернативны, некоторые дополняют друг друга (подробнее об этом см.: Gorsuch, 1983). Наиболее часто применяются:

• различные правила, формулируемые в терминах собственных чисел;

• критерий следа (отсеивания);

• критерии значимости, связанные с методами максимального правдоподобия и наименьших квадратов;

• критерий, основанный на величине долей дисперсий факторов;

• критерий факторных нагрузок;

• критерий интерпретируемости и инвариантности.

Первый (быстрый) метод определения количества факторов заключается в оценке собственных чисел и введении критерия значимости фактора при наличии собственного числа>1. Рассмотрим факторизацию по методу главных компонент. Собственные числа соответствуют дисперсии. Поскольку дисперсия каждой стандартизированной переменной равна единице, то компоненты с собственными значениями меньше единицы гораздо менее значимы (с точки зрения перспективы объяснить дисперсию какой-либо наблюдаемой переменной), нежели сами переменные. Компоненты с собственными величинами больше единицы составляют от одной пятой до одной трети от общего количества переменных (например, 20 переменных дают от 4 до 7 компонент с собственными величинами больше единицы). Этот простой критерий хорошо себя зарекомендовал, так как обычно дает результаты, совпадающие с ожидаемыми. Кроме того, этот метод был тщательно проверен на модельных искусственных данных. Как правило, этим критерием можно пользоваться в случае большой выборки респондентов и при количестве переменных не более 40. В других обстоятельствах этот критерий может либо пере-, либо недооценивать количество факторов для набора исходных данных.

Отметим, что количество общих факторов, соответствующих матрице взаимосвязей, относящейся к генеральной совокупности, всегда будет больше или равно количеству факторов, выделяемых согласно этому критерию (в отличие от выборочной матрицы взаимосвязей). Кайзер (Kaiser, 1974) приводит несколько доводов в пользу критерия собственных чисел больше единицы и считает его более предпочтительным по сравнению с другими (более «утонченными») критериями.

Второй метод определения количества факторов заключается в анализе «следа» (гисторграммы собственных значений, расположенных по убыванию номеров факторов - см.: Факторный..., 1989). Факторы в возрастающем порядке по номеру расположены по абсциссе, а собственные значения — по ординате. Такое графическое представление удобно использовать как при работе с методом главных компонент, так и при факторном анализе на начальном и последующих прогонах. Обычно «след» монотонно убывает. Собственное значение будет самым высоким для первого фактора, средним (но уменьшающимся) для следующих нескольких факторов и низким для последних факторов (рис. 2).

Рис. 2. Пример следа, полученного в результате процедуры факторного анализа. Излом наблюдается после четвертого фактора

Как правило, на графике виден отчетливый излом между крутым наклоном первых факторов и постепенным убыванием остальных. Процедура определения количества факторов заключается в поиске на графике точки, где линия меняет крутизну и приобретает почти горизонтальное положение. Этот постепенный «сход на нет» от найденной точки получил название «scree» (след) по аналогии с подножием горы (хотя практически во всех переведенных на русский язык монографиях этот критерий называется «критерием отсеивания»). Опыт многих исследователей показывает, что количество выделенных факторов равно п, если след начинается с re-го фактора.

График «следа» распечатывается во всех программах факторного анализа. Для рассматриваемого примера (рис. 2) через первые четыре собственные величины вполне (с некоторым приближением) можно провести одну общую прямую линию. После этого остальные восемь точек можно аппроксимировать другой линией с заметно отличающимся наклоном. Следовательно, в данном случае можно говорить о выделении четырех факторов.

К сожалению, «критерий следа (отсеивания)» нельзя назвать точным, поскольку определить на графике точки существенных изломов не всегда легко (изломов может быть несколько и выделение какого-либо из них становится субъективным). По мнению Горсуча (Gorsuch, 1983), «критерий следа» дает более очевидные и надежные результаты в том случае, когда размеры выборки велики, общности высоки и для каждого фактора имеется несколько переменных с высокими нагрузками. Вместе с тем даже при менее оптимальных условиях критерий точен в пределах одного-двух факторов, а при наличии второстепенных факторов может быть предпочтительнее других.

Принимая решение о количестве факторов, подлежа-! щих выделению по «критерию следа», исходят не из модели факторного анализа, а из модели главных компонент. В этом случае процедура проведения факторного анализа состоит в следующем. Вначале определяют главные компоненты матрицы взаимосвязей R, не проводя оценку общностей. Затем устанавливают по «критерию следа» количество факторов, которое должно быть выделено. После этого выбирают значения общностей и факторизуют по методу главных факторов, выполняют вращение, интерпретируют выделенные факторы и лишь после этого принимают окончательное решение о количестве факторов, которое следует оставить для объяснения рассчитанных корреляций. Графическое изображение долей дисперсии факторов дает возможность принять лишь предварительное решение, необходимое для дальнейшей процедуры. И только после завершения всего факторного анализа можно ответить на вопрос о количестве факторов, которое должно быть выделено. Трудность состоит в том, что в ходе анализа должно быть относительно рано принято решение, сколько же факторов необходимо вращать. В случае сомнений в количестве факторов рекомендуется выполнить анализ несколько раз, используя различное количество факторов, повторяя «критерий следа» и анализируя остаточную матрицу взаимосвязей (выдача этой матрицы предусмотрена в программах SPSS, BMDP и SAS).

Как уже указывалось, остаточная матрица взаимосвязей получается путем вычитания воспроизведенной матрицы взаимосвязей из наблюдаемой матрицы взаимосвязей. Числа в остаточной матрице фактически представляют частичные корреляции между парами переменных без учета влияния факторов. Если анализ проведен хорошо, то значения в остаточной матрице невелики. Наличие заметного количества умеренных остаточных величин (скажем, от .05 до .10) или даже малого количества более значительных разностей (скажем, более .10) предполагает наличие еще других факторов.

Определив количество факторов при помощи этого критерия, важно посмотреть на матрицу факторных нагрузок после поворота и определить количество переменных, имеющих значимые нагрузки по каждому фактору. Если по какому-то фактору высокая нагрузка присутствует только у одной переменной, фактор определен плохо. Если фактор нагружается двумя переменными, достоверность выбора определяется структурой взаимосвязей этих двух переменных между собой и с другими переменными в матрице R. Если две переменные сильно взаимосвязаны между собой (скажем, нормированный показатель взаимосвязи, принимающий значения в диапазоне от —1 до 1, в данном конкретном случае по абсолютной величине больше 0.7) и относительно не связаны с другими переменными, фактор может считаться достоверным.

Интерпретация факторов, нагруженных одной или двумя переменными, все же таит в себе опасности даже на самом начальном (максимально разведочном) этапе факторного анализа.

Для факторизации методами главных компонент и максимального правдоподобия в конфирматорном анализе существуют тесты значимости количества факторов. На каждом этапе факторизации рассматривается остаточная матрица и оценивается ее значимость. Если все элементы остаточной матрицы незначительно отличаются от нуля, то нет необходимости в новом факторе. Для оценки «незначительности» можно использовать упоминавшийся тест Бартлетта[13], который оценивает значимость существования всех факторов вместе и каждого в отдельности при наличии альтернативной гипотезы об отсутствии факторов вообще.

Критерий значимости главных компонент интересен прежде всего тем, что по нему проверяется значимость всей корреляционной матрицы. Реже интересуются вопросом, с какого момента оставшиеся главные компоненты значимо различаются между собой.

Критерии значимости, используемые в методе главных компонент, нельзя без изменения перенести на модель факторного анализа. В этом случае необходима проверка гипотезы о том, что выделенных общих факторов вполне достаточно для воспроизведения ковариационной или корреляционной матрицы. При этом вычисляется критерий значимости:

 

X2=(n-l)ln(|R+|/|R|) c(m-r)2-m-r степенями свободы.

 

В этой формуле |R+|— определитель матрицы корреляций, воспроизведенной с помощью выбранной модели; |R|— определитель исходной корреляционной матрицы; m — количество переменных; r — количество выделенных факторов и n — количество испытуемых. Если при определенных тип вычисленное значение критерия превышает табличное значение X2, соответствующее заданному уровню значимости, это указывает на то, что необходимо выделить факторов больше, чем r, по крайней мере r+1. Таким образом, при "статистическом подходе нижней границей количества факторов, подлежащих выделению, является наименьшее число r, при котором на заданном уровне значимости расчетное значение критерия будет меньше табличного. Для работы с этим тестом необходимо, чтобы наблюдаемые переменные имели нормальное распределение, факторные нагрузки определялись методом максимального правдоподобия и n было достаточно велико.

При условии выполнения предположений, необходимых для метода максимального правдоподобия, с чисто статистической точки зрения предпочтительнее пользоваться критерием X2. Применение этого критерия показало, что для большой выборки при значительном количестве переменных количество выделяемых факторов намного больше количества факторов, которое ожидает получить исследователь. Это обстоятельство не является недостатком метода, но в некоторых случаях оно заставляет исследователей после применения критерия статистической значимости дополнительно использовать критерий, основанный на величине доли воспроизводимой дисперсии.

Однако в настоящее время среди ученых существуют некоторые разногласия по поводу использования этих тестов. Читателя, заинтересованного в более подробном освещении этих вопросов, мы отсылаем к книгам Иберлы (1980), Горсуча (Gorsuch, 1983) или к более новым работам о проверке выделенных факторов на значимость.

Графическое изображение долей дисперсии факторов позволяет дать в общих чертах обзор критериев выделения факторов. В принятом в факторном анализе подходе полная дисперсия т наблюдаемых переменных всегда равна m. Легко можно определить, какая доля этой дисперсии приходится на r выделяемых общих факторов. Доля дисперсии, вносимая одним фактором, равна сумме квадратов факторных нагрузок одного столбца матрицы А. Можно произвольно предположить, что достаточно выделить такое количество факторов, на которые приходится 90—95% полной дисперсии. Такое условие приводит к однозначному, но обычно недостаточно аргументированному решению, почему именно ограничиваются 90% полной дисперсии. Для выражения дисперсии фактора в процентах от полной дисперсии служит отношение: (дисперсия факторах100%)/полная дисперсия, в котором характерная (специфическая) дисперсия входит в знаменатель. Таким образом, с самого начала не указывается, сколько характерной и сколько общей дисперсии приходится на определенную переменную. В методе главных компонент, где нет разделения на общую и характерную дисперсии, такой подход к выделению факторов вполне корректен, но при использовании модели факторного анализа полезно знать доли дисперсии факторов относительно полной дисперсии. Эти доли часто очень малы и не отражают содержание анализа. Для — наглядности чертят график долей дисперсии факторов, располагая их в порядке уменьшения или в виде накопленного ряда. На основе такого изображения можно произвольно установить правило: выделять такое количестве факторов, на которое суммарно приходится, например, 90% полной дисперсии.

При применении модели факторного анализа часто рациональнее употреблять процентные доли дисперсий общих факторов, отнесенных к суммарной общности, т.е. общей дисперсии, а не полной (включающей в себя еще специфическую часть и дисперсию ошибки). Такие значения, естественно, становятся больше, так как характерная дисперсия не входит в знаменатель. Однако при принятии решения о количестве факторов, подлежащих выделению, недостаточно учитывать исключительно! только эти значения; при небольшой суммарной общности соответствующие процентные величины могут быть большими, хотя ситуация не будет отражать действительного положения вещей.

Поэтому всегда рекомендуется вычислять дисперсии отдельных факторов в виде долей от полной дисперсии и от суммарной общности и сопоставлять их с графиком «следа». Основной недостаток критерия, основанного на величине доли воспроизводимой дисперсии, состоит в его определенной субъективности.

Самый простой из критериев отбора значимых факторов на основе анализа факторных нагрузок (критерий Хэмфри) состоит в том, что абсолютная величина произведения двух максимальных факторных нагрузок должна быть вдвое больше двойки, деленной на квадратный корень из количества наблюдений (испытуемых):

 

|r1max x r2max| >/ÖN (23)

 

Фрачтер (Fruchter, 1954) считает, что этот критерий применим для небольших выборок.

Другой критерий может быть сформулирован так: фактор более значим, если произведение модулей двух максимальных факторных нагрузок равно или больше значимого коэффициента корреляции при данном количестве наблюдений. Иногда этот критерий усиливают требованием, чтобы переменные, обладающие этими максимальными факторными нагрузками, имели хотя бы по одному значимому коэффициенту корреляции (подробнее об этом см.: Левандовский, 1980).

В научных статьях поднимается вопрос о том, что делать, когда определение количества факторов вызывает сомнение: что лучше — принять решение в сторону уменьшения или увеличения их количества? Например, Иберла (1980) рекомендует использовать «критерий следа», позволяющий первоначально выделить больше факторов, а сокращение проводить на последующих этапах расчета.

Иногда наряду со значимыми факторами исследователь вращает незначимые (маргинальные) факторы, но не интерпретирует их. В других случаях интерпретация факторов с незначительными вкладами в общую дисперсию приводит к самым неожиданным и интересным находкам в исследуемой области. Хотя это и является доводом для сохранения маргинальных факторов, однако, если исследователя интересуют заведомо достоверные факторы, следует сохранять (вращать и интерпретировать) лишь факторы, имеющие высокие вклады в общую дисперсию. Иберла вообще рекомендует никогда не оставлять маргинальные факторы (1980, с. 147).

В связи с тем, что вычислительная процедура факторного анализа представляет собой многоступенчатый процесс, допустимо принимать решение о количестве остающихся факторов на различных этапах расчета — либо в процессе выделения факторов, либо после этого. Однако лишь на последних этапах получают важную информацию о количестве факторов, которые следует оставить. Основная стратегия при этом состоит в том, чтобы вначале выделить на один фактор больше, а затем либо отбросить его, либо оставить на основании дальнейших результатов анализа и дополнительных критериев.

Важнейший критерий количества оставляемых факторов — получение простой структуры после вращения. Существуют специальные статистические тесты, позволяющие определять простоту полученной факторной структуры (Иберла, 1980). Таким образом, решение о количестве факторов может быть окончательно принято лишь после вращения и оценки простоты факторной структуры с помощью статистических критериев.

Вопрос о количестве факторов, подлежащих выделению, может быть поставлен по-разному. Заведомо недостаточна постановка вопроса только в статистическом смысле, а именно о проверке значимости по какой-то формуле. Также недостаточно использовать только такие критерии, которые, например, связаны с долями дисперсии или количеством собственных значений больше единицы. Для ответа на такой важный вопрос нужно привлечь целый ряд критериев, позволяющих сделать дифференцированное заключение, попытаться применить к одним и тем же данным комбинацию различных независимых критериев и принять только те результаты, которые проходят по всем критериям (Факторный..., 1989).

Если надо быстро и приблизительно оценить количество факторов, то рекомендуется следующее правило. Выделенных факторов должно быть менее половины от количества переменных, но больше (или равно) количества собственных значений корреляционной матрицы, превышающих единицу. Вклад общих факторов в суммарную общность должен составлять около 90%. Остатки корреляционной матрицы должны быть приблизительно нормально распределены со средним значением, равным нулю, и стандартным отклонением, не превышающим значения: s =1/Ö (n — 2), где n — количество наблюдений. Наконец, должен быть проведен тест с применением какого-либо статистического критерия, который при выделенных г факторах не превышает соответствующую табличную величину с заданными уровнем значимости и степенями свободы. Если по этим критериям выносятся решения, не противоречащие друг другу, то можно удовлетвориться именно этими г факторами. При малом количестве переменных вышеназванные критерии обычно дают схожие результаты (Иберла, 1980).

Для более тщательной оценки количества выделяемых факторов должны быть выполнены как минимум следующие процедуры. Вначале применяется «критерий следа» и устанавливается верхняя граница количества факторов, подлежащих выделению. После оценки общностей по установленным факторам выполняется вычислительная процедура с помощью метода главных факторов. Затем применяется вращение до получения косоугольной простой структуры. Факторы, соответствующие простой структуре и подтверждаемые каким-либо статистическим критерием, интерпретируются, и затем принимается окончательное решение о количестве факторов, достаточно полно объясняющих наблюдаемые корреляции. Анализируется также график долей дисперсий оставшихся факторов, определяется остаточная корреляционная матрица, проверяется на нормальность распределение остатков с выполнением условия, чтобы стандартное отклонение не превышало s =1/Ö (n — 2).

Разные критерии не всегда точно согласуются между собой. Когда все они не удовлетворяются, это может служить точным указанием на необходимость выделения еще одного фактора. После применения более мощного критерия и попытки содержательного описания этого нового фактора принимается окончательное решение о его включении в факторную структуру.

Окончательное решение должно быть приемлемым с точки зрения содержательных представлений в данной области. Это «обходный маневр», но мы вынуждены предпринять его, если хотим, чтобы нашими результатами могли воспользоваться другие исследователи. Однако не все согласны с этим принципом. Например Иберла считает его ошибочным и опасается, что исследователи, наделенные богатой фантазией, будут оставлять слишком много факторов, а исследователи с бедной фантазией будут довольствоваться малым.







Последнее изменение этой страницы: 2016-04-08; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.207.108.191 (0.011 с.)