Интервальная шкала (она же шкала разностей) 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Интервальная шкала (она же шкала разностей)



Генеральная совокупность и выборка (исследование начинается с предположения, генеральная совокупность. Выборка, репрезентативность выборки, простой случайный отбор, стратифицированный случайный отбор, статистическая достоверность, объем выборки, зависимые и независимые выборки,)

Генеральная совокупность, генеральная выборка (от лат. generisобщий, родовой)(в англ. терминологии — population) — совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность - это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, женщины 10-89 лет, использующие крем для рук определённых марок не реже раза в неделю, и имеющие доход не ниже $150 на одного члена семьи.

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

· Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.

· Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

· Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

· Существует необходимость в сборе первичной информации.

· Репрезентати́вность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана.

· Также репрезентативность можно определить как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.

· [править]Пример

· Предположим, совокупность — это все учащиеся школы (600 человек из 20 классов, по 30 человек в каждом классе). Предмет изучения — отношение к курению. Выборка, состоящая из 60 учеников старших классов, гораздо хуже представляет совокупность, чем выборка из тех же 60 человек, в которую войдут по 3 ученика из каждого класса. Главной причиной тому — неравное возрастное распределение в классах. Следовательно, в первом случае репрезентативность выборки низкая, а во втором случае репрезентативность высокая (при прочих равных условиях).

 

ПРОСТАЯ СЛУЧАЙНАЯ ВЫБОРКА (SIMPLE RANDOM SAMPLING — SRS) - Вероятностный метод выборки, согласно которому каждый элемент генеральной совокупно­сти имеет известную и равную вероятность отбора. Каждый элемент выбирается независимо от каждого другого элемента, и выборка формируется произвольным отбором элементов из основы выборки.

При простой случайной выборке исследователь сначала формирует основу выборочного на­блюдения, в которой каждому элементу присваивается уникальный идентификационный но­мер. Затем генерируются случайные числа, чтобы определить номера элементов, которые будут включены в выборку. Эти случайные числа могут генерироваться компьютерной программой.

Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информа­ции с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения. Во-первых, часто сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

Во-вторых, результатом применения простой случайной выборки может стать большая совокуп­ность, либо совокупность, распределенная по большой географической территории, что значи­тельно увеличивает время и стоимость сбора данных. В-третьих, результаты применения про­стой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов. В-четвертых, в результа­те применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полу­ченные простым случайным отбором, в среднем адекватно представляют генеральную сово­купность, некоторые из них крайне некорректно представляют изучаемую совокупность. Веро­ятность этого особенно велика при небольшом объеме выборки. Простая случайная выборка не часто используется в маркетинговых исследованиях. Более популярен метод систематической выборки.

СТРАТИФИЦИРОВАННАЯ, ИЛИ РАССЛОЕННАЯ, ВЫБОРКА (stratified sampling) — это процесс, состоя­щий из двух этапов, в котором совокупность делится на подгруппы (слои, страты,strata). Слои должны взаимно исключать и взаимно дополнять один другого, чтобы каждый элемент сово­купности относился к одному и только одному слою, и ни один элемент не был упущен. Далее, из каждого слоя случайным образом выбираются элементы, при этом обычно используется ме­тод простой случайной выборки. Формально, выбор элементов из каждого слоя может осущест­вляться только с помощью SRS. Однако на практике иногда применяется систематический от­бор и другие вероятностные выборочные методы. Отличие стратифицированной выборки от квотной состоит в том, что элементы в ней выбираются скорее случайно, а не из удобства или на основании мнения исследователя. Главная задача стратифицированной выборки — увели­чение точности без увеличения затрат.

В статистике величину называют статисти́чески зна́чимой, если мала вероятность её случайного возникновения или еще более крайних величин. Здесь под крайностью понимается степень отклонения тестовой статистики от нуль-гипотезы. Разница называется «статистически значимой», если появление имеющихся данных (или еще более крайних данных) было бы маловероятно, если предположить, что эта разница отсутствует; это выражение не означает, что данная разница должна быть велика, важна, или значима в общем смысле этого слова.

 

Объём выборки

Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30—35.

[править]Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

· пары близнецов,

· два измерения какого-либо признака до и после экспериментального воздействия,

· мужья и жёны

· и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

· мужчины и женщины,

· психологи и математики.

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

· t-критерий Стьюдента

· Критерий Уилкоксона

· U-критерий Манна-Уитни

· Критерий знаков

· и др.

 

2. Измерение признака, измерительные шкалы (привести примеры) (номинативная шкала, порядковая шкала, интервальная шкала, шкала отношений).

Шкала – алгоритм, с помощью которого осуществляется измерение в тех случаях, когда оно является отображение изучаемых объектов, в числовую математическую систему.

Номинальная шкала используется для регистрации самого низшего уровня измерений, предполагающего наличие минимальных предпосылок для измерения. При измерениях на данном уровне практически не используются числа. Здесь важно установить подобие или различие объектов по некоторому признаку, т. е. при этом имеют дело с качественными данными. Рассмотрим примеры.

- Распределения учащихся по классам, по половому признаку, по месту жительства, по видам спорта, которыми они занимаются, по числу детей в семье являются примерами величин номинальной шкалы. При этом возможно распределение учащихся по двум или более признакам (двумерные или многомерные данные).

- Перечень фирм, занимающихся производством грузовых и легковых автомобилей, автомобилей специального назначения, автобусов; отличительные признаки автомобилей являются примерами величин номинальной шкалы.

Порядковая, или ранговая, шкала указывает лишь последовательность носителей признака или направление степени выраженности признака.

Например, учащихся можно ранжировать по количеству правильно выполненных тестовых заданий. Пусть учащиеся А, Б, В, Г, Д правильно выполнили соответственно 21, 16, 12, 9 и 3 задания. Графически это можно изобразить так

Коэффициент корреляции, функциональные связи (коэффициент корреляции, Пирсона, Спирмена, Кендалла, функциональные связи: линейные, нелинейные, положительная, отрицательная, монотонная, немонотонная, диаграмма рассеивания, сила связи, направление связи).

 

Коэффициент корреляции является одним из самых востребованых методов математической статистики в психологических и педагогических исследованиях. Формально простой, этот метод позволяет получить массу информации и сделать такое же количество ошибок. В этой статье мы рассмотрим сущность коэффициента корреляции, его свойства и виды.

Слово correlation (корреляция) состоит из приставки «co-», которая обозначает совместность происходящего (по аналогии с «ко ординация») и корня «relation», переводится как «отношение» или «связь» (вспомним public relations – связи с общественностью). Дословно correlationпереводится как взаимосвязь.

Коэффициент корреляции — это мера взаимосвязи измеренных явлений.

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или (тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).

7.Дисперсионный анализ, общие понятия и назначение (специфика, независимая и зависимая переменная, четыре варианта ANOVA: однофакторный, многофакторный, с повторными измерениями, многомерный).

ДИСПЕРСИОННЫЙ АНАЛИЗ [variance analysis] — раздел математической статистики, посвященный методам выявления влияния отдельных факторов на результат эксперимента (физического, производственного, экономического эксперимента). Д. а. возник как средство обработки результатов агрономических опытов, с помощью которых выявлялись наиболее благоприятные условия для сортов сельскохозяйственных культур.

При этом исходят из положения о том, что существенность фактора в определенных условиях характеризуется его вкладом в дисперсию результата. Английский статистик Р. Фишер, разработавший этот метод, определил его как “отделение дисперсии, приписываемой одной группе причин, от дисперсии, приписываемой другим группам”16.

Анализ производится следующим образом. Сначала группируют совокупность наблюдений по факторному признаку, находят среднее значение результата и дисперсию по каждой группе. Затем определяют общую дисперсию и вычисляют, какая доля ее зависит от условий, общих для всех групп, какая — от исследуемого фактора, а какая — от случайных причин. И наконец, с помощью специального критерия определяют, насколько существенны различия между группами наблюдений и, следовательно, можно ли считать ощутимым влияние тех или иных факторов.

Д. а. применяется в планировании эксперимента и в ряде областей экономических исследований, где он служит, в частности, предварительным этапом к регрессионному анализу статистических данных, поскольку позволяет выделить относительно небольшое (но достаточное для целей исследования) количество параметров регрессии.

16 Цит. по: Хьюстон А. Дисперсионный анализ. М., 1

Независимая переменная — в эксперименте переменная, которая намеренно манипулируется или выбирается экспериментатором с целью выяснить ее влияние на зависимую переменную.

Зависимая переменная — в научном эксперименте измеряемая переменная, изменения которой связывают с изменениями независимой переменной.

Независимой переменной, например, в психологическом эксперименте может считаться интенсивность стимула, а зависимой — способность испытуемого ощущать этот стимул.

[править]Виды связи между переменными

1. Зависимая переменная не чувствительна к изменениям независимой.

2. Монотонно возрастающая зависимость: увеличению значений независимой переменной соответствует изменение зависимой переменной.

3. Монотонно убывающая зависимость: увеличению значений независимой переменной соответствует уменьшение уровня зависимой переменной.

4. Нелинейная зависимость U-образного типа — обнаруживается в большинстве экспериментов, в которых выделяются особенности психической регуляции поведения

5. Инвертированная U-образная зависимость — получается в многочисленных экспериментах и корреляционных исследованиях.

6. Сложная квазипериодическая зависимость уровня зависимой переменной от уровня независимой.

 

ДИСПЕРСИОННЫЙ АНАЛИЗ (ANOVA) Статистический метод для одновременного сравнения двух или более средних значений. ANOVA выдает ряд значений (F значения), которые могут быть статистически проверены с тем, чтобы определить, существует ли значимая связь между экспериментальными переменными. См. F-тест.

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений.

Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

При проведении маркетинговых исследований часто приходится иметь дело с одновременным влиянием нескольких факторов. При определении влияния на зависимую переменную нескольких факторов можно использовать многофакторный дисперсионный анализ. Главное преимущество этого метода в том, что он позволяет исследователю изучать взаимодействие факторов. Взаимодействия (interaction) имеют место, когда эффекты одного фактора на зависимую переменную зависят от уровня других факторов.

Процедура многофакторного дисперсионного анализа аналогична процедуре однофакторного дисперсионного анализа. Статистики, соответствующие многофакторному дисперсионному анализу, также определяются аналогично определению статистик в однофакторном дисперсионном анализе. Рассмотрим простой пример, в который входят факторы Л^ и Л^суровня-ми С; и с, соответственно. В этом случае полная вариация раскладывается следующим образом:

Исследуем вопрос следующего характера: наблюдаются ли в течение четырёх моментов времени значимые изменения показаний теста на внимательность. При этом необходимо учесть влияние двух факторов: пола и возраста.

В общем, в нашем распоряжении имеется три фактора: пол с двумя категориями, возраст с тремя категориями и время с четырьмя категориями. Это приводит к необходимости выполнения трёхфакторного дисперсионного анализа, в котором третий фактор (время) является фактором с повторным измерением. Этот фактор будет представлен не при помощи отдельных групп испытуемых, а при помощи значений переменных ml-m4.

 

8.Множественный регрессионный анализ, общие понятия, назначение (зависимые и независимые переменные, линейная модель, требование к исходным данным в МРА, методы МРА).

 

Множественный регрессионный анализ – это метод установления зависимости одной переменной от двух или более независимых переменных. В то время как зависимая переменная (та переменная, которую Вы хотите предсказать) должна быть непрерывной (за исключением логистической регрессии), независимые переменные могут быть как прерывными, так и категориальными, такими как «пол» или «тип применяемого препарата». В случае категориальных независимых переменных необходимо будет создавать переменные «пустышки», а не использовать соответствующие значения (подробнее это будет обсуждено позднее). Если все независимые переменные являются категориальными (или большинство из них являются категориальными), то в этом случае лучше использовать дисперсионный анализ.

Имеются две причины для использования множественной регрессии, и они будут анализироваться по отдельности. Первая – это использование множественной регрессии в тех исследованиях, когда значения независимых переменных находились под экспериментальным контролем (например, когда изменялось количество применяемого препарата, или количество дней между приемами препарата). Обычно подобный подход называется «запланированная регрессия». Второй вариант включают ситуации, когда анализируется группа пациентов, у которых измерили некоторые количество естественно возникающих переменных (возраст, доход, уровень тревоги и т.д.), и эти переменные связываются с некой переменной, которая нас интересует. Обычно подобный подход называется «не экспериментальная регрессия».

Зависимые и независимые переменные. Независимыми переменными называются переменные, которые варьируются исследователем, тогда как зависимые переменные - это переменные, которые измеряются или регистрируются. Может показаться, что проведение этого различия создает путаницу в терминологии, поскольку как говорят некоторые студенты "все переменные зависят от чего-нибудь". Тем не менее, однажды отчетливо проведя это различие, вы поймете его необходимость. Термины зависимая и независимая переменная применяются в основном в экспериментальном исследовании, где экспериментатор манипулирует некоторыми переменными, и в этом смысле они "независимы" от реакций, свойств, намерений и т.д. присущих объектам исследования. Некоторые другие переменные, как предполагается, должны "зависеть" от действий экспериментатора или от экспериментальных условий. Иными словами, зависимость проявляется в ответной реакции исследуемого объекта на посланное на него воздействие. Отчасти в противоречии с данным разграничением понятий находится использование их в исследованиях, где вы не варьируете независимые переменные, а только приписываете объекты к "экспериментальным группам", основываясь на некоторых их априорных свойствах. Например, если в эксперименте мужчины сравниваются с женщинами относительно числа лейкоцитов (WCC), содержащихся в крови, то Пол можно назвать независимой переменной, а WCC зависимой переменной.

В начало

 


Главное требование к исходным данным – отсутствие линейных взаимосвязей между переменными, когда одна переменная является линейной производной другой переменной. Таким образом, нельзя пользоваться суммой переменных или их средним арифметическим наряду с самими переменными. Соответственно, недопустимы переменные, коэффициент корреляции которых с любой другой переменной равен 1. Следует избегать включения в анализ переменных, корреляция между которыми больше 0,8.

^ Следующее требование – переменные должны быть измерены в метрической шкале (интервалов или отношений) и иметь нормальное распределение. При нарушении этого требования, однако, результаты могут быть полезны, если, конечно, соблюдать известную осторожность.

Желательно отбирать для МРА «независимые» переменные, сильно коррелирующие с «зависимой» переменной и слабо – друг с другом. Если «независимых» переменных много и наблюдается множество связей между ними, то перед МРА целесообразно провести факторный анализ этих «независимых» переменных с вычислением значений факторов для объектов.

При анализе на компьютере (например, при помощи SPSS) можно выбрать метод МРА: исходный или стандартный (Enter), прямой пошаговый (Forward), обратный пошаговый (Backward) или комбинированный пошаговый (Stepwise). Пошаговые методы позволяют в автоматическом режиме подобрать оптимальную комбинацию независимых переменных, обеспечивающую наибольшую статистическую значимость как КМК, так и β -коэффициентов.

Стандартный метод учитывает в МРА все «зависимые» переменные. Пошаговый метод обычно выступает в нескольких модификациях, основными из которых являются прямой и обратный метод.

^ Прямой пошаговый метод поочередно включает в регрессионное уравнение каждую переменную, начиная с наиболее тесно коррелирующей с «зависимой» переменной, до тех пор, пока p -уровень значимости β -коэффициента последней из включенных переменных не превысит заданное значение (по умолчанию – 0,1). Обратный пошаговый метод поочередно исключает переменные из анализа, начиная с той, которая имеет наибольшее значение p -уровня значимости β -коэффициента, до тех пор, пока все оставшиеся переменные не будут иметь статистически значимые β -коэффициенты (по умолчанию р≤0, 1). Таким образом, пошаговые методы позволяют отсеивать несущественные для предсказания «независимые» переменные – те, β-коэффициенты которых статистически не достоверны. Следует отметить, что разные варианты пошагового метода могут давать разные результаты, поэтому следует применить каждый из них и выбрать наиболее приемлемый конечный результат.

9.Факторный анализ, основные понятия и назначение (цель и результат ФА, назначение ФА, факторные нагрузки, интерпретация факторов).

Факторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки.

Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.

Таким образом можно выделить 2 цели Факторного анализа:

· определение взаимосвязей между переменными, (классификация переменных), т. е. «объективная R-классификация»[1][2];

· сокращение числа переменных необходимых для описания данных.

При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он — единственный математически обоснованный метод факторного анализа[1][3].

Факторный анализ может быть:

· разведочным — он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках;

· конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках (примечание 2).

[править]Условия применения факторного анализа

Практическое выполнение факторного анализа начинается с проверки его условий. В обязательные условия факторного анализа входят:

· Все признаки должны быть количественными.

· Число наблюдений должно быть в два раза больше числа переменных.

· Выборка должна быть однородна.

· Исходные переменные должны быть распределены симметрично.

· Факторный анализ осуществляется по коррелирующим переменным[3].

[править]Основные понятия факторного анализа

· Фактор — скрытая переменная

· Нагрузка — корреляция между исходной переменной и фактором

[править]Процедура вращения. Выделение и интерпретация факторов

Сущностью факторного анализа является процедура вращения факторов, то есть перераспределения дисперсии по определённому методу. Цель ортогональных вращений — определение простой структуры факторных нагрузок, целью большинства косоугольных вращений является определение простой структуры вторичных факторов, то есть косоугольное вращение следует использовать в частных случаях. Поэтому ортогональное вращение предпочтительнее. Согласно определению Мюльека простая структура соответствует требованиям:

· в каждой строке матрицы вторичной структуры V должен быть хотя бы один нулевой элемент;

· Для каждого столбца k матрицы вторичной структуры V должно существовать подмножество из r линейно-независимых наблюдаемых переменных, корреляции которых с k-м вторичным фактором — нулевые. Данный критерий сводится к тому, что каждый столбец матрицы должен содержать не менее r нулей.

· У одного из столбцов каждой пары столбцов матрицы V должно быть несколько нулевых коэффициентов (нагрузок) в тех позициях, где для другого столбца они ненулевые. Это предположение гарантирует различимость вторичных осей и соответствующих им подпространств размерности r—1 в пространстве общих факторов.

· При числе общих факторов больше четырех в каждой паре столбцов должно быть некоторое количество нулевых нагрузок в одних и тех же строках. Данное предположение дает возможность разделить наблюдаемые переменные на отдельные скопления.

· Для каждой пары столбцов матрицы V должно быть как можно меньше значительных по величине нагрузок, соответствующих одним и тем же строкам. Это требование обеспечивает минимизацию сложности переменных.

(В определении Мьюлейка через r обозначено число общих факторов, а V — матрица вторичной структуры, образованная координатами (нагрузками) вторичных факторов, получаемых в результате вращения.) Вращение бывает:

· ортогональным

· косоугольным.

При первом виде вращения каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, поэтому факторы оказываются независимыми, некоррелированными друг от друга (к этому типу относится МГК). Второй вид — это преобразование, при котором факторы коррелируют друг с другом. Преимущество косоугольного вращения состоит в следующем: когда в результате его выполнения получаются ортогональные факторы, можно быть уверенным, что эта ортогональность действительно им свойственна, а не привнесена искусственно. Существует около 13 методов вращения в обоих видах, в статистической программе SPSS 10 доступны пять: три ортогональных, одинкосоугольный и один комбинированный, однако из всех наиболее употребителен ортогональный метод «варимакс». Метод «варимакс» максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности[1][3][2].

Главной проблемой факторного анализа является выделение и интерпретация главных факторов. При отборе компонент исследователь обычно сталкивается с существенными трудностями, так как не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов. Существует несколько часто употребляемых критериев определения числа факторов. Некоторые из них являются альтернативными по отношению к другим, а часть этих критериев можно использовать вместе, чтобы один дополнял другой:

· Критерий Кайзера или критерий собственных чисел. Этот критерий предложен Кайзером, и является, вероятно, наиболее широко используемым. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается[1].

· Критерий каменистой осыпи или критерий отсеивания. Он является графическим методом, впервые предложенным психологом Кэттелом. Собственные значения возможно изобразить в виде простого графика. Кэттел предложил найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только «факториальная осыпь» — «осыпь» является геологическим термином, обозначающим обломки горных пород, скапливающиеся в нижней части скалистого склона[1]. Однако этот критерий отличается высокой субъективностью и, в отличие от предыдущего критерия, статистически необоснован. Недостатки обоих критериев заключаются в том, что первый иногда сохраняет слишком много факторов, в то время как второй, напротив, может сохранить слишком мало факторов; однако оба критерия вполне хороши при нормальных условиях, когда имеется относительно небольшое число факторов и много переменных. На практике возникает важный вопрос: когда полученное решение может быть содержательно интерпретировано. В этой связи предлагается использовать ещё несколько критериев.

· Критерий значимости. Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия[1].

· Критерий доли воспроизводимой дисперсии. Факторы ранжируются по доле детерминируемой дисперсии, когда процент дисперсии оказывается несущественным, выделение следует остановить[1]. Желательно, чтобы выделенные факторы объясняли более 80 % разброса. Недостатки критерия: во-первых, субъективность выделения, во-вторых, специфика данных может быть такова, что все главные факторы не смогут совокупно объяснить желательного процента разброса. Поэтому главные факторы должны вместе объяснять не меньше 50,1 % дисперсии.

· Критерий интерпретируемости и инвариантности. Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация. Она, в свою очередь, зависит от величины факторных нагрузок, то есть если в факторе есть хотя бы одна сильная нагрузка, он может быть интерпретирован. Возможен и обратный вариант — если сильные нагрузки имеются, однако интерпретация затруднительна, от этой компоненты предпочтительно отказаться[1][3].

Практика показывает, что если вращение не произвело существенных изменений в структуре факторного пространства, это свидетельствует о его устойчивости и стабильности данных. Возможны ещё два варианта: 1). сильное перераспределение дисперсии — результат выявления латентного фактора; 2). очень незначительное изменение (десятые, сотые или тысячные доли нагрузки) или его отсутствие вообще, при этом сильные корреляции может иметь только один фактор, — однофакторное распределение. Последнее возможно, например, когда на предмет наличия определённого свойства проверяются несколько социальных групп, однако искомое свойство есть только у одной из них.

Факторы имеют две характеристики: объём объясняемой дисперсии и нагрузки. Если рассматривать их с точки зрения геометрической аналогии, то касательно первой отметим, что фактор, лежащий вдоль оси ОХ, может максимально объяснять 70 % дисперсии (первый главный фактор), фактор, лежащий вдоль оси ОУ, способен детерминировать не более 30 % (второй главный фактор). То есть в идеальной ситуации вся дисперсия может быть объяснена двумя главными факторами с указанными долями[4]. В обычной ситуации может наблюдаться два или более главных факторов, а также остаётся часть неинтерпретируемой дисперсии (геометрические искажения), исключаемая из анализа по причине незначимости. Нагрузки, опять же с точки зрения геометрии, есть проекции от точек на оси ОХ и ОУ (при трёх- и более факторной структуре также на ось ОZ). Проекции — это коэффициенты корреляции, точки — наблюдения, таким образом, факторные нагрузки являются мерами связи. Так как сильной считается корреляция с коэффициентом Пирсона R ≥ 0,7, то в нагрузках нужно уделять внимание только сильным связям. Факторные нагрузки могут обладать свойством биполярности — наличием положительных и отрицательных показателей в одном факторе. Если биполярность присутствует, то показатели, входящие в состав фактора, дихотомичны и находятся в противоположных координатах[1].

Методы факторного анализа:

· метод главных компонент

· корреляционный анализ

· метод максимального правдоподобия

10.Анализ главных компонент факторного анализа (модель главных компонент, компонентная нагрузка).

Главными целями факторного анализа являются: (1) сокращение числа переменных (редукция данных) и (2) определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации. Ниже описываются принципы факторного анализа и способы его применения для достижения этих двух целей.

Метод главных компонент



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 371; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 44.197.116.176 (0.066 с.)