Сравнительный анализ фа и КА (сходства, различия, ограничения). 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Сравнительный анализ фа и КА (сходства, различия, ограничения).



Не помню

19. Многомерное шкалирование в КА (дистантная модель) …..

Использование таблиц сопряженности для исследования связи двух или более номинальных переменных.

Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:

§ к маргинальной частоте по строке

§ к маргинальной частоте по столбцу

§ к объему выборки

Научные и статистические гипотезы, надежность связи (научная гипотеза, надежность связи, статистическая гипотеза: основная (нулевая), альтернативная, проверка статистической гипотезы).

Научная гипотеза

Гипотеза -- предположение или догадка, опирающаяся на полученные или уже имеющиеся данные. В смысле истинности она носит вероятностный характер. То есть истинность или ложность гипотезы в данный момент не установлена.

Функции гипотезы: обобщение опыта, исходный пункт рассуждения, задание цели (ориентировка исследования), интерпретация данных, защита других гипотез перед натиском новых появившихся фактов.

Классификация научных гипотез.

1. По назначению:

1. объясняющие -- претендующие на истинность;

2. рабочие -- не претендующие на истинность; используются для систематизации.

2. По содержанию.

1. гипотезы-факты -- предположения о существовании некоторых фактов;

2. гипотезы-законы -- предположения о существовании законов (устойчивых, регулярных, повторяющихся связей между фактами).

Существуют две фундаментальные точки зрения на гипотезу как предмет философского исследования: неопозитивистская (с 20-30 годов XX века) и постпозитивистская (со второй половины 50 годов XX века). Согласно первой, философия науки рассматривает контекст подтверждения (или оправдания), а контекст открытия -- прерогатива психологии науки. Понятие об этих контекстах ввёл Рейхенбах. Постпозитивисты (Хэнсон, Кун) включили контекст открытия в философию науки, но не в алгоритмическом смысле, а в аналитическом: анализируется связь новой идеи с имеющимся знанием. То есть гипотезы не возникают из ничего. Так или иначе они берутся как результат случайного или умышленного анализа имеющихся данных и теорий. Кун: парадигмальное знание может приводить к оригинальным гипотезам. Социокультурная ситуация, в частности, мировоззрение, учёного также влияет на выдвижение гипотез. Кроме этого есть субъективные факторы, например, интуиция. Однако интуиция срабатывает на фоне проделанной работы.

Проверка гипотезы состоит в следующем.

1. Оценка серьёзности гипотезы:

1. объяснение гипотезой всего круга явлений, для осмысления которого она выдвинута;

2. непротиворечивость гипотезы имеющимся знаниям (не всегда: например, квантовая гипотеза Планка, которую он назвал «актом отчаяния», противоречит классической физике);

3. экспериментальная проверяемость гипотезы;

4. принципиальная простота гипотезы.

2. Вывод следствий.

3. Сопоставление следствий с опытно-экспериментальным знанием.

Гипотезы, следствия которых согласуются с опытно-экспериментальным знанием, Карл Поппер, основатель школы критического рационализма, называл «правдоподобными», а не истинными, зато остальные гипотезы -- ложными (принцип фальсифицируемости). Пьер Дюгем в 1910-1915 годах и Уиллард Куайн, подчёркивали целостную природу теоретического знания и считали, что достаточно изменить часть, чтобы система согласовалась с фактами. Тезис Дюгема -- Куайна: исследователь может модифицировать систему знания перед контрпримерами (и может делать это до бесконечности). Имре Лакатос, ученик Поппера, придерживался этой же точки зрения: «природа может кричать ``нет'', но человеческая изобретательность может крикнуть ещё громче». Во второй половине XX века Лакатос, Кун, Фейерабенд не принимали фальсифицируемость как критерий ложности гипотез, считая, что реальная фальсификация должна осуществляться, когда модификация гипотезы не помогает или гипотеза усложняется и имеется более простая гипотеза. Однако исходная гипотеза еще может существовать вместе с новой, простой. Например, теория эфира существовала еще несколькок десятилетий после создания теории относительности. Фальсификация -- хронологически продолжительное явление.

 

Статистическая гипотеза, предположительное суждение о вероятностных закономерностях, которым подчиняется изучаемое явление. Как правило, С. г. определяет значения параметров закона распределения вероятностей или его вид. С. г. называется простой, если она определяет единственный закон распределения; в ином случае С. г. называется сложной и может быть представлена как некоторый класс простых С. г. Например, гипотеза о том, что распределение вероятностей является нормальным распределением с математическим ожиданием а = а0 и некоторой (неизвестной) дисперсией s 2 будет сложной, составленной из простых гипотез а = а0, (а0 и — заданные числа).

22. Программные продукты для обработки социологических данных, виды статистических пакетов, состояние и особенности российского рынка.

23. Ввод данных, контроль правильности ввода данных, пропущенные значения.

24. Визуализация результатов обработки социологических данных.

25. Гипотеза о независимости переменных на основе критерия Хи-квадрат

Одним из основных приложений критерия χ2 является его использование при анализе таблицсопряженности двух переменных для установления факта наличия и уровня значимостивзаимосвязи. Как правило, критерий у2 применяется для анализа таблиц сопряженностиноминальных признаков, однако" он может быть использован и при анализе взаимосвязипорядковых или интервальных (количественных) переменных, несмотря на то, что дляпоследних. случаев существуют более мощные тесты.

Рассмотрим общий случай - таблицу сопряженности двух переменных размером r × s. Обозначим:

nij - наблюдаемая частота (число объектов) в ячейке (ij) таблицы, так называемая фактическаяклеточная частота; n?ij - теоретически ожидаемая (по Н0) частота в этой ячейке, i = 1, 2,..., r, j= 1, 2,..., s; r - число строк, s - число столбцов.

- сумма по j-й строке маргинальные частоты

- сумма по j-у столбцу (7.31)

- общее число объектов или объем выборки.

 

В этом случае испытуемая гипотеза Н0: nij? n?ij или Н0: χ2 =0, альтернативная гипотеза H1: nij? n?ij. Критерий χ2 для проверки Н0 имеет вид:

. (7.32)

 

Расчет теоретически ожидаемых частот в ячейках таблицы сопряженности долженпроизводиться, как мы уже указывали выше, в предположении справедливости нулевойгипотезы. Нуль-гипотеза (Н0) в данном случае есть предположение о статистическойнезависимости рассматриваемых переменных. Как известно из теории вероятностей, двеслучайные величины (события) являются статистически независимыми, если вероятность ихсовместной реализации равна произведению вероятностей реализации каждой из них поотдельности, т. е.

,

где

В нашем случае выборочными оценками соответствующих вероятностей π будут являтьсявеличины р(хi, хj) = пij/п,

 

и поэтому расчет теоретически ожидаемой по Н0 частоты п?ij следует производить по формуле

(7.33)

 

т. е. произведение итогов по столбцу и строке, деленное на общий объем данных.

Если подставить выражение п?ij в формулу (7.32), то получим

(7.34)

 

Используя эту формулу, мы можем находить эмпирические значения критерия χ2 безпромежуточного вычисления теоретических частот в явном виде.

Очевидно, что для определения эмпирического значения критерия χ2 нет необходимостирассчитывать все s теоретических частот в каждой строке, а достаточно найти лишь s - 1значение частоты в r - 1 строке, так как оставшиеся частоты могут быть получены как разностимежду маргинальными суммами эмпирических частот и суммами известных теоретических частот,т. е. значения теоретических частот в последних строке и столбце таблицы всегда полностьюдетерминированы. Поэтому число степеней свободы для r × s таблицы сопряженности равно:

d.f.= (r - 1) (s -1). (7.35)

Заметим, что для таблицы 2×2 число степеней свободы равно 1.

В таблице распределения статистики χ2d.f.α приведены значения этой величины дляразличных уровней значимости при различных числах степеней свободы (см. приложение, табл. 4). Например, на уровне α = 0,01 для d.f. = 1 мы находим χ2 = 10,827. Это означает, что равноеили большее значение этой величины χ2 может встретиться только один раз из тысячи приусловии, что все сделанные допущения (нуль-гипотеза) справедливы. Другими словами, есливыполняется предложение об отсутствии взаимосвязи между переменными, то крайнемаловероятно (Р < 0,001), что наблюдаемые и ожидаемые частоты будут отличатьсянастолько, что фактическая величина χ2 будет равной или большей 10,827. Если же χ2ф ≥χ2d.f.α, то гипотеза Н0 на данном уровне значимости а может быть отвергнута.

Вероятность того, что, отвергая нулевую гипотезу, мы совершаем ошибку (первого рода),которая численно равна уровню значимости о., задаваемому при проверке гипотезы.

Интерпретация χ2 теста зачастую усложняется, когда в таблице сопряженности имеютсяячейки с нулевыми значениями наблюдаемых частот. Дело в том, что если пара (хi, хj) значенийпеременных не наблюдалась в выборке, то это может означать, что объем выборки не стольвелик, чтобы зафиксировать такую редкую комбинацию, либо что данная комбинацияневозможна по каким-то объективным причинам. В последнем случае действительное числостепеней свободы анализируемой системы меньше числа степеней свободы таблицысопряженности, на основании которого произведена оценка уровня значимости χ2 теста.

Корректировка применения χ2 теста возможна лишь в том случае, если эмпирические данные,наполняющие таблицу сопряженности, есть результаты независимой случайной выборкиотносительно большого объема п. Последнее требование вызвано тем, что выборочноераспределение χ2 аппроксимирует табличное распределение статистики χ2 только прибольших п. Естественно, возникает вопрос о том, насколько велико должно быть п, чтобыиметь возможность использовать данный тест. Ответ на этот вопрос зависит от числа ячеек ивеличин маргинальных сумм. Вообще говоря, чем меньше число ячеек и чем более близки междусобой по величине маргиналы, тем меньше может быть п. Существует, однако, практическоечисло, позволяющее оценить снизу по п диапазон возможного применения критерия χ2: если вданной таблице сопряженности любая из теоретических ожидаемых частот п?ij в ячейке (i, j) небольше 5, то рекомендуется произвести, если это возможно, модификацию таблицы либовоспользоваться другим критерием.

В общем случае корректировка таблицы размера r? s затруднительна. Практика показала, чтоесли число ячеек велико, а ожидаемые частоты, равные или меньше пяти, встречаются лишь водной-двух ячейках, то проведение корректировки нецелесообразно; во всех иных случаяхразумной альтернативой является объединение категорий (градаций) с тем, чтобыэлиминировать подобные ячейки. Естественно, такое объединение должно быть таким, чтобыполучаемая в результате комбинация не была содержательно бессмысленной.

Пример. Согласно опросу 157 предпринимателей, работающих в приватизированных кафе иресторанах, относительно оценки возможностей деятельности при разных формахсобственности получены следующие данные (табл. 7.7).

Таблица 7.7

Исходные данные

 

Формысобственности Оценка в возможностей деятельности
крайненеблагоприятно неблагоприятно трудносказать благоприятно исключительноблагоприятно итого
Один владелец            
Товарищество            
Товарищество софаниченнойответственностью            
Итого            

 

Испытаем гипотезу о независимости переменных Н0: пij = n?ij, где пij - генеральные частоты,оценками которых выступают выборочные частоты пij. Теоретические частоты, рассчитанные всоответствии с нуль-гипотезой как представлены в табл. 7.8.

Таблица 7.8

Теоретические частоты

 

  Формы собственности Оценка возможностей деятельности
крайненеблагоприятно неблагоприятно трудносказать благоприятно исключительноблагоприятно итого
Один владелец 11,6 12,7 8,3 17,1 7,3  
Товарищество 8,2 8,9 5,9 11,9 5,1  
Товарищество сограниченнойответственностью 12,2 13,4 8,8 18,0 7,6  
Итого            

 

Таким было бы распределение ответов о возможностях деятельности, если бы формысобственности никак не сказывались. Задавая уровень значимости α = 0,05, наводим по табл. 4приложения критическое значение критерия χ22 α, df при числе степеней свободы d.f. = (3 - 1)(5-1) = 8. Отсюда χ22 α, df = 15,51.

Различия между фактическими и теоретическими клеточными частностями обобщаются ввеличине χ2:

 

Так как χ2факт > χ2крит, Н0 отклоняется, т.е. форма собственности небезразлична длядеятельности кафе и ресторанов. Таким образом, наблюдаемое значение χ2 является значимымна 5%-ном уровне значимости, и нулевая гипотеза может быть отвергнута в пользуальтернативной.

Итак, мы рассмотрели один из возможных способов ответа на вопрос: существует ли связьмежду двумя переменными? Для этого мы выдвинули нулевую гипотезу, что такой связи нет, азатем рассмотрели способ статистического испытания этой гипотезы. Мы можем оценитьвеличину риска в принятии предположения о существовании связи. Но означает ли это, чтоданная связь существенна с точки зрения ее силы? Вовсе не обязательно. Вопрос о силе илистепени, тесноте зависимости — это иной вопрос, отличный от вопроса о существованиивзаимосвязи.

В социально-экономических исследованиях, как правило, установление факта наличия связимежду переменными не самоцель. Установив наличие связи, исследователь должен измерить еесилу (тесноту) с тем, чтобы иметь возможность сравнивать взаимосвязи между различнымихарактеристиками, выделять наиболее сильные из них (см. гл. 8).

 

 

 



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 225; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.138.101.95 (0.033 с.)