Анализ связи между двумя переменными 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Анализ связи между двумя переменными



Хотя результаты одномерного анализа данных часто имеют самостоятельное значение, большинство исследователей уделяют основное внимание анализу связей между переменными. Самым простым и типичным является случай анализа взаимосвязи (сопряженности) двух переменных. Используемые здесь ме­тоды задают некоторый логический каркас, остающийся почти неизменным и при рассмотрении более сложных моделей, включающих множество перемен­ных. Устойчивый интерес социологов к двумерному и многомерному анализу данных объясняется вполне понятным желанием проверить гипотезы о при­чинной зависимости двух и более переменных. Ведь утверждения о причин­ных взаимосвязях составляют фундамент не только социальной теории, но и социальной политики (по крайней мере, так принято считать). Так как возмож­ности социологов проверять причинные гипотезы с помощью эксперимента, как уже говорилось, ограниченны, основной альтернативой является статистический анализ неэкспериментальных данных.

В общем случае для демонстрации причинно-следственного отношения между двумя переменными, скажем, X и Y, необходимо выполнить следующие требо­вания:

1) показать, что существует эмпирическая взаимосвязь между переменными;

2) исключить возможность обратного влияния Y на Х;

3) убедиться, что взаимосвязь между переменными не может быть объяснена зависимостью этих переменных от какой-то дополнительной переменной (или переменных).

Первым шагом к анализу взаимоотношений двух переменных является их пе­рекрестная классификация, или построение таблицы сопряженности. Речь идет о таблице, содержащей информацию о совместном распределении переменных. Допустим, в результате одномерного анализа данных мы установили, что люди сильно различаются по уровню заботы о своем здоровье: некоторые люди регу­лярно делают физические упражнения, другие — полностью пренебрегают за­рядкой. Мы можем предположить, что причина этих различий — какая-то дру­гая переменная, например, пол, образование, род занятий, доход и т. п.

Пусть мы располагаем совокупностью данных о занятиях физзарядкой и обра­зовании для выборки горожан. Для простоты мы предположим, что обе пере­менные имеют лишь два уровня: высокий и низкий. Так как данные об образо­вании исходно разбиты на большее количество категорий, нам придется их пе­регруппировать, разбив весь диапазон значений на два класса. Предположим, мы выберем в качестве граничного значения 10 лет обучения, так что люди, получившие неполное среднее и среднее образование, попадут в «низкую» гра­дацию, а остальные — в «высокую». (Это, конечно, большое огрубление, но мы используем его из соображений простоты.) Для занятий физическими упраж­нениями мы соответственно воспользуемся двумя категориями — «делают физ­зарядку» и «не делают физзарядку». Таблица 8.3 показывает, как могло бы выг­лядеть совместное распределение этих двух переменных.

Таблица 8.3

Взаимосвязь между уровнем образования и занятиями физкультурой

 

Занятия физкультурой Уровень образования Всего
низкий высокий
делают зарядку      
не делают зарядку      
всего      

 

В таблице 8.3 два столбца (для образования) и две строки (для занятий физ­культурой), следовательно, размерность этой таблицы 2x2. Кроме того, име­ются дополнительные крайний столбец и крайняя строка (маргиналы табли­цы), указывающие общее количество наблюдений в данной строке или в столб­це. В правом нижнем углу указана общая сумма, т. е. общее число наблюдений в выборке. Не давшие ответа уже исключены (для реальных данных их число также стоит указать, но не в таблице, а в подтабличной сноске). Заметим здесь, что многие исследователи при построении таких таблиц пользуются неписа­ным правилом: для той переменной, которую полагают независимой, отводит­ся верхняя строка (горизонталь), а зависимую располагают «сбоку», по верти­кали (разумеется, соблюдение этого правила не является обязательным и ниче­го с точки зрения анализа не меняет).

Обычно характер взаимоотношений между переменными в небольшой табли­це можно определить даже «на глазок», сравнивая числа в столбцах или стро­ках. Еще легче это сделать, если вместо абсолютных значений стоят проценты. Чтобы перевести абсолютные частоты, указанные в клетках таблицы, в про­центы, нужно разделить их на маргинальные частоты и умножить на 100. Если делить на маргинал столбца, мы получим процент по столбцу. Например, %, т. е. 19,6% имеющих низкий уровень образования делают зарядку (но не наоборот!). Если делить на маргинал строки, то мы получим другую величину — процент по строке. В частности, можно заметить, что 80% делающих зарядку, составляют люди с высоким уровнем образования Деление на общую численность выборки дает общий процент. Так, всего в выборке 50% людей, делающих зарядку.

Так как вывод о наличии взаимосвязи между переменными требует демонстра­ции различий между подгруппами по уровню зависимой переменной, при ана­лизе таблицы сопряженности можно руководствоваться простыми правилами. Во-первых, нужно определить независимую переменную и, в соответствии с принятым определением, пересчитать абсолютные частоты в проценты. Если независимая переменная расположена по горизонтали таблицы, мы считаем проценты по столбцу; если независимая переменная расположена по вертика­ли, проценты берутся от сумм по строке. Далее сравниваются процентные по­казатели, полученные для подгрупп с разным уровнем независимой перемен­ной, каждый раз внутри одной категории зависимой переменной (например, внутри категории делающих зарядку). Обнаруженные различия свидетельству­ют о существовании взаимосвязи между двумя переменными. (В качестве упражнения примените описанную процедуру к таблице 8.3, чтобы убедиться в наличии связи между уровнем образования и занятиями физкультурой.)

Отметим специально, что элементарная таблица сопряженности размерности 2x2 — это минимально необходимое условие для вывода о наличии взаимосвязи двух переменных. Знания о распределении зависимой переменной недоста­точно. Нельзя, например, утверждать, будто из того, что 75% детей-первенцев имеют интеллект выше среднего, а 25% — средний и более низкий, следует зависимость между порядком рождения и интеллектом. Необходимо проанали­зировать и распределение показателей интеллекта для детей-непервенцев. Ва­рьировать должна не только зависимая, но и независимая переменная.

Для таблиц размерности 2 х 2 и более можно рассчитать специальные показате­ли (статистики), дающие суммарное выражение степени взаимосвязи, ассоциа­ции между двумя переменными. Таких мер связи довольно много. Для случая двух номинальных переменных существуют два основных подхода к подсчету коэффициентов взаимосвязи. Проанализировав их общую логику, мы получим возможность ориентироваться в многообразии конкретных показателей, пред­лагаемых прикладными программами анализа данных. Первый подход базиру­ется на статистике, называемой «хи-квадрат». На ее основе можно рассчитать несколько коэффициентов взаимосвязи. Рассмотрим в качестве примера коэф­фициент «фи» (греч.j), формула для которого была впервые предложена сэром Карлом Пирсоном в 1901 году специально для того, чтобы сделать возможным анализ взаимосвязи между двумя переменными, измеренными на неколичествен­ном уровне.

Таблица 8.4



Поделиться:


Последнее изменение этой страницы: 2016-12-13; просмотров: 214; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.237.46.120 (0.058 с.)