Статистическая обработка и анализ эмпирической информации 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Статистическая обработка и анализ эмпирической информации



Социальные явления и процессы, которыми зани­мается социология, имеют массовый характер. Поэтому одним из главных инструментов социологического ана­лиза является статистика - наука о том, как собирать, анализировать и интерпретировать данные о массовых явлениях и процессах.

Традиционно выделяют две основные функции ста­тистики - описательную и аналитическую (объясняющую). Методы описательной статистики применяются для по­лучения обобщенных сведений о больших совокупностях объектов (в том числе людей); понятие обработки дан­ных, как правило, связывают именно с ними. Аналитиче­ские методы статистики предназначены для проверки ги­потез о природе сил, действующих в изучаемых совокуп­ностях,-посредством анализа причинно-причинных связей между измеряемыми проявлениями этих сил.


Генеральные совокупности людей, которые изучает социология, часто слишком велики для того, чтобы их можно было исследовать полностью. Поэтому социологи­ческие исследования обычно бывают выборочными. Осо­бый раздел статистики - статистический вывод - позво­ляет обобщать результаты выборочного исследования на генеральную совокупность. Его приложения применяют­ся как при обработке, так и при анализе данных. При обработке данных используются главным образом методы статистического оценивания для исчисления ошибок вы­борки и построения доверительных интервалов. В анали­зе данных чаще применяются всевозможные процедуры проверки гипотез.

Как-описательные, так и аналитические методы могут применяться "вручную" (в том числе с использо­ванием калькуляторов) или с помощью компьютеров, которые в последние годы получили широкое распро­странение и стали доступными практически любому ис­следователю. Руководством по обработке данных вручную является фактически любой учебник по статистике. По­этому здесь основное внимание мы уделим проблемам компьютерной обработки и анализа данных.

Существует множество программных средств, с по­мощью которых можно обрабатывать социологическую информацию. Они делятся на два больших класса: спе­циализированные программные средства для социологов, например, ОСА (Киевский госуниверситет), СОЦИОЛОГ (Институт социологии РАН), ДА-система (Контекст), и универсальные статистические пакеты программ, из которых наиболее часто социологии используют 8Р85 (Зшизйса! Рго§гат Гог 8ос1а1 8с1епсе$). Для использования этих программ нужна специальная подготовка социоло­гической информации.

Воспользуемся рабочим определением, согласно ко­торому информация - это сведения об окружающем мире и протекающих в нем процессах, которые можно хра­нить, перерабатывать и передавать от одного субъекта наблюдения к другому. Для того, чтобы осуществлять эти операции, информацию необходимо структурировать и формализовать. Структурирование предполагает ответы на


"


вопросы, какие показатели и на каких объектах необхо­димо измерить, какие индикаторы для этого следует за­фиксировать. Формализация обычно включает процедуры построения выборки, доступа к информации и ее фикса­ции, а также измерительные процедуры. Формализован­ную и структурированную информацию часто называют данными исследования, а процесс формализации - сбором данных.

Большинство статистических программ использует представление данных в виде матрицы типа "объект-признак" (Рис. 9). В матрице данных каждая строка от­водится одному объекту (1, 2,..., п), а каждый столбец -одному признаку переменной (Хь Х^,..., Х^). На пересе­чении 1-той строки и ]-того столбца находится значение ху признака ] для объекта с номером 1.

 

Объекты " Переменные
  X! Х2 Х3   х.   х,
  Хп х!2 Хв   ^   Х1К
  Х21 Х22 Х23   Х21   Х2
               
  Хп Х;2 Х13   х«   Х;1с
               
п ХП1 Х„2 хпз   ^11)   Хц)с

Рис. 9. Матрица данных.

Подготовка данных к обработке (и анализу) - один из наиболее трудо- и времяемких этапов эмпирического исследования. В нем можно условно выделить несколько шагов: сбор и кодирование данных; ввод данных в ком­пьютер; проверка и чистка данных; специальная подго­товка данных.

Этап сбора и кодирования данных включает запол­нение инструментария: проверку инструментария на пра­вильность и полноту заполнения; кодирование открытых вопросов, вопросов со сложной структурой и пропущен­ных значений.

Еще несколько лет назад разработчики социологи­ческого инструментария помимо основной задачи должны


были окончательно решить все проблемы измерения и предстоящего ввода: данных, использования персональных компьютеров и современных программных средств, вклю­чающих мощные подсистемы преобразования данных, произвели в этой области настоящую революцию. Теперь все внимание исследователя концентрируется на содержа­тельной стороне задачи.

Инструментарий должен быть удобен, прост в за­полнении и позволять фиксировать информацию с мак­симально возможной полнотой и точностью, а центр тя­жести "технической" работы переносится на процедуры кодирования, организации ввода данных и их специаль­ной подготовки.

Например, в прошлом для исследования состава семьи от респондента требовалось множество ответов на вопросы типа: Выросли ли Вы в полной семье? Жили ли с Вами бабушки или дедушки? По материнской или от­цовской линии? Были ли у Вас приемные родители? Бра­тья и сестры? и т.д. Теперь респонденту предлагается максимально полный с точки зрения целей исследования список членов семьи, в котором он должен отметить, с кем именно жил при поступлении в школу или оконча­нии 9-го класса: (1) отец; (2) мать; (3) приемный отец; (4) приемная мать (5) сестры и братья; (6) бабушка по материнской линии; (7) бабушка по отцовской линии; (8) дедушка по материнской линии; (9) дедушка по отцов­ской линии; (10) другие родственники.

Фиксация наличия (отсутствия) каждого родствен­ника в дальнейшем позволяет легко формировать и ис­следовать группы семей любого состава: полные, непол­ные, с приемными родителями, со свекровью или с те­щей, многодетные семьи и т.п. Обязанность фиксировать наличие (отсутствие) возлагается на кодировщика, ко­торый в приведенном примере должен около каждого пункта списка поставить "1", если соответствующий че­ловек в семье был, и "О" - если не был.

Еще одной особенностью современного инструмен­тария является значительное число "открытых" вопросов. Например, при исследовании социальной миграции ука­зывают названия населенных пунктов, предприятий, про­фессий, время переезда или увольнения с работы; при


исследовании доходов - суммы с указанием валюты; при изучении политических предпочтений - фамилии поли­тиков и названия партий. Перевод такой информации в коды для компьютерной обработки также осуществляется кодировщиком, которого необходимо снабдить соответ­ствующими инструкциями и кодировочными таблицами. При этом рекомендуется первоначально использовать мак­симально подробное кодирование (например, шкала про­фессий 18СО включает 720 позиций), и лишь на этапах специальной подготовки и анализа данных осуществлять необходимые группировки.

Современная методология рекомендует дифферен­цированный подход к кодированию пропущенных значе­ний. Основные причины отсутствия ответов можно упо­рядочить по степени "легитимности":

- вопрос не относится к респонденту (например, к
безработному не относится вопрос о занимаемой долж­
ности);

- респондент не знает ответа на вопрос (например,
не знает политического деятеля и поэтому не может оце­
нить его программу);

- у респондента нет сложившегося мнения по за­
данному вопросу (знает, но никогда об этом не думал);

I- респондент знает ответ, но отказывается отвечать на вопрос; - ответа нет по неизвестной причине.

Пропуски, причины которых известны, при необ­ходимости могут быть включены в анализ, содержательно проинтерпретированы или даже "восстановлены" с по­мощью специальных процедур. Для них рекомендуется использовать отдельные коды, которые не встречаются в анкете: отрицательные числа или, наоборот, числа 999, 998 и т.п. Наиболее полную информацию о причинах от­сутствия ответов удается получить при контактных мето­дах сбора информации, но и в обычной анкете можно предусмотреть более точный инструмент их фиксации, чем "затрудняюсь ответить" в каждом вопросе.

Проверка правильности заполнения инструмента­рия проводится в соответствии со специальной инструк­цией, в которой оговариваются вопросы, относящиеся не

Зк. 1717 513


ко всем респондентам, и недопустимые сочетания отве­тов (например, высшее образование и утверждение, что после окончания школы респондент никогда больше не учился). Особое внимание уделяется полноте заполнения анкеты. Если в анкете много "нелегитимных" пропусков или найденные ошибки не удается исправить логически, следует обратиться к интервьюеру или самому респонденту за уточнениями.

В относительно простых случаях кодирование иногда совмещают с заполнением или проверкой инструмента­рия; однако в исследованиях сложных и ответственных рекомендуется, чтобы все три этапа осуществлялись раз­ными исполнителями.

В организации ввода данных в компьютер за послед­ние годы также произошли значительные изменения. Раньше инструментарий, предназначенный для компью­терной обработки, представлял собой своеобразный ма­кет ввода данных, в котором скрупулезно указывались номера перфокарт и позиций для каждого вопроса. Со­временные статистические пакеты позволяют создавать макеты ввода данных непосредственно в компьютере, не загромождая инструментарий избыточной информацией, например, макет ввода для пакета 8Р88, кроме формата переменных, может предусматривать проверку данных на допустимые значения и логическую совместимость, авто­матический пропуск вопросов, не относящихся к респон­денту. Это позволяет значительно снизить количество ошибок ввода.

Соответствие между переменными макета и вопро­сами инструментария удобно задавать именами перемен­ных, в которые встраиваются номера вопросов: Хь Х2 и т.п. Вопросы в инструментарии нумеруются произвольно, например, последовательно или блоками, с нумерацией пунктов внутри блока. В последнем случае вопросам, от­носящимся к первому блоку, могут соответствовать име­на переменных: vi 1 или vi2 и т.п.

При работе с распечатками удобно, чтобы в них ав­томатически включались не только имена переменных, но также текст вопросов и ответов на них. В 8Р88 для этого служат метки переменных и значений.


Проверка данных ^а допустимые значения и логи­ческую совместимость может осуществляться одновремен­но со вводом или после его завершения. В первом случае обнаруженные ошибки исправляются немедленно, во вто­ром - исправление ошибок выделяют в отдельный этап, который называется чисткой данных.

Специальная подготовка данных представляет собой преобразование их к виду, удобному для обработки и ана­лиза. При заполнении инструментария данные фиксиру­ют в форме, обеспечивающей максимальную полноту и точность информации, которая может показаться избы­точной. На этапе. подготовки окончательно формируют измерительные шкалы, вычисляют вторичные перемен­ные - индексы, осуществляют всевозможные группиров­ки данных. Все это делается с помощью команд языка управления пакетом. Такой подход существенно расши­ряет возможности анализа, так как позволяет на основе одного исходного набора данных опробовать различные шкалы и группировки.

После того как данные приведены к виду, удобно­му для исследователя, можно приступать к их обработке и анализу.

Статистическая обработка данных обычно начи­нается с вычисления основных характеристик распреде­ления изучаемых показателей. Прежде всего, это одно­мерные частотные распределения.

Для номинальных порядковых и дискретных коли­чественных признаков они показывают распространен­ность объектов с различными значениями; для непрерыв­ных количественных признаков, которые должны быть предварительно сгруппированы в интервалы, - число или долю объектов, попавших в каждый интервал. Частотные распределения могут быть представлены визуально в виде всевозможных графиков и диаграмм (Рис. 10).

Для количественных признаков вычисляют харак­теристики распределения, называемые описательными статистиками, - минимальное, максимальное, среднее арифметическое значения, дисперсию, границы процен-тилей (интервалов, содержащих определенное число на­блюдений), коэффициент асимметрии и другие. Эти ве­личины позволяют описать распределение более сжато.


О


% жителей

7.9 8'2 7.8

7.2

5.7

4.5

9.5
9.1
8.5
6.6
5.6

 

5 10 15 20 25 30 35 40 45 50 55 60 65 70 75


Возраст


 

 

 

Образование родителей Образование детей Всего
ПТУ общее среднее среднее спец. высшее
Неполное Среднее 127 23.5 168 31.2 153 28.3 92 17.0 540 100.0
Общее Среднее 36 14.2 76 29.9 71 28.0 71 28.0 254 100.0
Среднее Спец. 25 8.5 62 21.1 84 28.6 123 41.8 294 100.0
Высшее 5 3.0 23 13.8 24 14.5 114 68.7 166 100.0
Всего 193 15.4 329 26.2 332 26.5 400 31.9 1254 100.0

 


Рис. 10. Распределение населения г. Минска по возрасту.

При необходимости сопоставить распределение при­знака для разных групп респондентов. Одномерные рас­пределения по каждой группе (которые в этом случае удобнее представлять в относительных частотах - долях или процентах) могут быть сведены в одну компактную таблицу (Рис. 11).

 

 

Считаете ли Вы себя верующим? Пол
мужской женский
Нет 36.7 % 15.7 %
Отчасти 34.7% 54.1 %
Да 28.6% 30.2 %
Всего 100.0 % 100.0 %

Рис. 11. Распределение ответов студентов мужского и женского пола на вопрос об отношении к вере.

Такие таблицы не следует путать с таблицами со­пряженности, которые предназначены для исследования связи между признаками, и представляют их совместное распределение (Рис. 12).


Рис. 12. Распределение респондентов лонгитюдного проекта "Пути поколения" и их родителей по уровню образования.

Проверка гипотезы о статистической связи между признаками, представленными в таблице сопряженности, чаще всего осуществляется по критерию "хи-квадрат"; для измерения тесноты связи применяются различные коэф­фициенты, выбор которых зависит от характера таблицы.

Наиболее простые двумерные таблицы сопряженно­сти очень популярны среди социологов благодаря своей простоте, наглядности и универсальности. Это единствен­ный метод анализа связей, который может применяться при любых уровнях измерения признаков.

Для изучения линейных парных связей между коли­чественными показателями используется корреляционный анализ. Линейность связи означает, что значения одного признака изменяются (уменьшаются или увеличиваются) в среднем пропорционально увеличению значений дру­гого, при этом корреляция двух переменных не предпо­лагает объяснения изменений одной переменной изме­нениями другой, т.е. причинно-следственного характера связи между ними. Чаще всего корреляция является след­ствием воздействия каких-то более глубоких (и не всегда наблюдаемых) причин на оба показателя.

В тех случаях, когда связь между переменными име­ет нелинейный характер, а также для порядковых пере­менных, применяются коэффициенты ранговой корреляции.


'


Для описания структуры связей в некоторой сис­теме показателей применяется матрица корреляций - квад­ратная таблица, в каждой клетке которой помещают ко­эффициент корреляции для пары переменных (Рис. 13). Изучая ее, можно выделить блоки показателей, более тесно связанных друг с другом, чем с другими показате­лями этой же системы.

Рис. 13. Матрица корреляций (данные республиканского лонгитюдного проекта "Пути поколения")-

 

  У X] Х2 X, Х4 Х5 х*
У 1.00 0.15 0.30 0.19 0.23 0.24 0.21
X] 0.15 1.00 0.34 0.32 0.29 0.30 0.42
Ъ 0.30 0.34 1.00 0.39 0.45 0.67 0.35
Х3 0.19 0.32 0.39 1.00 0.35 0.41 0.30
Х4 0.23 0.29 0.45 0.35 1.00 0.52 0.26
х, 0.24 0.30 0.67 0.41 0.52 1.00 0.33
Х6 0.21 0.42 0.35 0.30 0.26 0.33 1.00

У - оценка удачности жизни в целом;

XI - возможность иметь интересную работу;

Х2 - возможность приобретать ценные вещи;

Хз - возможность жить по своему усмотрению;

Х4 - возможность хорошо питаться;

Хз - возможность покупать модную одежду;

Хе - возможность продвигаться.

Для того, чтобы проанализировать матрицу корре­ляций более строго, используют разведочный (эксплора-торный) факторный или кластерный анализ. Выделенные блоки переменных в дальнейшем часто используют для построения интегральных показателей - индексов. В этом случае говорят о снижении размерности пространства признаков.

Кластерный анализ применяется также для описа­ния структуры объектов, составляющих выборку.

Необходимо помнить, что все результаты, получен­ные с помощью статистической обработки, относятся только к выборке. Для того, чтобы обобщить их на гене-


ральную совокупность, необходимо обосновать репрезен­тативность выборки.

Статистический анализ социологических" данных обычно применяется к исследованию причинных связей между изучаемыми показателями или, точнее, к проверке гипотез о наличии и характере таких связей.

Для того, чтобы связь могла рассматриваться как причинная, необходимо (но не достаточно), чтобы вы­полнялись три принципа причинности (каузальности): 1) причины (предикторы) должны во времени предшест­вовать следствию и с очевидностью порождать (иниции­ровать) его наступление; 2) причины и следствие должны коррелировать друг с другом; 3) взаимосвязь причин и следствия должна быть изолирована от влияния третьих факторов, неучтенных в причинной модели, но способ­ных породить корреляцию между ними.

Популярным примером нарушения третьего прин­ципа причинности является зависимость ущерба, нанесен­ного пожаром, от числа тушивших его пожарных. В этом примере как будто выполняются два первых принципа: ущерб действительно коррелирует с числом занятых по­жарных, и тушение пожара предшествует подсчету ущер­ба. Однако обнаруженная связь является артефактом, ко­торый можно объяснить, например, зависимостью обоих показателей от третьего - масштаба пожара.

При решении практических задач легче всего про­веряется второй принцип - коррелированности показа­телей.

Выполнение первого принципа в рамках одномо­ментного социологического исследования проверить до­вольно сложно. Поэтому наиболее популярными предик­торами являются атрибутивные и статусные переменные, не нуждающиеся в такой проверке, - пол, раса, язык,. общеобразовательный и должностной статус, тип насе­ленного пункта и т.п. С целью обеспечить временной "зазор" между измерением причины и следствия, иногда, прибегают к ретроспективному исследованию жизненного пути - трудовой биографии, образовательного пути, ис­тории семьи, - в котором можно зафиксировать последо­вательность событий в жизни человека. Особую ценность


для изучения причинных связей представляют панельные и лонгитюдные исследования, которые позволяют в каче­стве предикторов использовать любые переменные, изме­ренные на предыдущих этапах, например, влияние цен­ностных ориентации при окончании школы на после­дующую профессиональную карьеру.

Наиболее сложной задачей является обеспечение третьего принципа каузальности - изолированности изу­чаемой связи от влияния посторонних факторов. Для ее решения классическая статистика требовала, чтобы гипо­тезы о причинных связях проверялись только на данных, полученных в результате тщательно спланированного экс­перимента, в котором изолированность достигалась за счет строгого соблюдения правил формирования групп.

В последние два десятилетия особое внимание уде­ляется методологии исследования причинных связей на данных описательных исследований, к которым относит­ся и большинство социологических. В рамках этого под­хода изолированность связи достигается за счет глубокой теоретической проработки системы гипотез, обеспечиваю­щей возможно полный набор предикторов. В некоторых случаях контроль "внешних" факторов осуществляется через фиксацию определенных параметров выборки.

Выбор модели, адекватной проверяемой гипотезе и характеру имеющихся данных, является одним из крити­ческих моментов исследования. Традиционно он опре­деляется уровнем измерения анализируемых показателей. Для количественных зависимых переменных обычно ис­пользуется регрессионный (если независимые переменные также являются количественными) или дисперсионный (ес­ли предикторы измерены по номинальным или порядко­вым шкалам) анализ. К качественным (номинальным и порядковым) зависимым переменным в аналогичных си­туациях применяется дискриминантный или кластерный анализ с обучением.

Этот подход по-прежнему широко используется, од­нако развитие современных методов статистического ана­лиза постепенно стирает его жесткие ограничения. Появ­ление множественного классификационного анализа и ме­тода индикаторных переменных позволило использовать


В


в любых моделях как количественные, так и качествен­ные предикторы. Это произвело настоящую революцию в анализе данных и привело к широкому распространению регрессионных и регрессионноподобных моделей.

Современные регрессионные техники обладают большой гибкостью и дают возможность использовать в моделях как количественные, так и качественные зави­симые и независимые переменные. Структура связей ме­жду предикторами может быть учтена в моделях путевого анализа. Наиболее общим является метод линейно-струк­турных уравнений, позволяющий строить сложные моде­ли с большим числом взаимодействующих между собой зависимых и независимых переменных, среди которых могут быть не только наблюдаемые, но и латентные при­знаки. Регрессивный, дисперсионный, путевой и конфир-маторный (подтверждающий) факторный анализ является его частным случаем.

Выбор методов обработки и анализа информации зависит от целей и задач исследования, а также от спосо­бов измерения используемых показателей. Как правило, при решении реальных задач не удается обойтись одним каким-либо методом, их применяют комплексно - после­довательно на разных стадиях решения задачи или па­раллельно на одной и той же стадии для более глубокого анализа материала.



Поделиться:


Последнее изменение этой страницы: 2016-12-30; просмотров: 732; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.22.70.9 (0.062 с.)