Лекція 3 «Методи багатомірної статистики» 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Лекція 3 «Методи багатомірної статистики»



 

Общие проблемы и ограничения

Одной из ключевых характеристик «золотого века» эмпирической политологии, который пришелся на 1950-60-е гг., считается интерес к крупномасштабным и универсальным сравнениям. Отвергая ориентацию на исследование сходств и различий между развитыми странами, ученые предпринимали попытки разработать такие теории и методы, которые позволили бы анализировать политические системы любого типа, независимо от стадии развития, региональной привязки и других особенностей. Подобные разработки касались как концептуальных схем, так и принципов и логики эмпирических исследований. Однако всплеск интереса к универсальным сравнительным исследованиям впоследствии сменился скептицизмом в отношении методологии подобных разработок. Несмотря на целый ряд проектов, которые реализуются и в настоящее время (упомянутые выше проекты Polity, Т.Ванханена и др.), интерес политологов и международников вплоть до настоящего времени смещался в сторону сужения набора исследуемых случаев, их ограничения теми или иными регионами или группами стран[1].

Скептицизм в отношении количественных исследований, предметом которых одновременно выступают все страны мира или большая их часть, определяется рядом ограничений, присущих данному подходу.

К их числу относятся, во-первых, трудности в определении адекватных переменных, на основе которых различия между странами могли бы описываться в рамках единообразной логики, с одной стороны, и учитывать особенности этих стран, с другой. Во-вторых, это проблема весов переменных, составляющих критерии сравнения. В-третьих, проблема взаимосвязи между этими критериями и переменными: нередко они оказываются тесно коррелированными друг с другом, описывая фактически одно и то же (так, например, корреляция индекса политических прав и гражданских свобод Freedom House превышает 0,95 – они описывают практически одинаковые явления, наподобие дюймов и сантиметров в измерении длинны). В-четвертых, это проблема структурирования стран по отношению друг к другу на основе выделенных критериев: речь идет о проблеме одномерности таких структур и трудности кластеризации стран на их основе. Немаловажной проблемой нередко выступает и трудность политологической интерпретации данных, полученных с помощью количественных исследований.

Преодоление этих ограничений представляло серьезную проблему и для проекта «Политический атлас современности». Одна из ключевых методологических проблем проекта сводилась к следующему: каков тот алгоритм количественного анализа, который позволил бы адекватно описать различия между странами и при этом в максимальной степени преодолеть ограничения, упомянутые выше?

Общая стратегия решения этой проблемы сводится к следующему многоэтапному алгоритму. На основе ряда переменных сконструировать комплексные индексы и, учитывая веса переменных, образующих индекс, ранжировать страны на основе индексов. Эти индексы и должны выступать теми критериями, на основе которых страны сравниваются друг с другом. Индексы должны освещать различные стороны функционирования политий, что выступает предпосылкой многомерности их исследования.

Учитывая то, что индексы могут оказаться более или менее взаимосвязанными и прямой анализ стран по всей совокупности индексов в этом случае затруднителен, следующий шаг предполагает «свертывание» пространства из 192 стран к нескольким главным компонентам, которые бы объясняли различия между странами, не будучи коррелированными друг с другом. Этот шаг предполагает также определение коэффициентов вкладов индексов в каждую из полученных компонент, что позволило бы интерпретировать их содержание. Кроме того, указанное действие включало в себя определение структуры расположения стран по отношению друг к другу в пространстве главных компонент.

Дальнейший шаг – кластеризация стран на основе полученных данных. Принципиальность этого шага заключается в том, что страны кластеризуются не на основе индексов как таковых, но на основе независимых главных компонент, полученных на базе индексов. То есть к моменту кластеризации решается как проблема весов, так и проблема коррелированности индексов.

Все страны описываются на основе более чем 70 переменных. Большая часть переменных (параметров) является порядковыми и заполняется на основе данных международной статистики (социально-экономические показатели, электоральные показатели, численность вооруженных сил и т.п.). Другие переменные являются номинальными, предполагая те или иные шкалы: в исследовании использованы пятибалльные шкалы, шкалы-оппозиции («да-нет»). Эти переменные заполняются на основе национальных конституций (например, возможность у главы исполнительной власти быть переизбранным на второй срок) и данных международных организаций, таких как ООН, ВОЗ и др. (например, наличие эпидемии СПИДа, присутствие на территории страны иностранных контингентов и т.п.).

Индексы, рейтинги, дискриминантный анализ

Ключевым критерием определения различия между странами выступают комплексные индексы, которые формируются на основе тех или иных переменных, включенных в базу данных. В проекте выделяется пять индексов: индекс государственности, индекс внешних и внутренних угроз, индекс потенциала международного влияния, индекс качества жизни, индекс институциональных основ демократии.

Одна из основных проблем определения значений индексов заключается в методике их расчета. Неприемлемым выступает вариант «механического» соединения нормированных переменных и расчет индексов, например, на основе вычисления среднего значения переменных. В этом случае не учитывается то, что переменные потенциально имеют разный вес. Следовательно, результаты расчетов с приданием переменным одинаковых весов были бы некорректными.

В свете этой проблемы требовалась такая методика, которая позволила бы получать индексы с учетом разных весов переменных (параметров). В качестве такой методики был выбран дискриминантный анализ.

В статистике дискриминантный анализ используется для выявления того, какие переменные разделяют имеющиеся случаи (у нас – страны) на две и более группы или – какие переменные лучше предсказывают отнесение анализируемых случаев к той или иной группе. Эта процедура в некоторой степени сходна с многомерным дисперсионным анализом (MANOVA). Для двух групп дискриминантный анализ может рассматриваться также как процедура множественной регрессии[2].

Дискриминантный анализ заключается в следующем: на основании так называемой «обучающей выборки» необходимо найти линейную комбинацию весов и исходных параметров, наилучшим образом характеризующих различия между группами стран. Сумма параметров, умноженных на их вес, является дискриминантной функцией. Учет информации, содержащейся в наборе параметров, позволяет значительно улучшить разделимость стран на группы. Коэффициенты (веса) вычисляются так, чтобы максимизировать условное расстояние между группами. В рамках нашего исследования процедура дискриминантного анализа была использована следующим образом.

Индексы предполагают размещение стран в определенном континууме. Этот континуум имеет два полюса – например, страны с высоким качеством жизни и страны с низким качеством жизни. Остальные же страны размещены между этими полюсами. Такую структуру имеет практический любой рейтинг. В рамках нашего анализа подобные полюса выступили теми двумя группами, на которые разбиваются страны. Для проведения подобной процедуры и формируются «обучающие выборки» стран, являющихся эталонами одного и другого полюсов.

Процедура дискриминантного анализа при этом позволяет не только разбить страны на группы, но посредством расчета дискриминантной функции построить рейтинг стран. Кроме того, в рамках этой методики вычисляется вероятность отнесения стран к определенной группе. Ценность вычисления подобной вероятности состоит в том, что мы можем определить те страны, которые однозначно, с вероятностью в 1 принадлежат к одному или другому полюсу. А также те страны, которые составляют «серую зону» - вероятность их отнесения к обеим группам отличается от 0 и 1 (существует ненулевые вероятности отнесения стран в той или другой группе). Такие страны, как правило, сочетают в себе признаки обеих групп.

В качестве примера возьмем индекс институциональных основ демократии. В соответствии с полученным на его основе рейтингом 89 стран с вероятностью очень близкой к единице могут быть отнесены к группе стран с достаточными институциональными основами демократии – от Швейцарии до Лихтенштейна. С другой стороны, 53 страны относятся к этой группе с вероятностью близкой к нулевой – от Центрально-Африканской Республики до Мьянмы. Между этими двумя полюсами находятся страны, принадлежащие к «серой зоне», хотя, образно выражаясь, их «серый» цвет может носить разный оттенок. Страны с вероятностью отнесения к каждой из групп, близкой к 0,5 являются наиболее неопределенными или «серыми». В качестве примеров могут служить Нигерия, Кения, Сенегал. Такие страны как Россия, ЮАР, Перу, Турция также находятся в «серой зоне», хотя они и классифицируются как государства с достаточными основаниями демократии, то есть склоняются к первой группе (вероятность отнесения этих стран к первой группе существенно выше, чем вероятность отнесения их ко второй группе). С другой стороны, такие случаи, как Камерун, Зимбабве, Азербайджан и др., классифицируются как страны с недостаточными институциональными основаниями демократии: находясь в «серой зоне» они склоняются ко второй группе[3].

Алгоритм проведения расчета индекса стран методом дискриминантного анализа включает в себя, таким образом, следующие шаги:

Выбор параметров, которые должны составлять тот или иной индекс.

Формирование «обучающей выборки»[4]: исходя из характера индекса, выделяются страны-антагонисты, которые потенциально составляют полюса рассматриваемой проблемы. В обучающую выборку отбиралось приблизительно по 20 стран, принадлежащих к каждому полюсу. Например, в случае индекса потенциала внешнего влияния выделяются страны, которые со всей очевидностью являются наиболее влиятельными, и страны, которые являются наименее влиятельными. В то же время, в обучающую выборку не включались страны с «аномальными» значениями, т.е. обладающие чрезмерно выраженными максимальными или минимальными характеристиками по соответствующему индексу (эти аномалии выявляются диаграммами Бокса-Дженкинса, основанными на статистических критериях). Например, а случае ряда переменных, входящих в индекс качества жизни, к таким аномалиям относится Люксембург, в случае параметров индекса потенциала внешнего влияния – США, с одной стороны, и малые государства (такие как Микронезия, Маршалловы острова и т.п.) – с другой.

Расчет значения дискриминантной функции для каждой страны с учетом весов параметров, а также вероятности принадлежности страны к тому или иному полюсу: принадлежность к странам с относительно высокой или относительно низкой государственностью, относительно высоким или низким потенциалом международного влияния, высокими или низкими угрозами, высоким или низким качеством жизни, достаточными или недостаточными институциональными основами демократии.

На основе значения дискриминантой функции, вычисляемой для страны по каждому из индексов, происходило формирование рейтингов стран по пяти индексам.

Рассмотрим в качестве примера алгоритм расчета индекса качества жизни.

Индекс состоит из семи параметров. Эти параметры берутся из данных международной статистики (ООН, Всемирный Банк и др.): они включают в себя все страны и получены в рамках единых источников[5]. Переменные (параметры) включают в себя: ВВП на душу населения, ожидаемую продолжительность жизни, правительственные расходы на душу населения, детскую смертность до одного года, уровень образования, смертность от передающихся болезней, смертность от несчастных случаев.

Далее формируется обучающая выборка, состоящая из двух групп – стран, являющихся эталоном высокого и низкого качества жизни. На основании параметров стран, образующих обучающую выборку, вся совокупность стран разбивается на две группы, исходя из обозначенных выше переменных. Анализ показывает, что, предсказывая принадлежность стран к той или иной группе, переменные имеют разные веса.

На основе полученной дискриминантной функции и вероятности отнесения стран к той или иной группе, мы получаем следующие результаты: 42 страны могут быть однозначно отнесены к группе стран с высоким качеством жизни, хотя и эти страны существенно отличаются друг от друга: Люксембург получает максимальные 10 баллов, тогда как Венгрия – только 3,80. Далее идет небольшая прослойка стран «серой зоны» от Багамских островов до Панамы, куда входят также некоторые страны ЦВЕ и Латинской Америки. Львиная доля стран относится к группе с низким качеством жизни. Однако низкое качество жизни, например, в Бразилии (2,83 балла), существенно отличается от низкого качества жизни в Замбии (0,29 балла). Сравнивая отдельные страны, исследователь, может оценить, благодаря каким переменным та или иная страна набрала определенный балл.

Метод главных компонент

В то же время, как уже говорилось выше, научная задача проекта заключается не только в самом по себе рейтинговании стран по определенным заданным индексам, но в выявлении структуры внутренних взаимосвязей между индексами и на этой основе – структуры взаимосвязей между различными группами стран. Последнее необходимо для построения классификации стран. Индексы, таким образом, формируются не только для рейтингования стран, но для эффективной группировки переменных.

Однако для дальнейшей классификации стран и выявления структуры их взаимосвязей полученные индексы имели серьезное ограничение: они оказались достаточно сильно коррелированными друг с другом. Это означает, что в той или иной степени они могли описывать одинаковые явления разными языками[6]. В свете этой проблемы, следующим шагом в исследовательской стратегии стал поиск тех факторов (компонент), которые объясняли бы различия между странами и при этом были бы не коррелированными друг с другом.

Осуществление этого шага проводилось с использованием метода главных компонент. Этот метод позволяет установить такие комбинации переменных (индексов), выражающих сущностные стороны (компоненты) изучаемых объектов, по которым они (страны) в наибольшей степени сходны или отличаются друг от друга. В нашем случае первая (далее вторая, третья и т.д.) компонента должна установить наибольший процент сходств и различий между странами в рамках определенных сочетаний индексов.

В принципе метод главных компонент мог бы быть использован применительно ко всему набору переменных исходной базы данных проекта. Однако в силу чрезвычайно высокой разнородности используемых показателей, отражающих различные стороны функционирования изучаемых стран, этот метод используется нами применительно к уже выявленным комплексам индексов – именно в этом состоит их инструментальная ценность. Мы, таким образом, применяем двухуровневый подход редукции: первый уровень – сведение переменных в индексы, второй – определение главных компонент уже на основе индексов. Благодаря этому достигается две цели: первое - нивелирование некоторой части «статистического шума», что важно для эффективного применения математических методов; второе - упрощение процедуры политологической трактовки полученных результатов.

Итак, общий алгоритм применения метода главных компонент подразумевает, во-первых, выявление компонент, «преобразующих» исходное пространство коррелированных координат размерности 192 (т.к. в исследовании 192 страны) к нескольким некоррелированным координатам (основным компонентам), определяющим различия между странами. В этом случае, в редакторе SPSS страны и индексы транспонируются - меняются местами: страны выступают как переменные, а индексы – как многомерные измерения. Во-вторых, определение степени вклада значения каждого из индексов в значение координаты страны по каждой компоненте, что необходимо для содержательной интерпретации получаемых результатов. Это достигается путем расчетов, выполняемых в рамках метода главных компонент. В-третьих, анализ структуры положения стран в пространстве главных компонент, изучение полученной структуры как в виде проекций на условных плоскостях, образуемых попарно главными компонентами, так и в проекциях на отдельно взятые компоненты.

В результате проведенного анализа были выявлены четыре главные компоненты, в совокупности объясняющие практически все различия между странами. Первая компонента объясняет 55,4% различий по всей совокупности стран, вторая – 26,4%, третья – 11,2% и четвертая – 7%. Сочетание первой и второй компонент дает объяснение почти 82% сходств и различий между странами, добавление третьей компоненты дает объяснение 93%, добавление четвертой – все 100%.

 


Главные компоненты и процент объяснения различий между странами

 

Компонента Процент объяснения Кумулятивный процент
1 55,4 55,4
2 26,4 81,8
3 11,2 93,0
4 7,0 100,0

 

Для каждой из компонент можно оценить вклад каждого индекса (можно говорить о весах индексов в каждой компоненте), то есть, показать, как рассчитывается координата страны по каждой компоненте. Это показывает, в какой логике та или иная компонента определяет структуру стран, их положение друг относительно друга. Если вес того или иного индекса в компоненте близок к 0, то его влияние в данной компоненте минимально. Значимы те индексы, которые образуют полюса компонент. Расчеты по всем компонентам позволяют увидеть то, как страны соотносятся друг с другом в одномерных (в рамках одной компоненты) и двумерных пространствах (плоскости, образуемые двумя компонентами). Мы можем также проследить положение отдельно взятой страны по конкретной компоненте, а также процент особенностей страны, который объясняет компонента.

Рассмотрим в качестве примера проекцию структуры стран на плоскость компонент 1 и 2, которые в своей совокупности объясняют различия между странами более чем на 80%. Для начала посмотрим вклад (веса) индексов в каждую из компонент. В рамках компоненты 1 в качестве наиболее весомых индексов выступают индексы качества жизни и угроз (один имеет наибольший положительный, другой – отрицательный веса), то есть различия между странами определяются условной оппозицией «качество жизни – угрозы». В рамках компоненты 2 в качестве таких полюсов выступает условная оппозиция «демократия - государственность».

 


Веса индексов (компоненты 1 и 2)

Исходя из этой логики, страны располагаются в определенном отношении друг к другу. Мы видим, что правый и левый полюса образуют, с одной стороны, страны с высоким качеством жизни и низким уровнем угроз, а с другой стороны – с низким качеством жизни и высоким уровнем угроз. Верхний и нижний полюса - страны с высокой государственностью, но незначительными основаниями демократии с одной стороны, и страны с низкой государственностью, но значительными основаниями демократии с другой. Соответственно, левый верхний угол должны составлять страны с относительно высоким качеством жизни, значительными основаниями демократии, низкими угрозами и относительно низкой государственностью. Левый нижний угол – страны с высоким качеством жизни, низким уровнем угроз, относительно незначительными основаниями демократии, но относительно высокой государственностью. Правый верхний угол – страны с низким качеством жизни, высокими угрозами, значительными основаниями демократии, но низкой государственностью. Правый нижний угол – страны с низким качеством жизни, высокими угрозами, незначительными основаниями демократии, высокой государственностью.

 

 


Положение стран в пространстве компонент 1 и 2

 

В то же время, на графике отсутствует ряд стран, которые слабо объяснимы компонентами 1 и 2. К таким странам относятся, например, США, Россия, Индия, которые объясняются компонентой 4, интерпретируемой, прежде всего, в терминах индекса внешнего влияния. При анализе конкретных стран следует, таким образом, учитывать степень их объяснимости данными компонентами.

 

Метод кластерного анализа

 

Следующий шаг исследовательской стратегии – группировка стран на основе координат в не коррелированных главных компонентах. Эта процедура осуществляется методом кластерного анализа. Кластеры образуют те страны, условное «расстояние» между которыми, исходя из их признаков, описанных компонентами, является наименьшим. Степень близости между странами в пространстве главных компонент рассчитываются на основании метрики Евклидовых расстояний, которые равны корню квадратному из суммы квадратов разностей между значениями одноименных переменных (в нашем случае – компонент), при помощи которых описываются страны.

Изначально мы имеем 192 страны, каждая из которых представляет собой уникальный случай (кластер). В ходе анализа возможно проведение кластеризации в диапазоне от 2 до 191 кластеров. В результате с каждым новым шагом (возрастанием числа кластеров) кластеры включают в себя лишь все более близкие по характеристикам страны. С ростом числа кластеров выделяются все более однородные группы стран.

Характер крупных кластеров во многом определяется содержанием компоненты 1 (качество жизни vs. угрозы). Например, если разбить все страны на 10 кластеров, то среди них выделяются два крупных кластера: крупные кластеры образуют страны с высоким качеством жизни и низкими угрозами, с одной стороны, и высокими угрозами и низким качеством жизни, с другой. Влияние других компонент прослеживается, например, в очень быстром выделении в отдельный кластер влиятельных государств – США, Китая, России, Франции, Германии и др. По мере дальнейшего дробления эти кластеры приобретают более специфические черты, вплоть до превращения России и США, Китая, Индии и некоторых других стран в самостоятельные кластеры.

Итак, при отработке методологии проекта необходимо было создать инструмент который подходил бы для универсального определения сходств и различий между странами, выявления их структурных взаимосвязей. Для этого мы должны были найти способы преодоления (насколько это вообще возможно) отмеченных выше ограничений. Созданный в рамках проекта инструмент многомерного сравнительного анализа включает в себя несколько уровней, каждый из которых частично отфильтровывает, минимизирует потенциальные недостатки и ограничения.

Ограничение 1: трудности в определении адекватных переменных для сравнения стран. Это ограничение минимизировано посредствам включения в анализ переменных, отражающих разные стороны функционирования современных политий: внутри- и внешнеполитические, социально-экономические и др. Эти переменные в большинстве своем опираются на международно-признаваемую статистику. Кроме того, отобраны те переменные, информация по которым покрывает все исследуемые страны.

Ограничение 2: проблема весов переменных при вычислении индексов и ранжировании стран. Эта проблема решается с помощью дискриминантного анализа.

Ограничение 3: коррелированность индексов. Метод главных компонент позволяет решить эту проблему. Здесь следует отметить, что результаты использования этого метода нередко трудно интерпретируемы. Эта проблема была решена путем включения в данную процедуру не всех переменных, но индексов, полученных на их основе, и разработкой специальных процедур, позволяющих наглядно представить результаты математической обработки.

Ограничение 4: анализ коррелированных данных. Эта проблема также решается с помощью метода главных компонент. Структура стран получена в зависимости от некоррелированных измерений (в пространстве главных компонент). На основе этих данных проводится корректная кластеризация стран.

 

 [1] Мэр П. Сравнительная политология: общие проблемы. / Политическая наука: новые направления. Под ред. Р. Гудина и Х.Д. Клингеманна. Москва: Вече, 1999. Стр. 311-317.

[2] См. об этом такие ресурсы как StatSoft (http://www.statsoft.ru/home/textbook/modules/stdiscan.html), а также следующие издания: Пациорковский В.В., Пациорковская В.В. SPSS для социологов. Москва: ИСЭПН РАН, 2005. Стр. 328-335. Наследов А. SPSS: компьютерный анализ данных в психологии и социальных науках. Санкт-Петербург: Питер, 2005. Стр. 331-351.

[3] Проблема «серой зоны» многократно поднималась на ХХ Всемирном конгрессе Международной ассоциации политической науки в Фукуоке (Япония). По мнению многих участников, исследовательский интерес представляют не столько «чистые» демократии или «чистые» автократии, но страны, сочетающие в себе эти признаки. Проблема заключается в определении этой зоны, и степени сочетания демократических и автократических элементов в каждом конкретном случае. Применяемая процедура позволяет приблизиться к ответу на этот вопрос.

[4] В нашем проекте обучающие выборки стран формировались по итогам серии экспертных семинаров, проведенных на базе МГИМО-Университета и Российской ассоциации политической науки.

[5] Непротиворечивость и соответствие данных международной статистики – большая проблема для любого крупномасштабного сравнения. Решение этой проблемы в немалой степени упирается в выбор узкого круга институтов, ведущих подобную статистику. В нашем случае такими институтами выступили, прежде всего, ООН и Всемирный Банк.

[6] Следует, однако, отметить, что если бы мы не ставили задачу многомерного анализа, изучение подобных корреляций могло бы стать самостоятельным предметом исследования с выделение какого-либо индекса в качестве зависимой переменной, а остальных индексов – в качестве независимых переменных.

 



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 52; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.135.216.174 (0.034 с.)