Обзор методов классификационного анализа (кластерный, дискриминантный, факторный) 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Обзор методов классификационного анализа (кластерный, дискриминантный, факторный)



Кластерный анализ — это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором исходных переменных Х12,..., Хm. Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами. Слово кластер английского происхождения (cluster), переводится как сгусток, пучок, группа.

В отличие от комбинационных группировок кластерный анализ приводит к разбиению на группы с учетом всех группировочных признаков одновременно. политетический подход: Все группировочные признаки одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении наблюдения в ту или иную группу. При этом, как правило, не указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп целесообразно выделить в исследуемой совокупности.

Методы кластерного анализа позволяют решать следующие задачи:

• проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов;

• проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

• построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:

1. Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.

2. Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства.

3. Вычисление значений той или иной меры сходства (или различия) между объектами.

4. Применение метода кластерного анализа для создания групп сходных объектов.

5. Проверка достоверности результатов кластерного решения.

Типы входных данных

1. Признаковое описание объектов. Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.

2. Матрица расстояний между объектами. Каждый объект описывается расстояниями до всех остальных объектов метрического пространства.

3. Матрица сходства между объектами. Учитывается степень сходства объекта с другими объектами выборки в метрическом пространстве. Сходство здесь дополняет расстояние (различие) между объектами до 1.

Можно встретить описание двух фундаментальных требований предъявляемых к данным — однородность и полнота. Однородность требует, чтобы все кластеризуемые сущности были одной природы, описываться сходным набором характеристик.

Используется в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах.

 

Дискриминантный анализ — это раздел математической статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам. Например, разбиение совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйственной деятельности.

Все процедуры дискриминантного анализа можно разбить на две группы и рассматривать их как совершенно самостоятельные методы. Первая группа процедур позволяет интерпретировать различия между существующими классами, вторая — проводить классификацию новых объектов в тех случаях, когда неизвестно заранее, к какому из существующих классов они принадлежат.

Пусть имеется множество единиц наблюдения — генеральная совокупность. Каждая единица наблюдения характеризуется несколькими признаками (переменными) хij - значение j-й переменной у i-го объекта i = 1..N; j = 1..p.

Предположим, что все множество объектов разбито на несколько подмножеств (два и более). Из каждого подмножества взята выборка объемом nk где k - номер подмножества (класса), k = 1..q.

Признаки, которые используются для того, чтобы отличать один класс (подмножество) от другого, называются дискриминантными переменными. Каждая из этих переменных должна измеряться либо по интервальной шкале, либо по шкале отношений. Интервальная шкала позволяет количественно описать различия между свойствами объектов. Для задания шкалы устанавливаются произвольная точка отсчета и единица измерения. Примерами таких шкал являются календарное время, шкалы температур и т. п. В качестве оценки положения центра используются средняя величина, мода и медиана.

Теоретически число дискриминантных переменных не ограничено, но на практике их выбор должен осуществляться на основании логического анализа исходной информации и одного из критериев. Число объектов наблюдения должно превышать число дискриминантных переменных, как минимум, на два, т. е. p < N. Дискриминантные переменные должны быть линейно независимыми. Еще одним предложением при дискриминантном анализе является нормальность закона распределения многомерной величины, т. е. каждая из дискриминантных переменных внутри каждого из рассматриваемых классов должна быть подчинена нормальному закону распределения. В случае, когда реальная картина в выборочных совокупностях отличается от выдвинутых предпосылок, следует решать вопрос о целесообразности использования процедур дискриминантного анализа для классификации новых наблюдений, т. к. в этом случае затрудняются расчеты каждого критерия классификации.

Пример: Медик может регистрировать различные переменные, относящиеся к состоянию больного, чтобы выяснить, какие переменные лучше показывают, что пациент, вероятно, выздоровел полностью, частично или совсем не выздоровел.

 

Факторный анализ — многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Также это совокупность методов, которые на основе реально существующих связей признаков (или объектов) позволяют выявлять латентные обобщающие характеристики организационной структуры и механизма развития изучаемых явлений и процессов.

Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно.

Таким образом можно выделить 2 цели Факторного анализа:

1. определение взаимосвязей между переменными, (классификация переменных);

2. сокращение числа переменных необходимых для описания данных.

При анализе в один фактор (скрытую переменную) объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором. Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов.

Понятие латентности означает неявность характеристик, раскрываемых при помощи методов факторного анализа. Вначале мы имеем дело с набором элементарных признаков Xj, их взаимодействие предполагает наличие определенных причин, особенных условий, т.е. существование некоторых скрытых факторов. Последние устанавливаются в результате обобщения элементарных признаков и выступают как интегрированные характеристики, или признаки, но более высокого уровня. Естественно, что коррелировать могут не только тривиальные признаки Xj, но и сами наблюдаемые объекты Ni поэтому поиск латентных факторов теоретически возможен как по признаковым, так и по объектным данным. Гипотетически легко представить следствием такого анализа, скажем, выявление классифицирующих факторов: Fl - промышленность, F2 - сельское хозяйство и т. п.

 

 

16. Динамические системы в экономике. Возникновения хаоса в динамических системах на примере логистического дискретного отображения.

Динамическая система — математическая абстракция, предназначенная для описания и изучения эволюции систем во времени.

Динамическая система также может быть представлена как система, обладающая состоянием. При таком подходе, динамическая система описывает (в целом) динамику некоторого процесса, а именно: процесс перехода системы из одного состояния в другое. Фазовое пространство системы — совокупность всех допустимых состояний динамической системы. Таким образом, динамическая система характеризуется своим начальным состоянием и законом, по которому система переходит из начального состояние в другое.

Динамическая система часто описывается автономной системой дифференциальных уравнений, заданной в некоторой области и удовлетворяющей там условиям теоремы существования и единственности решения дифференциального уравнения.

Основное содержание теории динамических систем — это исследование кривых, определяемых дифференциальными уравнениями. Сюда входит разбиение фазового пространства на траектории и исследование предельного поведения этих траекторий: поиск и классификация положений равновесия, выделение притягивающих (аттракторы) и отталкивающих (репеллеры) множеств (многообразий). Важнейшие понятие теории динамических систем — это устойчивость (способность системы сколь угодно долго оставаться около положения равновесия или на заданном многообразии) и грубость (сохранение свойств при малых изменениях структуры динамической системы; «грубая система — это такая, качественный характер движений которой не меняется при достаточно малом изменении параметров»).

Примеры экономических динамических систем:

1. Динамика банковского вклада (зависимость величины накопленных процентов по вкладу от времени);

2. Модель активного инвестора – такого инвестора, который реинвестирует (заново вкладывает исходную сумму и наращенные по ней проценты) во вклады и другие финансовые инструменты;

3. Динамическое бюджетное ограничение потребителя – бюджет потребителя складывается из изменяющихся величин (изменяется зарплата, доходы от инвестиций, расходы на инвестирование и накопление);

4. Паутинообразная модель рыночного равновесия – объем спроса в любой текущий момент времени зависит от уровня цены этого периода Pt, а предложение реагирует на изменение цены с некоторым запаздыванием и зависит от уровня цены в предшествующей периоде Pt-1.

Нелинейная система — динамическая система, в которой протекают процессы, описываемые нелинейными дифференциальными уравнениями.

Теория хаоса — математический аппарат, описывающий поведение некоторых нелинейных динамических систем, подверженных при определённых условиях явлению, известному как хаос (динамический хаос, детерминированый хаос). Поведение такой системы кажется случайным, даже если модель, описывающая систему, является детерминированной. Причиной появления хаоса является неустойчивость (чувствительность) по отношению к начальным условиям и параметрам: малое изменение начального условия со временем приводит к сколь угодно большим изменениям динамики системы.

Примерами подобных систем являются атмосфера, турбулентные потоки, некоторые виды аритмий сердца, биологические популяции,общество как система коммуникаций и его подсистемы: экономические, политические и другие социальные системы

Логистическое отображение (также квадратичное отображение) — это полиномиальное отображение, которое описывает, как меняется численность популяции с течением времени. Его часто приводят в пример того, как из очень простых нелинейных уравнений может возникать сложное, хаотическое поведение. Логистическое отображение отражает тот факт, что прирост популяции происходит в дискретные моменты времени.

Математическая формулировка отображения

xn +1 = rxn (1- xn)

где:

xn принимает значения от 0 до 1 и отражает численность популяции в n-ом году, а x0 обозначает начальную численность (в год номер 0);r — положительный параметр, характеризующий скорость размножения (роста) популяции.

Это нелинейное отображение описывает два эффекта:

- с одной стороны, когда численность популяции мала, она размножается со скоростью, пропорциональной этой численности;

- с другой стороны, поскольку популяция обитает в среде с ограниченной «ёмкостью», то при росте плотности популяции скорость размножения падает, возрастает конкуренция и смертность.

 

Исследование экономических процессов с помощью многомерных нелинейных отображений, характеризующих динамику макроэкономических переменных, приводит к заключению, что этим процессам присущи, в зависимости от значений параметров, многообразные динамические режимы: равновесие, цикличность и достаточно сложное квазистохастическое поведение (детерминированный хаос). При относительно небольших значениях коэффициентов реакций цены и ставки процента на дисбаланс между спросом на товары и их предложением, а также коэффициентов реакции экономики на несоответствие спроса и предложения, система в перспективе ведет себя просто: со временем устанавливается либо равновесие, либо периодические колебания с малым периодом. Однако при увеличении даже одного из коэффициентов реакции происходит усложнение динамики переменных модели. Это означает, что в общем случае равновесное решение неустойчиво, а динамика переменных обобщенной макроэкономической модели может быть достаточно сложной и при некоторых значениях параметров приобретать стохастические свойства. Следует отметить, что сложный характер решений не следствие внешнего случайного воздействия, а внутреннее свойство используемой детерминированной модели.

 



Поделиться:


Последнее изменение этой страницы: 2021-05-11; просмотров: 946; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.222.37.169 (0.017 с.)