Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы (кластеры или классы). По сути это задача многомерной классификации данных. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Кластерный анализ предназначен для разбиения совокупности объектов на однородные группы (кластеры или классы). По сути это задача многомерной классификации данных.



Существует около 100 разных алгоритмов кластеризации, однако наиболее часто используемые: иерархический кластерный анализ и кластеризация методов k-средних.

Где применяется кластерный анализ? В маркетинге это сегментация конкурентов и потребителей. В менеджменте: разбиение персонала на различные по уровню мотивации группы, классификация поставщиков, выявление схожих производственных ситуаций, при которых возникает брак. В медицине - классификация симптомов, пациентов, препаратов. В социологии - разбиение респондентов на однородные группы. По сути кластерный анализ хорошо зарекомендовал себя во всех сферах жизнедеятельности человека.

Прелесть данного метода - он работает даже тогда, когда данных мало и невыполняются требования нормальности распределений случайных величин и другие трбования классических методов статистического анализа.

Поясним суть кластерного анализа, не прибегая к строгой терминологии:
допустим, Вы провели анкетирование сотрудников и хотите определить, каким образом можно наиболее эффективно управлять персоналом. То есть Вы хотите разделить сотрудников на группы и для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.

Для решения задачи предлагается использовать иерархический кластерный анализ. В результате мы получим дерево, глядя на которое мы должны определиться на сколько классов (кластеров) мы хотим разбить персонал. Предположим, что мы решили разбить персонал на три группы, тогда для изучения респондентов, попавших в каждый кластер получим табличку примерно следующего содержания:

Кластер Муж 30-50 лет >50 лет Рук. Мед Льготы з/п стаж Образов.
  80% 90% 5% 70% 10% 12% 95% 30% 30%
  40% 35% 45% 13% 60% 70% 60% 40% 20%
  50% 70% 10% 5% 30% 20% 70% 20% 50%

Поясним, как сформирована приведенная выше таблица:

В первом столбце расположен номер кластера - группы, данные по которой отражены в строке. Например, первый кластер на 80% составляют мужчины. 90% первого кластера попадают в возрастную категорию от 30 до 50 лет, а 12% респондентов считает, что льготы очень важны. И так далее.

Попытаемся составить портреты респондентов каждого кластера.

Первая группа - в основном мужчины зрелого возраста, занимающие руководящие позиции. Соцпакет (MED, LGOTI, TIME-своб время) их не интересует. Они предпочитают получать хорошую зарплату, а не помощь от работодателя.

Группа два наоборот отдает предпочтение соцпакету. Состоит она, в основном, из людей "в возрасте", занимающих невысокие посты. Зарплата для них безусловно важна, но есть и другие приоритеты.

Третья группа наиболее "молодая". В отличие от предыдущих двух, очевиден интерес к возможностям обучения и профессионального роста. У этой категории сотрудников есть хороший шанс в скором времени пополнить первую группу.

Таким образом, планируя кампанию по внедрению эффективных методов управления персоналом, очевидно, что в нашей ситуации можно увеличить соцпакет у второй группы в ущерб, к примеру, зарплате. Если говорить о том, каких специалистов следует направлять на обучение, то можно однозначно рекомендовать обратить внимание на третью группу.

 

Суть факторного анализа

Хозяйственные процессы и конечные результаты складываются под влиянием объективных и субъективных, внешних и внутренних факторов. Факторы — это причины, воздействующие на изучаемый экономический показатель. Одни из них непосредственно связаны между собой, другие — косвенно.
Под факторным анализом понимается методика комплексного и системного изучения и измерения воздействия факторов на величину результативного показателя. Факторы в результате анализа получают количественную и качественную оценку. Каждый показатель может в свою очередь выступать и в роли факторного, и результативногоРазличают следующие типы факторного анализа:
o детерминированный и стохастический;
o прямой и обратный;
o одноступенчатый и многоступенчатый;
o статический и динамический;
o ретроспективный (исторический) и перспективный (прогнозный).
Основные задачи факторного анализа.
1. Отбор факторов для анализа исследуемых показателей.
2. Классификация и систематизация их с целью обеспечения системного подхода.
3. Моделирование взаимосвязей между результативными и факторными показателями.
4. Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.
5. Работа с факторной моделью (практическое ее использование для управления экономическими процессами).

 

Регрессионный анализ

Регрессионный анализ - метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей. Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление. Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи. Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д. Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Методы снижения размерности

Процесс уменьшения анализируемого множества данных до размера, оптимального с точки зрения решаемой задачи и используемой аналитической модели.

Сокращение размерности может потребоваться когда данные избыточны в информационном плане, т.е. задачу можно решить с тем же уровнем эффективности и точности, но используя меньший объем данных. Это позволяет урезать время и вычислительные затраты на решение задачи. Другой случай связан со слишком большими вычислительными затратами, требуемыми для обработки множества данного размера. Эта ситуация типична для алгоритмов, вычислительная сложность которых экспоненциально растет с увеличением числа наблюдений (т.е. немасштабируемых). Если в первом случае достаточно просто отобрать из всего множества столько признаков(атрибутов) и записей, сколько надо, то во втором, нужно сократить исходное множество до такого объема, который обеспечил бы реализуемость его обработки невзирая на потерю полезной информации.

Поэтому во втором случае предъявляются очень жесткие требования по отбору данных: сокращение объема должно происходить за счет наименее ценных данных, например, сначала за счет наименее значимых признаков, затем - похожих записей и т.д., пока размерность не окажется приемлемой с точки зрения требуемого объема вычислений.

Существует несколько направлений сокращения размерности множеств данных: сокращение числа признаков (атрибутов), сокращение числа записей и сокращение числа разнообразных значений определенного признака. Наиболее эффективным является сокращение признаков, поскольку в этом случае уменьшается не только объем данных, но и размерность всей задачи. В большинстве случаев решающим фактором за или против исключения признака является его значимость. На практике, определяют значимость всех признаков, исключают все признаки, значимость которых ниже заданного порога. Также следует исключать коррелирующие признаки.

Подмножество данных, полученное в результате сокращения размерности, должно унаследовать от исходного множества столько информации, сколько необходимо для решения задачи с заданной точностью, а вычислительные и временные затраты на сокращение данных не должны обесценивать, полученные от него преимущества. Аналитическая модель, построенная на основе сокращенного множества данных, должна стать проще для обработки, реализации и понимания, чем модель, построенная на исходном множестве.

Решение о выборе метода сокращения размерности основывается на априорном знании об особенностях решаемой задачи и ожидаемых результатах, а также ограниченности временных и вычислительных ресурсов.

 

Дискриминантный анализ

Дискриминантный анализ необходим для:

· Поиска наиболее сильных различий между сегментами.

· Оценки устойчивости сегментации.

· Воспроизведения сегментации с помощью обучения новой выборки по данным прошлых волн.

· Восстановления пропущенных значений.

На входе анализа – категориальная переменная, содержащая принадлежность к классам (например, сегментация, или потребление продуктов или брендов), и набор независимых переменных, измеренных по интервальным или дихотомическим шкалам. При этом категориальная переменная может иметь пропуски, т.е. не для всех респондентов будет заполнена: алгоритм самостоятельно предскажет эти значения.

С помощью статистического критерия (чаще всего используют критерий Фишера) алгоритм ищет такую комбинацию линейных уравнений (дискриминантных функций), которая наилучшим образом опишет различия между группами.

Первая дискриминантная функция отделяет первую группу от групп 2, 3, … N, вторая – вторую группу от групп 3, 4, … N и т.д. В итоге все N групп получаются отделёнными друг от друга дискриминантными функциями. Это даёт возможность определить вероятность принадлежности респондента к тому или иному классу.

Дискриминантный анализ дает возможность понять, по каким именно переменным имеющиеся классы (сегменты, продукты, бренды, и т.д.) различаются сильнее всего.

Каждому респонденту приписывается вероятность попадания в тот или иной класс; таким образом, при сегментации можно определить основной (по наибольшей вероятности попадания) и дополнительный (второе по величине значение вероятности) сегмент респондента.

Метод позволяет воспроизвести уже имеющуюся сегментацию, распространив ее на новые волны исследования. Кроме того, с его помощью можно оценить устойчивость сегментов.

Наконец, с помощью дискриминантного анализа можно строить различные карты, существенно облегчающие интерпретацию результатов кластерного анализа.

Анализ временных рядов

В каждой сфере экономики встречаются явления, которые интересно и важно изучать в их развитии, т.к. они эволюционируют и флуктуируют во времени. С течением времени изменяются цены, экономические условия, режим протекания того или иного производственного процесса. Совокупность измерений подобного рода показателей в течение некоторого периода времени и представляет временной ряд. Цели изучения временных рядов могут быть различными. Можно, например, стремиться предсказать будущее на основании знаний прошлого, управлять процессом, порождающим ряд, пытаться выяснить механизм, лежащий в основе процесса, очистить временной ряд от компонент, которые затемняют его динамику, или просто сжато описать характерные особенности ряда.

Временным рядом называют последовательность наблюдений, обычно упорядоченную во времени (хотя возможно упорядочение и по какому-либо другому параметру). Основной чертой, выделяющей анализ временных рядов среди других видов статистического анализа, является существенность порядка, в котором производятся наблюдения. Различают два вида временных рядов. Измерение некоторых величин (температуры, напряжения и т.д.) производится непрерывно, по крайней мере, теоретически. При этом наблюдения можно фиксировать в виде графика. Но даже в том случае, когда изучаемые величины регистрируются (или могут регистрироваться) непрерывно, практически при их обработке используются только те значения, которые соответствуют дискретному множеству моментов времени. Следовательно, если время измеряется непрерывно, временной ряд называется непрерывным, если же время фиксируется дискретно (т.е. через фиксированный интервал времени), то временной ряд дискретен.

Дискретные временные ряды получаются двумя способами: – Выборкой из непрерывных временных рядов через регулярные промежутки времени (например, численность населения, величина собственного капитала фирмы, объем денежной массы, курс акции), — такие временные ряды называются моментными; – Накоплением переменной в течение некоторого периода времени (примеры: объем производства какого-либо вида продукции, количество осадков, объем импорта), — в этом случае временные ряды называются интервальными.

 



Поделиться:


Последнее изменение этой страницы: 2016-09-20; просмотров: 981; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.116.40.177 (0.017 с.)