Задача классификации и регрессии 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Задача классификации и регрессии



 

При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т.е. классифицировать их. Например, при фильтрации электронной почты необходимо классифицировать входящее сообщение как спам (spam – нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: «приобрести», «заработать», «выгодное предложение» и так далее).

В общем случае количество классов в задачах классификации может быть больше двух. Например, в задаче распознавания цифр их может быть десять (по количеству цифр в десятичной системе счисления). В такой задаче объектом классификации является матрица пикселов, представляющая образ распознаваемой цифры. При этом в качестве характеристики анализируемого объекта берется цвет каждого пиксела.

В Data Mining задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении, – независимыми переменными. Для классификации значением зависимой переменной является некоторый элемент конечного множества классов. Для регрессии область значений зависимой переменной – множество действительных чисел.

Задачи классификации и регрессии решаются в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. Так, в приведенном ранее примере с электронной почтой, в качестве обучающей выборки можно выбирать сообщения, классифицированные вручную пользователем как спам или как письмо.

На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной модели к обучающей выборке предъявляют следующие требования:

· Количество объектов, входящих в обучающую выборку, должно быть достаточно большим. Чем больше объектов, тем более точная модель будет построена на ее основе;

· В обучающую выборку должны входить объекты, представляющие все возможные классы (в случае задачи классификации) или всю область значений (в случае задачи регрессии);

· Для каждого класса в задаче классификации или для каждого интервала области значений в задаче регрессии обучающая выборка должна содержать достаточное количество объектов.

На втором этапе построенную модель применяют к анализируемым объектам (то есть к объектам с неопределенным значением зависимой переменной).

Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, - это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов – числовые и категориальные, разная значимость атрибутов, а также проблемы overfitting и underfitting. Суть первой из них заключается в том, что классификационная функция при построении «слишком хорошо» адаптируется к данным и встречающиеся в них ошибки и аномальные значения пытается интерпретировать как часть внутренней структуры данных. Очевидно, что в дальнейшем такая модель будет некорректно работать с другими данными, где характер ошибок будет иной. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок при проверке классификатора на тестовом (экзаменационном) множестве. Это означает, что особых закономерностей в данных не было обнаружено, и либо их нет вообще, либо необходимо выбрать иной метод обнаружения.

Задача кластеризации

 

Задача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых кластерами (cluster (англ.) - сгусток, пучок, группа). Часто решение задачи разбиения множества элементов на кластеры называют кластерным анализом.

Кластеризация может применяться практически в любой области, где необходимо исследование экспериментальных или статистических данных. Рассмотрим пример из области маркетинга, в котором данная задача называется сегментацией.

Концептуально сегментирование основано на предпосылке, что все потребители разные. У них разные потребности, разные требования к товару, они ведут себя по-разному (в процессе выбора товара, в процессе приобретения товара, в процессе использования товара, в процессе формирования реакции на товар). В связи с этим необходимо подходить к работе с потребителями: предлагать им различные по своим характеристикам товары, по-разному продвигать и продавать товары. Для того чтобы определить, чем отличаются потребители друг от друга и как эти отличия отражаются на требованиях к товару, и производится сегментирование потребителей.

В маркетинге критериями (характеристиками) сегментации являются: географическое местоположение, социально-демографические характеристики, мотивы совершения покупки и так далее.

На основании результатов сегментации маркетолог может определить, например, такие характеристики сегментов рынка, как реальная и потенциальная емкость сегмента, группы пользователей, чьи потребности не удовлетворяют в полной мере ни одним производителям, работающим на данном сегменте рынка, и так далее. На основании этих параметров маркетолог может сделать вывод о привлекательности работы фирмы в каждом из выделенных сегментов рынка.

Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную зависимую переменную, поэтому она относится к классу задач, решаемых с обучением без учителя. Эта задача решается, как правило, на начальных этапах исследования, когда о данных мало что известно. Ее решение помогает лучше понять данные, и с этой точки зрения задача кластеризации является описательной.

Для задачи кластеризации характерно отсутствие каких-либо различий как между переменными, так и между объектами. Напротив, ищутся группы наиболее близких, похожих объектов. Методы автоматического разбиения на кластеры редко используются сами по себе, а только для получения групп схожих объектов. После определения кластеров используются другие методы Data Mining, чтобы попытаться установить, что означает такое разбиение и чем оно вызвано.

Кластерный анализ позволяет рассматривать достаточно большой объем данных и резко сокращать, сжимать массивы информации, делать их компактными и наглядными.

Следует отметить, что решение задачи кластеризации сильно зависит от природы объектов данных (и их атрибутов). Так, с одной стороны, это могут быть однозначно определенные, количественно очерченные объекты, а с другой – объекты, имеющие вероятностное или нечеткое описание.

Другая особенность данной задачи состоит в том, что ее решение в значительной степени зависит от представления кластеров и предполагаемых отношений объектов данных и кластеров. Так, необходимо учитывать такие свойства, как возможность/невозможность принадлежности объектов к нескольким кластерам. Необходимо определение самого понятия принадлежности кластеру: однозначная (принадлежит/не принадлежит), вероятностная (вероятность принадлежности), нечеткая (степень принадлежности).

 



Поделиться:


Последнее изменение этой страницы: 2017-02-05; просмотров: 1955; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.141.8.247 (0.008 с.)