Методы и алгоритмы искусственного интеллекта, стадии Data Mining.



Мы поможем в написании ваших работ!


Мы поможем в написании ваших работ!



Мы поможем в написании ваших работ!


ЗНАЕТЕ ЛИ ВЫ?

Методы и алгоритмы искусственного интеллекта, стадии Data Mining.



Методы Data Mining можно классифицировать по задачам Data Mining.

 

Методы классификации и прогнозирования.

 

Метод «Деревья решений».При помощи данного метода решаются задачи классификации и прогнозирования.

Если зависимая (целевая переменная) принимает дискретные значения, при помощи метода дерева решений решается задача классификации. Если же зависимая переменная принимает непрерывные значения, то решается задача численного прогнозирования.

В наиболее простом виде дерево решений - это способ представления правил в иерархической, последовательной структуре. Основа такой структуры - ответы "Да" или "Нет" на ряд вопросов. Листьями дерева являются функции линейной регрессии. Деревья – бинарные, множественные.

Преимущества метода:

- интуитивность деревьев решений (модель является интуитивной и упрощает понимание решаемой задачи);

- деревья решений дают возможность извлекать правила из базы данных на естественном языке (Если Возраст > 35 и Доход > 200, то выдать кредит).

- быстрый процесс обучения.

Процесс создания дерева происходит сверху вниз (нисходящий). В ходе

процесса алгоритм должен найти такой критерий расщепления, чтобы разбить множество на подмножества, которые бы ассоциировались с данным узлом проверки. Каждый узел проверки должен быть помечен определенным атрибутом.

На сегодняшний день существует большое число алгоритмов, реализующих деревья решений: CART, C4.5, CHAID, CN2, NewId, ITrule и другие.

Алгоритмы построения деревьев решений различаются следующими характеристиками:

§ вид расщепления - бинарное (binary), множественное (multi-way)

§ критерии расщепления

§ возможность обработки пропущенных значений

§ процедура сокращения ветвей или отсечения

§ возможности извлечения правил из деревьев.

Атрибуты набора данных могут иметь как дискретное, так и числовое значение. Алгоритм CART предназначен для построения бинарного дерева решений (+ все перечисленные характеристики).

Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла. Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классификации.

Sprint, являющийся масштабируемым вариантом алгоритма CART, предъявляет минимальные требования к объему оперативной памяти.

 

Метод «Линейная регрессия» (+ кластеризация)

Если значение правила больше, чем порог, то предсказываемая переменная принимает значение истина, иначе – ложь – другими словами при выполнении для параметров объектов заданного условия, объекты принадлежат одному, в противном случае – другому классу).

 

Метод опорных векторов

Метод опорных векторов относится к группе граничных методов. Он определяет классы при помощи границ областей.

При помощи данного метода решаются задачи бинарной классификации.

В основе метода лежит понятие плоскостей решений.

Цель метода опорных векторов - найти плоскость, разделяющую два множества объектов;

 

Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев

Следует сразу отметить, что метод "ближайшего соседа" ("nearest neighbour") относится к классу методов, работа которых основывается на хранении данных в памяти для сравнения с новыми элементами. При появлении новой записи для прогнозирования находятся отклонения между этой записью и подобными наборами данных, и наиболее подобная (или ближний сосед) идентифицируется.

При таком подходе используется термин "k-ближайший сосед" -

выбирается k "верхних" (ближайших) соседей для их рассмотрения в качестве множества "ближайших соседей".

 

Байесовская классификация

Так называемая наивная классификация или наивно-байесовский подход

является наиболее простым вариантом метода, использующего байесовские сети.

"Наивная" классификация - достаточно прозрачный и понятный метод классификации. "Наивной" она называется потому, что исходит из предположения о взаимной независимости признаков.

Свойства наивной классификации:

1. Использование всех переменных и определение всех зависимостей между ними.

2. Наличие двух предположений относительно переменных:

o все переменные являются одинаково важными;

o все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой.

Нейронные сети (+ кластеризация)

Нейронные сети (Neural Networks) - это модели биологических нейронных сетей мозга, в которых нейроны имитируются относительно простыми, часто однотипными, элементами (искусственными нейронами).

Нейронная сеть может быть представлена направленным графом с взвешенными связями, в котором искусственные нейроны являются вершинами, а синаптические связи - дугами.

Если говорить простым языком, слоистая нейронная сеть представляет собой

совокупность нейронов, которые составляют слои. В каждом слое нейроны между собой никак не связаны, но связаны с нейронами предыдущего и следующего слоев. Информация поступает с первого на второй слой, со второго - на третий и т.д.

Перед использованием нейронной сети ее необходимо обучить.

Процесс обучения нейронной сети заключается в подстройке ее внутренних параметров под конкретную задачу. Алгоритм работы нейронной сети является итеративным, его шаги называют эпохами или циклами. Процесс обучения осуществляется на обучающей выборке.

Нейронные сети бывают с обратными связями и без обратных связей.

Сети без обратных связей

- Сети с обратным распространением ошибки. Сети этой группы характеризуются фиксированной структурой, итерационным обучением, корректировкой весов по ошибкам.

- Другие сети (когнитрон, неокогнитрон, другие сложные модели).

Сети с обратными связями

- Сети Хопфилда (задачи ассоциативной памяти).

- Сети Кохонена (задачи кластерного анализа).

 

 

Методы кластерного анализа.

Иерархические методы.

Методы кластерного анализа можно разделить на две группы:

иерархические (иерархические методы кластерного анализа используются при небольших объемах наборов данных, результат – древовидная диаграмма );

неиерархические.

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие.



Последнее изменение этой страницы: 2016-12-12; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 35.171.164.78 (0.006 с.)