Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Стандарты интеллектуального анализа данных (методология semma, стандарты cwm, crisp, PMML и др. ) ⇐ ПредыдущаяСтр 4 из 4
Стандарты, описывающие методологию Data Mining - рассматривают организацию процесса Data Mining и разработку Data Mining- систем. CRISP-DM - стандартный межотраслевой процесс Data Mining, является наиболее популярной и распространенной методологией. В соответствии со стандартом CRISP, Data Mining является непрерывным процессом со многими циклами и обратными связями. Data Mining по стандарту CRISP-DM включает следующие фазы: 1. Осмысление бизнеса (Business understanding). 2. Осмысление данных (Data understanding). 3. Подготовка данных (Data preparation). 4. Моделирование (Modeling). 5. Оценка результатов (Evaluation). 6. Внедрение (Deployment). К этому набору фаз иногда добавляют седьмой шаг - Контроль, он заканчивает круг. При помощи методологии CRISP-DM Data Mining превращается в бизнес-процесс, в ходе которого технология Data Mining фокусируется на решении конкретных проблем бизнеса. Методология CRISP-DM описывается в терминах иерархического моделирования процесса, который состоит из набора задач, описанных четырьмя уровнями обобщения (от общих к специфическим): фазы, общие задачи, специализированные задачи и запросы.
SEMMA методология реализована в среде SAS Data Mining Solution (SAS). Ее аббревиатура образована от слов "Отбор данных", т.е. создание выборки, "Исследование отношений в данных", "Модификация данных", "Моделирование взаимозависимостей", Оценка полученных моделей и результатов". Подход SEMMA подразумевает, что все процессы выполняются в рамках гибкой оболочки, поддерживающей выполнение всех необходимых работ по обработке и анализу данных. Подход SEMMA сочетает структурированность процесса и логическую организацию инструментальных средств, поддерживающих выполнение каждого из шагов. Благодаря диаграммам процессов обработки данных, подход SEMMA упрощает применение методов статистического исследования и визуализации, позволяет выбирать и преобразовывать наиболее значимые переменные, создавать модели с этими переменными, чтобы предсказать результаты, подтвердить точность модели и подготовить модель к развертыванию.
Эта методология не навязывает каких-либо жестких правил. Разработчик может располагать научными методами построения концепции проекта, его реализации, а также оценки результатов проектирования.
Как уже отмечалось, описанные стандарты являются методологиями Data Mining, т.е. рассматривают организацию процесса и разработку систем Data Mining. Помимо этой группы, сущ-т ряд стандартов, цель которых - согласовать достижения в Data Mining, упростить управление моделированием процессов и дальнейшее использование созданных моделей. Эти стандарты условно можно поделить на две категории: 1. Стандарты, относящиеся к выработке единого соглашения по хранению и передаче моделей Data Mining. 2. Стандарты, относящиеся к унификации интерфейсов.
Стандарт PMML PMML - язык описания предикторных (или прогнозных) моделей или языке разметки для прогнозного моделирования. PMML относится к группе стандартов по хранению и передаче моделей Data Mining.
Основа этого стандарта - язык XML. Примером другого стандарта, также основанного на языке XML, является стандарт обмена статистическими данными и метаданными. Стандарт PMML используется для описания моделей Data Mining и статистических моделей. Основная цель стандарта PMML - обеспечение возможности обмена моделями данных между программным обеспечением разных разработчиков (с другими PMML-инструментами). Таким образом, модель, созданная в одном программном продукте, может использоваться для прогнозного моделирования в другом.
Стандарт PMML включает: описание анализируемых данных (структура и типы данных); описание схемы анализа (используемые поля данных); описание трансформаций данных (например, преобразования типов данных); описание статистик, прогнозируемых полей и самих прогнозных моделей.
|
|||||
Последнее изменение этой страницы: 2016-12-12; просмотров: 979; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.141.2.96 (0.006 с.) |