Конспект лекцій навчальної дисципліни 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Конспект лекцій навчальної дисципліни



КОНСПЕКТ ЛЕКЦІЙ НАВЧАЛЬНОЇ ДИСЦИПЛІНИ

 __________________ Експертні системи ______________________

(шифр і назва навчальної дисципліни)

напрям підготовки________ 6.050102 «Комп’ютерна інженерія» _________________

(шифр і назва напряму підготовки)

спеціальність _________ 6.05010201 «Комп’ютерні системи та мережі» _________

(шифр і назва спеціальності)

спеціалізація_____________________________________________________    ________

(назва спеціалізації)

факультет___         інформаційних технологій та кібербезпеки               ___

                                                                (назва інституту, факультету, відділення)

 

Розробник:

асистент каф. інформаційно-комунікаційних технологій,

к.т.н. Сахарова С.В.

 

 

2013 рік


Програма навчальної дисципліни

Змістовий модуль 1. Основні поняття експертних систем та об’єктна-орієнтований підхід при створенні експертної системи.

Тема 1. Експертні системи, основні поняття і визначення. Поняття експерт, експертна система, система прийняття рішень, інтелектуальна система, система обробки інформації, система штучного інтелекту. Визначення експертної системи. Умови, при яких комп’ютерну програму можна назвати експертною. Поняття данні, знання, база даних, база знань, метаданні, метазнання.

Тема 2. Експертні системи – основні задачі та архітектура. Перелік типових завдань, що вирішуються експертними системами. Характеристики та признаки експертних систем. Архітектура експертної системи. Базові функції експертних систем: придбання знань, передача знань, представлення знань, керування процесом пошуку рішення, пояснення прийнятого рішення. Синтаксис та семантика. Приклади відомих експертних систем та світові виробники експертних систем.

Тема 3. Об’єктно-орієнтований підхід при створенні експертної системи. Типи відносин. Поняття модель, об’єкт, клас, екземпляр класу, атрибут, метод, абстракція. Переваги застосування об’єктно-орієнтованого підходу при створенні експертної системи. Основні принципи об’єктно-орієнтованого підходу при створенні експертної системи. Основні типи відносин між класами та об’єктами.

Тема 4. Об’єктно-орієнтований підхід при створенні експертної системи. Типи діаграм. Представлення відносин між об’єктами та класами у вигляді UML -діаграм. Діаграми класів, прецедентів, станів, діяльності, послідовності дій, компонентів, розгортання. Поняття прецедент, варіант використання, актор.

 

Змістовий модуль 2. Подання знань в інтелектуальних системах.

Тема 5. Представлення знань: принципи та методи. Знання, представлення знань. Моделі представлення знань: декларативні та процедурні моделі представлення знань. Поняття представлення, опис, синтаксис семантика.

Тема 6. Моделі представлення знань. Моделі представлення знань: факти та правила, логіка предикатів, семантичні мережі, нейронні мережі, фрейми. Поняття нейрон, штучний нейрон, математична модель нейрону, нейронна мережа.

Тема 7. Оперативна аналітична обробка даних. Поняття OLAP – система. Три рівня інформаційних систем: рівень делатізованих даних, рівень агрегованих даних, рівень закономірностей. Багатовимірне (кубічне) подання даних. Технологія багатомірних баз даних. Багатовимірна таблиця «об'єкт - властивість - час». Вимоги Е.Ф.Кодда. Основні OLAP-операції.

Тема 8. Поняття вимірювання: типи шкал, факти і параметри, ієрархія вимірювань. Типи шкал: абсолютна шкала, шкала відносин, шкала інтервалів, шкала порядку і шкала найменувань. Поняття шкала, вимірювання, факт, подія, миттєвий знімок, сукупні миттєві знімки. Адитивні, напівадитивні, неадитивні параметри.

 

Тема 2. Експертні системи – основні задачі та архітектура.

Структура экспертных систем

Типичная статическая ЭС состоит из следующих основных компонентов (рис. 1.):

  • решателя (интерпретатора);
  • рабочей памяти (РП), называемой также базой данных (БД);
  • базы знаний (БЗ);
  • компонентов приобретения знаний;
  • объяснительного компонента;
  • диалогового компонента.

База данных (рабочая память) предназначена для хранения исходных и промежуточных данных решаемой в текущий момент задачи. Этот термин совпадает по названию, но не по смыслу с термином, используемым в информационно-поисковых системах (ИПС) и системах управления базами данных (СУБД) для обозначения всех данных (в первую очередь долгосрочных), хранимых в системе.

База знаний (БЗ) в ЭС предназначена для хранения долгосрочных данных, описывающих рассматриваемую область (а не текущих данных), и правил, описывающих целесообразные преобразования данных этой области.

Решатель, используя исходные данные из рабочей памяти и знания из БЗ, формирует такую последовательность правил, которые, будучи примененными к исходным данным, приводят к решению задачи.

Компонент приобретения знаний автоматизирует процесс наполнения ЭС знаниями, осуществляемый пользователем-экспертом.

Объяснительный компонент объясняет, как система получила решение задачи (или почему она не получила решение) и какие знания она при этом использовала, что облегчает эксперту тестирование системы и повышает доверие пользователя к полученному результату.

Диалоговый компонент ориентирован на организацию дружественного общения с пользователем как в ходе решения задач, так и в процессе приобретения знаний и объяснения результатов работы.

В разработке ЭС участвуют представители следующих специальностей:

эксперт в проблемной области, задачи которой будет решать ЭС;

инженер по знаниям - специалист по разработке ЭС (используемые им технологию, методы называют технологией (методами) инженерии знаний);

программист по разработке инструментальных средств (ИС), предназначенных для ускорения разработки ЭС.

Необходимо отметить, что отсутствие среди участников разработки инженеров по знаниям (т. е. их замена программистами) либо приводит к неудаче процесс создания ЭС, либо значительно удлиняет его.

Эксперт определяет знания (данные и правила), характеризующие проблемную область, обеспечивает полноту и правильность введенных в ЭС знаний.

Инженер по знаниям помогает эксперту выявить и структурировать знания, необходимые для работы ЭС; осуществляет выбор того ИС, которое наиболее подходит для данной проблемной области, и определяет способ представления знаний в этом ИС; выделяет и программирует (традиционными средствами) стандартные функции (типичные для данной проблемной области), которые будут использоваться в правилах, вводимых экспертом.

Программист разрабатывает ИС (если ИС разрабатывается заново), содержащее в пределе все основные компоненты ЭС, и осуществляет его сопряжение с той средой, в которой оно будет использовано.

Экспертная система работает в двух режимах: режиме приобретения знаний и в режиме решения задачи (называемом также режимом консультации или режимом использования ЭС).

В режиме приобретения знаний общение с ЭС осуществляет (через посредничество инженера по знаниям) эксперт. В этом режиме эксперт, используя компонент приобретения знаний, наполняет систему знаниями, которые позволяют ЭС в режиме решения самостоятельно (без эксперта) решать задачи из проблемной области. Эксперт описывает проблемную область в виде совокупности данных и правил. Данные определяют объекты, их характеристики и значения, существующие в области экспертизы. Правила определяют способы манипулирования с данными, характерные для рассматриваемой области.

Отметим, что режиму приобретения знаний в традиционном подходе к разработке программ соответствуют этапы алгоритмизации, программирования и отладки, выполняемые программистом. Таким образом, в отличие от традиционного подхода в случае ЭС разработку программ осуществляет не программист, а эксперт (с помощью ЭС), не владеющий программированием.

В режиме консультации общение с ЭС осуществляет конечный пользователь, которого интересует результат и (или) способ его получения. Необходимо отметить, что в зависимости от назначения ЭС пользователь может не быть специалистом в данной проблемной области (в этом случае он обращается к ЭС за результатом, не умея получить его сам), или быть специалистом (в этом случае пользователь может сам получить результат, но он обращается к ЭС с целью либо ускорить процесс получения результата, либо возложить на ЭС рутинную работу). В режиме консультации данные о задаче пользователя после обработки их диалоговым компонентом поступают в рабочую память. Решатель на основе входных данных из рабочей памяти, общих данных о проблемной области и правил из БЗ формирует решение задачи. ЭС при решении задачи не только исполняет предписанную последовательность операции, но и предварительно формирует ее. Если реакция системы не понятна пользователю, то он может потребовать объяснения:

Отношение зависимости

Отношение зависимости в общем случае указывает некоторое семантическое отношение между двумя элементами модели или двумя множествами таких элементов. Отношение зависимости используется в такой ситуации, когда некоторое изменение одного элемента модели может потребовать изменения другого зависимого от него элемента модели. Отношение зависимости графически изображается пунктирной линией между соответствующими элементами со стрелкой на одном из ее концов («->» или «<-»). На диаграмме классов данное отношение связывает отдельные классы между собой, при этом стрелка направлена от класса-клиента зависимости к независимому классу или классу-источнику.

Возникает когда объект выступает например в форме параметра или локальной переменной.

Отношение ассоциации

Данное отношение обозначается сплошной линией с дополнительными специальными символами, которые характеризуют отдельные свойства конкретной ассоциации. (отношение между двумя классами – классом «Компания» и классом «Сотрудник»)

Отношение агрегации

Отношение агрегации имеет место между несколькими классами в том случае, если один из классов представляет собой некоторую сущность, включающую в себя в качестве составных частей другие сущности. Отношение «часть-целое».

Графически отношение агрегации изображается сплошной линией, один из концов которой представляет собой незакрашенный внутри ромб. Этот ромб указывает на тот из классов, который представляет собой «целое». Остальные классы являются его «частями» (отношение между классом «Грузовой_автомобиль» и классами «Двигатель», «Шасси», «Кабина», «Кузов»)

Отношение композиции

Является частным случаем отношения агрегации. Это отношение служит для выделения специальной формы отношения «часть-целое», при которой составляющие части в некотором смысле находятся внутри целого. Специфика взаимосвязи между ними заключается в том, что части не могут выступать в отрыве от целого, т. е. с уничтожением целого уничтожаются и все его составные части. Пример: живая клетка в биологии, окно интерфейса программы, которое может состоять из строки заголовка, кнопок управления размером, полос прокрутки, главного меню, рабочей области и строки состояния.

Графически отношение композиции изображается сплошной линией, один из концов которой представляет собой закрашенный внутри ромб. Этот ромб указывает на тот из классов, который представляет собой класс-композицию или «целое». Остальные классы являются его «частями»

Отношение обобщения

Отношение «Родитель - потомок». Отношение описывает иерархическое строение классов и наследование их свойств и поведения. При этом предполагается, что класс-потомок обладает всеми свойствами и поведением класса-предка, а также имеет свои собственные свойства и поведение, которые отсутствуют у класса-предка. На диаграммах отношение обобщения обозначается сплошной линией с треугольной стрелкой на одном из концов (рис. 5.12). Стрелка указывает на более общий класс (класс-предок или суперкласс), а ее отсутствие – на более специальный класс (класс-потомок или подкласс).

Отношение реализации

Реализация — отношение между двумя элементами модели, в котором один элемент (клиент) реализует поведение, заданное другим (поставщиком). Реализация — отношение целое-часть. Графически реализация представляется также как и наследование, но с пунктирной линией.


Примечания

Отношения на диаграмме вариантов использования

Для моделирования поведения на логическом уровне в языке UML могут использоваться сразу несколько канонических диаграмм: состояний, деятельности, последовательности и кооперации, каждая из которых фиксирует внимание на отдельном аспекте функционирования системы.

Диаграмма состояний (statechart diagram)

Главное предназначение этой диаграммы - описать возможные последовательности состояний и переходов, которые в совокупности характеризуют поведение элемента модели в течение его жизненного цикла. Диаграмма состояний представляет динамическое поведение сущностей, на основе спецификации их реакции на восприятие некоторых конкретных событий.

Диаграмма деятельности (activity diagram)

Для моделирования процесса выполнения операций в языке UML используются так называемые диаграммы деятельности.

Диаграмма последовательности (sequence diagram)

Диаграмма взаимодействия объектов можно рассматривать во времени, и тогда для представления временных особенностей передачи и приема сообщений между объектами используется диаграмма последовательности

Диаграмма компонентов (component diagram)

Диаграмма компонентов позволяет определить архитектуру разрабатываемой системы, установив зависимости между программными компонентами, в роли которых может выступать исходный, бинарный и исполняемый код.

Диаграмма развертывания (deployment diagram)

Диаграмма развертывания предназначена для визуализации элементов и компонентов программы, существующих лишь на этапе ее исполнения


Организм аэробный,

Если

ЕСЛИ

X имеет РЕВОЛЬВЕР, или

X имеет ПИСТОЛЕТ, или

Если

X имеет ЛИЧНЫЙ_ЖЕТОН, то

X имеет СЛУЖЕБНОЕ_УДОСТОВЕРЕНИЕ.

Эти правила можно представить в виде набора узлов в дереве целей

Рис. Представление набора правил в виде И/ИЛИ-графа

 

Логика предикатов (символьной логикой) - формальное исчисление, допускающее высказывания относительно переменных, фиксированных функций и предикатов.

Отец (Х,У)

Понятие ``предикат'' обобщает понятие ``высказывание''. Неформально говоря, предикат – это высказывание, в которое можно подставлять аргументы. Если аргумент один – то предикат выражает свойство аргумента, если больше – то отношение между аргументами.

По уровню абстрактности элемента знаний, модель работает с простейшими составляющими знания - фактами и правилами. На этом уровне абстракции логика предикатов позволяет получить единую систему представления, в которой знания рассматриваются как единое целое.

Модель достаточно универсальна, однако, так же, как и модель представления знаний с помощью фактов и правил, не может быть использована для создания ИС со специальными знаниями из различных предметных областей.

Способности модели к обучению находятся на среднем уровне. Формирование новых знаний возможно на низком уровне абстрактности - на уровне фактов и правил. Алгоритмы вывода хорошо формализованы. С помощью логики предикатов можно, определяя произвольным образом знания, выяснить, имеются или отсутствуют противоречия между новыми и уже существующими знаниями.

Для хранения элемента модели нужно примерно 128-256 B памяти.

 

Семантические сети -Семантическая сеть состоит из точек, которые называются узлами, и дуг, которые соединяют, описывающие отношения между узлами. Узлы в семантической сети соответствуют объектам, концепциям или событиям. Дуги могут быть определены различными методами, которые зависят от вида представленных знаний. Конечно дуги, используемые для представления иерархии, содержащие дуги типа IS-A (которые имеют значение "есть") и HAS-PART ("имеет часть").

 

Модель достаточно универсальна и легко настраивается на конкретную предметную область. Каждое отдельное знание рассматривается как некоторое отношение между сущностями и понятиями. Итак, определены заранее и уже существующие внутри системы знания можно наращивать независимо, с сохранением их модульности.

Характерная особенность семантической сети - наглядность знаний как системы. Все знания, принадлежащие к одинаковым сущностей и понятий, могут быть изображены в виде отношений между различными узлами, описывающих эти сущности. Такая возможность дает основание говорить о легкости понимания такого представления.

Из-за того, что форма представления знаний сетями не устанавливается, для каждого конкретного формализма будут определены свои правила вывода, поэтому усиливается элемент произвольности, внесенный человеком. Выводы на семантических сетях таят в себе угрозу возникновения противоречия. Новые знания формируются в виде новых отношений между понятиями.

Примерный размер памяти для хранения элемента модели составляет 256-512 В.

 

Динамические (нейроподобных) структуры. Начало современным моделям нейронных сетей было положено в работе Маккаллока и Питтса, где авторы предприняли первую попытку эмулировать человеческие способности классифицировать и распознавать образы. В их формализме нейроны имеют состояния 0, 1 и предельную логику перехода из состояния в состояние. Каждый нейрон в сети определяет взвешенную сумму состояний всех других нейронов и сравнивает ее с порогом, чтобы определить свое собственное состояние. Дальнейшее развитие этой модели связан с тем, что Розенблат ввел способность связей к модификации, что сделало ее такой, что может учиться. Эту модель назвали персептроном.

Основная черта нейронных сетей - использование взвешенных связей между отделочными элементами как принципиальный способ запоминания информации.

Задать нейронную сеть, способную решить конкретную задачу, - это значит определить модель нейрона, топологию связей, веса связей.

Нейронную сеть можно рассматривать как взвешенный ориентированный граф. Узлы в этом графе соответствуют нейронам, а ребра — связям между нейронами. С каждой связью ассоциирован вес — рациональное число, — который отображает оценку возбуждающего или тормозящего сигнала, передаваемого по этой связи на вход нейрона-реципиента, когда нейрон-передатчик возбуждается.

 

Рис. Фрагмент нейронной сети с возбуждающими и тормозящими связями

Нейрон (от др.-греч. νεῦρον — волокно, нерв) — это структурно-функциональная единица нервной системы. Эта клетка имеет сложное строение, высокоспециализирована и по структуре содержит ядро, тело клетки и отростки. В организме человека насчитывается более ста миллиардов нейронов. (Дендриты и аксон)

Иску́сственный нейро́н - узел искусственной нейронной сети, являющийся упрощённой моделью естественного нейрона. Математически, искусственный нейрон обычно представляют как некоторую нелинейную функцию от единственного аргумента — линейной комбинации всех входных сигналов. Полученный результат посылается на единственный выход. Такие искусственные нейроны объединяют в сети — соединяют выходы одних нейронов с входами других. Искусственные нейроны и сети являются основными элементами идеального нейрокомпьютера.

Математическая модель искусственного нейрона была предложена Уореном Маккалоком и Уолтером Питтсом вместе с моделью сети, состоящей из этих нейронов.

Практически сеть была реализована Фрэнком Розенблаттом в 1958 году как компьютерная программа, а впоследствии как электронное устройство — перцептрон. (работа с бинарными сигналами). Работа с непрерывными (аналоговыми) сигналами - Уидроу и Хоффом (предложили в качестве функции срабатывания нейрона использовать логистическую кривую)

Математическая модель

Математически нейрон представляет собой взвешенный сумматор, единственный выход которого определяется через его входы и матрицу весов следующим образом:

, где

, где

Здесь хi и wi — соответственно сигналы на входах нейрона и веса входов, функция u называется индуцированным локальным полем, а f(u) - передаточной функцией. Возможные значения сигналов на входах нейрона считают заданными в интервале [0,1]. Они могут быть либо дискретными (0 или 1), либо аналоговыми. Дополнительный вход x0 и соответствующий ему вес w0 используются для инициализации нейрона. Под инициализацией подразумевается смещение активационной функции нейрона по горизонтальной оси, то есть формирование порога чувствительности нейрона. Кроме того, иногда к выходу нейрона специально добавляют некую случайную величину, называемую сдвигом. Сдвиг можно рассматривать как сигнал на дополнительном, всегда нагруженном, синапсе.

Передаточная функция f(u) определяет зависимость сигнала на выходе нейрона от взвешенной суммы сигналов на его входах.

Фреймы. В области искусственного интеллекта термин "фрейм" относится к специальному методу представления общих концепций и ситуаций. Марвин Минский, первый, кто предложил идею фреймов, описывает его в таком виде: "Фрейм - это структура данных, представляющая стереотипную ситуацию такого типа, как нахождение внутри некоторого вида жилой комнаты, или сбора на вечеринку по поводу рождения ребенка. Для каждого фрейма присоединяются несколько видов информации. Часть этой информации - о том, как использовать фрейм. Часть о том, чего можно ждать дальше. Часть о том, что надо делать, если эти ожидания не подтвердятся ".

Фрейм по своей организации во многом похож на семантическую сеть. Фрейм является сетью узлов и отношений, организованных иерархически, где верхние узлы представляют общие понятия, а нижние узлы более частные случаи этих понятий. В системе, основанной на фреймах, понятие в каждом узле определяется набором атрибутов и значениями этих атрибутов, атрибуты называются слотами. Каждый слот может быть связан с процедурами, которые выполняются, когда информация в слотах меняется. С каждым слотом можно связать любое количество процедур.

По уровню абстрактности элемента знаний, фрейм как структура описывает одну из единиц обработки, лежит на высоком уровне абстракции и имеет определенную независимость, и может предоставить средства, которые соединяют между собой эти структурные единицы. Элементы знаний представляют собой целые понятия. Фреймовая система не только описывает знания, но и позволяет человеку описывать метазнання.

Модель достаточно универсальной, поскольку существуют не только фреймы для обозначения объектов и понятий, но и фреймы-роли (отец, мать, начальник, пешеход), фреймы-ситуации (тревога, авария, рабочий режим устройства) и др..

Представление знаний с помощью фреймов имеет наглядность и интуитивно понятно.

Обучение фреймовых систем затруднено. Приобретение новых знаний в модели возможно только в системах со сложной структурой фреймов. Создание таких систем требует серьезных затрат, но эти системы позволяют приобретать новые знания на уровне понятий. Проблема устранения противоречивых знаний решается самой системой.

Для хранения элемента модели требуется примерно 0.5-1.5 КB.

Создание фреймовых систем является сложной и кропотливой работой. Изменение и модификация такой системы требует привлечения опытных разработчиков, а также при выполнении этого условия является процессом, по трудоемкости сравнимым с созданием новой системы.


Понятие OLAP система

OLAP — подход к аналитической обработке данных в реальном времени, базирующийся на их многомерном иерархическом представлении.

 

Определение OLAP-систем

В основе концепции OLAP лежит принцип многомерного представления данных. В 1993 году E. F. Codd рассмотрел недостатки реляционной модели, в первую очередь указав на невозможность "объединять, просматривать и анализировать данные с точки зрения множественности измерений, то есть самым понятным для корпоративных аналитиков способом", и определил общие требования к системам OLAP, расширяющих функциональность реляционных СУБД и включает многомерный анализ как одну из своих характеристик.

Кодд определил 12 правил, которым должен удовлетворять программный продукт класса OLAP

Таблица 1 Правила оценки программных продуктов класса OLAP

1. Многомерное концептуальное представление данных (Multi-Dimensional Conceptual View) Концептуальное представление модели данных в продукте OLAP должно быть многомерным по своей природе, то есть позволять аналитикам выполнять интуитивные операции "анализа вдоль и поперек" ("slice and dice"), вращения (rotate) и размещения (pivot) направлений консолидации.
2. Прозрачность (Transparency) Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда берутся.
3. Доступность (Accessibility) Аналитик должен иметь возможность выполнять анализ в рамках общей концептуальной схемы, но при этом данные могут оставаться под управлением оставшихся от старого наследства СУБД, будучи при этом привязанными к общей аналитической модели. То есть инструментарий OLAP должен накладывать свою логическую схему на физические массивы данных, выполняя все преобразования, требующиеся для обеспечения единого, согласованного и целостного взгляда пользователя на информацию.
4. Устойчивая производительность (Consistent Reporting Performance) С увеличением числа измерений и размеров базы данных аналитики не должны столкнуться с каким бы то ни было уменьшением производительности. Устойчивая производительность необходима для поддержания простоты использования и свободы от усложнений, которые требуются для доведения OLAP до конечного пользователя.
5. Клиент - серверная архитектура (Client-Server Architecture) Большая часть данных, требующих оперативной аналитической обработки, хранится в мэйнфреймовых системах, а извлекается с персональных компьютеров. Поэтому одним из требований является способность продуктов OLAP работать в среде клиент-сервер. Главной идеей здесь является то, что серверный компонент инструмента OLAP должен быть достаточно интеллектуальным и обладать способностью строить общую концептуальную схему на основе обобщения и консолидации различных логических и физических схем корпоративных баз данных для обеспечения эффекта прозрачности.
6. Равноправие измерений (Generic Dimensionality) Все измерения данных должны быть равноправны. Дополнительные характеристики могут быть предоставлены отдельным измерениям, но поскольку все они симметричны, данная дополнительная функциональность может быть предоставлена любому измерению. Базовая структура данных, формулы и форматы отчетов не должны опираться на какое-то одно измерение.
7. Динамическая обработка разреженных матриц (Dynamic Sparse Matrix Handling) Инструмент OLAP должен обеспечивать оптимальную обработку разреженных матриц. Скорость доступа должна сохраняться вне зависимости от расположения ячеек данных и быть постоянной величиной для моделей, имеющих разное число измерений и различную разреженность данных.
8. Поддержка многопользовательского режима (Multi-User Support) Зачастую несколько аналитиков имеют необходимость работать одновременно с одной аналитической моделью или создавать различные модели на основе одних корпоративных данных. Инструмент OLAP должен предоставлять им конкурентный доступ, обеспечивать целостность и защиту данных.
9. Неограниченная поддержка кроссмерных операций (Unrestricted Cross-dimensional Operations) Вычисления и манипуляция данными по любому числу измерений не должны запрещать или ограничивать любые отношения между ячейками данных. Преобразования, требующие произвольного определения, должны задаваться на функционально полном формульном языке.
10. Интуитивное манипулирование данными (Intuitive Data Manipulation) Переориентация направлений консолидации, детализация данных в колонках и строках, агрегация и другие манипуляции, свойственные структуре иерархии направлений консолидации, должны выполняться в максимально удобном, естественном и комфортном пользовательском интерфейсе.
11. Гибкий механизм генерации отчетов (Flexible Reporting) Должны поддерживаться различные способы визуализации данных, то есть отчеты должны представляться в любой возможной ориентации.
12. Неограниченное количество измерений и уровней агрегации (Unlimited Dimensions and Aggregation Levels) Настоятельно рекомендуется допущение в каждом серьезном OLAP инструменте как минимум пятнадцати, а лучше двадцати, измерений в аналитической модели. Более того, каждое из этих измерений должно допускать практически неограниченное количество определенных пользователем уровней агрегации по любому направлению консолидации.

Набор этих требований, послуживших фактическим определением OLAP, следует рассматривать как рекомендательный, а конкретные продукты оценивать по степени приближения к идеально полному соответствию всем требованиям.

Основные OLAP-операции

1. Операции выбора и группировки (slice-and-dice) осуществляют выбор подмножества данных из многомерного куба по заданным условиям, что сокращает куб.

2. Операции иерархично агрегирования и детализации (drill-down и roll-up) – взаимообратные операции, которые выполняют свертку и детализацию данных по соответствующим измерениям. Обобщение до высоких значений иерархии отвечает удалению размерности.

3. Операции простого агрегирования - расчет общей суммы, количества определенных фактов, расчет средних значений и т.п..

4. Операции преобразования информационного пространства кубов:

комбинация (drill-across) - комбинируют кубы, которые имеют одно или несколько общих измерений. С точки зрения реляционной алгебры такая операция выполняет объединение (join),

поворот (rotating) куба дает пользователям возможность увидеть данные, сгруппированные по другим измерениям.

Операции упорядочивания (ranking) возвращает только те ячейки, которые появляются в верхней или нижней части упорядоченного определенным образом списка.

 


Тема 10. Таксономия.

Одной из основных задач интеллектуального анализа данных является таксономия, также называемая кластерным анализом, кластеризацией, группировкой объектов, автоматической классификацией.

Решение других задач ИАД, таких, как распознавание образов, квалиметрия, прогнозирование часто требует проведения предварительного кластерного анализа.

Распределение множества объектов в соответствии с их формализованным описанием на систему классов (таксонов) называется - таксономией

В простейшем случае задача таксономии может быть сформулирована следующим образом

Дано: множество  объектов, каждый из которых представлен множеством значений признаков.

Требуется: сформировать дополнительное свойство, характеризующее разделение объектов на множество классов   в соответствии с их расположением в пространстве признаков P.

Гипотеза компактности

Одной из эвристических гипотез, направленных на получение естественных для человека результатов таксономии является гипотеза компактности. Эта гипотеза основывается на том, что, при правильном выборе системы информативных признаков, реализации одного и того же образа отображаются в признаковом пространстве в геометрически близкие точки, образуя при этом компактные скопления.

При геометрическом подходе в основе применения методов классификации лежит так называемая гипотеза компактности. Согласно ей, близким в содержательном смысле объектам в геометрическом пространстве признаков соответствуют обособленные множества точек, обладающие свойствами хорошей отделимости. А именно:

  1. множества разных образов соприкасаются в сравнительно небольшом числе точек, либо вообще не соприкасаются и разделены точками, не принадлежащими ни одному из классов;
  2. границы классов имеют сравнительно плавную форму – не изрезаны, и у классов отсутствуют глубокие выступы в пределы других классов.

Назовем признаков, входящих в информативное подмножество , описывающими, а номинальный -й признак , указывающий имя образа, целевым. Обозначим множество объектов обучающей выборки через , новый распознаваемый объект через , а тот факт, что объекты множества компактны (эквивалентны, похожи или близки друг другу) в пространстве характеристик — через ..

Фактически гипотеза равнозначна предположению о наличии закономерной связи между признаками и , и с учетом вышесказанного ее тестовый алгоритм может быть представлен следующим выражением: . Т. е. если объекты множества компактны в пространстве и объекты множества компактны в пространстве описывающих свойств , то объекты и будут компактными и в пространстве целевого признака . Часто эту гипотезу формулируют так: «Объекты, похожие по описывающим свойствам



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 35; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.117.107.90 (0.084 с.)