Онтологія як засіб представлення знань при моделюванні процесу узагальнення в системі АР 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Онтологія як засіб представлення знань при моделюванні процесу узагальнення в системі АР



 

Сьогодні найбільш перспективним засобом представлення знань визначаються онтології [110]. Створення онтологій як засіб представлення знань

є досить новим і містить окремі елементи вищеописаних підходів фреймового

і мережного моделювання. За визначенням [111], онтологія – це експліцитна специфікація концептуалізації, що складається з термінів, організованих у таксономію, їх визначень і атрибутів, а також зв’язаних з ними аксіом і правил виведення.

 

Формальна модель онтології виглядає в такий спосіб:

 

O = , Ф>, де

 

O – онтологія;

 

X – кінцева множинність концептів (понять, термінів) предметної галузі, яку представляє онтологія O;

 

 – кінцева множинність відношень між концептами (поняттями, термінами) заданої предметної галузі;

 

Ф – кінцева множинність функцій інтерпретації (аксіоматизації), заданих на концептах і/або відносинах онтології O.

 

Природним обмеженням, що накладається на множинність Х, є її скінченність і непорожність. Однак існують випадки, пов’язані з порожністю компонентів Ф і  (при цьому вони повинні бути скінченими множинностями).

 

Якщо  = Ø і Ф = Ø, то онтологія О трансформується в простий словник:

 

О = V =.

 

Така онтологія може бути корисна для специфікації, поповнення і підтримки словників ПГ. Відомими прикладами онтологій цього типу є індекси машин пошуку інформації в мережі Інтернет.

 

Якщо  = Ø, але Ф ≠ Ø, тоді кожному елементу множинності термінів

з Х може бути поставлена у відповідність функція інтерпретації f з Ф. Формально це твердження може бути записане в такий спосіб:

 

Х = Х1 U Х2,

 

причому

 

Х1 U Х2 = Ø,

 

де Х1 – множинність термінів, що інтерпретуються;

 

Х2 – множинність термінів, які інтерпретують.

 

Тоді

 

 (х  Х1, y1, y2,…,ykX2),

 

такі що

 

х = f (y1, y2,…,yk),

 

де f  Ф.

 

Пустота перетинання множинностей Х1 і Х2 виключає циклічні інтерпретації, а введення в розгляд функції k аргументів покликане забезпечити більш повну інтерпретацію. Вид відтворення f з Ф визначає виразну потужність

і практичну корисність даного виду онтології. Так, якщо припустити, що функція інтерпретації задається оператором присвоювання значень (Х1: = Х2, де Х1 – назва інтерпретації Х2), тоді онтологія трансформується в пасивний словник Vp:

 

O = Vp = 1 U X2, {}, {:=}>.

 

Такий словник є пасивним, тому що всі визначення термінів з Х1 беруться з уже існуючої і фіксованої множинності Х2. Практична цінність її вища за простий словник але явно недостатня, наприклад, для представлення знань у завданнях обробки інформації в мережі Інтернет з огляду на динамічний характер цього середовища.

 

У моделі онтології, необхідної для розв’язання завдань обробки інформації в мережі Інтернет, множинність відношень на концептах не повинна бути порожньою. Введемо, наприклад, спеціальний підклас онтологій – просту таксономію в такий спосіб: O = T0 =.

 

Відношення is_a має заздалегідь фіксовану семантику і дозволяє організувати структуру понять онтології у вигляді дерева. Такий підхід має свої переваги і недоліки, але загалом є адекватним і зручним для представлення ієрархії понять.

 

Модель онтології надає можливість:

 

представлення множинності концептів Х у вигляді сіткової структури;

 

використання значної множинності відношень , що включає не тільки таксономічні відношення, але й відношення, які відбивають специфіку конкретної ПГ, а також засобу розширення множинності ;

 

використання декларативних і процедурних інтерпретацій і відношень, включаючи можливість визначення нових інтерпретацій.

 

Проектування і реалізація онтологій здійснюється за наступними принципами [111]:

 

ясність – онтологія повинна ефективно передавати смисл введених термінів;

 

узгодженість – визначення повинні бути несуперечливі;

 

розширюваність – онтологія повинна бути спроектована так, щоб забезпечувати використання призначених для поділу словників і термінів, які допускають можливість монотонного розширення і/чи спеціалізації без необхідності ревізії вже існуючих понять;

 

мінімум впливу кодування – концептуалізація, що лежить в основі створюваної онтології, повинна бути специфікована на рівні подання, а не символьного кодування;

 

мінімум онтологічних зобов’язань – онтологія повинна містити тільки найбільш істотні припущення про світ, який моделюється, щоб залишати можливість для розширення і спеціалізації.

 

Процес створення онтології включає три процедури:

 

Керування проектом: планування, контроль і гарантії якості. Планування визначає, які завдання повинні бути виконані, як вони організуються, як багато часу і які ресурси потрібні для їх виконання. Контроль гарантує,

що заплановані завдання виконані саме так, як це передбачалося. Гарантії якості потрібні, щоб бути впевненим у тому, що компоненти і продукт у цілому знаходяться на заданому рівні.

 

Власне розробка: специфікація, концептуалізація, формалізація і реалізація. Специфікація визначає цілі створення онтології, її передбачуване використання і потенційних користувачів. Концептуалізація забезпечує структурування предметних знань у вигляді значущої експліцитної моделі. Формалізація трансформує концептуальну модель у формальну або «обчислювальну». У процесі реалізації обчислювальна модель програмується відповідною мовою представлення знань.

 

Підтримка розробки: набуття знань, оцінка, інтеграція, документування і керування конфігураціями. Набуття знань акумулює знання в заданій ПГ. Оцінка дає технічні розв’язання з оцінки онтології, відповідного програмного забезпечення і документації як у процесі кожної фази, так і між фазами. Інтеграція потрібна, коли будується нова онтологія з використанням уже існуючих. Документування дає детальну, зрозумілу і вичерпну інформацію про кожну фазу і продукт загалом. Керування конфігураціями необхідне для архівації всіх версій документації, програмного забезпечення і коду онтології, а також для контролю за змінами.

 

Онтології включають абстрактний опис як загальних, так і специфічних для конкретної предметної галузі термінів. Питання про коректний спосіб аналізу знань з метою визначення термінів залишається поки що відкритим, і його обговоренню присвячено велику кількість робіт [112].

 

Однією з найбільш сильних боків онтологій є їх потенційні властивості для розв’язання таких важливих завдань, як поділ знань і їх повторне використання. Цей висновок ґрунтується на припущенні про те, що якщо загальна схема (представлення і використання знань), тобто онтологія, однозначно визначена для агентів, що працюють з нею, як загальний ресурс, то цей ресурс можна розподіляти між агентами, а також багаторазово використовувати [113].

 

Сьогодні перелік проектів, які тією чи іншою мірою пов’язані з онтологіями на Web, надзвичайно великий, тому ми зупинимося тільки на найбільш цікавих з погляду даного дослідження, тобто таких, що демонструють можливість використання онтологій у системах автоматичного анотування і реферування.

 

Проект CYC® створення мульти-контекстної бази знань і машини виведення, розроблювальної Cycorp. Основна мета цього гігантського проекту – раз і назавжди побудувати базу знань усіх загальних понять, яка включає семантичну структуру термінів, зв’язків між ними, правил і яка буде доступна різноманітним програмним засобам [114]. Розроблюються і менш масштабні проекти

в галузі представлення знань. Приклад такої онтології верхнього рівня

приведено на рис.2.4.

 

У межах проекту (KA)2 (Knowledge Acquisition Initiative) з організації інтелектуального доступу до документів, онтологія є основою для анотації

WWW – документів. (KA)2 – це відкрита ініціатива, в межах якої учасники включаються в процес створення розподіленої онтології і моделі витягнення знань (онтології предметної галузі). Однією з цілей (KA)2 є трансформація з представлення WWW (як бази знань) у систему, базовану на знаннях [115].

 

Автори роботи [116] в проекті SHOE пропонують анотувати інформацію, що міститься в HTML-документах, також використовуючи онтології. У SHOE «власники» інформації можуть самі анотувати свої документи і розширювати

Рис. 2.4. Онтологія верхнього рівня

конкретну онтологію новими поняттями. У цій системі центральний адміністратор онтологій не визначений. Як наслідок, роблячи запит, користувач може не знати всі терміни, що використовуються для анотації HTML-документів. Тому відповідь на запит може не містити важливу для користувача інформацію.

 

У проекті Ontobroker [117] пропонується організація онтології з автоматичною анотацією WWW-документів семантичною інформацією. Основна ідея даного проекту – це використання метафори групи за інтересами (newsgroup), щоб визначити групу людей, у яких спостерігається спільний погляд на поняття, і їх місце в загальній онтології. На відміну від SHOE, у Ontobroker мається адміністратор онтологій, і клієнти можуть взнати всі терміни онтологій.

У SHOE використовується дескриптивна логіка як базисний формалізм для висновку, а Ontobroker використовує логіку, засновану на фреймах, і підтримує досить складний механізм виведення відповіді на запит. Створений у межах цього проекту спеціальний пошуковий механізм Ontocrawler підтримує повну колекцію всіх анотованих за допомогою Ontobroker HTML-сторінок.

 

При розробці онтології для системи АР етап специфікації визначає мету створення цієї онтології – моделювання процесу узагальнення смислу в системі автоматичного реферування, її передбачуване використання – різні ІПС, WWW, а також потенційних користувачів – людей, що працюють з потоком науково-технічної інформації на електронних носіях, користуються Інтернет. Концептуалізація забезпечує структурування предметних знань у вигляді класифікації понять, що використовуються в індикативних рефератах, для створення експліцитної моделі узагальнення. На етапі формалізації концептуальна модель трансформується у формальну. Реалізація обчислювальної моделі, тобто програмування її відповідною мовою представлення знань, не входить до завдань даного дослідження.

 

Розумна класифікація, безсумнівно, – частина будь-якої науки. Р. Міхальскі та Р. Степп стверджують: «невід’ємним завданням науки є побудова змістової класифікації об’єктів або ситуацій, над якими ведеться спостереження. Така класифікація істотно полегшує розуміння основної проблеми

і подальший розвиток наукової теорії» [118]. За словами Дж. Ст. Мілля, «класифікація – є міра для можливо кращого впорядкування у нашому розумі ідей про предмети: вона є причиною того, що ідеї супроводжують одна одну або випливають одна з іншої в такому порядку, який дає нам найбільшу владу над уже здобутим знанням і найбільш прямо веде до подальшого його здобуття» [119].

 

З часів Платона проблема класифікації була предметом переосмислення незліченної кількості філософів, лінгвістів, когнітивістів, математиків.

Тому було б правильним вивчити накопичений досвід і застосувати його в даному дослідженні. Історично відомі тільки три підходи до класифікації:

 

класична категоризація;

 

концептуальна кластеризація;

 

теорія прототипів [120].

 

У класичному підході всі речі, що мають дану властивість чи сукупність властивостей, формують певну категорію. Причому наявність цих властивостей є необхідною і достатньою умовою, що визначає категорію [121]. Класичний підхід як критерій подібності об’єктів використовує спорідненість їх властивостей. Зокрема, об’єкти можна розбивати на непересічні множинності в залежності від наявності чи відсутності певної ознаки.

 

Сучасним варіантом класичного підходу є концептуальна кластеризація. Він виник зі спроб формального представлення знань. При такому підході спочатку формуються концептуальні описи класів (кластерів об’єктів), а потім класифікуються сутності відповідно до цих описів [122]. Концептуальну кластеризацію можна пов’язати з теорією нечітких (багатозначних) множинностей,

у якій об’єкт може належати одночасно до декількох категорій з різним ступенем точності. Концептуальна кластеризація робить у класифікації абсолютні судження, ґрунтуючись на найкращій згоді.

 

Класична категоризація і концептуальна кластеризація – досить виразні методи, цілком придатні для проектування складних програмних систем. Але все-таки є ситуації, за яких ці методи не працюють. Існує більш новий метод класифікації – теорія прототипів. Відповідно до даного підходу клас визначається одним об’єктом-прототипом, і новий об’єкт можна віднести до класу

за умови, що він наділений істотною подібністю з прототипом.

 

В адекватному перекладі з латини класифікація (classis – група, facio – роблю) – «групування». Класифікація як процедура є окремим випадком логічної операції розподілу обсягу понять, що полягає в поділі родового поняття певної сукупності предметів на види, класи або типи на основі їх загальних ознак з утворенням певної системи класів даної сукупності предметів, яка фіксує закономірні зв’язки між ними і визначає постійне місце розташування класів (видів, типів) у системі [123].

 

Загальні ознаки, відповідно до яких відбувається розподіл, називаються підставою розподілу. У теорії класифікації однією з важливих характеристик ознак є ясність – розуміння ознаки, успішна його інтерпретація передбачають осягнення його смислу і його денотації. Якщо смисл ознаки визначений чітко

й однозначно, ознаку називають змістово зрозумілою або власне зрозумілою; якщо те, що позначається ознакою, чітко окреслене, говорять, що ознака точна. Класифікація має практичну цінність тоді, коли ознаки, прийняті як підстава поділу, є вагомими, істотними для цілей пізнання [124].

 

Класифікацію об’єктів даної предметної галузі знання називають таксономією. Класифікацію властивостей, виражених в ознаках, що утворюють

ці властивості в об’єктах даної предметної галузі, називають мерономією [125]. Таким чином, при класифікації таксономія виділяє класи (види) об’єктів, розглядає процедури розподілу об’єктів на групи (таксони), а мерономія забезпечує «таксономію ознаковим простором і даними про співвідношення ознак у різних об’єктів» [126].

 

Труднощі класифікації можна пояснити, по-перше, відсутністю «досконалої» класифікації, по-друге, – необхідністю творчого підходу до процесу класифікації.

 

Логіка класифікації вимагає, щоб [127, 128, 129]:

 

сума членів розподілу (елементів класифікації) дорівнювала діленому;

 

члени поділу були альтернативні, взаємно виключали один одного, тобто кожен об’єкт належить тільки одному з однорангових таксонів;

 

кожен із членів поділу розташовувався тільки в одному підрозділі даної ієрархічно супідрядної послідовності підрозділів (відділів);

 

члени поділу були безпосередньо нижчими стосовно діленого;

 

послідовно проводився принцип єдиного (несуперечливого) поділу;

 

члени поділу різних рангів (відділи) підпорядковувалися один одному (принцип ієрархічності);

 

в основі поділу була ознака, яка характеризує важливі для цілей класифікації відмінності між членами поділу (принцип зважування ознак);

 

можна було винести аподиктичне (категоричне) судження про вірогідність наявності даної ознаки в даного об’єкта;

 

можна було винести таке ж судження про відповідність даної ознаки

у двох чи більше об’єктів.

 

Вважається, що класифікація складається з наступних операцій [126]:

 

виявлення таксономічного простору: множинності (предметної галузі) об’єктів (елементів класифікації), що підлягають класифікації;

 

виявлення мерономічного простору: властивостей цих об’єктів і вираження їх в ознаках;

 

виявлення перетину елементів таксономічного і мерономічного просторів: розподіл ознак серед об’єктів;

 

групування (конгрегація) об’єктів у таксони у відповідність з розподілом ознак;

 

встановлення ієрархічної супідрядності таксонів.

 

Однак не буває випадків, коли при класифікації природних об’єктів неухильно виконуються всі дев’ять логічних умов і п’ять операцій. У ході дослідження виявляються раніше не враховані об’єкти, а інші виключаються з розгляду. Багато ознак спостерігаються лише спорадично, а в інших випадках додумуються за аналогією.



Поделиться:


Последнее изменение этой страницы: 2016-06-06; просмотров: 183; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.218.184.214 (0.047 с.)