Експериментальна перевірка роботи алгоритму автоматичного реферування 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Експериментальна перевірка роботи алгоритму автоматичного реферування



На основі побудованої моделі індикативного реферату як результату моделювання процесу узагальнення й детального опису заповнення актантної структури реферативних конструкцій (підрозділ 3.4) створюється алгоритм автоматичного реферування.

 

Алгоритм складається з трьох етапів (рис. 3.4):

На етапі 1 цього алгоритму відбувається пошук найчастіше уживаного поняття N1 з тексту оригіналу для заповнення іменного актанта A1 в реферативній конструкції (рис. 3.5). Пошук здійснюється з опорою на заголовок первинного тексту, оскільки заголовок є результатом вищого рівня узагальнення при реферуванні [151] й тому обов’язково містить ключове термінологічне поняття.

 

 

У процесі пошуку кожне слово із заголовку порівнюється з кожним словом з оригінального тексту й у випадку збігу одночасно проводиться кількісний аналіз: підраховується абсолютна частота досліджуваних слів. У результаті відшукується найчастіше вживане поняття-термін N1, що передається на вхід другого етапу алгоритму реферування. При роботі автоматичної системи реферування на базі описаного алгоритму на всіх етапах проводиться автоматичний морфологічний аналіз із використанням SMART-технології.

 

На другому етапі алгоритму відбувається побудова актантного ланцюжка (підрозділ 3.4), який є семантичною основою реферативної конструкції. На вході

в пам’яті утримується знайдений на першому етапі ключовий термін N1, який заповнює актант A1. Далі проводиться дистрибутивний аналіз цього елементу таким самим чином, як описано в підрозділі 3.4. Алгоритм для системи АР працює в двох блоках: умовно Блок 1 можна назвати пошук вліво, Блок 2 – пошук вправо, тобто в одному блоці аналізуються слова, які стоять ліворуч від N1, а в другому блоці – слова, які стоять праворуч. Таким чином, Блок 2 є своєрідним «дзеркальним» відображенням Блоку 1.

 

На третьому етапі завершується побудова реферативного речення. Оскільки на вході цього етапу вже є готовий актантний ланцюжок, який містить основний зміст остаточного речення для реферативного тексту, головним завданням цього етапу є вибір предикатного ядра зі словника V(m1) (підрозділ 3.4.1). Вибір предиката з першої групи, тобто зі словника V(m1), можливо робити

в автоматичному режимі, оскільки елементи цього класу є повністю взаємозамінними (підрозділ 3.4.1), крім того, наявність відібраного предикату в тексті оригіналу не обов’язкова. При оформленні остаточного варіанту РК за допомогою предиката з другої та третьої груп діє зовсім інший механізм, тому що в цьому випадку необхідно, по-перше, знайти необхідне слово в первинному тексті, по-друге, – проаналізувати його оточення для визначення рівня узагальнення і тільки тоді використовувати його для побудови РК.

 

Для перевірки запропонованого алгоритму автоматичного реферування була створена експериментальна система «АвтоРеферат». Програмна реалізація здійснювалась на мові С++, середовище розробки – Borland C++ Builder 6.

 

«Автореферат» працює чітко за запропонованим алгоритмом. На першому етапі відшукується найчастіше вживане поняття шляхом зіставлення слів, які входять до складу заголовка, і слів оригінального тексту. Завдяки механізмам мов програмування, використанню додаткових перемінних для зберігання даних здійснюється один перегляд первинного тексту. Іменний актант A1 на першому етапі заповнюється одним елементом – поняттям N1, але на другому етапі до нього додаються можливі додаткові елементи, які складають термінологічне поняття. Наявність онтології предметної галузі на цій стадії має сприяти збільшенню якості й швидкості ідентифікації терміна.

 

На другому етапі аналіз оригінального тексту відбувається за блоками: спочатку пошук елементів актантного ланцюжка ліворуч, потім – праворуч. Для побудови ланцюжка проводиться статистично-дистрибутивний аналіз контактно розташованих елементів (слів) первинного тексту. Критерієм відбору елементів в актантний ланцюжок служить так званий коефіцієнт повторювань (k), який впливає на підрахунок абсолютної частоти.

 

На третьому етапі додається предикат методом випадкового вибору з допоміжного словника (виродженої онтології).

 

У процесі дослідження були проведені експериментальні перевірки роботи програми «Автореферат». Експериментальна перевірка №1 базувалась на текстах з медицини (рис. 3.6), а експериментальна перевірка № 2 відбувалась на тексті з математики (рис. 3.7).

K = 15%

 

 

Рис 3.6. Результати експериментальної перевірки № 1

 

(оригінальний текст й текст реферату)

 

K = 20%

 

 

Рис. 3.7. Результати експериментальної перевірки № 2

 

(оригінальний текст і текст реферату)

 

 

У результаті на виході програма дає реферативний текст, який формально відповідає побудованій у даному дослідженні моделі індикативного реферату, але ще не може генерувати повноцінний індикативний реферат. Кращі результати можливі лише за наявності повних онтологій термінологічної й загальнонаукової лексики.

 

ВИСНОВКИ

 

Існуючі сьогодні системи автоматичного реферування, засновані на статистичних і позиційних методах автоматичної обробки інформації, допомагаютьрозв'язуванні вирішуватикола завданняадач, пов’язані з аналізом інформаційних масивів на текстовому рівні. Однак У цих системах не йдеться про семантичний аналіз інформації, всі вони вирішують лише завдання автоматичного екстрагування найбільш значущих реченьречень.

 

Створення ж високоякісного автоматичного реферату потребує проведення семантичного аналізу смислової структури текстів, узагальнення смислу та синтезу реферативного тексту, що, у свою чергу, передбачає наявність у системі для їх здійснення розвинутих семантичних словників – онтологій. Саме рішенню однієї з таких проблем і присвячений запропонований у даному дослідженні підхід до моделювання процесу узагальнення. Цей підхід дозволив побудувати модель індикативного реферату у вигляді типових для рефератів синтактико-семантичних конструкцій із загальним метазначенням з метою наступного змістовного конструювання реферату, яке передбачає наповнення синтаксем поняттями відповідних класів з онтологій різних предметних галузей.

 

Створена для перевірки роботи запропонованої моделі експериментальна автоматична система реферування «АвтоРеферат» продемонструвала принципову можливість практичного використання запропонованої моделі. Але на даному етапі досліджень побудовано модель узагальнення-компресії, а не власне узагальнення, яке можливе лише в процесі інтелектуального реферування.

 

Таким чином, наступним кроком у дослідженні узагальнення в процесі реферування для вдосконалення системи АР є моделювання з точки зору саме узагальнення, для чого потрібно створити відповідні онтології. Рішенню цієї задачі і присвячені наші сучасні дослідження.

 

 



Поделиться:


Последнее изменение этой страницы: 2016-06-06; просмотров: 204; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.202.167 (0.006 с.)