Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву
Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Експериментальна перевірка роботи алгоритму автоматичного реферуванняСодержание книги
Поиск на нашем сайте На основі побудованої моделі індикативного реферату як результату моделювання процесу узагальнення й детального опису заповнення актантної структури реферативних конструкцій (підрозділ 3.4) створюється алгоритм автоматичного реферування.
Алгоритм складається з трьох етапів (рис. 3.4):
На етапі 1 цього алгоритму відбувається пошук найчастіше уживаного поняття N1 з тексту оригіналу для заповнення іменного актанта A1 в реферативній конструкції (рис. 3.5). Пошук здійснюється з опорою на заголовок первинного тексту, оскільки заголовок є результатом вищого рівня узагальнення при реферуванні [151] й тому обов’язково містить ключове термінологічне поняття.
У процесі пошуку кожне слово із заголовку порівнюється з кожним словом з оригінального тексту й у випадку збігу одночасно проводиться кількісний аналіз: підраховується абсолютна частота досліджуваних слів. У результаті відшукується найчастіше вживане поняття-термін N1, що передається на вхід другого етапу алгоритму реферування. При роботі автоматичної системи реферування на базі описаного алгоритму на всіх етапах проводиться автоматичний морфологічний аналіз із використанням SMART-технології.
На другому етапі алгоритму відбувається побудова актантного ланцюжка (підрозділ 3.4), який є семантичною основою реферативної конструкції. На вході в пам’яті утримується знайдений на першому етапі ключовий термін N1, який заповнює актант A1. Далі проводиться дистрибутивний аналіз цього елементу таким самим чином, як описано в підрозділі 3.4. Алгоритм для системи АР працює в двох блоках: умовно Блок 1 можна назвати пошук вліво, Блок 2 – пошук вправо, тобто в одному блоці аналізуються слова, які стоять ліворуч від N1, а в другому блоці – слова, які стоять праворуч. Таким чином, Блок 2 є своєрідним «дзеркальним» відображенням Блоку 1.
На третьому етапі завершується побудова реферативного речення. Оскільки на вході цього етапу вже є готовий актантний ланцюжок, який містить основний зміст остаточного речення для реферативного тексту, головним завданням цього етапу є вибір предикатного ядра зі словника V(m1) (підрозділ 3.4.1). Вибір предиката з першої групи, тобто зі словника V(m1), можливо робити в автоматичному режимі, оскільки елементи цього класу є повністю взаємозамінними (підрозділ 3.4.1), крім того, наявність відібраного предикату в тексті оригіналу не обов’язкова. При оформленні остаточного варіанту РК за допомогою предиката з другої та третьої груп діє зовсім інший механізм, тому що в цьому випадку необхідно, по-перше, знайти необхідне слово в первинному тексті, по-друге, – проаналізувати його оточення для визначення рівня узагальнення і тільки тоді використовувати його для побудови РК.
Для перевірки запропонованого алгоритму автоматичного реферування була створена експериментальна система «АвтоРеферат». Програмна реалізація здійснювалась на мові С++, середовище розробки – Borland C++ Builder 6.
«Автореферат» працює чітко за запропонованим алгоритмом. На першому етапі відшукується найчастіше вживане поняття шляхом зіставлення слів, які входять до складу заголовка, і слів оригінального тексту. Завдяки механізмам мов програмування, використанню додаткових перемінних для зберігання даних здійснюється один перегляд первинного тексту. Іменний актант A1 на першому етапі заповнюється одним елементом – поняттям N1, але на другому етапі до нього додаються можливі додаткові елементи, які складають термінологічне поняття. Наявність онтології предметної галузі на цій стадії має сприяти збільшенню якості й швидкості ідентифікації терміна.
На другому етапі аналіз оригінального тексту відбувається за блоками: спочатку пошук елементів актантного ланцюжка ліворуч, потім – праворуч. Для побудови ланцюжка проводиться статистично-дистрибутивний аналіз контактно розташованих елементів (слів) первинного тексту. Критерієм відбору елементів в актантний ланцюжок служить так званий коефіцієнт повторювань (k), який впливає на підрахунок абсолютної частоти.
На третьому етапі додається предикат методом випадкового вибору з допоміжного словника (виродженої онтології).
У процесі дослідження були проведені експериментальні перевірки роботи програми «Автореферат». Експериментальна перевірка №1 базувалась на текстах з медицини (рис. 3.6), а експериментальна перевірка № 2 відбувалась на тексті з математики (рис. 3.7).
K = 15%
Рис 3.6. Результати експериментальної перевірки № 1
(оригінальний текст й текст реферату)
K = 20%
Рис. 3.7. Результати експериментальної перевірки № 2
(оригінальний текст і текст реферату)
У результаті на виході програма дає реферативний текст, який формально відповідає побудованій у даному дослідженні моделі індикативного реферату, але ще не може генерувати повноцінний індикативний реферат. Кращі результати можливі лише за наявності повних онтологій термінологічної й загальнонаукової лексики.
ВИСНОВКИ
Існуючі сьогодні системи автоматичного реферування, засновані на статистичних і позиційних методах автоматичної обробки інформації, допомагаютьрозв'язуванні вирішуватикола завданняадач, пов’язані з аналізом інформаційних масивів на текстовому рівні. Однак У цих системах не йдеться про семантичний аналіз інформації, всі вони вирішують лише завдання автоматичного екстрагування найбільш значущих реченьречень.
Створення ж високоякісного автоматичного реферату потребує проведення семантичного аналізу смислової структури текстів, узагальнення смислу та синтезу реферативного тексту, що, у свою чергу, передбачає наявність у системі для їх здійснення розвинутих семантичних словників – онтологій. Саме рішенню однієї з таких проблем і присвячений запропонований у даному дослідженні підхід до моделювання процесу узагальнення. Цей підхід дозволив побудувати модель індикативного реферату у вигляді типових для рефератів синтактико-семантичних конструкцій із загальним метазначенням з метою наступного змістовного конструювання реферату, яке передбачає наповнення синтаксем поняттями відповідних класів з онтологій різних предметних галузей.
Створена для перевірки роботи запропонованої моделі експериментальна автоматична система реферування «АвтоРеферат» продемонструвала принципову можливість практичного використання запропонованої моделі. Але на даному етапі досліджень побудовано модель узагальнення-компресії, а не власне узагальнення, яке можливе лише в процесі інтелектуального реферування.
Таким чином, наступним кроком у дослідженні узагальнення в процесі реферування для вдосконалення системи АР є моделювання з точки зору саме узагальнення, для чого потрібно створити відповідні онтології. Рішенню цієї задачі і присвячені наші сучасні дослідження.
|
||
|
Последнее изменение этой страницы: 2016-06-06; просмотров: 340; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.216.141 (0.006 с.) |