Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Експериментальна перевірка роботи алгоритму автоматичного реферування↑ ⇐ ПредыдущаяСтр 12 из 12 Содержание книги
Поиск на нашем сайте
На основі побудованої моделі індикативного реферату як результату моделювання процесу узагальнення й детального опису заповнення актантної структури реферативних конструкцій (підрозділ 3.4) створюється алгоритм автоматичного реферування.
Алгоритм складається з трьох етапів (рис. 3.4): На етапі 1 цього алгоритму відбувається пошук найчастіше уживаного поняття N1 з тексту оригіналу для заповнення іменного актанта A1 в реферативній конструкції (рис. 3.5). Пошук здійснюється з опорою на заголовок первинного тексту, оскільки заголовок є результатом вищого рівня узагальнення при реферуванні [151] й тому обов’язково містить ключове термінологічне поняття.
У процесі пошуку кожне слово із заголовку порівнюється з кожним словом з оригінального тексту й у випадку збігу одночасно проводиться кількісний аналіз: підраховується абсолютна частота досліджуваних слів. У результаті відшукується найчастіше вживане поняття-термін N1, що передається на вхід другого етапу алгоритму реферування. При роботі автоматичної системи реферування на базі описаного алгоритму на всіх етапах проводиться автоматичний морфологічний аналіз із використанням SMART-технології.
На другому етапі алгоритму відбувається побудова актантного ланцюжка (підрозділ 3.4), який є семантичною основою реферативної конструкції. На вході в пам’яті утримується знайдений на першому етапі ключовий термін N1, який заповнює актант A1. Далі проводиться дистрибутивний аналіз цього елементу таким самим чином, як описано в підрозділі 3.4. Алгоритм для системи АР працює в двох блоках: умовно Блок 1 можна назвати пошук вліво, Блок 2 – пошук вправо, тобто в одному блоці аналізуються слова, які стоять ліворуч від N1, а в другому блоці – слова, які стоять праворуч. Таким чином, Блок 2 є своєрідним «дзеркальним» відображенням Блоку 1.
На третьому етапі завершується побудова реферативного речення. Оскільки на вході цього етапу вже є готовий актантний ланцюжок, який містить основний зміст остаточного речення для реферативного тексту, головним завданням цього етапу є вибір предикатного ядра зі словника V(m1) (підрозділ 3.4.1). Вибір предиката з першої групи, тобто зі словника V(m1), можливо робити в автоматичному режимі, оскільки елементи цього класу є повністю взаємозамінними (підрозділ 3.4.1), крім того, наявність відібраного предикату в тексті оригіналу не обов’язкова. При оформленні остаточного варіанту РК за допомогою предиката з другої та третьої груп діє зовсім інший механізм, тому що в цьому випадку необхідно, по-перше, знайти необхідне слово в первинному тексті, по-друге, – проаналізувати його оточення для визначення рівня узагальнення і тільки тоді використовувати його для побудови РК.
Для перевірки запропонованого алгоритму автоматичного реферування була створена експериментальна система «АвтоРеферат». Програмна реалізація здійснювалась на мові С++, середовище розробки – Borland C++ Builder 6.
«Автореферат» працює чітко за запропонованим алгоритмом. На першому етапі відшукується найчастіше вживане поняття шляхом зіставлення слів, які входять до складу заголовка, і слів оригінального тексту. Завдяки механізмам мов програмування, використанню додаткових перемінних для зберігання даних здійснюється один перегляд первинного тексту. Іменний актант A1 на першому етапі заповнюється одним елементом – поняттям N1, але на другому етапі до нього додаються можливі додаткові елементи, які складають термінологічне поняття. Наявність онтології предметної галузі на цій стадії має сприяти збільшенню якості й швидкості ідентифікації терміна.
На другому етапі аналіз оригінального тексту відбувається за блоками: спочатку пошук елементів актантного ланцюжка ліворуч, потім – праворуч. Для побудови ланцюжка проводиться статистично-дистрибутивний аналіз контактно розташованих елементів (слів) первинного тексту. Критерієм відбору елементів в актантний ланцюжок служить так званий коефіцієнт повторювань (k), який впливає на підрахунок абсолютної частоти.
На третьому етапі додається предикат методом випадкового вибору з допоміжного словника (виродженої онтології).
У процесі дослідження були проведені експериментальні перевірки роботи програми «Автореферат». Експериментальна перевірка №1 базувалась на текстах з медицини (рис. 3.6), а експериментальна перевірка № 2 відбувалась на тексті з математики (рис. 3.7). K = 15%
Рис 3.6. Результати експериментальної перевірки № 1
(оригінальний текст й текст реферату)
K = 20%
Рис. 3.7. Результати експериментальної перевірки № 2
(оригінальний текст і текст реферату)
У результаті на виході програма дає реферативний текст, який формально відповідає побудованій у даному дослідженні моделі індикативного реферату, але ще не може генерувати повноцінний індикативний реферат. Кращі результати можливі лише за наявності повних онтологій термінологічної й загальнонаукової лексики.
ВИСНОВКИ
Існуючі сьогодні системи автоматичного реферування, засновані на статистичних і позиційних методах автоматичної обробки інформації, допомагаютьрозв'язуванні вирішуватикола завданняадач, пов’язані з аналізом інформаційних масивів на текстовому рівні. Однак У цих системах не йдеться про семантичний аналіз інформації, всі вони вирішують лише завдання автоматичного екстрагування найбільш значущих реченьречень.
Створення ж високоякісного автоматичного реферату потребує проведення семантичного аналізу смислової структури текстів, узагальнення смислу та синтезу реферативного тексту, що, у свою чергу, передбачає наявність у системі для їх здійснення розвинутих семантичних словників – онтологій. Саме рішенню однієї з таких проблем і присвячений запропонований у даному дослідженні підхід до моделювання процесу узагальнення. Цей підхід дозволив побудувати модель індикативного реферату у вигляді типових для рефератів синтактико-семантичних конструкцій із загальним метазначенням з метою наступного змістовного конструювання реферату, яке передбачає наповнення синтаксем поняттями відповідних класів з онтологій різних предметних галузей.
Створена для перевірки роботи запропонованої моделі експериментальна автоматична система реферування «АвтоРеферат» продемонструвала принципову можливість практичного використання запропонованої моделі. Але на даному етапі досліджень побудовано модель узагальнення-компресії, а не власне узагальнення, яке можливе лише в процесі інтелектуального реферування.
Таким чином, наступним кроком у дослідженні узагальнення в процесі реферування для вдосконалення системи АР є моделювання з точки зору саме узагальнення, для чого потрібно створити відповідні онтології. Рішенню цієї задачі і присвячені наші сучасні дослідження.
|
||||
Последнее изменение этой страницы: 2016-06-06; просмотров: 242; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.143.203.129 (0.008 с.) |