ЗНАЕТЕ ЛИ ВЫ?

Методи автоматичного реферування



 

Велика різноманітність існуючих методів реферування негативно впливає на розробку їх чіткої класифікації. Формулювання визначень ускладнюється тим, що їх автори все частіше використовують комбіновані класифікації, намагаючись поєднати переваги різних підходів.

 

У роботах [8; 13; 14; 15] зроблений досить вичерпний огляд існуючих спроб автоматизації реферування і надана загальна характеристика проблеми

у вітчизняних і зарубіжних дослідженнях. Значний аналітичний огляд також містить монографія В. І. Горькової і Є. А. Борохова [11] про теоретичні і прикладні дослідження лінгвістичних і структурних характеристик реферату

та їх реалізацію в автоматизованій обробці.

Аналіз зазначених робіт показав, що в розвитку досліджень з АР виділяють три найважливіші періоди:

1) становлення основних методів АР;

2) розробка і застосування з метою АР методів суперсинтаксичного

аналізу;

3) розробка принципів АР на базі використання мов розуміння смислу.

Методи, що з’явилися під час першого періоду, використовуються в удосконалених формах і досі.

Так, у своїй роботі [16] В. Є. Берзон дає цілком прийнятну докладну класифікацію методів реферування, розрізняючи серед них наступні:

1) статистичні

2) позиційні

3) дескрипторні

4) анкетні

5) засновані на статистичних зв’язках елементів тексту

6) семантичні

7) синтаксичні

8) засновані на дослідженні структури зв’язного тексту.

І. П. Севбо [17], крім статистичних і синтаксичних методів, виділяє також підхід, заснований на застосуванні інформаційно-пошукових мов.

В. П. Леонов [8] розподіляє сукупність прийомів на статистичні, логіко-семантичні та лінгвістичні методи. С. І. Гінді [18] поділяє методи автоматичного реферування (фрагментування) на статистичні (або частотні), індикаторні

і позиційні.

Родоначальником статистичних методів є Х. П. Лун, який вважається основоположником автоматичного реферування взагалі. За Х. П. Луном [19],

основний смисловий зміст реферованого джерела можна розкрити у вигляді переліку речень, найбільш значущих для даного документа. Значущими реченнями вважаються ті, що містять у своєму складі «скупчення» значущих для даного документа слів. Значущість слів обумовлюється частотою

їх вживання в тексті. Більшість сучасних програм з АР працюють на основі саме статистичних методів.

У позиційних методах реферування для ідентифікації найбільш значущих речень використовують розташування речень у тексті. Існує думка, що основний зміст первинного документа відбивається в рефераті, який складається

з перших речень усіх абзаців [20], або з першого, другого та останнього речень тексту [21]. Позиційний метод використовується в сучасних системах АР у поєднанні зі статистичним.

Смисловими одиницями тексту різними авторами пропонується вважати речення, абзац, складну синтаксичну, надфразову єдність і т. ін. У працях

М. І. Жинкіна [22], А. І. Новикова [23], В. Ш. Рубашкіна [24] викладається денотативний, а в роботі Т. М. Дрідзе [25] – інформативно-цільовий підходи

до аналізу тексту і робиться висновок, що найбільш повно завданням смислового аналізу відповідає процедура розчленування тексту на окремі смислові аспекти (контексти), які характеризують тему документа.

Важливим, на наш погляд, теоретичним результатом є алгоритм аналізу початкового тексту, що пропонується Г. С. Ждановою [13], в основу якого покладено імітацію інтелектуального процесу реферування, при якому з тексту вибирається інформація за ступенем її важливості.

Досить цікавою вважається також ідея Е. Ф. Скороходько [26; 27] про вибір оптимальної процедури реферування в залежності від типу семантичної структури тексту і числових характеристик семантичних відношень у цьому

тексті.

У роботі Н. І. Гендіної [28] розглядається один із підходів до укладання рефератів на основі формально-змістового аналізу текстів первинних документів. Відмінність цього підходу від інших відомих полягає в тому, що він ураховує формальні текстові ознаки, так звані маркери – стійкі словесні звороти,

що характеризують конкретні аспекти змісту.

Усі аспекти об’єднуються в три семантичні блоки:

Вступна частина (постановка проблеми).

Основний зміст (пропонований варіант розв’язання проблеми).

Висновок.

Блок «Вступна частина» частіше за все складається з таких аспектів,

як «Постановка проблеми», «Відомий варіант розв’язання», «Оцінка відомого варіанта розв’язання». Характерно, що ці аспекти виступають у першій частині тексту, яка готує читача до основної інформації. У блок «Основний зміст» входять аспекти: «Пропонований варіант розв’язання», «Особливості пропонованого варіанта розв’язання», «Оцінка пропонованого варіанта розв’язання».

У блоці «Висновок» виділяють такі аспекти: «Результати», «Висновки», «Рекомендації», «Галузь застосування».

«Кожний аспект відповідає певному блоку тексту (фрагменту), який характеризується смисловою закінченістю, зв’язністю і в залежності від місця – структурою» [8, c. 65].

Даний підхід, як і більшість інших, заснований на методі екстрагування. На думку В.П. Леонова [8, c. 103], «оптимальним проміжним рівнем між традиційним ручним згортанням і роботами з автоматизації цих процесів на ЕОМ може бути рівень, орієнтований на формалізоване екстрагування».

Екстрагування (лат. extrahere – вилучати) – це дослівне алгоритмічне вилучення окремих слів, словосполучень і фраз (речень) з тексту первинного документа за допомогою ЕОМ. Отримані внаслідок екстрагування вторинні документи називаються автоматичними екстрактами, або квазірефератами.

«Гіпотеза екстрагування може бути сформульована таким чином: можна скласти насичений список (словник) словесних кліше (маркерів, індикаторів, конекторів), що відбивають позасемантичну (метаінформаційну) лексику.

За допомогою такого словника можна пізнавати (маркувати) і вибирати з тексту первинного документа окремі речення. Сукупності вибраних речень утворять реферати або анотації (точніше, подібності їх – квазіреферати, реферати-екстракти), які за своїми пошуковими характеристиками не будуть істотно поступатися традиційним рефератам та анотаціям, що укладаються фахівцями-референтами» [29, c. 35].

Автоматизоване екстрагування передбачає:

«маркування» по всьому тексту першоджерела на основі лексико-семантичного апарата екстрагування (словника маркерів, індикаторів, конекторів);

«редагування», що полягає в зменшенні надмірного обсягу екстрактів за рахунок вилучення речень, менш істотних з точки зору пошуку;

побудова власне реферату-екстракту, тобто вибір із тексту речень,

що залишилися після «редагування».

В Європі та США протягом останніх десятиліть проводяться активні теоретичні й практичні дослідження, спрямовані на пошуки ефективних методів автоматичного реферування. Незважаючи на початок активного вивчення альтернативних щодо екстрагування методів реферування, більшість алгоритмів сьогодні все-таки ґрунтується на екстрагуванні речень з оригінального тексту для побудови тексту реферату. Однак очевидним є те, що сучасні закордонні методики, які використовуються для виявлення речень, що екстрагуються

з тексту оригіналу, є набагато складнішими, ніж ті, що використовувались

у 60-х роках минулого століття [30]. Взагалі, ці методики ґрунтуються на машинному визначенні вагомих елементів тексту й природно-мовному аналізі для виявлення ключових частин тексту [31].

Уперше в закордонних дослідженнях автоматичний аналіз був практично застосований у реферуванні вченими, що розробили систему автоматичного реферування з використанням оригінального класифікатора корпусу наукових текстів та їх рефератів [32]. Зараз активно проводяться машинні експерименти

з оцінки існуючих систем автоматичного реферування [33;34;35], зі створення нових систем, що використовують Інтернет для одержання масивів оригінальних текстів і текстів рефератів для дослідження [36]. В окрему проблему виділяються питання індикативного реферування [37] і теоретичні питання ролі реферату в документальному пошуку [38].

Дослідження і розробки в галузі автоматичної обробки тексту (АОТ)

в Європі і США привертають увагу найбільших приватних фірм і державних організацій найвищого рівня. Європейський Союз вже декілька років координує різні програми в галузі автоматичної обробки тексту. Наприклад, Human Language Technology Sector of the Information Society Technologies (IST) Programme 1998 – 2000 [39]. Основні розробки присвячено автоматизації процесу синтаксичного аналізу для різних систем АОІ, в тому числі й АР.

На відміну від лексико-граматичного аналізу тексту, синтаксичний

аналіз – галузь прикладної лінгвістики, що перебуває в стані розвитку. Мета синтаксичного аналізу – автоматична побудова функціонального дерева фрази, тобто пошук взаємозалежності між різнорівневими елементами речення.

Синтаксичний аналізатор Ergo Linguistic Technologies Parser [40], розроблений Дереком Бікертоном і Філіпом Браліком з Університету Гонолулу, використовує широко відому схему аналізу і має наочне вираження. ERGO орієнтує свій парсер на використання інтерфейсів у вигляді питань і відповідей. ERGO поки що є єдиною компанією, яка має парсер, здатний визначати тип запитання (питання до підмета, суб’єкта, прямого або непрямого додатка чи обставини)

і «миттєво» конструювати відповідь.

 

Один із найбільш вдалих синтаксичних аналізаторів Functional Dependency Grammar [41] створений дослідниками з Гельсинського університету, котрі пізніше заснували дві фірми: Lingsoft і Conexor. Рання версія під назвою ENGCG (English Constraint Grammar) була використана для анотації найбільшого у світі корпусу – Bank of English, що належить видавництву Collins/Harper Publishers. Особливістю даного синтаксичного аналізатора є те, що у випадках, коли неможливо зняти багатозначність, синтаксичний аналізатор або видає декілька варіантів аналізу, або не добудовує дерево для даної частини пропозиції.

Один із найбільш оригінальних підходів до синтаксичного аналізу

тексту – Link Parser [42] – розроблено в Carnegie-Melon University. Цей синтаксичний аналізатор – єдиний, чиї початкові коди були опубліковані он-лайн. Тоді як більшість систем синтаксичного аналізу використовують структури рівня іменних і дієслівних груп у побудові дерева фрази, Link Grammar, яка покладена в основу Link Parser, використовує інформацію про типи зв’язків, які кожне слово може мати зі словами, що знаходяться праворуч або ліворуч, а також декілька загальних граматичних правил.

На ринку існує зовсім невелика кількість традиційних програм реферування, тобто таких, які виділяють найбільш вагомі пропозиції з тексту, використовуючи статистичні алгоритми або слова-підказки. Inxight Summarizer

[43] – одна з найбільш відомих комерційно поширюваних систем реферування. Inxight Summarizer був створений у Дослідницькому центрі Ксерокса в Пасло Альто.

Серед комерційних систем також можна відзначити Prosum [44] – систему реферування, розроблену British Telecommunications Laboratories у межах експериментальної комерційної он-лайн платформи TranSend, що являє собою cgi-скрипт, вбудовану до веб-сторінки.

Оскільки інтерес до традиційних систем автоматичного реферування неухильно знижується, багато компаній пропонують інші підходи. Одним із нетрадиційних рішень є використання іменних груп, виділених за допомогою часткових синтаксичних аналізаторів. Алгоритми такого типу використовуються

в програмних продуктах Extractor і TextAnalyst.

Extractor [45] створений в Інституті інформаційних технологій Національної дослідницької ради Канади. Він являє собою модуль, що виділяє з наданого йому на вхід тексту найбільш інформативні іменні групи. За умовчанням кількість таких груп – сім, незалежно від довжини тексту. Extractor використовується в програмних продуктах фірм ThinkTank Technologies і Tetranet,

а також у пошуковій системі Журналу досліджень в галузі штучного інтелекту.

Програма TextAnalyst [46] створена в Московському науково-виробничому інноваційному центрі «Микросистемы». TextAnalyst працює тільки з російською мовою, виділяючи іменні групи і будуючи на їх основі семантичну мережу – структуру взаємозалежності між іменними групами.

Система автоматичного реферування, інтегрована в текстовий редактор Microsoft Word 97 і Microsoft Word 2000, працює на основі методу екстрагування. Звичайно, ця система далека від досконалості, однак виробляє більш-менш вдалі квазіреферати.

Останнім часом над завданнями синтаксичного аналізу речення працює безліч дослідницьких груп, і на даний момент можна вважати, що в межах синтаксичного аналізу речення успішно розв’язано і вже знайшло застосування

у виробництві завдання автоматичного виділення іменних груп. Щодо повного синтаксичного розбору речення, то дана проблема розробляється швидше у стінах університетських експериментальних лабораторій, аніж у лабораторіях промислових підприємств.

Таким чином, усі сучасні методи автоматичного реферування зводяться до розробки алгоритмів автоматичного фрагментування, в основу яких покладено різні принципи фіксації семантичних зв’язків у тексті. У даному напрямі побудови семантичних мереж і встановлення інформативності текстових одиниць ведуться трудомісткі дослідницькі роботи вже протягом багатьох років.

Побудова реферату на базі семантичної системи нині є завданням, вельми далеким від повної автоматизації. У зв’язку з цим актуальними залишаються лінгвістичні проблеми АР та проблеми розуміння текстового повідомлення

у світлі досліджень у галузі АОІ і, зокрема, АР.





Последнее изменение этой страницы: 2016-06-06; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.227.247.17 (0.012 с.)