Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь
FAQ
Написать работу

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ Написать работу

Методи автоматичного реферування

↑

⇐ ПредыдущаяСтр 2 из 12Следующая ⇒

Велика різноманітність існуючих методів реферування негативно впливає на розробку їх чіткої класифікації. Формулювання визначень ускладнюється тим, що їх автори все частіше використовують комбіновані класифікації, намагаючись поєднати переваги різних підходів.

У роботах [8; 13; 14; 15] зроблений досить вичерпний огляд існуючих спроб автоматизації реферування і надана загальна характеристика проблеми

у вітчизняних і зарубіжних дослідженнях. Значний аналітичний огляд також містить монографія В. І. Горькової і Є. А. Борохова [11] про теоретичні і прикладні дослідження лінгвістичних і структурних характеристик реферату

та їх реалізацію в автоматизованій обробці.

Аналіз зазначених робіт показав, що в розвитку досліджень з АР виділяють три найважливіші періоди:

1) становлення основних методів АР;

2) розробка і застосування з метою АР методів суперсинтаксичного

аналізу;

3) розробка принципів АР на базі використання мов розуміння смислу.

Методи, що з’явилися під час першого періоду, використовуються в удосконалених формах і досі.

Так, у своїй роботі [16] В. Є. Берзон дає цілком прийнятну докладну класифікацію методів реферування, розрізняючи серед них наступні:

1) статистичні

2) позиційні

3) дескрипторні

4) анкетні

5) засновані на статистичних зв’язках елементів тексту

6) семантичні

7) синтаксичні

8) засновані на дослідженні структури зв’язного тексту.

І. П. Севбо [17], крім статистичних і синтаксичних методів, виділяє також підхід, заснований на застосуванні інформаційно-пошукових мов.

В. П. Леонов [8] розподіляє сукупність прийомів на статистичні, логіко-семантичні та лінгвістичні методи. С. І. Гінді [18] поділяє методи автоматичного реферування (фрагментування) на статистичні (або частотні), індикаторні

і позиційні.

Родоначальником статистичних методів є Х. П. Лун, який вважається основоположником автоматичного реферування взагалі. За Х. П. Луном [19],

основний смисловий зміст реферованого джерела можна розкрити у вигляді переліку речень, найбільш значущих для даного документа. Значущими реченнями вважаються ті, що містять у своєму складі «скупчення» значущих для даного документа слів. Значущість слів обумовлюється частотою

їх вживання в тексті. Більшість сучасних програм з АР працюють на основі саме статистичних методів.

У позиційних методах реферування для ідентифікації найбільш значущих речень використовують розташування речень у тексті. Існує думка, що основний зміст первинного документа відбивається в рефераті, який складається

з перших речень усіх абзаців [20], або з першого, другого та останнього речень тексту [21]. Позиційний метод використовується в сучасних системах АР у поєднанні зі статистичним.

Смисловими одиницями тексту різними авторами пропонується вважати речення, абзац, складну синтаксичну, надфразову єдність і т. ін. У працях

М. І. Жинкіна [22], А. І. Новикова [23], В. Ш. Рубашкіна [24] викладається денотативний, а в роботі Т. М. Дрідзе [25] – інформативно-цільовий підходи

до аналізу тексту і робиться висновок, що найбільш повно завданням смислового аналізу відповідає процедура розчленування тексту на окремі смислові аспекти (контексти), які характеризують тему документа.

Важливим, на наш погляд, теоретичним результатом є алгоритм аналізу початкового тексту, що пропонується Г. С. Ждановою [13], в основу якого покладено імітацію інтелектуального процесу реферування, при якому з тексту вибирається інформація за ступенем її важливості.

Досить цікавою вважається також ідея Е. Ф. Скороходько [26; 27] про вибір оптимальної процедури реферування в залежності від типу семантичної структури тексту і числових характеристик семантичних відношень у цьому

тексті.

У роботі Н. І. Гендіної [28] розглядається один із підходів до укладання рефератів на основі формально-змістового аналізу текстів первинних документів. Відмінність цього підходу від інших відомих полягає в тому, що він ураховує формальні текстові ознаки, так звані маркери – стійкі словесні звороти,

що характеризують конкретні аспекти змісту.

Усі аспекти об’єднуються в три семантичні блоки:

Вступна частина (постановка проблеми).

Основний зміст (пропонований варіант розв’язання проблеми).

Висновок.

Блок «Вступна частина» частіше за все складається з таких аспектів,

як «Постановка проблеми», «Відомий варіант розв’язання», «Оцінка відомого варіанта розв’язання». Характерно, що ці аспекти виступають у першій частині тексту, яка готує читача до основної інформації. У блок «Основний зміст» входять аспекти: «Пропонований варіант розв’язання», «Особливості пропонованого варіанта розв’язання», «Оцінка пропонованого варіанта розв’язання».

У блоці «Висновок» виділяють такі аспекти: «Результати», «Висновки», «Рекомендації», «Галузь застосування».

«Кожний аспект відповідає певному блоку тексту (фрагменту), який характеризується смисловою закінченістю, зв’язністю і в залежності від місця – структурою» [8, c. 65].

Даний підхід, як і більшість інших, заснований на методі екстрагування. На думку В.П. Леонова [8, c. 103], «оптимальним проміжним рівнем між традиційним ручним згортанням і роботами з автоматизації цих процесів на ЕОМ може бути рівень, орієнтований на формалізоване екстрагування».

Екстрагування (лат. extrahere – вилучати) – це дослівне алгоритмічне вилучення окремих слів, словосполучень і фраз (речень) з тексту первинного документа за допомогою ЕОМ. Отримані внаслідок екстрагування вторинні документи називаються автоматичними екстрактами, або квазірефератами.

«Гіпотеза екстрагування може бути сформульована таким чином: можна скласти насичений список (словник) словесних кліше (маркерів, індикаторів, конекторів), що відбивають позасемантичну (метаінформаційну) лексику.

За допомогою такого словника можна пізнавати (маркувати) і вибирати з тексту первинного документа окремі речення. Сукупності вибраних речень утворять реферати або анотації (точніше, подібності їх – квазіреферати, реферати-екстракти), які за своїми пошуковими характеристиками не будуть істотно поступатися традиційним рефератам та анотаціям, що укладаються фахівцями-референтами» [29, c. 35].

Автоматизоване екстрагування передбачає:

«маркування» по всьому тексту першоджерела на основі лексико-семантичного апарата екстрагування (словника маркерів, індикаторів, конекторів);

«редагування», що полягає в зменшенні надмірного обсягу екстрактів за рахунок вилучення речень, менш істотних з точки зору пошуку;

побудова власне реферату-екстракту, тобто вибір із тексту речень,

що залишилися після «редагування».

В Європі та США протягом останніх десятиліть проводяться активні теоретичні й практичні дослідження, спрямовані на пошуки ефективних методів автоматичного реферування. Незважаючи на початок активного вивчення альтернативних щодо екстрагування методів реферування, більшість алгоритмів сьогодні все-таки ґрунтується на екстрагуванні речень з оригінального тексту для побудови тексту реферату. Однак очевидним є те, що сучасні закордонні методики, які використовуються для виявлення речень, що екстрагуються

з тексту оригіналу, є набагато складнішими, ніж ті, що використовувались

у 60-х роках минулого століття [30]. Взагалі, ці методики ґрунтуються на машинному визначенні вагомих елементів тексту й природно-мовному аналізі для виявлення ключових частин тексту [31].

Уперше в закордонних дослідженнях автоматичний аналіз був практично застосований у реферуванні вченими, що розробили систему автоматичного реферування з використанням оригінального класифікатора корпусу наукових текстів та їх рефератів [32]. Зараз активно проводяться машинні експерименти

з оцінки існуючих систем автоматичного реферування [33;34;35], зі створення нових систем, що використовують Інтернет для одержання масивів оригінальних текстів і текстів рефератів для дослідження [36]. В окрему проблему виділяються питання індикативного реферування [37] і теоретичні питання ролі реферату в документальному пошуку [38].

Дослідження і розробки в галузі автоматичної обробки тексту (АОТ)

в Європі і США привертають увагу найбільших приватних фірм і державних організацій найвищого рівня. Європейський Союз вже декілька років координує різні програми в галузі автоматичної обробки тексту. Наприклад, Human Language Technology Sector of the Information Society Technologies (IST) Programme 1998 – 2000 [39]. Основні розробки присвячено автоматизації процесу синтаксичного аналізу для різних систем АОІ, в тому числі й АР.

На відміну від лексико-граматичного аналізу тексту, синтаксичний

аналіз – галузь прикладної лінгвістики, що перебуває в стані розвитку. Мета синтаксичного аналізу – автоматична побудова функціонального дерева фрази, тобто пошук взаємозалежності між різнорівневими елементами речення.

Синтаксичний аналізатор Ergo Linguistic Technologies Parser [40], розроблений Дереком Бікертоном і Філіпом Браліком з Університету Гонолулу, використовує широко відому схему аналізу і має наочне вираження. ERGO орієнтує свій парсер на використання інтерфейсів у вигляді питань і відповідей. ERGO поки що є єдиною компанією, яка має парсер, здатний визначати тип запитання (питання до підмета, суб’єкта, прямого або непрямого додатка чи обставини)

і «миттєво» конструювати відповідь.

Один із найбільш вдалих синтаксичних аналізаторів Functional Dependency Grammar [41] створений дослідниками з Гельсинського університету, котрі пізніше заснували дві фірми: Lingsoft і Conexor. Рання версія під назвою ENGCG (English Constraint Grammar) була використана для анотації найбільшого у світі корпусу – Bank of English, що належить видавництву Collins/Harper Publishers. Особливістю даного синтаксичного аналізатора є те, що у випадках, коли неможливо зняти багатозначність, синтаксичний аналізатор або видає декілька варіантів аналізу, або не добудовує дерево для даної частини пропозиції.

Один із найбільш оригінальних підходів до синтаксичного аналізу

тексту – Link Parser [42] – розроблено в Carnegie-Melon University. Цей синтаксичний аналізатор – єдиний, чиї початкові коди були опубліковані он-лайн. Тоді як більшість систем синтаксичного аналізу використовують структури рівня іменних і дієслівних груп у побудові дерева фрази, Link Grammar, яка покладена в основу Link Parser, використовує інформацію про типи зв’язків, які кожне слово може мати зі словами, що знаходяться праворуч або ліворуч, а також декілька загальних граматичних правил.

На ринку існує зовсім невелика кількість традиційних програм реферування, тобто таких, які виділяють найбільш вагомі пропозиції з тексту, використовуючи статистичні алгоритми або слова-підказки. Inxight Summarizer

[43] – одна з найбільш відомих комерційно поширюваних систем реферування. Inxight Summarizer був створений у Дослідницькому центрі Ксерокса в Пасло Альто.

Серед комерційних систем також можна відзначити Prosum [44] – систему реферування, розроблену British Telecommunications Laboratories у межах експериментальної комерційної он-лайн платформи TranSend, що являє собою cgi-скрипт, вбудовану до веб-сторінки.

Оскільки інтерес до традиційних систем автоматичного реферування неухильно знижується, багато компаній пропонують інші підходи. Одним із нетрадиційних рішень є використання іменних груп, виділених за допомогою часткових синтаксичних аналізаторів. Алгоритми такого типу використовуються

в програмних продуктах Extractor і TextAnalyst.

Extractor [45] створений в Інституті інформаційних технологій Національної дослідницької ради Канади. Він являє собою модуль, що виділяє з наданого йому на вхід тексту найбільш інформативні іменні групи. За умовчанням кількість таких груп – сім, незалежно від довжини тексту. Extractor використовується в програмних продуктах фірм ThinkTank Technologies і Tetranet,

а також у пошуковій системі Журналу досліджень в галузі штучного інтелекту.

Програма TextAnalyst [46] створена в Московському науково-виробничому інноваційному центрі «Микросистемы». TextAnalyst працює тільки з російською мовою, виділяючи іменні групи і будуючи на їх основі семантичну мережу – структуру взаємозалежності між іменними групами.

Система автоматичного реферування, інтегрована в текстовий редактор Microsoft Word 97 і Microsoft Word 2000, працює на основі методу екстрагування. Звичайно, ця система далека від досконалості, однак виробляє більш-менш вдалі квазіреферати.

Останнім часом над завданнями синтаксичного аналізу речення працює безліч дослідницьких груп, і на даний момент можна вважати, що в межах синтаксичного аналізу речення успішно розв’язано і вже знайшло застосування

у виробництві завдання автоматичного виділення іменних груп. Щодо повного синтаксичного розбору речення, то дана проблема розробляється швидше у стінах університетських експериментальних лабораторій, аніж у лабораторіях промислових підприємств.

Таким чином, усі сучасні методи автоматичного реферування зводяться до розробки алгоритмів автоматичного фрагментування, в основу яких покладено різні принципи фіксації семантичних зв’язків у тексті. У даному напрямі побудови семантичних мереж і встановлення інформативності текстових одиниць ведуться трудомісткі дослідницькі роботи вже протягом багатьох років.

Побудова реферату на базі семантичної системи нині є завданням, вельми далеким від повної автоматизації. У зв’язку з цим актуальними залишаються лінгвістичні проблеми АР та проблеми розуміння текстового повідомлення

у світлі досліджень у галузі АОІ і, зокрема, АР.

⇐ Предыдущая 123 4 5 6 7 8 9 10 Следующая ⇒

Познавательные статьи:

Алгоритмические операторы Matlab

Конструирование и порядок расчёта дорожной одежды

Исследования учёных: почему помогают молитвы?

Почему терпят неудачу многие предприниматели?

Последнее изменение этой страницы: 2016-06-06; просмотров: 228; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.23.103.14 (0.013 с.)