ЗНАЕТЕ ЛИ ВЫ?

Аналіз актуальних лінгвістичних проблем автоматичного реферування



 

Прикладна лінгвістика має специфічну наукову проблематику, пов’язану, передусім, з розробкою адекватних і практично застосовуваних методів аналізу й синтезу мовних виразів. Ідеться про методи, що застосовуються для розв’язання певних завдань, наприклад завдання морфологічного, синтаксичного і семантичного аналізу й синтезу текстів при автоматичному реферуванні, автоматичному перекладі, в інформаційно-пошукових та інших спеціалізованих системах [75]. Не претендуючи на опис мови загалом, ці методи мають самостійну цінність, оскільки з їх допомогою розв’язуються конкретні лінгвістичні завдання, пов’язані з практичним використанням мови людиною [76]. У майбутньому надійна експериментальна база, якою є прикладна лінгвістика, дозволить перейти до серйозних теоретичних узагальнень в описі природної

мови (ПМ).

 

У теоретичному плані одним із головних завдань прикладної лінгвістики має бути дослідження тексту як мовленнєво-мисленнєвого твору, що повинно визначити і відповідний підхід до мовних явищ при розробці необхідних засобів формалізації [77].

 

Очевидно, що всі дослідження в галузі автоматичного реферування, незважаючи на певні успіхи, як і раніше, проводяться трьома основними напрямами [78]:

 

синтаксично-семантичному;

 

логіко-семантичному, орієнтованому на використання формальних обчислень для оцінки знань, що містяться в первинних документах;

 

обчислювальному, спрямованому на використання засобів обчислювальної математики для виділення інформативних частин тексту.

 

Для нас особливий інтерес становить перший напрям, оскільки він передбачає семантичний аналіз, який може привести до інтелектуалізації автоматизованого процесу. Результатом семантичного аналізу є формалізоване надання тексту у вигляді семантичної мережі, фреймів, онтології тощо.

 

Аналіз стану розробок у галузі автоматичного реферування дозволяє зробити висновок, що системи АР (як і інші системи АОІ) узагальнюють проблеми моделювання розуміння текстової інформації (див. підрозділ 1.3). Розв’язання цієї проблеми, враховуючи накопичений досвід у галузі лінгвістики, штучного інтелекту (ШІ), інформатики, вийшло на стадію об’єднання в єдину методологічну систему всіх трьох напрямів.

 

Аналіз ряду робіт [79; 80; 81] показав, що під час розробки діючих моделей розуміння тексту виникають проблеми внаслідок того, що:

 

смисл одних пропозицій залежить від смислу інших;

 

для вилучення загального смислу тексту є важливим смисл не тільки елементів – речень, але й відносин між ними;

 

для смислового запису тексту необхідний перехід від семантичного

подання окремих речень до семантичного подання надфразових одиниць

і потім – усього тексту;

 

необхідні виявлення і фіксація таких невід’ємних характеристик тексту, як тема і композиційна структура;

 

значення окремого речення залежить не від його локальних сусідів,

а від його контексту.

 

Розв’язання завдання створення семантичного компонента, що забезпечує повноцінну роботу системи автоматичного реферування, має базуватися на вивченні й систематизації глибинних механізмів зв’язного тексту. При цьому треба враховувати, що текст являє собою єдиний механізм, який складається

з трьох різних за своєю природою механізмів: семіотичної системи, мовної системи і системи знань про світ. Лише при такому підході з’явиться можливість перейти від «псевдосмислу» до смислу, від квазірефератів до рефератів.

 

Особлива увага в дослідженні тексту приділяється вивченню механізму міжфразових зв’язків [82] як текстоутворювального чинника. Синтаксичний міжфразовий зв’язок (МФЗ) – це такий зв’язок між реченнями, коли одне з них

є насиченням іншого в плані вираження (експліцитні МФЗ) або в плані змісту (імпліцитні МФЗ) [83]. Кількість міжфразових зв’язків може слугувати критерієм відбору речень у реферат, оскільки вимірює функціональну вагу речення

в оригінальному тексті, яка є показником його значущості [84].

 

Розв’язання завдань автоматичного реферування потрібно почати з визначення того, що є основним засобом вираження значення документа. Розглянемо текст з цієї точки зору. Текст – це знак, що володіє певною внутрішньою структурою [85]:

 

Т = <И, М, φ1 … φm, Θ>, де

 

Т – текст;

 

И – словник;

 

М – множинність місць;

 

φ – набір відношень на цій множинності;

 

Θ – відображення множинності місць у словнику.

 

Текст як комунікативний знак володіє відносною комунікативною завершеністю і визначається конкретною темою, прагматикою і творчим задумом автора. Його структурні властивості настільки варіюються від одного тексту до іншого, що практично немає можливості говорити про наявність у мові формально-структурного інваріанта тексту. Експерименти показали, що відтворений текст не співпадає у різних учасників. У кращому разі зберігаються лише його тематичні, змістово-композиційні і прагматичні властивості. Відсутність у мові достатньо стійких формально-структурних характеристик тексту свідчить про те, що він являє собою мовленнєву, а не мовну одиницю (в цьому плані показово, що при множинності типологій текстів немає власне лінгвістичної

типології).

 

Однак із цього не випливає, що текст не може бути об’єктом лінгві-стичного аналізу. Хоч текст і не може розглядатися як одиниця опису смислу, він складається з речень, здатних бути «мінімальним текстом». Це спонукає багатьох лінгвістів розглядати саме речення як одиницю, що має, як і текст, комунікативне призначення і разом з тим виступає не тільки як мовленнєва,

а й як мовна одиниця. Речення виступає як одиниця тексту, що безпосередньо співвідноситься з мовним актом і разом з тим є мовним засобом вираження думок, ідей. Речення є найбільш значимою структурною текстовою та комунікативною одиницею [86].

 

Такі особливості речення, на думку багатьох сучасних лінгвістів, роблять його центральною структурною одиницею мови, створенню якої служать, у кінцевому підсумку, всі інші компоненти мовної системи.

 

На те, що речення виступає не тільки як мовленнєва, але й як мовна одиниця, вказує той факт, що його структура, на відміну від структури тексту, завжди відповідає одній із формально-змістових моделей синтаксичної системи мови. Такі моделі описують семантичну структуру речення і типовий інформативний зміст, загальний для цілого класу однорідних речень. У кожного речення є початкова структура, яка може виглядати як підметно-присудкова структура або як конструкція підмет – присудок –додаток, або може мати предикатне ядро з валентностями, що заповнюються відповідними назвами. У той самий час в одному й тому ж реченні поєднуються декілька різних змістових і формальних структур: предикативно-аргументна, суб’єктно-предикативна і актуалізаційні, які прив’язують речення до предметної ситуації, що описується,

і до ситуації висловлювання (інформаційна, ідентифікаційна, тематична, інтенціональна та ін.).

 

Кожна з таких структур виступає як спосіб «пакування» інформації,

що передається за допомогою речення. Об’єднання в реченні декількох різнопланових, але при цьому мовних характеристик, що мають відповідні формальні засоби вираження, дозволяє розглядати речення як основну одиницю опису смислу тексту.

 

Звідси – моделювання процесу реферування раціонально починати з побудови моделі реферату як набору можливих синтаксичних конструкцій,

що зустрічаються в реферативних текстах.

 

Відомо, що синтаксична структура мови дозволяє звести неозору безліч конкретних елементарних ситуацій до відносно невеликої кількості їх елементарних синтаксично-семантичних схем. Такі схеми закладені в самій природі речення. Речення містить у собі синтаксеми, що є елементарними значущими одиницями в складі синтаксичних конструкцій. Це слова (зазвичай значуще слово або ж поєднання значущого слова зі службовим) в їх синтаксичному використанні.

 

Отже, модель реферату можна представити у вигляді набору деяких синтаксичних схем, в яких використані слова, описані як носії певних синтаксичних функцій, а наповнення цих схем конкретними словами можна здійснювати безпосередньо під час процесу реферування конкретного тексту, тобто змістової його обробки.

 

Основна проблема при моделюванні реферування полягає в описі процедури стиснення інформації в процесі переходу від змістової структури тексту до змістової структури реферату.

 

Для здійснення такого переходу необхідно передусім розробити процедуру виділення ключових (для даного тексту) понять і побудови тематичної структури тексту, яка дозволяє здійснювати перехід від ключових понять тексту до словника предметної галузі, а від нього – до словника категорій цієї галузі знання; треба побудувати онтологію, що відображає предметну галузь (ПГ)

у вигляді кінцевої множинності концептів (понять, термінів) і кінцевої множинності відносин між цими концептами. Причому для завдання реферування мають інтерес не будь-які можливі відношення між множинністю понять,

що входять до онтології, а лише відношення узагальнення (деталізації).

 

Таким чином, моделювання процесу реферування можна звести до декількох самостійних, але взаємообумовлених завдань:

 

побудова моделі реферату у вигляді набору синтаксичних конструкцій;

 

розробка процедури побудови тематичної структури первинного тексту, яка відображає семантичні відносини всередині тексту, що дозволяє здійснювати перехід до словника предметної галузі і далі – до словника категорій даної галузі знань;

 

побудова правил наповнення синтаксичних конструкцій реферату поняттями, що узагальнюють семантику первинного тексту;

 

побудова онтологій предметних галузей – онтологій нижнього рівня;

 

створення словників категорій понять, які заповнюють актантну структуру реферату – онтологій верхнього рівня.

 

Підхід, пропонований до розробки системи автоматичного реферування, орієнтується на створення інтелектуальних систем реферування. Складність такого типу завдання вимагає спрощення процедури реферування за рахунок:

 

виключення побудови смислової структури тексту на етапі аналізу початкового тексту шляхом обмеження побудовою тематичної структури через індексацію ключовими словами, які досить повно розкривають, як підтвердив досвід роботи сучасних систем АР, тематику тексту;

 

заміни процедури укладання тексту реферату моделлю реферату з подальшим словниковим наповненням синтаксичних конструкцій, що входять

до цієї моделі.

 

При цьому процедура аналізу ґрунтується на виділенні ключових слів тексту, що обробляється, і встановленні смислових зв’язків між значущими словами, які утворюють тематичну структуру тексту, з узагальненими поняттями

з конкретної галузі знання. На виході отримуємо реферат, що містить інформацію, необхідну для розуміння первинного тексту.

 

Етап змістового конструювання реферату передбачає можливість участі користувача у виборі як самих конструкцій, так і варіантів їх заповнення,

що дозволяє, певною мірою, забезпечити прагматичну складову реферату.

 

Відмова від повністю автоматичного режиму обробки інформації і залучення людини до формування зв’язків між елементами первинного тексту і рефератом є однією з характерних особливостей не тільки пропонованої системи АР, але й будь-яких структурних аналітичних технологій [87].





Последнее изменение этой страницы: 2016-06-06; Нарушение авторского права страницы

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.207.108.182 (0.008 с.)