Процедура узагальнення при реферуванні 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Процедура узагальнення при реферуванні



 

При розробці систем АР однією з ключових проблем була і залишається проблема аналізу семантичної структури вихідного тексту з метою визначення фактографічної інформації в межах тематики конкретного тексту з наступним

її узагальненням і синтезом тексту реферату. Існуючі системи реферування

не розв’язують цих завдань, і процедура АР зводиться до побудови квазіреферату на основі статистичного і позиційного аналізу тексту як способу оцінки його інформативності для екстрагування найбільш інформативних фрагментів тексту.

 

Такий рівень значеннєвої обробки тексту вже не задовольняє стрімко зростаючі потреби в обробці текстової інформації, особливо у зв’язку з інформаційними можливостями мережі Інтернет, що акумулює величезні масиви інформації, яку стає все складніше не тільки знайти, але й переробити.

 

Справитися із завданням створення коротких, але змістово повноцінних аналогів текстів – рефератів – може лише система, яка здатна аналізувати смисл текстових документів не за формальними, а за значеннєвими ознаками. Така система належить до числа нових інтелектуальних технологій – структурних аналітичних технологій (САТ), орієнтованих на поглиблену обробку неструктурованої текстової інформації.

 

Основним засобом вираження смислу текстової інформації є речення. Текст не може розглядатися як одиниця опису смислу, оскільки становить скоріше мовну, ніж мовленнєву, одиницю про що свідчить відсутність у мові формально-структурного інваріанта тексту. Речення, що виступає не тільки як мовна, але й як мовленнєва одиниця, є складовою комунікативного акту і відповідно – носієм смислу.

 

Перевага речення над текстом у даному розгляді полягає ще й у тому,

що речення завжди можна подати у вигляді формально-змістової моделі,

що описує його семантичну структуру.

 

У даному дослідженні моделювання процесу реферування зводиться до побудови моделі реферату як набору типових для індикативних рефератів синтактико-семантичних конструкцій (структур) із загальним значенням і наступним змістовим конструюванням реферату: наповнення синтаксем, які входять

у модель, поняттями певних класів.

 

Експлікація узагальнення на синтаксичному рівні полягає в представленні синтаксичних конструкцій речень, що входять до складу індикативних рефератів у вигляді дерев залежностей (ДЗ). Даний спосіб формального представлення синтаксичної структури речень є одним із найбільш повно і чітко розроблених у сучасній лінгвістиці. ДЗ становить упорядкований спрямований граф, організований таким чином, що головній його вершині відповідає незалежний елемент, якому прямо чи непрямо підкоряються всі інші елементи. Ребра графа задаються у вигляді стрілок, спрямованих від хазяїна (одиниця, від якої залежать інші) до слуги (залежна одиниця). У кожну вершину графа може входити лише одна стрілка, тоді як число стрілок, які виходять з вершин, абсолютно не обмежене. Між вузлами дерева існує ієрархічний зв’язок [130].

 

Оскільки набір синтаксичних конструкцій, що зустрічаються в інтелектуальних рефератах, виявився дуже обмеженим, а семантика їх формальних структур однаковою, процедура моделювання процесу узагальнення смислу при реферуванні складається з наступних етапів:

 

 

Морфемний і морфологічний аналіз елементів синтаксичних конструкцій у складі індикативних рефератів; укладання повного списку морфологічних значень цих елементів.

 

Аналіз синтаксичної структури реферативних конструкцій; подання основи моделі реферату у вигляді набору формалізованих типових синтаксичних конструкцій; подання синтаксичних конструкцій у вигляді ДЗ.

 

Семантико-синтаксичний аналіз речень у складі реферату з погляду узагальнення.

 

Семантичний аналіз речень, що складають текст реферату, їх класифікація відповідно до семантичного значення.

 

Лексико-семантичний аналіз текстів першоджерел і текстів рефератів; класифікація загальнонаукової і термінологічної лексики.

 

Створення словника загальнонаукової лексики, що бере участь у заповненні актантної структури реферату – побудова онтології нижнього рівня; створення словників категорій термінологічних загальнонаукових і загальновживаних понять, що заповнюють актантну структуру реферату – побудова онтології верхнього рівня; створення алгоритму заповнення актантних структур реферату поняттями з тексту першоджерела.

 

Такий підхід до моделювання процедури реферування орієнтується

на створення інтелектуальної системи реферування. У ній етап змістового конструювання реферату припускає можливість участі користувача у виборі як власне конструкцій, так і варіантів їх заповнення, що дозволяє певною мірою забезпечити прагматичну складову реферату.

 

Глава 3. Побудова моделі процесу узагальнення смислу для систем автоматичного реферування

 

Для побудови моделі узагальнення в системі реферування необхідно, насамперед, визначити і формально описати об’єкт дослідження – реферат.

Однак, на відміну від таких елементарних одиниць тексту, як слово чи речення, реферат становить складний об’єкт – текст, що складається з набору речень визначеного типу.

 

Для формального опису такого об’єкта необхідно провести аналіз

синтаксичних конструкцій (СК), що зустрічаються в рефератах, і виділити множинність типів СК реферативних речень для об’єднання їх у синтаксичну модель (шаблон) реферату. Множинність таких конструкцій описується

предикатом М(СК), істинному на множинності РК і помилковому на всіх іншихмножинностях:

М(С'К) =

Для формалізації виділеного об’єкта використовується метод, при якому об’єкт дослідження описується не всією безліччю інформації, що його характеризує, а набором інваріантних ознак (P), що характеризують, у нашому випадку, реферат (R) як результат узагальнення вихідного тексту (Т). Зв’язок цих ознак з рефератом задається відношенням узагальнення – O(R,P).

 

Поле визначення перемінної R утворює множинність реферативних конструкцій визначеного типу:

 

СК =(SrVA1 A2 … An), де

 

V – предикат, що є елементом класу Wv(v),

 

A1 A2 … An – актанти, що є елементами класу Wa(a),

 

Sr – сирконстант, що є елементом класу Wsr(sr).

 

Актант A – іменна група, що є неподільною семантичною одиницею

і складається з одного чи двох елементів:

 

A=(N)v(NAdj)v(AdjN)v(NN), де

 

N – іменник; може бути головним елементом актанта, якщо A=(NAdj)v(AdjN) або якщо стоїть на першому місці в актанті у випадку A=NN; може бути залежним елементом, який стоїть на другому місці, в A=NN.

 

Adj – прикметник; може бути тільки залежним елементом актанта у

випадку A=(NAdj)v(AdjN).

 

Поле визначення перемінної P – множинність наборів значень ознак,

що характеризують предикат, актанти і сирконстант. Вибір структури перемінної P визначається зв’язками реферату з вихідним текстом.

 

Для реферату релевантними є синтаксичні, семантичні і частково граматичні зв’язки з вихідним текстом. Відповідно до цих типів зв’язків структура перемінної P представляється у вигляді кортежу –

 

< SS, S >,

 

де SS – набір синтаксичних ознак (ss1, ss2, …, ssn),

 

S – набір семантичних ознак (s1, s2, …, sn).

 

А опис відношення узагальнення О зводиться до опису відношень О1(R,SS) і О2(R,S), які характеризують усі типи впливу вихідного тексту на реферат.



Поделиться:


Последнее изменение этой страницы: 2016-06-06; просмотров: 144; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.19.31.73 (0.01 с.)