Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Процедура узагальнення при реферуванніСодержание книги
Поиск на нашем сайте
При розробці систем АР однією з ключових проблем була і залишається проблема аналізу семантичної структури вихідного тексту з метою визначення фактографічної інформації в межах тематики конкретного тексту з наступним її узагальненням і синтезом тексту реферату. Існуючі системи реферування не розв’язують цих завдань, і процедура АР зводиться до побудови квазіреферату на основі статистичного і позиційного аналізу тексту як способу оцінки його інформативності для екстрагування найбільш інформативних фрагментів тексту.
Такий рівень значеннєвої обробки тексту вже не задовольняє стрімко зростаючі потреби в обробці текстової інформації, особливо у зв’язку з інформаційними можливостями мережі Інтернет, що акумулює величезні масиви інформації, яку стає все складніше не тільки знайти, але й переробити.
Справитися із завданням створення коротких, але змістово повноцінних аналогів текстів – рефератів – може лише система, яка здатна аналізувати смисл текстових документів не за формальними, а за значеннєвими ознаками. Така система належить до числа нових інтелектуальних технологій – структурних аналітичних технологій (САТ), орієнтованих на поглиблену обробку неструктурованої текстової інформації.
Основним засобом вираження смислу текстової інформації є речення. Текст не може розглядатися як одиниця опису смислу, оскільки становить скоріше мовну, ніж мовленнєву, одиницю про що свідчить відсутність у мові формально-структурного інваріанта тексту. Речення, що виступає не тільки як мовна, але й як мовленнєва одиниця, є складовою комунікативного акту і відповідно – носієм смислу.
Перевага речення над текстом у даному розгляді полягає ще й у тому, що речення завжди можна подати у вигляді формально-змістової моделі, що описує його семантичну структуру.
У даному дослідженні моделювання процесу реферування зводиться до побудови моделі реферату як набору типових для індикативних рефератів синтактико-семантичних конструкцій (структур) із загальним значенням і наступним змістовим конструюванням реферату: наповнення синтаксем, які входять у модель, поняттями певних класів.
Експлікація узагальнення на синтаксичному рівні полягає в представленні синтаксичних конструкцій речень, що входять до складу індикативних рефератів у вигляді дерев залежностей (ДЗ). Даний спосіб формального представлення синтаксичної структури речень є одним із найбільш повно і чітко розроблених у сучасній лінгвістиці. ДЗ становить упорядкований спрямований граф, організований таким чином, що головній його вершині відповідає незалежний елемент, якому прямо чи непрямо підкоряються всі інші елементи. Ребра графа задаються у вигляді стрілок, спрямованих від хазяїна (одиниця, від якої залежать інші) до слуги (залежна одиниця). У кожну вершину графа може входити лише одна стрілка, тоді як число стрілок, які виходять з вершин, абсолютно не обмежене. Між вузлами дерева існує ієрархічний зв’язок [130].
Оскільки набір синтаксичних конструкцій, що зустрічаються в інтелектуальних рефератах, виявився дуже обмеженим, а семантика їх формальних структур однаковою, процедура моделювання процесу узагальнення смислу при реферуванні складається з наступних етапів:
Морфемний і морфологічний аналіз елементів синтаксичних конструкцій у складі індикативних рефератів; укладання повного списку морфологічних значень цих елементів.
Аналіз синтаксичної структури реферативних конструкцій; подання основи моделі реферату у вигляді набору формалізованих типових синтаксичних конструкцій; подання синтаксичних конструкцій у вигляді ДЗ.
Семантико-синтаксичний аналіз речень у складі реферату з погляду узагальнення.
Семантичний аналіз речень, що складають текст реферату, їх класифікація відповідно до семантичного значення.
Лексико-семантичний аналіз текстів першоджерел і текстів рефератів; класифікація загальнонаукової і термінологічної лексики.
Створення словника загальнонаукової лексики, що бере участь у заповненні актантної структури реферату – побудова онтології нижнього рівня; створення словників категорій термінологічних загальнонаукових і загальновживаних понять, що заповнюють актантну структуру реферату – побудова онтології верхнього рівня; створення алгоритму заповнення актантних структур реферату поняттями з тексту першоджерела.
Такий підхід до моделювання процедури реферування орієнтується на створення інтелектуальної системи реферування. У ній етап змістового конструювання реферату припускає можливість участі користувача у виборі як власне конструкцій, так і варіантів їх заповнення, що дозволяє певною мірою забезпечити прагматичну складову реферату.
Глава 3. Побудова моделі процесу узагальнення смислу для систем автоматичного реферування
Для побудови моделі узагальнення в системі реферування необхідно, насамперед, визначити і формально описати об’єкт дослідження – реферат. Однак, на відміну від таких елементарних одиниць тексту, як слово чи речення, реферат становить складний об’єкт – текст, що складається з набору речень визначеного типу.
Для формального опису такого об’єкта необхідно провести аналіз синтаксичних конструкцій (СК), що зустрічаються в рефератах, і виділити множинність типів СК реферативних речень для об’єднання їх у синтаксичну модель (шаблон) реферату. Множинність таких конструкцій описується предикатом М(СК), істинному на множинності РК і помилковому на всіх іншихмножинностях: М(С'К) = Для формалізації виділеного об’єкта використовується метод, при якому об’єкт дослідження описується не всією безліччю інформації, що його характеризує, а набором інваріантних ознак (P), що характеризують, у нашому випадку, реферат (R) як результат узагальнення вихідного тексту (Т). Зв’язок цих ознак з рефератом задається відношенням узагальнення – O(R,P).
Поле визначення перемінної R утворює множинність реферативних конструкцій визначеного типу:
СК =(SrVA1 A2 … An), де
V – предикат, що є елементом класу Wv(v),
A1 A2 … An – актанти, що є елементами класу Wa(a),
Sr – сирконстант, що є елементом класу Wsr(sr).
Актант A – іменна група, що є неподільною семантичною одиницею і складається з одного чи двох елементів:
A=(N)v(NAdj)v(AdjN)v(NN), де
N – іменник; може бути головним елементом актанта, якщо A=(NAdj)v(AdjN) або якщо стоїть на першому місці в актанті у випадку A=NN; може бути залежним елементом, який стоїть на другому місці, в A=NN.
Adj – прикметник; може бути тільки залежним елементом актанта у випадку A=(NAdj)v(AdjN).
Поле визначення перемінної P – множинність наборів значень ознак, що характеризують предикат, актанти і сирконстант. Вибір структури перемінної P визначається зв’язками реферату з вихідним текстом.
Для реферату релевантними є синтаксичні, семантичні і частково граматичні зв’язки з вихідним текстом. Відповідно до цих типів зв’язків структура перемінної P представляється у вигляді кортежу –
< SS, S >,
де SS – набір синтаксичних ознак (ss1, ss2, …, ssn),
S – набір семантичних ознак (s1, s2, …, sn).
А опис відношення узагальнення О зводиться до опису відношень О1(R,SS) і О2(R,S), які характеризують усі типи впливу вихідного тексту на реферат.
|
||||
Последнее изменение этой страницы: 2016-06-06; просмотров: 172; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.223.206.84 (0.007 с.) |