Семантический анализ естественно-языковых текстов 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Семантический анализ естественно-языковых текстов



На данный момент разработано множество моделей лингвистического процессора, которые способны в той или иной степени выполнять анализ ЕЯ-текста, определять смысл и генерировать высказывания. При этом подходы к моделированию процесса общения весьма разнообразны. Основные отличия этих подходов заключаются в методах реализации компонента понимания смысла, используемых средствах анализа, а также в объеме и способах представления знаний, поскольку именно знания, представленные в различной форме, являются базой, от которой зависит процесс общения, глубина проникновения в смысл и, соответственно, качество самой модели семантического анализатора.

В задачу семантического анализа входит выделение смысла входного текста и выражения этого смысла на внутреннем языке системы. Интерпретация заключается в отображении входного текста на знания системы. Одним из основных параметров анализа текста является понимание смысла входного предложения, включающее в себя описание сущностей входного текста, определение их свойств и отношений между ними. От этого параметра часто зависит глубина проникновения в смысл входного текста.

Для характеристики содержательной стороны текста, его семантики, важным оказывается вопрос о соотношении понятий «значение» и «смысл». Под смыслом применительно к вербальному тексту и, в частности, к минимальной единице этого текста понимается целостное содержание какого-либо высказывания, не сводимое к значениям составляющих его частей и элементов, но само определяющее эти значения. Поскольку каждое слово как часть или элемент высказывания в составе этого высказывания проявляет одно из возможных своих значений, то рождение общего смысла представляет собой процесс выбора именно этого необходимого для данного контекста значения, т.е. необходимого для получения искомого смысла целого высказывания. Значит, именно смысл актуализирует в системе значений слова ту его сторону, которая определяется данной ситуацией, данным контекстом.

То же можно сказать и о взаимоотношении смысла отдельного высказывания и всего текста в целом: под смыслом применительно к вербальному тексту понимается целостное содержание этого текста, не сводимое к значениям составляющих его высказываний, но само определяющее эти значения.

Таким образом, для выявления смысла текста необходимо отказаться от попыток объединения смыслов отдельных предложений, а рассмотреть весь текст в целом.

Выбор системы представления знаний во многом определяет организацию информации, а также алгоритмы восприятия и (или) преобразования фактов. Разнообразные модели представления знаний могут быть подразделены на четыре класса: семантические сети; системы фреймов; продукционные системы; логические модели (языки)

В существующих моделях лингвистического процессора можно выделить следующие способы выделения и представления смысла: компонентный анализ; сеть концептуализаций; идентификация смысла по образцу; интегральный подход.

Одна из первых попыток формализации входного текста принадлежит компонентному анализу, который исходит из предпосылки, что семантика естественных языков может быть выражена в терминах конечного неструктурированного набора семантических множителей (атомов смысла). В процессе рассмотрения слов выделяются признаки (одушевленность, неодушевленность и т.п.), которые разбивают слова на отдельные группы. При кажущейся естественности данный метод связан с существенными трудностями при реализации и не лишен слабостей. Он становится сложным при выражении смысла целого предложения и громоздким при анализе многозначных слов, при этом нет достаточного объяснения слова, что может привести к неправильному его употреблению. Но в отличие от предыдущей модели в предикатах указывается не только аргументная структура и количество, но и их семантическое содержание (роли). Филмор выделяет следующие семантические роли: агент, контрагент, объект, адресат, пациенс (объект действия, жертва), результат, инструмент, источник. В модели предложена более детальная концепция смысла высказывания. Каждое понятие расщепляется на две сущности: значение и пресуппозицию. Различия между пресуппозицией и значением в собственном смысле слова проявляются, например, в различном влиянии на них отрицания. В область действия отрицания попадает только значение, а не пресуппозиция. В результате исследований была разработана классификация семантических элементов, что привело к пересмотру обычной схемы словарной статьи в толковом словаре (словарь стал основным средством задания семантических структур и правил их перевода в поверхностные структуры).

Продолжением данной теории явился метод падежной грамматики (Филмор). При этом для записи содержания входного высказывания используются специальный синтаксический язык, словари и правила, устанавливающие соответствие между естественно-языковыми выражениями и их семантическим представлением.

Ко второму классу относятся модели, в которых смысл текста представляется в виде сети концептуализаций. В таких моделях явления рассматриваются только на одном уровне детальности, что не позволяет как описывать сложные события в терминах более простых подсобытий, так и дробить при необходимости примитивные действия (атомы). Чаще всего эти модели являются моделью языка, а не моделью общения, что приводит к нечеткому выделению языковых средств и средств для описания моделируемого окружения. Среди моделей данного класса наибольший интерес представляет модель «Концептуальной зависимости».

Основой семантического представления модели «Концептуальной зависимости» (Р. Шенк) является сеть концептуализаций. Сеть концептуализаций есть квазиграф, подобный размеченному ориентированному графу, в котором, кроме бинарных отношений, есть тернарные и кварнарные, а дуги связывают не только вершины, но и другие дуги.

Концептуализация в модели концептуальной зависимости определяется как основная единица семантического уровня, из таких единиц конструируются мысли. Концептуализация включает в себя действие, множество его концептуальных падежей и участников действия (их состояний).

Будучи моделью языка, она не учитывает модели пользователя, что приводит к полному перебору при построении умозаключений. Наличие модели пользователя позволило бы определить его цели (намерения) в диалоге и использовать их для направления процедуры построения умозаключений.

Другая модель - «Семантик предпочтения» относится к классу моделей, идентификация смысла в которых осуществляется по образцам. Отличительной чертой таких моделей является то, что в них отсутствуют блоки морфологического и синтаксического анализов, что является принципиальным их недостатком, так как не обеспечивается глубина анализа значений слов, необходимая для точного установления семантической связности текста.

В этой модели (Уилкс) текст характеризуется следующими сущностями: смыслами 90 слов, сообщениями, фрагментами текста и семантической совместимостью. Сообщение рассматривается как теоретический конструкт, посредством которого для каждого слова, входящего во фрагмент текста, может быть выбран один из смыслов слова, посредством чего снимается многозначность. Слову назначается тот из его многих смыслов, который образует «сообщение», согласующееся, в конце концов, с рассматриваемым фрагментом текста. Если слово может подойти к нескольким сообщениям, то выбирается такое, которое согласуется с рассматриваемым текстом.

Анализ фрагмента текста протекает по следующей схеме. С помощью специальных слов-маркеров выполняется фрагментация текста, затем словам приписывают из словаря все их значения. Далее на анализируемый фрагмент текста поочередно накладываются простые шаблоны, известные системе. С помощью специальных правил расширения простой образец преобразуется в полный образец путем добавления слов из текста, которые не вошли в образец. Указанная процедура осложнена тем, что может подойти не один простой образец.

Используя процедуры установления семантической близости полученных образцов, формируется окончательное представление обрабатываемого текста. К недостаткам анализа следует отнести то, что анализ текста осуществляется с помощью словаря шаблонов, которые способны различать только класс событий, а не сами конкретные события.

Другой подход к способу анализа по образцу представлен в моделях, использующих табличный метод. Он основан на анализе ключевых слов, встречающихся в предложениях. Суть табличного метода состоит в идентификации смысла всего предложения на основании нескольких ключевых слов или их групп. После процесса идентификации слова предложения заменяются на их каноническую форму - коды. Замена осуществляется с помощью словаря словоформ. При этом также выделяются некоторые группы слов, несущие тематическую нагрузку. Далее производится распознавание и замена стандартных словосочетаний. Данный метод обладает рядом недостатков, преимуществом является его простота для однозначных естественно-языковых предложений, в которых не требуется полного понимания смысла предложения (например, запросы к базе данных). Модели, в которых достаточно глубоко продуманы процедуры морфологического, синтаксического и проблемного анализов, можно отнести к моделям, основанным на интегральном подходе описания языка. Это модель «Смысл-текст» и модель контекстного фрагментирования.

Модель «Смысл-текст» (И.А. Мельчук) представляет собой многоуровневый транслятор текстов в смыслы и наоборот. Выделяются четыре основных уровня – фонетический, морфологический, синтаксический и проблемный. Каждый из них, за исключением проблемного, подразделяется на два других уровня – поверхностный и глубинный. Данная модель может быть применима в системах, где необходимо понимание текста в полном смысле (например, вопросно-ответные системы, системы принятия решений). Но для реализации полной схемы анализа и синтеза модели «Смысл-текст» придется учесть индивидуальные свойства сотен тысяч словарных, морфологических и лексических единиц и 91 индивидуальные свойства громадного числа пар единиц. Их полное формальное описание представляет собой громадную и объемную теоретическую работу, поставленную в лингвистике в последнее время и еще далекую от решения.

Модель контекстного фрагментирования разрабатывалась для анализа и синтеза естественно-языкового предложения, но ее проработка касается в основном анализа. Задача лингвистической трансляции естественно-языкового текста рассматривается отдельно от других задач общения на естественном языке и от задач самой вычислительной системы.

Анализ и трансляция текста осуществляются при наличии достаточно мощных средств описания и фрагментации лингвистических знаний. Основу модели контекстного фрагментирования составляет трехуровневая система: лингвистическая модель, базовые механизмы обработки предложений и ассоциированные процедуры. Лингвистическая модель содержит информацию о морфологии, синтаксисе и семантике подмножества естественного языка. В модели выполняется очень глубокий синтаксический анализ с одновременным преобразованием распознаваемых синтаксических отношений в семантические.

Достоинством данного метода является то, что существует возможность динамически изменять стратегию обработки естественно-языкового текста в зависимости от необходимой глубины и последовательности этапов трансляции и расширять метод при включении новых конструкций естественного языка и редуцировать его для упрощенных подмножеств естественного языка и проблемных областей.

В заключение обзора различных подходов и направлений реализации моделей лингвистического процессора можно сделать вывод о том, что к настоящему времени модели способны: извлекать знания из заданного текста и строить правильные предложения естественного языка по заданным значениям смысла; перефразировать эти предложения; оценивать их с точки зрения связности и выполнять ряд других задач.

 

Семантические сети

Большая часть семантических моделей (систем представления знаний) создана на базе семантических сетей. Этот термин обозначает целый класс подходов, для которых общим является использование графических схем с узлами, соединенными дугами. Узлы (вершины сети) представляют некоторые понятия (объекты, события, явления), а дуги – отношения между ними. Семантические модели являются объектно-ориентированными и обеспечивают в достаточной мере такой признак, как связность, реализуя четыре типа связей между объектами: классификацию, агрегирование, обобщение, ассоциацию различные типы связей между объектами.

Основная идея моделирования при помощи семантических сетей заключается в том, что модель представляет данные о реальных объектах и связях между ними прямым способом, что существенно облегчает доступ к знаниям: начиная движение от некоторого понятия, по дугам отношений можно достичь других понятий.

Возьмем, например, следующую фразу: «Программист сел за компьютер и отладил программу». Здесь выделяется три объекта: программист (a1), компьютер (a2) и программа (a3). Эти объекты связаны отношениями: сел за (r1), отладил (r2), загружена в (r3). К отношениям, явно выраженным в тексте, отнесено и отношение «загружена в» («программа загружена в компьютер»).

Использование семантических моделей позволяет представить в базе знаний знания о любой предметной области и осуществить автоматическое построение семантических сетей непосредственно из текста.

К основным достоинствам семантических сетей можно отнести: представление средств для выражения ограничений; описание связей между объектами; определение операций над объектами.

Накладывая ограничения на описание вершины дуг, можно получить сети различного вида. Если вершины не имеют собственной внутренней структуры, то такие сети называют простыми. В противном случае они являются иерархическими сетями. Одно из основных отличий иерархических семантических сетей от простых состоит в возможности разделить сеть на подсети и установить отношения не только между вершинами, но и между пространствами.

Характерной особенностью некоторых семантических сетей является интегрированное описание процедурной семантики (прагматики) и статической семантики – допустимые операции над объектами определяются совместно с определением структур данных.

Наряду с достоинствами семантические модели обладают некоторыми недостатками. В семантических сетях нет специальных средств, позволяющих определить временные зависимости, поэтому временные значения и события трактуются как обычные понятия. Произвольная структура и различные типы вершин и связей усложняют процедуру обработки информации. Стремление устранить эти недостатки послужило причиной появления особых типов семантических сетей: синтагматические цепи, сценарии, фреймы и т.п.

 

Системы фреймов

Фреймы – это фрагменты знания, предназначенные для представления стандартных ситуаций. Термин «фрейм» (frame – рамка) был предложен М. Минским. Фреймы имеют вид структурированных наборов компонентов ситуации, называемых слотами. Слот может указывать на другой фрейм, устанавливая тем самым связь между двумя фреймами. Могут устанавливаться общие связи типа связи по обобщению, с каждым фреймом ассоциируется разнообразная информация (в том числе и процедуры), например, ожидаемые процедуры ситуации, способы получения информации о слотах, значения, принимаемые по умолчанию, правила вывода.

Формальная структура фрейма имеет следующий вид:

f[<N1,V1>,<N2,V2>.....<Nk,Vk>],

где f – имя фрейма;

пара <Ni,Vi> – i-й слот,

Ni – имя слота

и Vi – его значение.

Значение слота может быть представлено последовательностью

<K1><L1>;...; <Kn><Tn>;<R1>;...; <Rm>,

где Ki – имена атрибутов, характерных для данного слота;

Li – значения этих атрибутов или множества их значений;

Rj – различные ссылки на другие слоты.

Каждый фрейм как структура хранит знания о предметной области (фрейм-прототип), а при заполнении слотов значениями превращается в конкретный фрейм события или явления. Фреймы можно разделить на две группы: фреймы-описания и ролевые фреймы.

Рассмотрим примеры.

Фрейм-описание:

[<овощи>,<помидоры, Болгария 30 т>,<перец, Венгрия 10 т>,<баклажаны, Молдова 20 т>]

Ролевой фрейм:

[<доставить>,<что, прокат 10 т>,<откуда, Гомель>,<куда, Минск>,<чем, авто>,<когда, май>]

Во фрейме-описании в качестве имен слотов задан вид продукции, а значение слота характеризует массу и производителя конкретного вида продукции. В ролевом фрейме в качестве имен слотов выступают вопросительные слова, ответы на которые являются значениями слотов, для данного примера представлены уже описания конкретных фреймов, которые могут называться либо фреймами-примерами, либо фреймами-экземплярами. Если в приведенном примере убрать значения слотов, оставив только имена, то получим так называемый фрейм-прототип.

Достоинства фрейма-представления во многом основываются на включении в него предположений и ожиданий. Это достигается за счет присвоения по умолчанию слотам фрейма стандартных ситуаций. В процессе поиска решений эти значения могут быть заменены более достоверными. Некоторые переменные выделены таким образом, что об их значениях система должна спросить пользователя. Часть переменных определяется посредством встроенных процедур, называемых внутренними. По мере присвоения переменным определенных значений осуществляется вызов других процедур. Этот тип представления комбинирует декларативные и процедурные знания.

Фреймовые модели обеспечивают требования структурированности и связности. Это достигается за счет свойств наследования и вложенности, которыми обладают фреймы, т.е. в качестве слотов может выступать система имен слотов более низкого уровня, а также слоты могут быть использованы как вызовы каких-либо процедур для выполнения.

Для многих предметных областей фреймовые модели являются основным способом формализации знаний.

 

Продукционные системы

Система продукций образуется множеством правил продукции. Эти правила формулируют определенные действия при выполнении некоторых заданных условий. Поскольку одновременно могут выполняться несколько условий, должна быть определена стратегия выбора.

В самом простом виде правила продукций близки по смыслу импликации «Если – то», поэтому для правил продукций можно принять обозначение или, раскрыв условие применимости, эта запись примет вид:

P1 ^ P2 ^ P3... ^ Pn – B,

где Pi (i=1,2,..., n) – условия применимости, образующие конъюнкцию;

В – заключение или действие, которое имеет место при истинности конъюнкции.

Приведем пример правила продукций для экспертной системы, предназначенной для диагностики неисправности:

ЕСЛИ ВНУТРЕННЕЕ ТЕСТИРОВАНИЕ ПРОШЛО

И ИМЕЕТ МЕСТО МНОГОКРАТНАЯ ПЕРЕЗАГРУЗКА ОПЕРАЦИОННОЙ СИСТЕМЫ

ТО ЗАЛИПАНИЕ КЛАВИШ ИЛИ СБОЙ ОЗУ.

Система продукций выгодна для выражения знаний, которые могут принимать форму переходов между состояниями (ситуация -> действие, посылка -> заключение, причина -> следствие).

Необходимо различать продукционные системы, управляемые данными (предусловиями правил) и продукционные системы, управляемые целями (действиями правил).

База знаний продукционной экспертной системы состоит из множества правил продукций (базы правил)

П={P1, P2,..., Pm}

и конечного набора фактов (базы фактов)

A=(a1, a2,..., an).

Если правило имеет вид Pi=ai1 ai2... ais -> am, то это значит, что новый факт am имеет место (т.е. правило Pi применимо) при условии истинности всех фактов ai1...ais, определяющих правило Pi.

В случае, когда am – новый факт, имеет место модификация соответствующей базы фактов, а продукция Pi представляет собой декларативное (фактуальное) знание.

Возможен случай, когда правило продукции связано с выполнением какой-либо процедуры, а am – сообщение об окончании этого действия. В этом случае предусловия и действия являются утверждениями о данных, а вывод осуществляется в обратном направлении, т.е. от утверждений, которые должны быть доказаны.

Представление знаний в виде продукционных правил имеет недостатки и достоинства. Основным недостатком системы продукций является отсутствие внутренней структуры и зависимости шагов дедуктивного вывода от стратегии вывода, что делает ее трудно интерпретируемой.

Достоинства продукционных систем: модульность организации знаний; независимость правил продукций; легкая модификация знаний на основе возможного удаления и добавления правил; возможность использования различных управляющих стратегий за счет отделения предметных знаний от управляющих.

 

Логические модели

В основе логических моделей представления знаний лежит понятие формальной системы в виде четверки:

M = <T,P,A,F>,

где T – множество базовых символов теории M (например, буквы алфавита);
P – множество синтаксических правил, посредством которых из базовых символов строятся формулы;
A – множество построенных формул, состоящих из аксиом;
F – правила вывода, определяющие множество отношений между правильно построенными формулами.

В логическом подходе знания представляются посредством формул, которые строятся из предикатов, логических связок, кванторов и т.п. одни логические подходы ограничиваются классической логикой первого порядка, тогда как в других используется модальная логика, нечеткая логика, логика высших порядков и т.п.

Среди многих достоинств логического подхода необходимо отметить: стирание противопоставления между выводом и вычислением, что позволяет эффективно использовать метазнания; наличие четкой семантики и правил ввода.

Серьезной проблемой в логическом подходе является отсутствие структуры, так как данные представляются в виде совокупности линейных формул. К недостаткам логических моделей можно отнести следующее. На основе аппарата исчисления предикатов можно доказать существование объекта, обладающего определенными свойствами, т.е. логика первого порядка обеспечивает удобные средства описания в любой ситуации, которая определяется объектами и высказываниями, истинными относительно них. Но с другой стороны, в исчислении предикатов нет понятия процесса, что приводит к невозможности присвоения имени объекту в ходе логических преобразований и дальнейшим ссылкам на него, а также отсутствует возможность описания взаимосвязей двух ситуаций.

Логический и семантический аппарат теории исчисления предикатов не позволяет непосредственно решать такие проблемы, как совместное использование информации в альтернативных гипотезах и в различные моменты времени, создание новых структур в результате получения новых данных, планирование и т.д.

Таким образом, существует определенный круг задач, которые нельзя решать, используя только методологию исчисления предикатов. Возникает необходимость представления знаний на комбинированной основе, т.е. если некоторая часть системы представления знаний или вся эта система реализуются с помощью исчисления предикатов, то все равно остается ряд проблем, связанных с выбором оптимальной аксиоматической структуры и организации, обеспечивающей эффективность интеллектуальных операций. Речь идет о средствах указания модальности (необходимости, возможности, условности), средствах создания референций и соотнесения их с соответствующими смысловыми описаниями, о механизмах нестрогих рассуждений, а также о методах решения проблем, связанных с рассуждениями о свойствах, о механизме процесса планирования.

Внутри совокупности способов представления, основанных на исчислении предикатов, существует ряд различных подходов – метод функций Сколема, метод явных кванторов существования, метод нормальных форм Сколема, метод конъюнктивных нормальных форм, метод постатейных представлений и другие. Эти методы позволяют создать на единой семантической базе совершенно различные представления, которые обеспечивают конкретные разновидности интеллектуальных операций.

Подробно процедурную интерпретацию логики высказываний на языке исчисления предикатов первого порядка можно рассмотреть на примере языка Пролог. В дальнейшем мы приведем эту информацию.

 



Поделиться:


Последнее изменение этой страницы: 2017-02-07; просмотров: 156; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.191.13.255 (0.056 с.)