Регулярные выражения Nooj: коды морфосинтаксических категорий 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Регулярные выражения Nooj: коды морфосинтаксических категорий



В словарях NooJ хранятся размеченные по морфосинтаксическим категориям слова. Мы можем обратиться к обозначениям этих категорий в регулярных выражениях. Например, для поиска контекстов для структуры вида «любая словоформа слова быть + предлог + существительное», можно ввести следующее регулярное выражение: <быть><PREP><N> (где <PREP> и <N> обозначают любой предлог или существительное, описанные в словаре Nooj). По этому запросу в тексте А.П. Чехова «Дама с собачкой» NooJ нашел четыре последовательности (см. рис. 24).

Рис. 24 – Поиск с использованием символов морфологических категорий:
запрос <быть><PREP><N>

По запросу <мочь><WF>*<V> осуществляется поиск контекстов для структуры вида: «любая форма глагола мочь + нуль и более любых словоформ + глагол»(см. рис. 25).

Рис. 25 – Поиск с использованием символов морфологических категорий: запрос <мочь><WF>*<V>

Значения кодов частей речи для русского языка описаны в таб. 2.[10]

Таб. 2 – Коды частей речи

КОД ЗНАЧЕНИЕ
   
<A> прилагательное
<ADV> наречие
<CONJ> союз
<INTERJ> междометие
<INTRO> *вводное слово
<N> существительное
<NUM> числительное
<PART> частица
<PREP> предлог
<PRO> местоимение
<V> глагол

Пользователи могут добавлять свои собственные коды, создав свой личный словарь или изменив существующий NooJ-словарь.

Значения кодов грамматических значений[11] для русского языка в привязке к частям речи описаны в таб. 3–10.

Важно! В записи кода регистр важен.

Таб. 3 – Коды ГЗ для существительных

КОД ЗНАЧЕНИЕ
s единственное число
р множественное число
Im именительный падеж
Ro родительный падеж
Da дательный падеж
Vi винительный падеж
Tv творительный падеж
Pr предложный падеж
f женский род
M мужской род
n средний род
an одушевленное
inan неодушевленное

 

Таб. 4 – Коды ГЗ для прилагательных

КОД ЗНАЧЕНИЕ
s единственное число
р множественное число
Im именительный падеж
Ro родительный падеж
Da дательный падеж
Vi винительный падеж
Tv творительный падеж
Pr предложный падеж
f женский род
m мужской род
n средний род
an одушевленное[12]
inan неодушевленное
fl полная форма
fc краткая форма
Sup превосходная степень
Comp сравнительная степень

 

Таб. 5 – Коды ГЗ для числительных

КОД ЗНАЧЕНИЕ
s единственное число
р множественное число
Im именительный падеж
Ro родительный падеж
Da дательный падеж
Vi винительный падеж
Tv творительный падеж
Pr предложный падеж
f женский род
m мужской род
n средний род
card *количественное
ord *порядковое

 

Таб. 6 – Коды ГЗ для местоимений

КОД ЗНАЧЕНИЕ
s единственное число
р множественное число
Im именительный падеж
Ro родительный падеж
Da дательный падеж
Vi винительный падеж
Tv творительный падеж
Pr предложный падеж
f женский род
m мужской род
n средний род
an одушевленное
inan неодушевленное
1, 2, 3 1-е, 2-е, 3-е лицо

 

Таб. 7 – Коды ГЗ для глаголов (спрягаемых форм и инфинитива)

КОД ЗНАЧЕНИЕ
s единственное число
р множественное число
1, 2, 3 1-е, 2-е, 3-е лицо
Pre настоящее время
Fu будущее время
Pa прошедшее время
pf совершенный вид
ipf несовершенный вид
Im именительный падеж
f женский род[13]
m мужской род
n средний род
sja форма на –ся/-сь
-- переходность/непереходность
-- залог

 

Таб. 8 – Коды ГЗ для глаголов (инфинитива)

КОД ЗНАЧЕНИЕ
Inf инфинитив
pf совершенный вид
ipf несовершенный вид
sja форма на –ся/-сь
-- переходность/непереходность
-- залог

 

Таб. 9 – Коды ГЗ для глаголов (причастий)

КОД ЗНАЧЕНИЕ
Prtp причастие
pf совершенный вид
ipf несовершенный вид
Act действительный залог
Pss страдательный залог
sja форма на –ся/-сь

 

Таб. 10 – Коды ГЗ для глаголов (деепричастий)

КОД ЗНАЧЕНИЕ
Ger деепричастие
pf совершенный вид
ipf несовершенный вид
sja форма на –ся/-сь

Попробуем ввести поиск в тексте с помощью кодов ГЗ. По регулярному выражению <V+3+s> будут найденыконтексты для любого глагола в форме третьего лица, единственного числа (в тексте А.П. Чехова «Дама с собачкой» NooJ нашел 87 слов; см. рис. 26).

Рис. 26 – Поиск с использованием кодов ГЗ:

запрос <V+3+s>

3.2.6. Регулярные выражения Nooj: операторы «+» и «-»,
функция MF, символы ограничения поиска

В регулярных выражениях NooJ для добавления слова или категории используется оператор «+», для исключения слова или категории – оператор «-».

Например, по регулярному выражению <A-молодой><человек> будут найдены контексты для структуры вида «любое прилагательное, кроме молодой + человек».

По регулярному выражению <N-Im><N+Ro> будут найдены контексты для структуры вида «любое существительное не в именительном падеже + любое существительное в родительном падеже» (коды падежей: Im – именительный, Ro – родительный; пример см. на рис. 27).

Рис. 27 – Поиск с использованием символов морфологических категорий
и операторов «+», «-»: запрос <N-Im><N+Ro>

 

NooJ обрабатывает два уровня отрицания, используемых в регулярных выражениях. Как мы только что видели, оператор «-» позволяет исключать слова, которые не соответствуют поисковому запросу: например, <N-человек> найдет все существительные без слова «человек».

Оператор «!» тоже является оператором отрицания; в NooJ по нему будет найдены все словоформы, не соответствующие заданному после оператора выражению. Например, по выражению <!V> будут найдены все формы слов в тексте, кроме глаголов. Но этот символ действует не со всеми символами, поэтому нужно быть внимательным при его выборе.

Для формального ограничения поиска можно использовать функцию MP="ВЫРАЖЕНИЕ". Функция сочетается с операторами + и -. Например, по регулярному выражению Nooj <ADV+MP="е$"> (вариант: <ADV+MP=е$>)будут найдены все наречия с окончанием на е (здесь символ $ означает окончание словоформы). Результат поиска по тексту А.П. Чехова «Дама с собачкой» см. на рис. 28.

Рис. 28 – Поиск с ограничением: запрос <ADV+MP=е$>

Можно определять финаль словоформы из нескольких символов (например, по регулярному выражению <N+MP="ость$"> будут найдены все контексты для форм существительного на -ость).

Приведем еще один пример: <UNK-MP="^[А-Б]">, где UNK является кодом слов, которые отсутствуют в словаре NooJ. Специальный символ «^» вводит начало словоформы. По выражению будут представлены все слова, которые могут начинаться не на букву кириллицы в верхнем регистре (см. рис. 29).

Рис. 29 – Поиск с ограничением: запрос <UNK-MP="^[А-Б]">

 

По выражению <UNK+MP="^[А-Б]"> будут найдены контексты для всех словоформ, начинающихся с буквы кириллицы в верхнем регистре.

Попробуем объединить несколько вспомогательных символов NooJ: <человек-MP="е$"-MP="[а]">. По этому регулярному выражению будут найдены все словоформы слова человек, которые не заканчиваются на е и не содержат в любом месте а. оно не должно заканчиваться на «е» и не может иметь в словоформе буквы «а». Результаты поиска по тексту А.П. Чехова «Дама с собачкой» см. на рис. 30.

Рис. 30 – Поиск с ограничением: запрос <человек-MP="е$"-MP="[а]">

Вспомогательные символы описаны в таб. ниже:

Таб. 11 – Значения вспомогательных символов регулярных выражений Nooj

СИМВОЛ ЗНАЧЕНИЕ
!e все словоформы, не соответствующие выражению e
+MP =e -MP =e ограничение при поиске выражением e
e$ словоформа завершается выражением e
^e словоформа начинается выражением e

NooJ-грамматики

Nooj позволяет пользователям сохранять шаблоны запросов в грамматике NooJ. Грамматика может включать один или более запросов. Каждому запросу даем имя, и после каждого запроса файле грамматики нужно ставить точку с запятой, например: <V> <PREP> <N+s>;. Этот запрос найдет вам контексты для структур вида «форма глагола + предлог + существительное в единственном числе»).

Грамматики могут создаваться либо в режиме текстового редактора правил (далее – редактора правил), либо в режиме графического редактора.



Поделиться:


Последнее изменение этой страницы: 2016-08-01; просмотров: 433; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.188.61.223 (0.011 с.)