Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву
Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Регулярные выражения Nooj: коды морфосинтаксических категорийСодержание книги
Поиск на нашем сайте В словарях NooJ хранятся размеченные по морфосинтаксическим категориям слова. Мы можем обратиться к обозначениям этих категорий в регулярных выражениях. Например, для поиска контекстов для структуры вида «любая словоформа слова быть + предлог + существительное», можно ввести следующее регулярное выражение: <быть><PREP><N> (где <PREP> и <N> обозначают любой предлог или существительное, описанные в словаре Nooj). По этому запросу в тексте А.П. Чехова «Дама с собачкой» NooJ нашел четыре последовательности (см. рис. 24).
Рис. 24 – Поиск с использованием символов морфологических категорий: По запросу <мочь><WF>*<V> осуществляется поиск контекстов для структуры вида: «любая форма глагола мочь + нуль и более любых словоформ + глагол»(см. рис. 25).
Рис. 25 – Поиск с использованием символов морфологических категорий: запрос <мочь><WF>*<V> Значения кодов частей речи для русского языка описаны в таб. 2.[10] Таб. 2 – Коды частей речи
Пользователи могут добавлять свои собственные коды, создав свой личный словарь или изменив существующий NooJ-словарь. Значения кодов грамматических значений[11] для русского языка в привязке к частям речи описаны в таб. 3–10. Важно! В записи кода регистр важен. Таб. 3 – Коды ГЗ для существительных
Таб. 4 – Коды ГЗ для прилагательных
Таб. 5 – Коды ГЗ для числительных
Таб. 6 – Коды ГЗ для местоимений
Таб. 7 – Коды ГЗ для глаголов (спрягаемых форм и инфинитива)
Таб. 8 – Коды ГЗ для глаголов (инфинитива)
Таб. 9 – Коды ГЗ для глаголов (причастий)
Таб. 10 – Коды ГЗ для глаголов (деепричастий)
Попробуем ввести поиск в тексте с помощью кодов ГЗ. По регулярному выражению <V+3+s> будут найденыконтексты для любого глагола в форме третьего лица, единственного числа (в тексте А.П. Чехова «Дама с собачкой» NooJ нашел 87 слов; см. рис. 26).
Рис. 26 – Поиск с использованием кодов ГЗ: запрос <V+3+s> 3.2.6. Регулярные выражения Nooj: операторы «+» и «-», В регулярных выражениях NooJ для добавления слова или категории используется оператор «+», для исключения слова или категории – оператор «-». Например, по регулярному выражению <A-молодой><человек> будут найдены контексты для структуры вида «любое прилагательное, кроме молодой + человек». По регулярному выражению <N-Im><N+Ro> будут найдены контексты для структуры вида «любое существительное не в именительном падеже + любое существительное в родительном падеже» (коды падежей: Im – именительный, Ro – родительный; пример см. на рис. 27).
Рис. 27 – Поиск с использованием символов морфологических категорий
NooJ обрабатывает два уровня отрицания, используемых в регулярных выражениях. Как мы только что видели, оператор «-» позволяет исключать слова, которые не соответствуют поисковому запросу: например, <N-человек> найдет все существительные без слова «человек». Оператор «!» тоже является оператором отрицания; в NooJ по нему будет найдены все словоформы, не соответствующие заданному после оператора выражению. Например, по выражению <!V> будут найдены все формы слов в тексте, кроме глаголов. Но этот символ действует не со всеми символами, поэтому нужно быть внимательным при его выборе. Для формального ограничения поиска можно использовать функцию MP="ВЫРАЖЕНИЕ". Функция сочетается с операторами + и -. Например, по регулярному выражению Nooj <ADV+MP="е$"> (вариант: <ADV+MP=е$>)будут найдены все наречия с окончанием на е (здесь символ $ означает окончание словоформы). Результат поиска по тексту А.П. Чехова «Дама с собачкой» см. на рис. 28.
Рис. 28 – Поиск с ограничением: запрос <ADV+MP=е$> Можно определять финаль словоформы из нескольких символов (например, по регулярному выражению <N+MP="ость$"> будут найдены все контексты для форм существительного на -ость). Приведем еще один пример: <UNK-MP="^[А-Б]">, где UNK является кодом слов, которые отсутствуют в словаре NooJ. Специальный символ «^» вводит начало словоформы. По выражению будут представлены все слова, которые могут начинаться не на букву кириллицы в верхнем регистре (см. рис. 29).
Рис. 29 – Поиск с ограничением: запрос <UNK-MP="^[А-Б]">
По выражению <UNK+MP="^[А-Б]"> будут найдены контексты для всех словоформ, начинающихся с буквы кириллицы в верхнем регистре. Попробуем объединить несколько вспомогательных символов NooJ: <человек-MP="е$"-MP="[а]">. По этому регулярному выражению будут найдены все словоформы слова человек, которые не заканчиваются на е и не содержат в любом месте а. оно не должно заканчиваться на «е» и не может иметь в словоформе буквы «а». Результаты поиска по тексту А.П. Чехова «Дама с собачкой» см. на рис. 30.
Рис. 30 – Поиск с ограничением: запрос <человек-MP="е$"-MP="[а]"> Вспомогательные символы описаны в таб. ниже: Таб. 11 – Значения вспомогательных символов регулярных выражений Nooj
NooJ-грамматики Nooj позволяет пользователям сохранять шаблоны запросов в грамматике NooJ. Грамматика может включать один или более запросов. Каждому запросу даем имя, и после каждого запроса файле грамматики нужно ставить точку с запятой, например: <V> <PREP> <N+s>;. Этот запрос найдет вам контексты для структур вида «форма глагола + предлог + существительное в единственном числе»). Грамматики могут создаваться либо в режиме текстового редактора правил (далее – редактора правил), либо в режиме графического редактора.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Последнее изменение этой страницы: 2016-08-01; просмотров: 598; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.216.20 (0.01 с.) |