Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Регулярные выражения Nooj: коды морфосинтаксических категорий ⇐ ПредыдущаяСтр 4 из 4
В словарях NooJ хранятся размеченные по морфосинтаксическим категориям слова. Мы можем обратиться к обозначениям этих категорий в регулярных выражениях. Например, для поиска контекстов для структуры вида «любая словоформа слова быть + предлог + существительное», можно ввести следующее регулярное выражение: <быть><PREP><N> (где <PREP> и <N> обозначают любой предлог или существительное, описанные в словаре Nooj). По этому запросу в тексте А.П. Чехова «Дама с собачкой» NooJ нашел четыре последовательности (см. рис. 24). Рис. 24 – Поиск с использованием символов морфологических категорий: По запросу <мочь><WF>*<V> осуществляется поиск контекстов для структуры вида: «любая форма глагола мочь + нуль и более любых словоформ + глагол»(см. рис. 25). Рис. 25 – Поиск с использованием символов морфологических категорий: запрос <мочь><WF>*<V> Значения кодов частей речи для русского языка описаны в таб. 2.[10] Таб. 2 – Коды частей речи
Пользователи могут добавлять свои собственные коды, создав свой личный словарь или изменив существующий NooJ-словарь. Значения кодов грамматических значений[11] для русского языка в привязке к частям речи описаны в таб. 3–10. Важно! В записи кода регистр важен. Таб. 3 – Коды ГЗ для существительных
Таб. 4 – Коды ГЗ для прилагательных
Таб. 5 – Коды ГЗ для числительных
Таб. 6 – Коды ГЗ для местоимений
Таб. 7 – Коды ГЗ для глаголов (спрягаемых форм и инфинитива)
Таб. 8 – Коды ГЗ для глаголов (инфинитива)
Таб. 9 – Коды ГЗ для глаголов (причастий)
Таб. 10 – Коды ГЗ для глаголов (деепричастий)
Попробуем ввести поиск в тексте с помощью кодов ГЗ. По регулярному выражению <V+3+s> будут найденыконтексты для любого глагола в форме третьего лица, единственного числа (в тексте А.П. Чехова «Дама с собачкой» NooJ нашел 87 слов; см. рис. 26). Рис. 26 – Поиск с использованием кодов ГЗ: запрос <V+3+s> 3.2.6. Регулярные выражения Nooj: операторы «+» и «-»,
В регулярных выражениях NooJ для добавления слова или категории используется оператор «+», для исключения слова или категории – оператор «-». Например, по регулярному выражению <A-молодой><человек> будут найдены контексты для структуры вида «любое прилагательное, кроме молодой + человек». По регулярному выражению <N-Im><N+Ro> будут найдены контексты для структуры вида «любое существительное не в именительном падеже + любое существительное в родительном падеже» (коды падежей: Im – именительный, Ro – родительный; пример см. на рис. 27). Рис. 27 – Поиск с использованием символов морфологических категорий
NooJ обрабатывает два уровня отрицания, используемых в регулярных выражениях. Как мы только что видели, оператор «-» позволяет исключать слова, которые не соответствуют поисковому запросу: например, <N-человек> найдет все существительные без слова «человек». Оператор «!» тоже является оператором отрицания; в NooJ по нему будет найдены все словоформы, не соответствующие заданному после оператора выражению. Например, по выражению <!V> будут найдены все формы слов в тексте, кроме глаголов. Но этот символ действует не со всеми символами, поэтому нужно быть внимательным при его выборе. Для формального ограничения поиска можно использовать функцию MP="ВЫРАЖЕНИЕ". Функция сочетается с операторами + и -. Например, по регулярному выражению Nooj <ADV+MP="е$"> (вариант: <ADV+MP=е$>)будут найдены все наречия с окончанием на е (здесь символ $ означает окончание словоформы). Результат поиска по тексту А.П. Чехова «Дама с собачкой» см. на рис. 28. Рис. 28 – Поиск с ограничением: запрос <ADV+MP=е$> Можно определять финаль словоформы из нескольких символов (например, по регулярному выражению <N+MP="ость$"> будут найдены все контексты для форм существительного на -ость). Приведем еще один пример: <UNK-MP="^[А-Б]">, где UNK является кодом слов, которые отсутствуют в словаре NooJ. Специальный символ «^» вводит начало словоформы. По выражению будут представлены все слова, которые могут начинаться не на букву кириллицы в верхнем регистре (см. рис. 29). Рис. 29 – Поиск с ограничением: запрос <UNK-MP="^[А-Б]">
По выражению <UNK+MP="^[А-Б]"> будут найдены контексты для всех словоформ, начинающихся с буквы кириллицы в верхнем регистре. Попробуем объединить несколько вспомогательных символов NooJ: <человек-MP="е$"-MP="[а]">. По этому регулярному выражению будут найдены все словоформы слова человек, которые не заканчиваются на е и не содержат в любом месте а. оно не должно заканчиваться на «е» и не может иметь в словоформе буквы «а». Результаты поиска по тексту А.П. Чехова «Дама с собачкой» см. на рис. 30. Рис. 30 – Поиск с ограничением: запрос <человек-MP="е$"-MP="[а]"> Вспомогательные символы описаны в таб. ниже: Таб. 11 – Значения вспомогательных символов регулярных выражений Nooj
NooJ-грамматики Nooj позволяет пользователям сохранять шаблоны запросов в грамматике NooJ. Грамматика может включать один или более запросов. Каждому запросу даем имя, и после каждого запроса файле грамматики нужно ставить точку с запятой, например: <V> <PREP> <N+s>;. Этот запрос найдет вам контексты для структур вида «форма глагола + предлог + существительное в единственном числе»).
Грамматики могут создаваться либо в режиме текстового редактора правил (далее – редактора правил), либо в режиме графического редактора.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Последнее изменение этой страницы: 2016-08-01; просмотров: 433; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.188.61.223 (0.011 с.) |