В. Авторазметка импортированного текста. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

В. Авторазметка импортированного текста.



Авторазметка запускается выбором следующих опций меню основного окна NooJ: Text – Linguistic Analysis. В результате текст размечается по выбранным ранее словарям и грамматикам. Для просмотра разметки проставьте флаг Show Text Annotation Structure (см. область 2 на рис. 11):

Рис. 11 – Окно размеченного импортированного текста

После лингвистического анализа, помимо статистик по символам (Characters), токенам (Tokens) и биграммам (Bigrams), становятся доступны статистики по неизвестным словам (Unknowns), омонимичным словам (Ambiguties), неомонимичным словам (Unambiguous Words) (см. область 1 на рис. 11).

Важно. Обратите внимание на разноцветные кнопки , размещенные внизу справа окон со статистиками (за исключением окон для статистик по символам и статистик по неизвестным словам): последовательный клик по элементу частотного словаря и любой кнопке[7] позволяет получить конкорданс по выбранному элементу (см. рис. 12):

Рис. 12 – Окна ЧС биграмм и конкорданса к выбранным биграммам

 

NooJ отображает списки неизвестных слов (Unknowns) и омонимичных слов (Ambiguties) в родном формате словаря NooJ. Эти два окна можно редактировать, пополняя и уточняя словари[8].

Работа с уже размеченными текстами.

Единожды размеченные тексты можно открывать многократно. В пакет словарного модуля NooJ входит небольшое число уже размеченных текстов, которые вы найдете в папке /Projects.

Использование регулярных выражений

Регулярные выражения Perl

В меню Text нажмите Locate всплывет окно Locate Panel. В поле Pattern in​​, выберите опцию a NooJ regular expression - Longest matchesonly 100 [9] (обозначение ограничений в поиске), затем нажмите цветную кнопку; выплывет окно. В этом окне вы сможете увидеть конкорданс для коллекции строк, заданной регулярным выражением, а также выходить из контекста в полный текст.

 

Рис. 13 – Поиск с помощью регулярных выражений

 

Использование символа «дизъюнкция» (ИЛИ и "|") в регулярных выражениях.

Пример: Анна | муж

Значение запроса: найти все контексты для слов Анна или муж.

Также для обозначения дизъюнкции NooJ принимает оператор «+». Но лучше использовать оператор «|», так как оператор «+» является неоднозначным, поскольку он также используется в качестве префикса для лексического анализа.

Рис. 14 – Поиск с помощью оператора дизъюнкции

Также можно ограничивать контекст выдачи указанием числа слов до и после определяемого слова.

Рис. 15 – Конкорданс по запросу Анна|муж

Использование символа группировки (круглые скобки) в регулярных выражениях.

Есливы хотите найти последовательность слов вида: любое из слов, он или она + предлог в, введите: (он | она) в.

См. пример на рис. 16 (NooJ нашел 4 контекста).

Рис. 16 – Поиск по запросу (он |она) в

По выражению он | она в (то есть по выражению без скобок) будут выданы другие контесты:

Рис. 17 – Поиск по запросу он|она в

 

На этот раз NooJ нашел 109 высказываний. NooJ проиндексировал две последовательности: «он» и «она в», в этой комбинации приоритет имеет оператор «|». В первом регулярном выражении скобки используются для изменения порядка приоритетов, так что сфера действия «или» (оператора дизъюнкции) ограничивается словами он или она.

Теперь попробуем найти несколько форм слова в тексте, для этого будем использовать функцию дизъюнкции. Выберите опцию «регулярные выражения NooJ», затем введите запрос: была|буду|будь|было|были|будете. На рис. ниже вы увидите результаты поиска по тексту М.Ф. Достоевский «Игрок», найдено 314 контекстов с этими словоформами.

Рис. 18 – Поиск по запросу была|буду|будь|было|были|будете

В предыдущем примере осуществлялся поиск разных грамматических форм слова быть, но можно найти и единицы, разные структуре, например: Нью-Йорк |Большое\s+яблоко|город.

Регулярные выражения Nooj

Принципиальным отличием регулярных выражений этого типа является то, что при их обработке NooJ обращается к словарям.

Чтобы узнать, сколько раз встречается, например, словоформа «это» в тексте А.П. Чехова «Дама с собачкой»,нужно установить опцию «NooJ regular expression» и ввести эту словоформу в поле запроса (то есть в строке запроса будет стоять: это). Nooj найдет контексты для этой словоформы, записанной как со строчной, так и с заглавной буквы (см. рис. 19). Чтобы найти словоформу «это» только в записи со строчной буквы, нужно использовать оператор «» (то есть в строке запроса будет стоять: «это»).

Рис. 19 – Включена опция NooJ regular expression; поиск запросу это

Важно. Особенностью регулярных выражений Nooj является их интеграция со словарями Nooj. Таким образом, в регулярных выражениях Nooj можно обращаться к коллекции подстрок через их коды в словаре.



Поделиться:


Последнее изменение этой страницы: 2016-08-01; просмотров: 377; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.142.171.180 (0.008 с.)