Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
В. Авторазметка импортированного текста.
Авторазметка запускается выбором следующих опций меню основного окна NooJ: Text – Linguistic Analysis. В результате текст размечается по выбранным ранее словарям и грамматикам. Для просмотра разметки проставьте флаг Show Text Annotation Structure (см. область 2 на рис. 11): Рис. 11 – Окно размеченного импортированного текста После лингвистического анализа, помимо статистик по символам (Characters), токенам (Tokens) и биграммам (Bigrams), становятся доступны статистики по неизвестным словам (Unknowns), омонимичным словам (Ambiguties), неомонимичным словам (Unambiguous Words) (см. область 1 на рис. 11). Важно. Обратите внимание на разноцветные кнопки , размещенные внизу справа окон со статистиками (за исключением окон для статистик по символам и статистик по неизвестным словам): последовательный клик по элементу частотного словаря и любой кнопке[7] позволяет получить конкорданс по выбранному элементу (см. рис. 12): Рис. 12 – Окна ЧС биграмм и конкорданса к выбранным биграммам
NooJ отображает списки неизвестных слов (Unknowns) и омонимичных слов (Ambiguties) в родном формате словаря NooJ. Эти два окна можно редактировать, пополняя и уточняя словари[8]. Работа с уже размеченными текстами. Единожды размеченные тексты можно открывать многократно. В пакет словарного модуля NooJ входит небольшое число уже размеченных текстов, которые вы найдете в папке /Projects. Использование регулярных выражений Регулярные выражения Perl В меню Text нажмите Locate всплывет окно Locate Panel. В поле Pattern in, выберите опцию a NooJ regular expression - Longest matches – only 100 [9] (обозначение ограничений в поиске), затем нажмите цветную кнопку; выплывет окно. В этом окне вы сможете увидеть конкорданс для коллекции строк, заданной регулярным выражением, а также выходить из контекста в полный текст.
Рис. 13 – Поиск с помощью регулярных выражений
Использование символа «дизъюнкция» (ИЛИ и "|") в регулярных выражениях. Пример: Анна | муж Значение запроса: найти все контексты для слов Анна или муж. Также для обозначения дизъюнкции NooJ принимает оператор «+». Но лучше использовать оператор «|», так как оператор «+» является неоднозначным, поскольку он также используется в качестве префикса для лексического анализа. Рис. 14 – Поиск с помощью оператора дизъюнкции
Также можно ограничивать контекст выдачи указанием числа слов до и после определяемого слова. Рис. 15 – Конкорданс по запросу Анна|муж Использование символа группировки (круглые скобки) в регулярных выражениях. Есливы хотите найти последовательность слов вида: любое из слов, он или она + предлог в, введите: (он | она) в. См. пример на рис. 16 (NooJ нашел 4 контекста). Рис. 16 – Поиск по запросу (он |она) в По выражению он | она в (то есть по выражению без скобок) будут выданы другие контесты: Рис. 17 – Поиск по запросу он|она в
На этот раз NooJ нашел 109 высказываний. NooJ проиндексировал две последовательности: «он» и «она в», в этой комбинации приоритет имеет оператор «|». В первом регулярном выражении скобки используются для изменения порядка приоритетов, так что сфера действия «или» (оператора дизъюнкции) ограничивается словами он или она. Теперь попробуем найти несколько форм слова в тексте, для этого будем использовать функцию дизъюнкции. Выберите опцию «регулярные выражения NooJ», затем введите запрос: была|буду|будь|было|были|будете. На рис. ниже вы увидите результаты поиска по тексту М.Ф. Достоевский «Игрок», найдено 314 контекстов с этими словоформами. Рис. 18 – Поиск по запросу была|буду|будь|было|были|будете В предыдущем примере осуществлялся поиск разных грамматических форм слова быть, но можно найти и единицы, разные структуре, например: Нью-Йорк |Большое\s+яблоко|город. Регулярные выражения Nooj Принципиальным отличием регулярных выражений этого типа является то, что при их обработке NooJ обращается к словарям. Чтобы узнать, сколько раз встречается, например, словоформа «это» в тексте А.П. Чехова «Дама с собачкой»,нужно установить опцию «NooJ regular expression» и ввести эту словоформу в поле запроса (то есть в строке запроса будет стоять: это). Nooj найдет контексты для этой словоформы, записанной как со строчной, так и с заглавной буквы (см. рис. 19). Чтобы найти словоформу «это» только в записи со строчной буквы, нужно использовать оператор «» (то есть в строке запроса будет стоять: «это»). Рис. 19 – Включена опция NooJ regular expression; поиск запросу это
Важно. Особенностью регулярных выражений Nooj является их интеграция со словарями Nooj. Таким образом, в регулярных выражениях Nooj можно обращаться к коллекции подстрок через их коды в словаре.
|
||||||
Последнее изменение этой страницы: 2016-08-01; просмотров: 377; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.142.171.180 (0.008 с.) |