Краткое руководство по работе с программой Nooj 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Краткое руководство по работе с программой Nooj



КРАТКОЕ РУКОВОДСТВО ПО РАБОТЕ С ПРОГРАММОЙ NOOJ

Версия руководства: v.1

(адаптированный перевод руководства разработчика: Людмила Земенович;

куратор: А.Ю. Станкевич)


Оглавление

1. Назначение NooJ. 3

2. Установка программы NooJ; установка словарных модулей NooJ. 3

2. Работа с текстом в NooJ. 4

2.1. Типы NooJ-файлов.. 4

2.2. Единицы обработки текста в NooJ. 5

2.3. Алгоритм обработки текста в NooJ. 7

3. Использование регулярных выражений.. 13

3.1. Регулярные выражения Perl 13

3.2. Регулярные выражения Nooj. 17

3.2.1. Регулярные выражения Nooj: спецсимволы.. 18

3.2.2. Регулярные выражения Nooj: оператор <>.. 18

3.2.3. Регулярные выражения Nooj: оператор #.. 20

3.2.4. Регулярные выражения Nooj: оператор *.. 20

3.2.5. Регулярные выражения Nooj:
коды морфосинтаксических категорий.. 20

3.2.6. Регулярные выражения Nooj: операторы «+» и «-», функция MF, символы ограничения поиска.. 26

4. NooJ-грамматики.. 28

4.1. Создание грамматики в редакторе правил.. 28

4.2. Создание грамматики в графическом редакторе.. 30

 


Назначение NooJ

Программа предназначена для …….. …… …… …..

Установка программы NooJ; установка словарных модулей NooJ

 

Дистрибутив NooJ можно бесплатно загрузить с веб-сайта NooJ, зайдя в раздел Downloads (http://www.nooj4nlp.net/pages/download.html). Загрузка архива с приложением доступна по первой ссылке этого раздела (см. ссылку после текста download the software). В этом же разделе можно загрузить последнюю версию учебника по NooJ, словарные модули дополнительных языков и другие дополнительные материалы.

После того, как Вы загрузили файл NooJ2.zip, распакуйте его.

Для запуска приложения NooJ необходимо найти в распакованной папке и запустить на выполнение файл …/NooJ/_App/NooJ.exe (для удобства дальнейшей работы рекомендуем сделать ярлык к этому файлу).

Важно: программа NooJ основана на технологии NET Framework, поэтому программа NET Framework должна быть установлена на вашем компьютере; если эта программа не установлена (о чем будут свидетельствовать ошибки, возникающие при установке приложения NooJ), загрузите NET Framework по ссылке http://www.microsoft.com/en-us/download/details.aspx?id=22 и установите загруженное приложение.

Важно: установочный пакет NooJ включает словарные модули для английского и французского языков. Дополнительно на странице http://www.nooj4nlp.net/pages/resources.html доступны модули для арабского, армянского, белорусского, белорусского, болгарского, венгерского, вьетнамского, греческого, иврита, испанского, итальянского, каталанского (валенсийского), немецкого, польского, португальского, русского, сербского, словенского, турецкого, хорватского, японского языков.

Таким образом, чтобы NooJ работал с текстами на русском или белорусском языках, необходимо загрузить и установить словарные модули этих языков с вышеназванной страницы загрузки.

Словарный модуль для русского языка включает в себя:

· главный словарь, который содержит описание более 90 000 слов, включая 20 000 прилагательных, 45 000 существительных и 25 000 глаголов;

· 2 словаря имен собственных и прилагательных;

· несколько грамматик для устранения неоднозначности при определении даты, предлога, падежа, глаголов движения и т.д.

Для установки словарного модуля NooJ: загрузите со страницы http://www.nooj4nlp.net/pages/resources.html архив со словарным модулем и распакуйте архив в установочную папку NooJ, которая чаще всего находится в папке \Мои документы[1].

На рис. 1 и рис. 2 показано, как выглядит установочная папка со словарными модулями для английского, французского, русского и белорусского языков:

Рис. 1 – Содержимое установочной папки NooJ в режиме простого просмотра

Рис. 2 – Содержимое установочной папки NooJ в режиме «дерево каталогов»

Каждая папка словарного модуля содержит три вложенные папки: Lexical Analysis (содержит …), Projects (содержит …), Syntactic Analysis (содержит …). Развернутая структура папки \ be представлена на рис. 2.

Обратите внимание: установочная папка и папка с исполняемым файлом приложения по умолчанию расположены в разных местах.

Работа с текстом в NooJ

Типы NooJ-файлов

NooJ работает со следующими расширениями файлов (в скобках дано описание содержимого этих файлов):

· DIC (словарь);

· NOK (корпус);

· NOF (словоизменительная / словообразовательная морфологическая грамматика);

· NOG (синтаксическая грамматика);

· NОМ (продуктивная морфологическая грамматика);

· NOP (проект);

· TXT (текст).

Б. Импорт текста в NooJ.

Для загрузки нового текста нужно в меню основного окна программы выбрать File – Open – Text [4].

Рис. 8 – Загрузка текста

Важно: в окне открытия файла необходимо вместо опции NooJ-formatted text установить Import Text:

Появится окно вида:

Рис. 9 – Окно импорта текста

В этом окне необходимо выбрать параметры импорта текста; последовательность выбора указана в окне:

1) группа 1, Select отвечает за выбор языка (на рис. 9 выбран русский);

2) группа 2, Enter File Format отвечает за выбор формата файла: параметров кодировки для txt-файлов (подгруппа 2a), параметров фильтра для файлов формата rft, html, pdf, doc, _____ (подгруппа 2b);

3) группа 3, Enter Text Unit Delimiter отвечает за выбор разделителя текстовых юнитов):

· без разделителей;

· с разделителем по символу абзаца ‘\n’ (рекомендовано по умолчанию);

· с разделителем по регулярному выражению; с разделителем XML.

Примечание. Просмотреть, в какой кодировке Ваш txt-файл, можно с помощью AkelPad или Блокнота; также с помощью AkelPad или Блокнота можно пересохранить текст в другой кодировке.

После импорта текста, вы увидите окно еще неразмеченного текста с указанием формальных свойств текста и доступных сейчас простейших функций обработки текста (рис. 10):

· группа 1: курсор находится на первом из 176 текстовых юнитов (здесь – абзацев, т.к. разделителем выбран '\n');

· группа 2: доступ к функциям просмотра списка символов[5] (Characters), токенов (Tokens), биграмм[6] (Bigrams):

· группа 3:просмотрсвойств импортированного текста: языка, разграничителя, длины в юнитах.

Важно: необходимо сохранить импортированный текст (по умолчанию он текст сохраняется с расширением not в папке /Projects.

 

Рис. 10 – Окно неразмеченного импортированного текста

Регулярные выражения Perl

В меню Text нажмите Locate всплывет окно Locate Panel. В поле Pattern in​​, выберите опцию a NooJ regular expression - Longest matchesonly 100 [9] (обозначение ограничений в поиске), затем нажмите цветную кнопку; выплывет окно. В этом окне вы сможете увидеть конкорданс для коллекции строк, заданной регулярным выражением, а также выходить из контекста в полный текст.

 

Рис. 13 – Поиск с помощью регулярных выражений

 

Использование символа «дизъюнкция» (ИЛИ и "|") в регулярных выражениях.

Пример: Анна | муж

Значение запроса: найти все контексты для слов Анна или муж.

Также для обозначения дизъюнкции NooJ принимает оператор «+». Но лучше использовать оператор «|», так как оператор «+» является неоднозначным, поскольку он также используется в качестве префикса для лексического анализа.

Рис. 14 – Поиск с помощью оператора дизъюнкции

Также можно ограничивать контекст выдачи указанием числа слов до и после определяемого слова.

Рис. 15 – Конкорданс по запросу Анна|муж

Регулярные выражения Nooj

Принципиальным отличием регулярных выражений этого типа является то, что при их обработке NooJ обращается к словарям.

Чтобы узнать, сколько раз встречается, например, словоформа «это» в тексте А.П. Чехова «Дама с собачкой»,нужно установить опцию «NooJ regular expression» и ввести эту словоформу в поле запроса (то есть в строке запроса будет стоять: это). Nooj найдет контексты для этой словоформы, записанной как со строчной, так и с заглавной буквы (см. рис. 19). Чтобы найти словоформу «это» только в записи со строчной буквы, нужно использовать оператор «» (то есть в строке запроса будет стоять: «это»).

Рис. 19 – Включена опция NooJ regular expression; поиск запросу это

Важно. Особенностью регулярных выражений Nooj является их интеграция со словарями Nooj. Таким образом, в регулярных выражениях Nooj можно обращаться к коллекции подстрок через их коды в словаре.

NooJ-грамматики

Nooj позволяет пользователям сохранять шаблоны запросов в грамматике NooJ. Грамматика может включать один или более запросов. Каждому запросу даем имя, и после каждого запроса файле грамматики нужно ставить точку с запятой, например: <V> <PREP> <N+s>;. Этот запрос найдет вам контексты для структур вида «форма глагола + предлог + существительное в единственном числе»).

Грамматики могут создаваться либо в режиме текстового редактора правил (далее – редактора правил), либо в режиме графического редактора.

КРАТКОЕ РУКОВОДСТВО ПО РАБОТЕ С ПРОГРАММОЙ NOOJ

Версия руководства: v.1

(адаптированный перевод руководства разработчика: Людмила Земенович;

куратор: А.Ю. Станкевич)


Оглавление

1. Назначение NooJ. 3

2. Установка программы NooJ; установка словарных модулей NooJ. 3

2. Работа с текстом в NooJ. 4

2.1. Типы NooJ-файлов.. 4

2.2. Единицы обработки текста в NooJ. 5

2.3. Алгоритм обработки текста в NooJ. 7

3. Использование регулярных выражений.. 13

3.1. Регулярные выражения Perl 13

3.2. Регулярные выражения Nooj. 17

3.2.1. Регулярные выражения Nooj: спецсимволы.. 18

3.2.2. Регулярные выражения Nooj: оператор <>.. 18

3.2.3. Регулярные выражения Nooj: оператор #.. 20

3.2.4. Регулярные выражения Nooj: оператор *.. 20

3.2.5. Регулярные выражения Nooj:
коды морфосинтаксических категорий.. 20

3.2.6. Регулярные выражения Nooj: операторы «+» и «-», функция MF, символы ограничения поиска.. 26

4. NooJ-грамматики.. 28

4.1. Создание грамматики в редакторе правил.. 28

4.2. Создание грамматики в графическом редакторе.. 30

 


Назначение NooJ

Программа предназначена для …….. …… …… …..



Поделиться:


Последнее изменение этой страницы: 2016-08-01; просмотров: 511; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.188.175.182 (0.023 с.)