Единицы обработки текста в NooJ 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Единицы обработки текста в NooJ



Необходимо знать, каковы единицы обработки текста в Nooj.

При обработке текста NooJ оперирует следующими символами (Characters); символы являются элементарными единицами разбора:

· Letters (буквы) – элементы алфавита текущего языка;

· Digits (цифры) – цифры от 0 до 9;

· Blanks (пробельные элементы) – последовательность пробелов, символов табуляции, символов новой строки и перевода каретки;

· Delimiters (разграничители) – прочие символы.

С опорой на символы (Characters) как элементарные единицы NooJ-разбора определены токены (Tokens) какбазовые лингвистические объектыNooJ-разбора. Разработчики NooJ выделяют 3 вида токенов:

· Word Forms (словоформы) – последовательности букв (Letters) между двумя разграничителями (Delimiters);

· Digits (цифры);

· Delimiters (разграничители).

Как видим, цифры и разграничители обрабатываются и как символы, и как токены.

Разберем для примера, какие символы и какие токены выделяет NooJ в предложении Рок-н-ролл 60-х. В разборе NooJ предложение содержит 16 символов (из них 12 разных): базовые лингвистические объекты

Рис. 3 – Таблица символов предложения Рок-н-ролл 60-х.

Предложение-пример в разборе NooJ содержит 10 токенов:

· 4 словоформы (Word Forms), а именно: {рок, н, ролл, х};

· 2 цифры (Digits), а именно: {6, 0};

· 4 разграничителя (Delimiters), а именно: {-, -, -,.}

Проблема слов с дефисом. Очевидно, что такое определение словоформы создает определенные неудобства: по умолчанию все слова с дефисом разбиваются (так, например, все слова с постфиксами - то, -либо, -нибудь будут разбиты на 2 NooJ-словоформы). С учетом вышесказанного, для создания частотного словаря текста рекомендуем пользоваться сторонними программами (например, AntConc). При создании конкордаса ограничение на обработку слов с дефисом легко обходится: задав регулярное выражение (\w+-){0,}\w+, по тестовому предложению получаем:

Рис. 4 – Конкорданс тестового предложения по регулярному выражению (\w+-){0,}\w+

Подробнее о регулярных выражениях читайте в разделе ___.

Биграмма (digram) в NooJ определена как 2 идущие подряд словоформы (Word Forms); при этом цифры (Digits) и разграничители (Delimiters) игнорируются, то есть словоформы считаются идущими подряд, даже если между ними есть цифры и разграничители. В доступный пользователю список биграмм включаются только биграммы с частотой больше 1. Таким образом, в тексте «Рок-н-ролл 60-х. Рок-н-ролл 60-х.» NooJ выделит следующие биграммы:

Рис. 5 – Таблицы биграмм тестового текста

Элементами NooJ-разбора следующего уровня являются ALU (Atomic linguistic Units, ‘атомарные лингвистические объединения’). Разработчики NooJ определяют следующие виды ALU:

· Affixes (аффиксы) – префиксы, суффиксы и подобные малые последовательности букв (Letters), включенные в словоформы (Word Forms) и связанные с выражением лингвистической информации, например, для английского языка: re-, -ization, для русского языка: -изация; NooJ-аффиксы должны быть заданы правилами словоизменительной / словообразовательной морфологической грамматики (сохраненной в NОF-файле) или правилами продуктивной морфологической грамматики (сохраненной в NОМ-файле);

· Simple Words (слова) – набор словоформ, связанных с релевантной лингвистической информацией; NooJ-слова должны быть описаны в словарях (сохраненных в DIC-файлах);

· Multi-word units (объединения слов) – связанные с релевантной лингвистической информацией последовательности словоформ (Word Forms), пробельных элементов (Blanks), разделителей (Delimiters), цифр (Digits); например: для англоязычного текста: as a matter of fact; для русскоязычного текста: на самом деле, тем не менее; рок-н-ролл; Нижний Новгород; объединения слов NooJ должны быть описаны в словарях (сохраненных в DIC-файлах)[2];

· Frozen expressions (устойчивые выражения) – выражения с потенциально разрывной последовательностью словоформ, которые связаны с соответствующей лингвистической информацией; например, для англоязычного текста: take... into account, для русскоязычного текста: принять... во внимание.

Таким образом, единицы NooJ-разбора таковы:

· элементарные единицы NooJ-разбора == Characters (символы):

o Letters (буквы);

o Digits (цифры);

o Blanks (пробельные элементы);

o Delimiters (разграничители);

· базовые лингвистические объекты NooJ-разбора == Tokens (токены):

o Word Forms (словоформы);

o Digits (цифры);

o Delimiters (разграничители);

· лингвистические объединения NooJ-разбора == ALU | Atomic linguistic Units:

o Affixes (аффиксы);

o Simple Words (слова);

o Multi-word units (объединения слов);

o Frozen expressions (устойчивые выражения).



Поделиться:


Последнее изменение этой страницы: 2016-08-01; просмотров: 323; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.129.148.210 (0.006 с.)