Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Единицы обработки текста в NooJ
Необходимо знать, каковы единицы обработки текста в Nooj. При обработке текста NooJ оперирует следующими символами (Characters); символы являются элементарными единицами разбора: · Letters (буквы) – элементы алфавита текущего языка; · Digits (цифры) – цифры от 0 до 9; · Blanks (пробельные элементы) – последовательность пробелов, символов табуляции, символов новой строки и перевода каретки; · Delimiters (разграничители) – прочие символы. С опорой на символы (Characters) как элементарные единицы NooJ-разбора определены токены (Tokens) какбазовые лингвистические объектыNooJ-разбора. Разработчики NooJ выделяют 3 вида токенов: · Word Forms (словоформы) – последовательности букв (Letters) между двумя разграничителями (Delimiters); · Digits (цифры); · Delimiters (разграничители). Как видим, цифры и разграничители обрабатываются и как символы, и как токены. Разберем для примера, какие символы и какие токены выделяет NooJ в предложении Рок-н-ролл 60-х. В разборе NooJ предложение содержит 16 символов (из них 12 разных): базовые лингвистические объекты Рис. 3 – Таблица символов предложения Рок-н-ролл 60-х. Предложение-пример в разборе NooJ содержит 10 токенов: · 4 словоформы (Word Forms), а именно: {рок, н, ролл, х}; · 2 цифры (Digits), а именно: {6, 0}; · 4 разграничителя (Delimiters), а именно: {-, -, -,.} Проблема слов с дефисом. Очевидно, что такое определение словоформы создает определенные неудобства: по умолчанию все слова с дефисом разбиваются (так, например, все слова с постфиксами - то, -либо, -нибудь будут разбиты на 2 NooJ-словоформы). С учетом вышесказанного, для создания частотного словаря текста рекомендуем пользоваться сторонними программами (например, AntConc). При создании конкордаса ограничение на обработку слов с дефисом легко обходится: задав регулярное выражение (\w+-){0,}\w+, по тестовому предложению получаем: Рис. 4 – Конкорданс тестового предложения по регулярному выражению (\w+-){0,}\w+ Подробнее о регулярных выражениях читайте в разделе ___. Биграмма (digram) в NooJ определена как 2 идущие подряд словоформы (Word Forms); при этом цифры (Digits) и разграничители (Delimiters) игнорируются, то есть словоформы считаются идущими подряд, даже если между ними есть цифры и разграничители. В доступный пользователю список биграмм включаются только биграммы с частотой больше 1. Таким образом, в тексте «Рок-н-ролл 60-х. Рок-н-ролл 60-х.» NooJ выделит следующие биграммы:
Рис. 5 – Таблицы биграмм тестового текста Элементами NooJ-разбора следующего уровня являются ALU (Atomic linguistic Units, ‘атомарные лингвистические объединения’). Разработчики NooJ определяют следующие виды ALU: · Affixes (аффиксы) – префиксы, суффиксы и подобные малые последовательности букв (Letters), включенные в словоформы (Word Forms) и связанные с выражением лингвистической информации, например, для английского языка: re-, -ization, для русского языка: -изация; NooJ-аффиксы должны быть заданы правилами словоизменительной / словообразовательной морфологической грамматики (сохраненной в NОF-файле) или правилами продуктивной морфологической грамматики (сохраненной в NОМ-файле); · Simple Words (слова) – набор словоформ, связанных с релевантной лингвистической информацией; NooJ-слова должны быть описаны в словарях (сохраненных в DIC-файлах); · Multi-word units (объединения слов) – связанные с релевантной лингвистической информацией последовательности словоформ (Word Forms), пробельных элементов (Blanks), разделителей (Delimiters), цифр (Digits); например: для англоязычного текста: as a matter of fact; для русскоязычного текста: на самом деле, тем не менее; рок-н-ролл; Нижний Новгород; объединения слов NooJ должны быть описаны в словарях (сохраненных в DIC-файлах)[2]; · Frozen expressions (устойчивые выражения) – выражения с потенциально разрывной последовательностью словоформ, которые связаны с соответствующей лингвистической информацией; например, для англоязычного текста: take... into account, для русскоязычного текста: принять... во внимание. Таким образом, единицы NooJ-разбора таковы: · элементарные единицы NooJ-разбора == Characters (символы): o Letters (буквы); o Digits (цифры); o Blanks (пробельные элементы); o Delimiters (разграничители); · базовые лингвистические объекты NooJ-разбора == Tokens (токены): o Word Forms (словоформы); o Digits (цифры); o Delimiters (разграничители); · лингвистические объединения NooJ-разбора == ALU | Atomic linguistic Units: o Affixes (аффиксы); o Simple Words (слова); o Multi-word units (объединения слов); o Frozen expressions (устойчивые выражения).
|
|||||
Последнее изменение этой страницы: 2016-08-01; просмотров: 323; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.129.148.210 (0.006 с.) |