Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву
Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Единицы обработки текста в NooJСодержание книги Поиск на нашем сайте
Необходимо знать, каковы единицы обработки текста в Nooj. При обработке текста NooJ оперирует следующими символами (Characters); символы являются элементарными единицами разбора: · Letters (буквы) – элементы алфавита текущего языка; · Digits (цифры) – цифры от 0 до 9; · Blanks (пробельные элементы) – последовательность пробелов, символов табуляции, символов новой строки и перевода каретки; · Delimiters (разграничители) – прочие символы. С опорой на символы (Characters) как элементарные единицы NooJ-разбора определены токены (Tokens) какбазовые лингвистические объектыNooJ-разбора. Разработчики NooJ выделяют 3 вида токенов: · Word Forms (словоформы) – последовательности букв (Letters) между двумя разграничителями (Delimiters); · Digits (цифры); · Delimiters (разграничители). Как видим, цифры и разграничители обрабатываются и как символы, и как токены. Разберем для примера, какие символы и какие токены выделяет NooJ в предложении Рок-н-ролл 60-х. В разборе NooJ предложение содержит 16 символов (из них 12 разных): базовые лингвистические объекты
Рис. 3 – Таблица символов предложения Рок-н-ролл 60-х. Предложение-пример в разборе NooJ содержит 10 токенов: · 4 словоформы (Word Forms), а именно: {рок, н, ролл, х}; · 2 цифры (Digits), а именно: {6, 0}; · 4 разграничителя (Delimiters), а именно: {-, -, -,.} Проблема слов с дефисом. Очевидно, что такое определение словоформы создает определенные неудобства: по умолчанию все слова с дефисом разбиваются (так, например, все слова с постфиксами - то, -либо, -нибудь будут разбиты на 2 NooJ-словоформы). С учетом вышесказанного, для создания частотного словаря текста рекомендуем пользоваться сторонними программами (например, AntConc). При создании конкордаса ограничение на обработку слов с дефисом легко обходится: задав регулярное выражение (\w+-){0,}\w+, по тестовому предложению получаем:
Рис. 4 – Конкорданс тестового предложения по регулярному выражению (\w+-){0,}\w+ Подробнее о регулярных выражениях читайте в разделе ___. Биграмма (digram) в NooJ определена как 2 идущие подряд словоформы (Word Forms); при этом цифры (Digits) и разграничители (Delimiters) игнорируются, то есть словоформы считаются идущими подряд, даже если между ними есть цифры и разграничители. В доступный пользователю список биграмм включаются только биграммы с частотой больше 1. Таким образом, в тексте «Рок-н-ролл 60-х. Рок-н-ролл 60-х.» NooJ выделит следующие биграммы:
Рис. 5 – Таблицы биграмм тестового текста Элементами NooJ-разбора следующего уровня являются ALU (Atomic linguistic Units, ‘атомарные лингвистические объединения’). Разработчики NooJ определяют следующие виды ALU: · Affixes (аффиксы) – префиксы, суффиксы и подобные малые последовательности букв (Letters), включенные в словоформы (Word Forms) и связанные с выражением лингвистической информации, например, для английского языка: re-, -ization, для русского языка: -изация; NooJ-аффиксы должны быть заданы правилами словоизменительной / словообразовательной морфологической грамматики (сохраненной в NОF-файле) или правилами продуктивной морфологической грамматики (сохраненной в NОМ-файле); · Simple Words (слова) – набор словоформ, связанных с релевантной лингвистической информацией; NooJ-слова должны быть описаны в словарях (сохраненных в DIC-файлах); · Multi-word units (объединения слов) – связанные с релевантной лингвистической информацией последовательности словоформ (Word Forms), пробельных элементов (Blanks), разделителей (Delimiters), цифр (Digits); например: для англоязычного текста: as a matter of fact; для русскоязычного текста: на самом деле, тем не менее; рок-н-ролл; Нижний Новгород; объединения слов NooJ должны быть описаны в словарях (сохраненных в DIC-файлах)[2]; · Frozen expressions (устойчивые выражения) – выражения с потенциально разрывной последовательностью словоформ, которые связаны с соответствующей лингвистической информацией; например, для англоязычного текста: take... into account, для русскоязычного текста: принять... во внимание. Таким образом, единицы NooJ-разбора таковы: · элементарные единицы NooJ-разбора == Characters (символы): o Letters (буквы); o Digits (цифры); o Blanks (пробельные элементы); o Delimiters (разграничители); · базовые лингвистические объекты NooJ-разбора == Tokens (токены): o Word Forms (словоформы); o Digits (цифры); o Delimiters (разграничители); · лингвистические объединения NooJ-разбора == ALU | Atomic linguistic Units: o Affixes (аффиксы); o Simple Words (слова); o Multi-word units (объединения слов); o Frozen expressions (устойчивые выражения).
|
||||
|
Последнее изменение этой страницы: 2016-08-01; просмотров: 451; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.216.15 (0.009 с.) |