Статистическая обработка текста 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Статистическая обработка текста



Статистические методы в языкознании - методы использования счета и измерений для изучения языка и речи. Объектом применения статистических методов обычно является письменный текст (в первую очередь его лексический состав).

Статистическая обработка текста используется для:

- Математически точного различения стилей и жанров (статистическая стилистика)

- Проведения атрибуции текстов (установление авторства анонимных текстов в историческом языкознании и т.д.) на основании неповторимого сочетания статистических параметров авторского текста;

- Описания поведения языковых единиц (букв, морфем, слов) в тексте (их распределение, сочетаемость, частота употребления);

- Измерения информативности текстов (количества информации содержащейся в тексте и его составных частях)

- Восстановления текстов и языков по их фрагментам (описания структуры текста и языка на основании очень ограниченной исходной информации (в сочетании с дистрибутивным анализом, изучающим окружение отдельных единиц текста без использования сведений о его полном лексическом составе);

- Определения уровня родства, скорости языковых изменений и времени разделения различных языков;

- Определения типологии языков (их сравнительное соотношение и изучение независимо от характера генетических отношений) и т.д.

Текстовый процессор MS Word анализирует свойства создаваемых в нем документов (название, автор, тема, ключевые слова, дата последнего изменения), которые служат для упрощения поиска документов. MS Word регистрирует и автоматически обновляет статистические данные документа:

- количество символов,

- количество символов и пробелов,

- количество слов,

- количество строк,

- количество абзацев

- количество страниц.

Частотный словарь - пронумерованный список слов (словоформ, словосочетаний) текста (множества текстов) с указанием абсолютной частоты употребления этого слова в тексте. Частотные словари приводят числовые характеристики употребительности слов какого-либо языка. Частотные словари дают возможность сравнить численные закономерности в структуре словаря и текста.

 

Технологии речевого интерфейса

Звуковая речь - генерируемое человеком звуковое сообщение. Речь может быть объективно зарегистрирована, измерена, сохранена, обработана, воспроизведена при помощи приборов и алгоритмов, представлена в виде некоторого речевого сигнала.

Задачи компьютерной обработки текста:

- Синтез речи (компьютер преобразует информацию, с которой он оперирует, в речевое сообщение, понятное человеку);

- Распознавание речи (компьютер извлекает из речи человека полезную информацию)

- Понимание речи (компьютер должен воспринимать не просто прямое значение, но смысл сказанного)

Все системы распознавания речи можно разделить на два класса:

- Системы, зависимые от диктора - настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.

- Системы, не зависимые от диктора - работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

В существующих системах распознавания речи используются два принципиально разных подхода:

- Распознавание голосовых меток - распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.

- Распознавание лексических элементов - предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.

Достоинства и ограничения речевого интерфейса:

- Речевой интерфейс естественен для человека.

- Взаимодействие с компьютером посредством речевого интерфейса требует определенного уровня звукоизоляции рабочего места пользователя;

- Речевой интерфейс может привести к заболеванию голосовых связок (следствие напряженности и монотонности речи).

- Современные системы речевого интерфейса чувствительны к четкости произношения человека и часто требуют специальной подготовки.

 

 

Технологии эффективного чтения

Чтение - основанное на владении речью, восприятие и понимание семантики (содержания и смысла) текстовой информации.

Параметры эффективного чтения:

Художественную литературу, следует читать с той скоростью, при которой вы получите наиболее полное впечатление. Cтихи лучше читать медленно и только вслух.

Журнальные и газетные материалы, следует читать методом скольжения, захватывая своим вниманием только то, что вас может заинтересовать.

Техническую, научную, учебную литературу следует читать как можно быстрее и как можно тщательнее: анализируя, споря, соглашаясь, получая новое знание.

Таблицы Шу́льте — таблицы со случайно расположенными объектами (обычно числами или буквами), служащие для тестирования и развития быстроты нахождения этих объектов в определённом порядке. Упражнения с таблицами позволяют улучшить периферическое зрительное восприятие, что важно, например, для скорочтения.

Особенности экранного чтения - зрительная система человека, приспособлена к восприятию в отраженном свете. При экранном чтении приходится смотреть на источник света - дисплей.

Х арактеристики электронных книг:

1) тип экрана: E-Ink (электронные чернила)/TFT, цветной/монохромный;

2)объём встроенной памяти;

3)ресурс аккумулятора;

4) Наличие Wi-Fi или 3G подключения к интернету

5) Поддержка форматов

6) дополнительные функции, как проигрывание музыки, просмотр изображений, сенсорный экран, будет приятным, но не обязательным бонусом.

Электронная книга (eBook, BookReader) - портативное устройство, для чтения электронных текстов (eText), с помощью специального программного обеспечения (eReader).

Электронная книга (eReader) - прикладная программа, предназначенная для чтения электронных текстов (eText).

Электронная книга (eText) - специально отформатированные электронные документы, полноценно заменяющие полиграфические книги.

Vortex - Текст выводится на экран не в форме строк, а по одному слову в установленную единицу времени! При некотором заданном интервале проговаривать слова становится невозможно просто физически. Поскольку каждое отдельное слово выводится на центр экрана, то и отпадает необходимость терять время на движение глаз слева направо.

 

 

Технологии компьютерной лексикографии

 

Лексикография изучает теорию и практику составления различных языковых словарей.

Можно выделить следующие типы словарей:

- переводные,

- толковые,

- диалектные,

- региональные,

- словари сленга,

- исторические,

- неологизмов,

- этимологические,

- крылатых.

Кроме этого различают словари лингвистические и нелингвистические.

Популярные электронные переводные словари: Lingvo, МультиЛекс, MultiTran, PROMT VER-Dict, Context, LingvoSoft Dictionary....

 

 

Технологии оптического распознавания

OCR (Optical Character Recognition) - технология преобразования графического изображения текста в компьютерный текст с помощью алгоритма распознавания графических образов.

OCR (Optical Character Recognition) - компьютерная программа перевода графического изображения текста в электронный текст через его распознание и сохранение в нужном для пользователя формате электронного документа.

OCR используется:

1) при сканировании и фотографировании текстов.

2) для ввода больших объемов текстовой информации в компьютер (от 100 и более страниц в день).

3) для рукописного ввода текстовой информации в компьютер.

4) для преобразования одного формата в другой.



Поделиться:


Последнее изменение этой страницы: 2016-08-16; просмотров: 1141; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.189.188.36 (0.011 с.)