Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ

С уровня «символ» до уровня «слово». Структурирование гипотез

⇐ ПредыдущаяСтр 7 из 30Следующая ⇒

На каждом логическом уровне документа выдвигается ряд гипотез. Каждая из них на следующем уровне порождает еще несколько предположений. Поэтому при распознавании букв FineReader оперирует множеством гипотез, учитывающих возможные варианты деления строки на слова, слова на буквы, и т. д. Для быстрого и точного принятия решений система объединяет гипотезы в многоуровневые структуры — модели. Существуют следующие типы моделей слова: словарное слово, несловарное слово (для каждого из поддерживаемых языков распознавания построены соответствующие разновидности), e-mail или URL, цифры с префиксом или суффиксом, регулярное выражение и т. д. В результате структурирования количество подлежащих проверке гипотез сильно сокращается, так что последующая проверка происходит максимально быстро и эффективно.

Рассмотрим процесс структурирования на примере слова «turn» (рис. 4.8). Предположим, при разделении слова на символы было выдвинуто две гипотезы: первая соответствует прочтению «turn», вторая — «turn». Классификаторы, обработав символы, в свою очередь предложили для каждой буквы обоих слов некоторый ряд гипотез. Последние, как мы помним, обычно сортируются по весу. Следующий шаг кажется очевидным — теперь надо выбрать гипотезы с максимальным весом. Однако далеко не всегда наиболее вероятная гипотеза в итоге оказывается истинной. Лучший способ принять правильное решение — пе-

Turn

шиши

Модель 1 [Т| [u] [~r"j [~п"|

Модель 2 HH00

Модель 3 НИВШ

Модель 4 ИНИН

□ 00 ШИН ^{(En9lish 1)}

НИН (English 2) и Щ (Кириллица)

О 3 (Цифры)

Рис. 4.8. Гипотезы о разделении слов на буквы

рейти на уровень «слово» и путем нескольких проверочных операций выяснить, какой из вариантов больше остальных похож на правильный.

В рассматриваемом примере произойдет следующее: контекстная проверка покажет, что весь текст состоит из английских слов, и вес моделей «слово — английский язык» значительно увеличится, а моделей «слово — кириллица» соответственно уменьшится. Модель «цифры» также останется позади в силу крайне малого суммарного веса составляющих гипотез. Затем словарная проверка подтвердит, что в словаре английского языка слова «turn» нет, a «turn» — есть. Следовательно, гипотеза относительно слова «turn» приобретет еще больший вес, что позволит ей в дальнейшем оказаться «победителем». Заметим, что «авторитет» словаря значительно выше, нежели у любого классификатора, поэтому в данном примере даже при полностью слившихся буквах г и п итоговое решение будет принято правильно.

С уровня «строка» до уровня «страница». Формирование электронного документа

Итак, все слова текстового блока распознаны. Пользуясь информацией, полученной при анализе структуры документа, ABBYY FineReader расставляет слова по местам. Из образующихся при этом строк формируются текстовые блоки, размещаемые на странице в точном соответствии с оригиналом. Когда формирование документа завершено, система обращается к пользователю за подтверждением — правильно ли распознана страница (рис. 4.9)?

Никакое программное обеспечение оптического распознавания символов никогда не распознает 100 % сканированных символов. В большинстве случаев количество допускаемых FineReader ошибок не превышает 1—3 на страницу при среднем качестве оригинального документа. Исправить пару специально подсвеченных ошибок, конечно, существенно проще и быстрее, чем перепечатывать и форматировать весь документ целиком.

В результате пользователь получает точную электронную копию страницы; при необходимости ее можно отредактировать либо сохранить «как есть». Специальный модуль программы может экспортировать результат практически в любой из современ-

э— —-_ •, *................... •• "

Something out of the о

i\***4 SaW)

а б

Рис. 4.9. Оригинал документа (а); после распознавания (б)

ных форматов электронных документов. Для сохранения текста удобен формат Microsoft Word, а если исходный документ представлял собой таблицу, то вполне резонно сохранить электронную копию в формате Microsoft Excel. Если же статью предполагается опубликовать в сети Интернет, можно использовать формат HTML или PDF.

Системы распознавания речи

Теоретически машинное распознавание речи, т. е. ее автоматическое представление в виде текста, является крайней степенью сжатия речевого сигнала.

Процесс распознавания речи (STT — speech-to-text) в последние годы сделал гигантский скачок вперед. В наибольшей мере его стимулирует отнюдь не желание разработчиков создать пользовательские суперудобства, а существование специфических областей компьютеризации, где голосовые команды являются наиболее приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматическим справочным системам, управление удаленным компьютером или мобильным портативным устройством, осуществляемое во время движения.

Принципы распознавания речи

Системы распознавания речи обычно состоят из двух компонент, которые могут быть выделены в блоки или в подпрограммы — акустической и л и н г в и с т и ч е с к о й. Лингвистическая часть может включать в себя фонетическую, фонологическую, морфологическую, синтаксическую и семантическую модели языка. Акустическая модель отвечает за представление речевого сигнала. Лингвистическая модель интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю.

Акустическая модель. Существуют два подхода к построению акустической модели: изобретательский и бионический. Оба подхода имеют свои достоинства и недостатки. Первый базируется на результатах поиска механизма функционирования акустической модели. При втором подходе разработчик пытается понять и смоделировать работу естественных систем.

Лингвистическая модель. Лингвистический блок подразделяется на следующие слои (уровни); фонетический, фонологический, морфологический, лексический, синтаксический, семантический. Все уровни содержат априорную информацию о структуре естественного языка, а, как известно, любая априорная информация об интересующем предмете увеличивает шансы принятия верного решения. Поскольку естественный язык несет весьма сильно структурированную информацию, для каждого естественного языка может потребоваться своя уникальная лингвистическая модель (отсюда трудности русификации сложных систем распознавания речи зарубежной разработки).

В соответствии с данной моделью на первом (фонетическом) уровне производится преобразование входного (для лингвистического блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном речевом сигнале можно обнаружить лишь аллофоны — варианты фонем, зависящие от звукового окружения.

На следующем (фонологическом) уровне накладываются ограничения на комбинаторику фонем (аллофонов) — не все сочетания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математический аппарат цепей Маркова.

Далее, на морфологическом уровне оперируют со слогопо- добными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограничение уже на структуру слова, подчиняясь закономерностям моделируемого естественного языка.

Лексический уровень охватывает слова и словоформы того или иного естественного языка, т. е. словарь языка, также внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает соотношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При помощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения.

Российская компания «ИстраСофт» известна пакетом для обучения английскому языку с визуальным контролем произношения «Профессор Хиггинс». Развивая «Хиггинса», сотрудники «ИстраСофт» совершили технологический прорыв, значение которого трудно переоценить: они научились членить слова на элементарные сегменты, соответствующие звукам речи, независимо от диктора и от языка (Существующие системы распознавания речи не производят сегментации, наименьшей единицей для них является слово.) Демонстрация новой технологии выглядит пока не очень эффектно: это всего-навсего упаковка и распаковка звуковых файлов с записью речи — правда, с высокими коэффициентами сжатия. Если файл был сжат сильно, то после распаковки в нем появляются отчетливо слышные границы между сегментами; использованию программы по прямому назначению они, конечно, мешают, но специалисту позволяют убедиться в правильности членения.

В соответствии с этим решение задачи речевых технологий можно представить в виде схемы рис. 4.10.

В основе алгоритма лежит выделение фонем из потока слитной речи в режиме реального времени, их кодирование и последующее восстановление, однако у разработчиков нет единого

Рис. 4.10. Комплексный алгоритм речевых технологий

мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой «ИстраСофт», допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз качество сигнала практически не падает.

Чтобы создать основанную на новой технологии систему распознавания, необходимо «привязать» сегментацию к конкретному языку с помощью двух словарей — «звукового», сопоставляющего реальным звукам речи определенные фонемы, т. е. смыслоразличительные единицы (на слух мы, как правило, воспринимаем именно фонемы родного языка, не замечая различий между их вариантами, обусловленными, например, позицией), и «фонетико-орфотрафического», который будет переводить фонемную запись в письменную. Принципиально ничего сложного здесь нет: это вполне рутинная, умеренно трудоемкая техническая задача.

Интеллектуальная обработка речи на уровне фонем перспективна не только как способ сжатия, но и как шаг на пути к созданию нового поколения систем распознавания речи.

Практическая реализация. Многие научные центры, в том числе и в нашей стране, брались за решение этой проблемы (фундаментальные исследования теории языка, которые велись в 1970-х гг. в СССР, легли в основу многих современных продуктов), но первый серьезный прорыв в области речевых технологий удалось сделать только в 1986 г. в Defense Advanced Research Project Agency (DARPA) — Агентстве перспективных исследований Министерства обороны США.

Успех связан с тем, что ученые решили уменьшить число фонетических структур, предлагаемых распознающему устройству. Для реализации этой задачи они применили так называемую «скрытую марковскую модель» (Hidden Markov Model — НММ), основанную на свойстве марковской цепи генерировать последовательность определенных детерминированных символов при переходах между некоторыми состояниями вероятностного характера (в марковском процессе параметры системы зависят только от предыдущего состояния и «не помнят» более глубокой предыстории). Имея последовательность символов, сгенерированную марковской моделью, можно однозначно восстановить породившую ее последовательность состояний, но лишь только при том условии, что каждый символ соответствует одному состоянию.

В процессе цифровой обработки речевой сигнал подвергается сначала логарифмическому, а затем обратному преобразованию Фурье, в результате чего отыскивается с десяток первых коэффициентов, несущих наиболее существенную информацию об огибающей спектральной характеристики сигнала. Собственно, современные развитые коммерческие программы распознавания речи и отличаются именно способом реализации механизма выбора из встроенной (или созданной пользователем) базы данных наиболее вероятного набора фонем (минимально значимых элементов, из которых состоит слово).

На первом этапе компьютер записывает звук речи в виде цифровой аудиопоследовательности и делит ее на фрагменты длительностью несколько миллисекунд. Программа сравнивает эти аудиофрагменты с записанными в память речевыми образцами. Качество базы данных образцов является наиболее важным условием для безошибочного распознавания речи. Она содержит фрагменты речи различных людей с разными особенностями произношения, такими, как снижение звука, диалект, выделение слогов и произношение. Эта часть системы распознавания речи называется системой, не зависящей от говорящего.

Систему, не зависящую от говорящего, дополняет система распознавания говорящего. В основе последней лежит понятие фонемы — наименьшей акустической единицы языка. В процессе тренировки программное обеспечение распознает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля говорящего. Очень важно, чтобы в дальнейшем во время диктовки пользователь по возможности точно выдерживал мелодию речи и произношение.

В системе распознавания говорящего при определении «сомнительных слов» используется тот факт, что после определенного слова могут следовать (и имеют при этом смысл) лишь немногие конкретные слова. Владельцам мобильных телефонов этот способ знаком по SMS-сообшениям, при наборе которых нужное слово предлагается автоматически.

Классификация систем распознавания речи.

Классификация по назначению:

• командные системы:

• системы диктовки текста.

По потребительским качествам:

• диктороориентированные (тренируемые на конкретного диктора);

• дикторонезависимые;

• распознающие отдельные слова;

• распознающие слитную речь.

По механизмам функционирования:

• простейшие (корреляционные) детекторы;

• экспертные системы с различным способом формирования и обработки базы знаний;

• вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Разумеется, относительно проще реализовать программу, способную распознавать только ограниченный, совсем небольшой набор управляющих команд и символов. Это, например, могут быть цифры от 0 до 9, слова «да», «нет», односложные команды типа «открыть», «закрыть», «выйти» и т. п. Такие программы появились первыми и уже давно применяются в компьютерной телефонии для голосового набора телефонного номера или выбора пункта меню. Если в словарь добавить названия букв алфавита, то. в принципе, по буквам можно продиктовать и любое слово или название — например, при заказе билета таким путем можно ввести станцию назначения.

Подобные системы могут похвастаться тем. что распознавание происходит без предварительной настройки под конкретного пользователя, т. е. они независимы от диктора (speaker-independent). Применение их для получения автоматической справки и генерации запросов к базам данных позволяет компаниям высвободить большое количество сотрудников, обеспечить круглосуточный доступ к информации, причем зачастую появляется возможность дополнительно расширить сферу предоставляемых услуг.

Помимо этого, системы с распознаванием ограниченного набора слов могут применяться и для голосового управления компьютером, а через него и другой техникой. Можно предусмотреть и добавление в базу данных индивидуальных макросов пользователя. При ограниченном словаре также легче реализовать систему распознавания слитной речи, характеризующейся отсутствием специальных пауз между словами.

Точность распознавания, как правило, повышается при предварительной настройке на голос конкретного пользователя, причем этим способом можно добиться распознавания даже тогда, когда говорящий имеет дефект речи или акцент. Все бы хорошо, но длительное только в том случае, если предполагается индивидуальное применение ПО одним пользователем, в крайнем случае — небольшой группой пользователей, для каждого из которых создается свой индивидуальный «профиль».

Программы для диктовки текстов (еще одно очевидное применение функции распознавания речи) первоначально могли понимать только так называемую «раздельную» речь, в которой после каждого произнесенного слова требовалось сделать небольшую паузу. Такая манера говорить неестественна — в процессе обычного человеческого разговора интенсивность звука практически никогда не падает до нуля (в этом можно убедиться, разглядывая спектрограммы).

Распознавать диктовку текстов общей тематики, выполняемую в манере слитной речи, коммерческие программы научились только в 1997 г. Разумеется, что словарь подобных пакетов обслуживает так называемую общую тематику и охватывает лишь небольшую часть всей лексики. Значительная часть пользователей этим словарем не ограничивается и подключает еще специализированные (технические, медицинские, юридические и другие) словари.

Впрочем, на качество распознавания влияет даже манера ведения разговора — непринужденную беседу с относительно небольшим количеством используемых лексических единиц запротоколировать гораздо сложнее, чем размеренный диктант. Проблема заключается, в основном, в вариативности и наличии большого количества различных смысловых оттенков у самых простых конструкций. Тяжелее всего распознаются короткие слова, в результате по сравнению с многосложными частота ошибок при их обработке несравненно больше.

Серьезнейшая проблема — одно-двухбуквенные слова. Заставить компьютер различать английские «а» и «ап» можно, только обращаясь к контексту всей фразы. Расшифровка дик- тофонных записей, компьютерное стенографирование конференций и обсуждений — задача, к решению которой создатели ПО для распознавания речи только приблизились. По заявлениям разработчиков компаний Dragon Systems, IBM и Lernout&Hauspie, компьютер (при непрерывной диктовке) способен правильно распознавать до 95 % текста, а меж тем известно, что для комфортной работы точность распознавания требуется довести до 99 %.

Требования к оборудованию. Вначале системы для распознавания речи реализовывались, как правило, на специализированном оборудовании и соответствующих платформах. В силу того, что требования, предъявляемые к обработке речи в реальном времени, высоки, слабые центральные процессоры были не в силах взять на себя подобную задачу. Основой компьютерного распознавания речи являлось применение предварительной цифровой обработки сигналов на внешних платах. Производители ПО для распознавания речи, даже перейдя на однопроцессорные компьютеры, некоторое время продолжали применять специальные звуковые карты и микрофоны. Например, популярная программа KurzWeil Voice недавно требовала в обязательном порядке «свою» звуковую карту.

Модульные системы компьютерно-телефонных средств распознавания голоса, выполненные в виде плат расширения для компьютера, включают специализированные процессоры цифровой обработки звуковых сигналов (Digital Signal Processor или DSP), берущие на себя ряд операций нижнего уровня и позволяющие снизить требования к быстродействию основного процессора. Например, плата распознавания речи VR/160, поставляемая фирмой Dialogic, поддерживает до 16 каналов одновременно, причем она прекрасно работает совместно с процессором DX-486. Dialogic выпускает и более мощные четырехпроцессор- ные платы Antares с большим объемом оперативной памяти.

Работа в зашумленных помещениях также, разумеется, оказывает самое негативное влияние на качество распознавания. Каждый микрофон имеет свой особый «профиль», поэтому программу требуется «обучить» не только работе с конкретным пользователем, но и с конкретным оборудованием. Подключенному к компьютеру диктофону тоже потребуется свой «профиль». Специальные микротелефонные гарнитуры поставляются вместе с известными программами распознавания речи — Via Voice Gold корпорации IBM Research, Naturally Speaking Preferred фирмы Dragon Systems и Voice Xpress (Lernout&Hauspie Speech Products).

На работу с диктовочными программами накладываются и дополнительные ограничения. В большинстве случаев трудно обойтись без гарнитуры с микрофоном. Правда, радиомикрофоны допускают больший радиус действия, однако для контроля результатов пользователь должен видеть экран ПК.

Программное обеспечение, применяемое за рубежом

Функцию распознавания речи IBM не только встроила в свою операционную систему OS/2 Warp 4, известную под кодовым названием Merlin (конец 1996 г.), но и выпускает в качестве отдельного продукта. Пакет IBM для распознавания слитной речи Via Voice (www.ibm.com/viavoice) отличается своей способностью с самого начала, без обучения, распознавать до 80 % слов. При обучении вероятность правильного распознавания повышается до 95 %, причем параллельно с настройкой программы на конкретного пользователя происходит освоение будущим оператором навыков работы с системой. Небезынтересно, что, рекламируя этот пакет, IBM утверждает, будто средняя машинистка набивает примерно 80 слов в минуту, a Via Voice достигает скорости 150 слов в минуту.

Dragon Dictate Naturally Speaking (Ньютон, шт. Массачусетс, www.drag-onsys.com) — первый коммерческий продукт для распознавания слитной речи, вышедший в начале 1997 г. Позволяет непосредственно диктовать в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и приложения, причем ему доступен богатый набор управляющих команд. Пользуясь только голосом, можно исправлять и переставлять слова, выделять текст и даже менять размер шрифта и позиционировать курсор с абсолютной точностью. Первоначальная настройка на конкретный голос пользователя является обязательной, но программа способна обучаться и в процессе дальнейшего диктанта; рабочее качество распознавания может быть достигнуто спустя примерно пару недель пользования системой.

L&H Speech Products (Берлингтон, шт. Массачусетс, www.ihs.com) в 1997 г. приобрела KurzWeil Applied Intelligence, основатель которой (Рей Курцвайль) стал в L&H главным техническим руководителем. После этого фирма получила инвестиции от Microsoft, а затем выпустила Voice Commands — программу для голосового управления с развитыми возможностями. Несколько позже эта компания создала и свою систему распознавания речи Voice Xpress Plus, которая по качеству распознавания незначительно уступает Dragon Dictate Naturally Speaking, но зато при работе с офисными программами (например, с Word) реализует более «естественный» интерфейс (можно подавать ко- манлы вроде «изменить шрифт последнего предложения на Arial» или «сложить эту колонка¹ цифр»).

Программное обеспечение для распознавания речи фирмы Nuance Communications использует крупнейшая в Канаде дисконтная брокерская контора Toronto Dominion, запустив в эксплуатацию службу Green Line Investors, позволяющую абонентам получать по телефону информацию о биржевых котировках. Вводятся особые пользовательские «профили», на основе которых система определяет, например, следует ли зачитывать данному абоненту краткую или подробную информацию.

Программу распознавания речи Natural Dialogue System фирмы Philips Speech Processing (Вена, Австрия, www.speech.be. philips.com) использует первая канадская система автоматических «желтых страниц» (Торонто), предоставляющая информацию о местных ресторанах и способная по желанию абонента соединить его с выбранным заведением.

Она же используется швейцарской железнодорожной компанией Swiss Railways. Предусмотрена возможность самообучения системы во время'эксплуатации. Из запросов, требующих сложного «восприятия речи» "(вроде «Я бы хотел попасть из Женевы в Цюрих через Берн»), выделяются ключевые слова - названия станций, предлоги «из», «в», «через» — и на основании наиболее правдоподобного варианта строится обращение к базе данных.

Авиакомпания Lufthansa своим потенциальным пассажирам предлагает автоматическое расписание своих рейсов, а радиостанция Radio Luxembourg — прогноз погоды по туристическим маршрутам всего мира.

Немецкая служба сотовой телефонной GSM-связи Dutch РТТ внедрила систему обработки речи Voice Dialing, разработанную американской компанией Glenayre, что обеспечивает не только голосовой набор телефонного номера, но и выполнение необходимых команд и возможность программирования до 40 наиболее часто набираемых телефонных номеров. В результате стало возможным звонить прямо во время движения автомобиля, не отвлекаясь от управления.

Программы от IBM и Dragon Dictate используются в надеваемых компьютерах (wearable PC) компании Xybernaut (www.xybernaut.com). Эти устройства весом всего 795 г используются. например, американскими таможенниками, несущими службу на границе с Мексикой. Стражи порядка проверяют номера проезжающих автомобилей, сверяясь с удаленными центральными правоохранительными базами. Правда, служащие таможни жалуются на проблемы с распознаванием, возникающие при сильном ветре.

IBM уже давно использует технологию распознавания речи для своих внутренних задач, а сейчас выпускает средства создания автоматизированных речевых агентов, способных распознавать называемые телефонными абонентами имена людей и названия организаций и соединять их с соответствующими номерами. Объем каталога имен может достигать 200 тыс. записей.

Фирма Language Force (www.lan-guageforce.com) на основе технологии распознавания речи Via Voice разработала автоматический переводчик Universal Translator Deluxe, позволяющий устную английскую речь переводить на 33 различных языка, в число которых входят арабский, китайский, японский, корейский, испанский, немецкий и иврит.

Достижения компьютерной обработки речевых сигналов могут применяться не только для того, чтобы вести беседы по мобильному телефону, — ряд парламентариев стран Западной Европы добиваются контроля над центром прослушивания Мен- вич-Хилл Агентства национальной безопасности (АНБ) США, расположенным в Англии, недалеко от Йоркшира. Первоначально центр, созданный при поддержке британской разведки Ml 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Ев- ропарламента, осуществляет перехват всех европейских телефонных разговоров, факсов и электронной почты. Система распознавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим ее перенаправлением для проверки в американское отделение АНБ.

На текущий момент ПО для распознавания речи работает только с английским языком, качественная поддержка русского пока что не достигнута. Однако командовать компьютером можно хоть сейчас, а для того, кто имеет дело с англоязычными текстами каждый день, подобное ПО окажется полезным.

Характеристики

Dragon Naturally Speaking 7.0 Preferred (разработчик ScanSoft)

Intelligent Voice Recognition System (IVOS) 2.0.2A (разработчик ComunX)

Таблица 4. ]. Характеристики некоторых образцов программных средств обработки речи

Программный продукт

Пользователю предлагается откалибровать уровень звука из микрофона и надиктовать компьютеру ряд уже готовых текстов для более тонкой подстройки Dragon Naturally Speaking под тембр, интонацию и произношение. Не меньшее значение имеет и собственный акцент диктора - такой уровень английского, который, например, звучит на разнообразных международных научных конференциях, в принципе, не пригоден для работы. С другой стороны, всегда есть возможность самообучения: если Dragon никак не хочет распознавать какое-то слово, не поленитесь заглянуть в Lingvo и произнести его с учетом правильной транскрипции. Возможны и действия вроде распознавания текстового содержимого wav-файла. Кроме того, Dragon Naturally Speaking умеет запускать различные программы, переключаться между ними и даже управлять рядом их функций (например, начинать/приостанавливать воспроизведение музыки в медиапроигрывателе или напрямую работать с меню). В состав версий Preferred и Professional дополнительно входит собственный речевой драйвер Real-Speech 2, один из наиболее совершенных на сегодня. Надиктовывать текст можно не только в текст-процессоре DragonPad, но и в любом другом аналогичном приложении - MS Word, Outlook Express, Internet Ex-plorer и Corel WordPerfect. С таким же успехом программа работает и с ICQ, сетевым чатом (Network Assistant) и прочими instant messengers. В более специализированных приложениях, в частности в том же Word, применяются дополнительные команды: форматирование текста, правописание, редактирование - и все исключительно за счет устной речи. Если же стандартного набора приказов оказалось мало, всегда можно создать собственные, тем самым еще более расширив функциональность Dragon

IVOS позволяет: а) распознавать речь и преобразовывать ее в текст в любом Windows-совместимом текст-процессоре; б) управлять своим ПК с помощью разнообразных голосовых команд, а также создавать свои собственные; в) озвучивать электронные книги с помощью внешних голосовых движков. Извлечение текста из Wav-фэйлов, удобная, не отягощающая экран панель управления программой и демократичная (по сравнению с тем ' же Dragon) цена. После регистрации пользователю становится доступна технология VoiceTouch, позволяющая обучать ПК вашим собственным устным приказам. IVOS, как и многие другие программы распознавания речи, кроме Dragon, использует для таких целей модуль Speech API от Microsoft, и ее результативность в данной области напрямую зависит от успехов этой корпорации

Продолжение табл. 4.1

Характеристики

Программный продукт

Realize Voice 4.0 (Разработчик Realize Software Corporation)

Voice Studio 1.4.6 (Разработчик Ultimate Interactive Desktop)

Dictation 2004 v.4.5.2399 (Разработчик United Research Labs)

Realize Voice, в отличие от Dragon Naturally Speaking, не очень приспособлена к стенографированию (хотя такая функция в ее арсенале и имеется), зато справляется с голосовыми командами. Глубоких знаний в области английского не нужно - благодаря модулю эвристического анализатора программа без особых проблем найдет общий язык практически с любым диктором. Спектр функций Realize Voice довольно широк - от запуска исполняемых файлов и ярлыков программ до работы с корреспонденцией и сложными макросами. Как и в остальных подобных программах, от пользователя требуется лишь подключенный микрофон и пара минут для того, чтобы вникнуть в курс дела. А перед тем как приступить к собственно общению с утилитой, стоит обозначить ей фронт работ. По умолчанию в эту категорию попадают ярлыки системного меню, Рабочего стола, содержимое папки Избранное и панели быстрого запуска, а также недавно открытые документы и программы. Весь процесс полностью автоматизирован и выполняется буквально мгновенно. Правда, некоторые неудобства вызывает невозможность использования в названии команд цифр. Утилита позволяет объединять под одной командой целую серию операций - начиная от ввода символов с клавиатуры и системных команд до синтеза речи

Одна из немногих программ, где виртуальный собеседник по ту сторону монитора обрел видимую форму. И хотя технологию MS Agent, которая используется для данных целей, пока трудно назвать прообразом искусственного интеллекта, все предпосылки для этого у нее есть, Анимированный помощник не только наделен некоторой долей самостоятельности, но и умеет отвечать на ряд стандартных фраз (вроде «Hello!», «How do you feel», «Bad computer» и т. д.). При желании его словарный и фразеологический запас легко пополнить, а кроме того, задать его действия в зависимости от «настроения». Хотя подобная болтовня с ПК и будет ограничена рамками знаний программы, никто не мешает расширить их практически до бесконечности. Функциональность Voice Studio - стенографирование, разнообразные голосовые команды (для большего удобства и быстрейшего запоминания их можно распечатать), а также приемлемый машинный синтез речи. Создание макросов для запуска сразу серии операций с помощью одного ключевого слова, даже запись и воспроизведение движений мыши. Это широко используется во многих альтернативных браузерах вроде GreenBrowser или MylE2 для выполнения ряда действий (переход на другую страницу, открытие нового окна и т. д.). Достаточно произнести соответствующую команду, и компьютер автоматически воссоздаст записанный ранее скрипт

В первую очередь, это технология Point-and-Speak, позволяющая с легкостью создавать команды для ввода паролей, запуска ПО и диктовать практически во всех Windows-приложениях, Заявлена интеграция с MS Word, а также интеллектуальная технология правильного определения фраз. Правда, реализована она неудобно - в виде всплывающего окна, которое появляется при каждом сказанном слове. Dictation 2004 использует SAPI 5.1, так что качество ее принципиально не отличается от другого ПО,

Окончание табл. 4.1

Программный продукт Характеристики

основанного на той же технологии (Voxx, IVOS, Realize Voice и пр.). Из дополнительных функций стоит отметить WAV Recorder для захвата информации с аудиокассет, мобильных устройств, микрофонов и последующей записи ее в wav-файлы; потом текст из них извлекается с помощью отдельного апплета Dictation - Wave-to-Text

Возможности программы напоминают IVOS (стенографирование/голосовые команды/чтение текста), за исключением того, что здесь есть полезный бонус - озвучивание каждого действия, будь то набор текста или открытие файла. Программа использует тот же Microsoft Speech API, что и IVOS, по- Voxx (4.0 Разработчик этому качество распознавания у нее аналогичное. Наличествует набор голо- Voxx Support Team) совых команд для навигации браузером, элементарных операций б тексто

вом редакторе (cut/copy/paste и т. д.), а также работы с окнами, имеются ярлыки вызова системных апплетов, открытие/закрытие лотка оптического привода. Что же касается синтеза речи, то он напрямую зависит от соответствующих модулей, установленных в системе

В дополнение к программам диктования Dragon Systems и IBM предлагают инструменты для разработчиков, желающих усилить мощность своих программ. Dragon предлагает DragonDictate, дискретный механизм распознавания языка, а IBM — набор инструментов ViaVoice Developer Tools.

Dragon предлагает ряд опций для разработчиков, желающих использовать DragonDictate. Во-первых, вы можете добавить к DragonDictate специальный словарь, используя любое приложение, включая Microsoft Excel или Word. Семейство программ, именуемое DragonPro, содержит DragonBusiness, DragonExtra (журналистика), Dragon Law (юриспруденция), DragonMed (медицина) и DragonTech. Если вам нужно что-то еще более специфическое, вы можете использовать Dragon SpeechTool, чтобы разработать специальный словарь и эталоны произношения.

Вы можете использовать таблицу фонем и средства редактирования для создания, добавления, изменения слов и их произношения, а также их удаления.

DragonXTools поддерживает режимы 16-bit VBX и 32-bit OCX для добавления голосовых параметров к существующим приложениям. DragonXTools также поддерживает режим текст-речь DgnTTS, что позволит придать голос вашим программам. Руководство DragonXTools начинается с простого примера на языке VB и показывает, как создавать программы на С, С++, Delphi, Visual Basic и т. п. Руководство содержит большой объем документации по событиям, свойствам и процедурам, необходимым, чтобы разговаривать с DragonDictate.

Вместе с DragonXTools пользователь получает также документацию по DragonDictate Macro Language Guide & Reference, языку, основанному на BASIC, который разработчики могут использовать, чтобы добавлять команды к DragonDictate, DDE и DLL для контроля за работой мыши, звуковых эффектов и т. п.

Отечественные разработки

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

Читайте также:

Формы дистанционного обучения

Передача мяча двумя руками снизу

Значение правильной осанки для жизнедеятельности человека

Основные ошибки при выполнении передач мяча на месте

Последнее изменение этой страницы: 2017-02-22; просмотров: 216; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.14.132.214 (0.059 с.)