Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

С уровня «символ» до уровня «слово». Структурирование гипотез

Поиск

На каждом логическом уровне документа выдвигается ряд гипотез. Каждая из них на следующем уровне порождает еще не­сколько предположений. Поэтому при распознавании букв FineReader оперирует множеством гипотез, учитывающих воз­можные варианты деления строки на слова, слова на буквы, и т. д. Для быстрого и точного принятия решений система объе­диняет гипотезы в многоуровневые структуры — модели. Суще­ствуют следующие типы моделей слова: словарное слово, несло­варное слово (для каждого из поддерживаемых языков распозна­вания построены соответствующие разновидности), e-mail или URL, цифры с префиксом или суффиксом, регулярное выражение и т. д. В результате структурирования количество подлежащих проверке гипотез сильно сокращается, так что последующая проверка происходит максимально быстро и эффективно.

Рассмотрим процесс структурирования на примере слова «turn» (рис. 4.8). Предположим, при разделении слова на симво­лы было выдвинуто две гипотезы: первая соответствует прочте­нию «turn», вторая — «turn». Классификаторы, обработав симво­лы, в свою очередь предложили для каждой буквы обоих слов некоторый ряд гипотез. Последние, как мы помним, обычно сортируются по весу. Следующий шаг кажется очевидным — те­перь надо выбрать гипотезы с максимальным весом. Однако да­леко не всегда наиболее вероятная гипотеза в итоге оказывается истинной. Лучший способ принять правильное решение — пе-

Turn


 

 


шиши

Модель 1 [Т| [u] [~r"j [~п"|

Модель 2 HH00

Модель 3 НИВШ

Модель 4 ИНИН

□ 00 ШИН (En9lish 1)

НИН (English 2) и Щ (Кириллица)

О 3 (Цифры)


 

 


Рис. 4.8. Гипотезы о разделении слов на буквы


рейти на уровень «слово» и путем нескольких проверочных опе­раций выяснить, какой из вариантов больше остальных похож на правильный.

В рассматриваемом примере произойдет следующее: контек­стная проверка покажет, что весь текст состоит из английских слов, и вес моделей «слово — английский язык» значительно увеличится, а моделей «слово — кириллица» соответственно уменьшится. Модель «цифры» также останется позади в силу крайне малого суммарного веса составляющих гипотез. Затем словарная проверка подтвердит, что в словаре английского язы­ка слова «turn» нет, a «turn» — есть. Следовательно, гипотеза от­носительно слова «turn» приобретет еще больший вес, что позво­лит ей в дальнейшем оказаться «победителем». Заметим, что «ав­торитет» словаря значительно выше, нежели у любого классификатора, поэтому в данном примере даже при полно­стью слившихся буквах г и п итоговое решение будет принято правильно.

С уровня «строка» до уровня «страница». Формирование электронного документа

Итак, все слова текстового блока распознаны. Пользуясь ин­формацией, полученной при анализе структуры документа, ABBYY FineReader расставляет слова по местам. Из образую­щихся при этом строк формируются текстовые блоки, размещае­мые на странице в точном соответствии с оригиналом. Когда формирование документа завершено, система обращается к пользователю за подтверждением — правильно ли распознана страница (рис. 4.9)?

Никакое программное обеспечение оптического распознава­ния символов никогда не распознает 100 % сканированных сим­волов. В большинстве случаев количество допускаемых Fine­Reader ошибок не превышает 1—3 на страницу при среднем ка­честве оригинального документа. Исправить пару специально подсвеченных ошибок, конечно, существенно проще и быстрее, чем перепечатывать и форматировать весь документ целиком.

В результате пользователь получает точную электронную ко­пию страницы; при необходимости ее можно отредактировать либо сохранить «как есть». Специальный модуль программы мо­жет экспортировать результат практически в любой из современ-



 

в

э— —-_ •, *................... •• "

Something out of the о

i\***4 SaW)

а б

Рис. 4.9. Оригинал документа (а); после распознавания (б)

ных форматов электронных документов. Для сохранения текста удобен формат Microsoft Word, а если исходный документ пред­ставлял собой таблицу, то вполне резонно сохранить электрон­ную копию в формате Microsoft Excel. Если же статью предпола­гается опубликовать в сети Интернет, можно использовать фор­мат HTML или PDF.

Системы распознавания речи

Теоретически машинное распознавание речи, т. е. ее автома­тическое представление в виде текста, является крайней степе­нью сжатия речевого сигнала.

Процесс распознавания речи (STT — speech-to-text) в по­следние годы сделал гигантский скачок вперед. В наибольшей мере его стимулирует отнюдь не желание разработчиков создать пользовательские суперудобства, а существование специфиче­ских областей компьютеризации, где голосовые команды явля­ются наиболее приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматиче­ским справочным системам, управление удаленным компьюте­ром или мобильным портативным устройством, осуществляемое во время движения.

Принципы распознавания речи

Системы распознавания речи обычно состоят из двух компо­нент, которые могут быть выделены в блоки или в подпрограм­мы — акустической и л и н г в и с т и ч е с к о й. Лингвистиче­ская часть может включать в себя фонетическую, фоно­логическую, морфологическую, синтаксическую и семантическую модели языка. Акустическая модель отвечает за представление речевого сигнала. Лингвистическая модель интерпретирует информацию, получаемую от акустиче­ской модели, и отвечает за представление результата распознава­ния потребителю.

Акустическая модель. Существуют два подхода к построению акустической модели: изобретательский и бионический. Оба подхода имеют свои достоинства и недостатки. Первый базиру­ется на результатах поиска механизма функционирования аку­стической модели. При втором подходе разработчик пытается понять и смоделировать работу естественных систем.

Лингвистическая модель. Лингвистический блок подразделя­ется на следующие слои (уровни); фонетический, фонологиче­ский, морфологический, лексический, синтаксический, семан­тический. Все уровни содержат априорную информацию о структуре естественного языка, а, как известно, любая априор­ная информация об интересующем предмете увеличивает шансы принятия верного решения. Поскольку естественный язык несет весьма сильно структурированную информацию, для каждого естественного языка может потребоваться своя уникальная лин­гвистическая модель (отсюда трудности русификации сложных систем распознавания речи зарубежной разработки).

В соответствии с данной моделью на первом (фонетическом) уровне производится преобразование входного (для лингвисти­ческого блока) представления речи в последовательность фонем, как наименьших единиц языка. Считается, что в реальном рече­вом сигнале можно обнаружить лишь аллофоны — варианты фо­нем, зависящие от звукового окружения.

На следующем (фонологическом) уровне накладываются ог­раничения на комбинаторику фонем (аллофонов) — не все соче­тания фонем (аллофонов) встречаются, а те, что встречаются, имеют различную вероятность появления, зависящую еще и от окружения. Для описания этой ситуации используется математи­ческий аппарат цепей Маркова.

Далее, на морфологическом уровне оперируют со слогопо- добными единицами речи более высокого уровня, чем фонема. Иногда они называются морфемами. Они накладывают ограни­чение уже на структуру слова, подчиняясь закономерностям мо­делируемого естественного языка.

Лексический уровень охватывает слова и словоформы того или иного естественного языка, т. е. словарь языка, также внося важную априорную информацию о том, какие слова возможны для данного естественного языка. Семантика устанавливает со­отношения между объектами действительности и словами, их обозначающими. Она является высшим уровнем языка. При по­мощи семантических отношений интеллект человека производит как бы сжатие речевого сообщения в систему образов, понятий, представляющих суть речевого сообщения.

Российская компания «ИстраСофт» известна пакетом для обучения английскому языку с визуальным контролем произно­шения «Профессор Хиггинс». Развивая «Хиггинса», сотрудники «ИстраСофт» совершили технологический прорыв, значение ко­торого трудно переоценить: они научились членить слова на эле­ментарные сегменты, соответствующие звукам речи, независимо от диктора и от языка (Существующие системы распознавания речи не производят сегментации, наименьшей единицей для них является слово.) Демонстрация новой технологии выглядит пока не очень эффектно: это всего-навсего упаковка и распаковка звуковых файлов с записью речи — правда, с высокими коэффи­циентами сжатия. Если файл был сжат сильно, то после распа­ковки в нем появляются отчетливо слышные границы между сегментами; использованию программы по прямому назначению они, конечно, мешают, но специалисту позволяют убедиться в правильности членения.

В соответствии с этим решение задачи речевых технологий можно представить в виде схемы рис. 4.10.

В основе алгоритма лежит выделение фонем из потока слит­ной речи в режиме реального времени, их кодирование и после­дующее восстановление, однако у разработчиков нет единого

Рис. 4.10. Комплексный алгоритм речевых технологий

 

мнения о том, что считать фонемой при машинной обработке речи. Способ, предложенный фирмой «ИстраСофт», допускает сжатие речи в 200 раз, причем при сжатии менее чем в 40 раз ка­чество сигнала практически не падает.

Чтобы создать основанную на новой технологии систему распознавания, необходимо «привязать» сегментацию к кон­кретному языку с помощью двух словарей — «звукового», сопос­тавляющего реальным звукам речи определенные фонемы, т. е. смыслоразличительные единицы (на слух мы, как правило, вос­принимаем именно фонемы родного языка, не замечая различий между их вариантами, обусловленными, например, позицией), и «фонетико-орфотрафического», который будет переводить фо­немную запись в письменную. Принципиально ничего сложного здесь нет: это вполне рутинная, умеренно трудоемкая техниче­ская задача.

Интеллектуальная обработка речи на уровне фонем перспек­тивна не только как способ сжатия, но и как шаг на пути к соз­данию нового поколения систем распознавания речи.

Практическая реализация. Многие научные центры, в том числе и в нашей стране, брались за решение этой проблемы (фундаментальные исследования теории языка, которые велись в 1970-х гг. в СССР, легли в основу многих современных продук­тов), но первый серьезный прорыв в области речевых техноло­гий удалось сделать только в 1986 г. в Defense Advanced Research Project Agency (DARPA) — Агентстве перспективных исследова­ний Министерства обороны США.

Успех связан с тем, что ученые решили уменьшить число фо­нетических структур, предлагаемых распознающему устройству. Для реализации этой задачи они применили так называемую «скрытую марковскую модель» (Hidden Markov Model — НММ), основанную на свойстве марковской цепи генерировать последо­вательность определенных детерминированных символов при пе­реходах между некоторыми состояниями вероятностного характе­ра (в марковском процессе параметры системы зависят только от предыдущего состояния и «не помнят» более глубокой предысто­рии). Имея последовательность символов, сгенерированную мар­ковской моделью, можно однозначно восстановить породившую ее последовательность состояний, но лишь только при том усло­вии, что каждый символ соответствует одному состоянию.

В процессе цифровой обработки речевой сигнал подвергает­ся сначала логарифмическому, а затем обратному преобразова­нию Фурье, в результате чего отыскивается с десяток первых ко­эффициентов, несущих наиболее существенную информацию об огибающей спектральной характеристики сигнала. Собственно, современные развитые коммерческие программы распознавания речи и отличаются именно способом реализации механизма вы­бора из встроенной (или созданной пользователем) базы данных наиболее вероятного набора фонем (минимально значимых эле­ментов, из которых состоит слово).

На первом этапе компьютер записывает звук речи в виде цифровой аудиопоследовательности и делит ее на фрагменты длительностью несколько миллисекунд. Программа сравнивает эти аудиофрагменты с записанными в память речевыми образ­цами. Качество базы данных образцов является наиболее важ­ным условием для безошибочного распознавания речи. Она со­держит фрагменты речи различных людей с разными особенно­стями произношения, такими, как снижение звука, диалект, выделение слогов и произношение. Эта часть системы распо­знавания речи называется системой, не зависящей от говорящего.

Систему, не зависящую от говорящего, дополняет систе­ма распознавания говорящего. В основе последней ле­жит понятие фонемы — наименьшей акустической единицы языка. В процессе тренировки программное обеспечение распо­знает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля говоря­щего. Очень важно, чтобы в дальнейшем во время диктовки пользователь по возможности точно выдерживал мелодию речи и произношение.

В системе распознавания говорящего при определении «со­мнительных слов» используется тот факт, что после определен­ного слова могут следовать (и имеют при этом смысл) лишь не­многие конкретные слова. Владельцам мобильных телефонов этот способ знаком по SMS-сообшениям, при наборе которых нужное слово предлагается автоматически.

Классификация систем распознавания речи.

Классификация по назначению:

• командные системы:

• системы диктовки текста.

По потребительским качествам:

• диктороориентированные (тренируемые на конкретного диктора);

• дикторонезависимые;

• распознающие отдельные слова;

• распознающие слитную речь.

По механизмам функционирования:

• простейшие (корреляционные) детекторы;

• экспертные системы с различным способом формирования и обработки базы знаний;

• вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Разумеется, относительно проще реализовать программу, способную распознавать только ограниченный, совсем неболь­шой набор управляющих команд и символов. Это, например, могут быть цифры от 0 до 9, слова «да», «нет», односложные ко­манды типа «открыть», «закрыть», «выйти» и т. п. Такие про­граммы появились первыми и уже давно применяются в компь­ютерной телефонии для голосового набора телефонного номера или выбора пункта меню. Если в словарь добавить названия букв алфавита, то. в принципе, по буквам можно продиктовать и любое слово или название — например, при заказе билета таким путем можно ввести станцию назначения.

Подобные системы могут похвастаться тем. что распознава­ние происходит без предварительной настройки под конкретно­го пользователя, т. е. они независимы от диктора (speaker-independent). Применение их для получения автомати­ческой справки и генерации запросов к базам данных позволяет компаниям высвободить большое количество сотрудников, обес­печить круглосуточный доступ к информации, причем зачастую появляется возможность дополнительно расширить сферу пре­доставляемых услуг.

Помимо этого, системы с распознаванием ограниченного набора слов могут применяться и для голосового управ­ления компьютером, а через него и другой техникой. Можно предусмотреть и добавление в базу данных индивидуаль­ных макросов пользователя. При ограниченном словаре также легче реализовать систему распознавания слитной речи, характе­ризующейся отсутствием специальных пауз между словами.

Точность распознавания, как правило, повышается при предварительной настройке на голос конкретного пользователя, причем этим способом можно добиться распознавания даже то­гда, когда говорящий имеет дефект речи или акцент. Все бы хо­рошо, но длительное только в том случае, если предполагается индивидуальное применение ПО одним пользователем, в край­нем случае — небольшой группой пользователей, для каждого из которых создается свой индивидуальный «профиль».

Программы для диктовки текстов (еще одно очевид­ное применение функции распознавания речи) первоначально могли понимать только так называемую «раздельную» речь, в которой после каждого произнесенного слова требовалось сде­лать небольшую паузу. Такая манера говорить неестественна — в процессе обычного человеческого разговора интенсивность звука практически никогда не падает до нуля (в этом можно убедиться, разглядывая спектрограммы).

Распознавать диктовку текстов общей тематики, выполняе­мую в манере слитной речи, коммерческие программы научи­лись только в 1997 г. Разумеется, что словарь подобных пакетов обслуживает так называемую общую тематику и охватывает лишь небольшую часть всей лексики. Значительная часть поль­зователей этим словарем не ограничивается и подключает еще специализированные (технические, медицинские, юридические и другие) словари.

Впрочем, на качество распознавания влияет даже манера ве­дения разговора — непринужденную беседу с относительно не­большим количеством используемых лексических единиц запро­токолировать гораздо сложнее, чем размеренный диктант. Про­блема заключается, в основном, в вариативности и наличии большого количества различных смысловых оттенков у самых простых конструкций. Тяжелее всего распознаются короткие слова, в результате по сравнению с многосложными частота ошибок при их обработке несравненно больше.

Серьезнейшая проблема — одно-двухбуквенные слова. За­ставить компьютер различать английские «а» и «ап» можно, только обращаясь к контексту всей фразы. Расшифровка дик- тофонных записей, компьютерное стенографирование конфе­ренций и обсуждений — задача, к решению которой создатели ПО для распознавания речи только приблизились. По заявле­ниям разработчиков компаний Dragon Systems, IBM и Lernout&Hauspie, компьютер (при непрерывной диктовке) спо­собен правильно распознавать до 95 % текста, а меж тем из­вестно, что для комфортной работы точность распознавания требуется довести до 99 %.

Требования к оборудованию. Вначале системы для распознава­ния речи реализовывались, как правило, на специализирован­ном оборудовании и соответствующих платформах. В силу того, что требования, предъявляемые к обработке речи в реальном времени, высоки, слабые центральные процессоры были не в силах взять на себя подобную задачу. Основой компьютерного распознавания речи являлось применение предварительной цифровой обработки сигналов на внешних платах. Производите­ли ПО для распознавания речи, даже перейдя на однопроцессор­ные компьютеры, некоторое время продолжали применять спе­циальные звуковые карты и микрофоны. Например, популярная программа KurzWeil Voice недавно требовала в обязательном по­рядке «свою» звуковую карту.

Модульные системы компьютерно-телефонных средств рас­познавания голоса, выполненные в виде плат расширения для компьютера, включают специализированные процессоры циф­ровой обработки звуковых сигналов (Digital Signal Processor или DSP), берущие на себя ряд операций нижнего уровня и позво­ляющие снизить требования к быстродействию основного про­цессора. Например, плата распознавания речи VR/160, постав­ляемая фирмой Dialogic, поддерживает до 16 каналов одновре­менно, причем она прекрасно работает совместно с процессором DX-486. Dialogic выпускает и более мощные четырехпроцессор- ные платы Antares с большим объемом оперативной памяти.

Работа в зашумленных помещениях также, разумеется, ока­зывает самое негативное влияние на качество распознавания. Каждый микрофон имеет свой особый «профиль», поэтому про­грамму требуется «обучить» не только работе с конкретным поль­зователем, но и с конкретным оборудованием. Подключенному к компьютеру диктофону тоже потребуется свой «профиль». Спе­циальные микротелефонные гарнитуры поставляются вместе с известными программами распознавания речи — Via Voice Gold корпорации IBM Research, Naturally Speaking Preferred фирмы Dragon Systems и Voice Xpress (Lernout&Hauspie Speech Products).

На работу с диктовочными программами накладываются и дополнительные ограничения. В большинстве случаев трудно обойтись без гарнитуры с микрофоном. Правда, радиомикрофо­ны допускают больший радиус действия, однако для контроля результатов пользователь должен видеть экран ПК.

Программное обеспечение, применяемое за рубежом

Функцию распознавания речи IBM не только встроила в свою операционную систему OS/2 Warp 4, известную под кодо­вым названием Merlin (конец 1996 г.), но и выпускает в качестве отдельного продукта. Пакет IBM для распознавания слитной речи Via Voice (www.ibm.com/viavoice) отличается своей способ­ностью с самого начала, без обучения, распознавать до 80 % слов. При обучении вероятность правильного распознавания по­вышается до 95 %, причем параллельно с настройкой программы на конкретного пользователя происходит освоение будущим оператором навыков работы с системой. Небезынтересно, что, рекламируя этот пакет, IBM утверждает, будто средняя машини­стка набивает примерно 80 слов в минуту, a Via Voice достигает скорости 150 слов в минуту.

Dragon Dictate Naturally Speaking (Ньютон, шт. Массачусетс, www.drag-onsys.com) — первый коммерческий продукт для рас­познавания слитной речи, вышедший в начале 1997 г. Позволяет непосредственно диктовать в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и приложения, причем ему доступен богатый набор управляющих команд. Пользуясь только голосом, можно исправлять и переставлять слова, выделять текст и даже менять размер шрифта и позиционировать курсор с абсо­лютной точностью. Первоначальная настройка на конкретный голос пользователя является обязательной, но программа спо­собна обучаться и в процессе дальнейшего диктанта; рабочее ка­чество распознавания может быть достигнуто спустя примерно пару недель пользования системой.

L&H Speech Products (Берлингтон, шт. Массачусетс, www.ihs.com) в 1997 г. приобрела KurzWeil Applied Intelligence, основатель которой (Рей Курцвайль) стал в L&H главным техни­ческим руководителем. После этого фирма получила инвестиции от Microsoft, а затем выпустила Voice Commands — программу для голосового управления с развитыми возможностями. Не­сколько позже эта компания создала и свою систему распознава­ния речи Voice Xpress Plus, которая по качеству распознавания незначительно уступает Dragon Dictate Naturally Speaking, но зато при работе с офисными программами (например, с Word) реализует более «естественный» интерфейс (можно подавать ко- манлы вроде «изменить шрифт последнего предложения на Arial» или «сложить эту колонка1 цифр»).

Программное обеспечение для распознавания речи фирмы Nuance Communications использует крупнейшая в Канаде дис­контная брокерская контора Toronto Dominion, запустив в экс­плуатацию службу Green Line Investors, позволяющую абонентам получать по телефону информацию о биржевых котировках. Вводятся особые пользовательские «профили», на основе кото­рых система определяет, например, следует ли зачитывать дан­ному абоненту краткую или подробную информацию.

Программу распознавания речи Natural Dialogue System фир­мы Philips Speech Processing (Вена, Австрия, www.speech.be. philips.com) использует первая канадская система автоматических «желтых страниц» (Торонто), предоставляющая информацию о местных ресторанах и способная по желанию абонента соеди­нить его с выбранным заведением.

Она же используется швейцарской железнодорожной компа­нией Swiss Railways. Предусмотрена возможность самообучения системы во время'эксплуатации. Из запросов, требующих слож­ного «восприятия речи» "(вроде «Я бы хотел попасть из Женевы в Цюрих через Берн»), выделяются ключевые слова - названия станций, предлоги «из», «в», «через» — и на основании наиболее правдоподобного варианта строится обращение к базе данных.

Авиакомпания Lufthansa своим потенциальным пассажирам предлагает автоматическое расписание своих рейсов, а радио­станция Radio Luxembourg — прогноз погоды по туристическим маршрутам всего мира.

Немецкая служба сотовой телефонной GSM-связи Dutch РТТ внедрила систему обработки речи Voice Dialing, разработан­ную американской компанией Glenayre, что обеспечивает не только голосовой набор телефонного номера, но и выполнение необходимых команд и возможность программирования до 40 наиболее часто набираемых телефонных номеров. В результате стало возможным звонить прямо во время движения автомоби­ля, не отвлекаясь от управления.

Программы от IBM и Dragon Dictate используются в наде­ваемых компьютерах (wearable PC) компании Xybernaut (www.xybernaut.com). Эти устройства весом всего 795 г использу­ются. например, американскими таможенниками, несущими службу на границе с Мексикой. Стражи порядка проверяют но­мера проезжающих автомобилей, сверяясь с удаленными цен­тральными правоохранительными базами. Правда, служащие та­можни жалуются на проблемы с распознаванием, возникающие при сильном ветре.

IBM уже давно использует технологию распознавания речи для своих внутренних задач, а сейчас выпускает средства созда­ния автоматизированных речевых агентов, способных распозна­вать называемые телефонными абонентами имена людей и на­звания организаций и соединять их с соответствующими номе­рами. Объем каталога имен может достигать 200 тыс. записей.

Фирма Language Force (www.lan-guageforce.com) на основе технологии распознавания речи Via Voice разработала автомати­ческий переводчик Universal Translator Deluxe, позволяющий устную английскую речь переводить на 33 различных языка, в число которых входят арабский, китайский, японский, корей­ский, испанский, немецкий и иврит.

Достижения компьютерной обработки речевых сигналов мо­гут применяться не только для того, чтобы вести беседы по мо­бильному телефону, — ряд парламентариев стран Западной Ев­ропы добиваются контроля над центром прослушивания Мен- вич-Хилл Агентства национальной безопасности (АНБ) США, расположенным в Англии, недалеко от Йоркшира. Первоначаль­но центр, созданный при поддержке британской разведки Ml 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Ев- ропарламента, осуществляет перехват всех европейских телефон­ных разговоров, факсов и электронной почты. Система распо­знавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим ее перенаправлением для проверки в американ­ское отделение АНБ.

На текущий момент ПО для распознавания речи работает только с английским языком, качественная поддержка русского пока что не достигнута. Однако командовать компьютером мож­но хоть сейчас, а для того, кто имеет дело с англоязычными тек­стами каждый день, подобное ПО окажется полезным.

Характеристики
Dragon Naturally Speaking 7.0 Preferred (разработчик ScanSoft)
Intelligent Voice Recognition System (IVOS) 2.0.2A (раз­работчик ComunX)

Таблица 4. ]. Характеристики некоторых образцов программных средств обработки речи

Программный продукт

Пользователю предлагается откалибровать уровень звука из микрофона и надиктовать компьютеру ряд уже готовых текстов для более тонкой под­стройки Dragon Naturally Speaking под тембр, интонацию и произношение. Не меньшее значение имеет и собственный акцент диктора - такой уровень английского, который, например, звучит на разнообразных международных научных конференциях, в принципе, не пригоден для работы. С другой сто­роны, всегда есть возможность самообучения: если Dragon никак не хочет распознавать какое-то слово, не поленитесь заглянуть в Lingvo и произне­сти его с учетом правильной транскрипции. Возможны и действия вроде распознавания текстового содержимого wav-файла. Кроме того, Dragon Naturally Speaking умеет запускать различные программы, переключаться между ними и даже управлять рядом их функций (например, начинать/при­останавливать воспроизведение музыки в медиапроигрывателе или напря­мую работать с меню). В состав версий Preferred и Professional дополни­тельно входит собственный речевой драйвер Real-Speech 2, один из наибо­лее совершенных на сегодня. Надиктовывать текст можно не только в текст-процессоре DragonPad, но и в любом другом аналогичном приложе­нии - MS Word, Outlook Express, Internet Ex-plorer и Corel WordPerfect. С та­ким же успехом программа работает и с ICQ, сетевым чатом (Network Assistant) и прочими instant messengers. В более специализированных при­ложениях, в частности в том же Word, применяются дополнительные коман­ды: форматирование текста, правописание, редактирование - и все исклю­чительно за счет устной речи. Если же стандартного набора приказов оказа­лось мало, всегда можно создать собственные, тем самым еще более расширив функциональность Dragon

IVOS позволяет: а) распознавать речь и преобразовывать ее в текст в лю­бом Windows-совместимом текст-процессоре; б) управлять своим ПК с по­мощью разнообразных голосовых команд, а также создавать свои собст­венные; в) озвучивать электронные книги с помощью внешних голосовых движков. Извлечение текста из Wav-фэйлов, удобная, не отягощающая эк­ран панель управления программой и демократичная (по сравнению с тем ' же Dragon) цена. После регистрации пользователю становится доступна технология VoiceTouch, позволяющая обучать ПК вашим собственным уст­ным приказам. IVOS, как и многие другие программы распознавания речи, кроме Dragon, использует для таких целей модуль Speech API от Microsoft, и ее результативность в данной области напрямую зависит от успехов этой корпорации


Продолжение табл. 4.1


 

 


Характеристики

Программный продукт


 

 


Realize Voice 4.0 (Разра­ботчик Realize Software Corporation)
Voice Studio 1.4.6 (Разра­ботчик Ultimate Interactive Desktop)
Dictation 2004 v.4.5.2399 (Разработчик United Research Labs)

Realize Voice, в отличие от Dragon Naturally Speaking, не очень приспособле­на к стенографированию (хотя такая функция в ее арсенале и имеется), зато справляется с голосовыми командами. Глубоких знаний в области англий­ского не нужно - благодаря модулю эвристического анализатора програм­ма без особых проблем найдет общий язык практически с любым дикто­ром. Спектр функций Realize Voice довольно широк - от запуска исполняе­мых файлов и ярлыков программ до работы с корреспонденцией и сложными макросами. Как и в остальных подобных программах, от пользо­вателя требуется лишь подключенный микрофон и пара минут для того, чтобы вникнуть в курс дела. А перед тем как приступить к собственно обще­нию с утилитой, стоит обозначить ей фронт работ. По умолчанию в эту ка­тегорию попадают ярлыки системного меню, Рабочего стола, содержимое папки Избранное и панели быстрого запуска, а также недавно открытые до­кументы и программы. Весь процесс полностью автоматизирован и выпол­няется буквально мгновенно. Правда, некоторые неудобства вызывает не­возможность использования в названии команд цифр. Утилита позволяет объединять под одной командой целую серию операций - начиная от ввода символов с клавиатуры и системных команд до синтеза речи

Одна из немногих программ, где виртуальный собеседник по ту сторону монитора обрел видимую форму. И хотя технологию MS Agent, которая ис­пользуется для данных целей, пока трудно назвать прообразом искусствен­ного интеллекта, все предпосылки для этого у нее есть, Анимированный по­мощник не только наделен некоторой долей самостоятельности, но и умеет отвечать на ряд стандартных фраз (вроде «Hello!», «How do you feel», «Bad computer» и т. д.). При желании его словарный и фразеологический запас легко пополнить, а кроме того, задать его действия в зависимости от «на­строения». Хотя подобная болтовня с ПК и будет ограничена рамками зна­ний программы, никто не мешает расширить их практически до бесконеч­ности. Функциональность Voice Studio - стенографирование, разнообраз­ные голосовые команды (для большего удобства и быстрейшего запоминания их можно распечатать), а также приемлемый машинный син­тез речи. Создание макросов для запуска сразу серии операций с помощью одного ключевого слова, даже запись и воспроизведение движений мыши. Это широко используется во многих альтернативных браузерах вроде GreenBrowser или MylE2 для выполнения ряда действий (переход на другую страницу, открытие нового окна и т. д.). Достаточно произнести соответст­вующую команду, и компьютер автоматически воссоздаст записанный ра­нее скрипт

В первую очередь, это технология Point-and-Speak, позволяющая с легко­стью создавать команды для ввода паролей, запуска ПО и диктовать прак­тически во всех Windows-приложениях, Заявлена интеграция с MS Word, а также интеллектуальная технология правильного определения фраз. Правда, реализована она неудобно - в виде всплывающего окна, которое появляется при каждом сказанном слове. Dictation 2004 использует SAPI 5.1, так что качество ее принципиально не отличается от другого ПО,


Окончание табл. 4.1

Программный продукт Характеристики

основанного на той же технологии (Voxx, IVOS, Realize Voice и пр.). Из до­полнительных функций стоит отметить WAV Recorder для захвата информа­ции с аудиокассет, мобильных устройств, микрофонов и последующей за­писи ее в wav-файлы; потом текст из них извлекается с помощью отдельно­го апплета Dictation - Wave-to-Text

Возможности программы напоминают IVOS (стенографирование/голосовые команды/чтение текста), за исключением того, что здесь есть полезный бо­нус - озвучивание каждого действия, будь то набор текста или открытие файла. Программа использует тот же Microsoft Speech API, что и IVOS, по- Voxx (4.0 Разработчик этому качество распознавания у нее аналогичное. Наличествует набор голо- Voxx Support Team) совых команд для навигации браузером, элементарных операций б тексто­

вом редакторе (cut/copy/paste и т. д.), а также работы с окнами, имеются ярлыки вызова системных апплетов, открытие/закрытие лотка оптического привода. Что же касается синтеза речи, то он напрямую зависит от соответ­ствующих модулей, установленных в системе

В дополнение к программам диктования Dragon Systems и IBM предлагают инструменты для разработчиков, желающих усилить мощность своих программ. Dragon предлагает DragonDictate, дискретный механизм распознавания языка, а IBM — набор инструментов ViaVoice Developer Tools.

Dragon предлагает ряд опций для разработчиков, желающих использовать DragonDictate. Во-первых, вы можете добавить к DragonDictate специальный словарь, используя любое приложе­ние, включая Microsoft Excel или Word. Семейство программ, именуемое DragonPro, содержит DragonBusiness, DragonExtra (журналистика), Dragon Law (юриспруденция), DragonMed (ме­дицина) и DragonTech. Если вам нужно что-то еще более специ­фическое, вы можете использовать Dragon SpeechTool, чтобы разработать специальный словарь и эталоны произношения.

Вы можете использовать таблицу фонем и средства редакти­рования для создания, добавления, изменения слов и их произ­ношения, а также их удаления.

DragonXTools поддерживает режимы 16-bit VBX и 32-bit OCX для добавления голосовых параметров к существующим прило­жениям. DragonXTools также поддерживает режим текст-речь DgnTTS, что позволит придать голос вашим программам. Руко­водство DragonXTools начинается с простого примера на языке VB и показывает, как создавать программы на С, С++, Delphi, Visual Basic и т. п. Руководство содержит большой объем доку­ментации по событиям, свойствам и процедурам, необходимым, чтобы разговаривать с DragonDictate.

Вместе с DragonXTools пользователь получает также доку­ментацию по DragonDictate Macro Language Guide & Reference, языку, основанному на BASIC, который разработчики могут ис­пользовать, чтобы добавлять команды к DragonDictate, DDE и DLL для контроля за работой мыши, звуковых эффектов и т. п.

Отечественные разработки

К сожалению, распространенные зарубежные системы рас­познавания речи русский язык не поддерживают. Правда, уже упоминавшиеся платы Dialogic в число используемых европей­ских и некоторых азиатских языков включают и русский, но их возможностей хватает только на речевой ввод телефонных номе­ров и построение простейших голосовых меню. Намерение включить поддержку русского языка в свои продукты неодно­кратно выражал



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 247; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.191.223.30 (0.014 с.)