Программное обеспечение, применяемое за рубежом 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Программное обеспечение, применяемое за рубежом



Функцию распознавания речи IBM не только встроила в свою операционную систему OS/2 Warp 4, известную под кодо­вым названием Merlin (конец 1996 г.), но и выпускает в качестве отдельного продукта. Пакет IBM для распознавания слитной речи Via Voice (www.ibm.com/viavoice) отличается своей спо­собностью с самого начала, без обучения, распознавать до 80 % слов. При обучении вероятность правильного распознавания по­вышается до 95 %, причем параллельно с настройкой программы на конкретного пользователя происходит освоение будущим оператором навыков работы с системой. Небезынтересно, что, рекламируя этот пакет, IBM утверждает, будто средняя машини­стка набивает примерно 80 слов в минуту, a Via Voice достигает скорости 150 слов в минуту.

Dragon Dictate Naturally Speaking (Ньютон, шт. Массачусетс, www.drag-onsys.com) — первый коммерческий продукт для Распознавания слитной речи, вышедший в начале 1997 г. Позво­ляет непосредственно диктовать в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и приложения, причем ему Доступен богатый набор управляющих команд. Пользуясь только голосом, можно исправлять и переставлять слова, выделять текст даже менять размер шрифта и позиционировать курсор с абсолютной точностью. Первоначальная настройка на конкретный голос пользователя является обязательной, но программа способна обучаться и в процессе дальнейшего диктанта; рабочее качество распознавания может быть достигнуто спустя примерно пару недель пользования системой.

L&H Speech Products (Берлингтон, шт. Массачусетс www.lhs.com) в 1997 г. приобрела KurzWeil Applied Intelligence основатель которой (Рей Курцвайль) стал в L&H главным техническим руководителем. После этого фирма получила инвестиции от Microsoft, а затем выпустила Voice Commands — программу для голосового управления с развитыми возможностями. Не­сколько позже эта компания создала и свою систему распознава­ния речи Voice Xpress Plus, которая по качеству распознавания незначительно уступает Dragon Dictate Naturally Speaking, Ho зато при работе с офисными программами (например, с Word) реализует более «естественный» интерфейс (можно подавать ко­манды вроде «изменить шрифт последнего предложения на Arial» или «сложить эту колонку цифр»).

Программное обеспечение для распознавания речи фирмы Nuance Communications использует крупнейшая в Канаде дис­контная брокерская контора Toronto Dominion, запустив в экс­плуатацию службу Green Line Investors, позволяющую абонентам получать по телефону информацию о биржевых котировках. Вводятся особые пользовательские «профили», на основе кото­рых система определяет, например, следует ли зачитывать дан­ному абоненту краткую или подробную информацию.

Программу распознавания речи Natural Dialogue System фир­мы Philips Speech Processing (Вена, Австрия, www.speech.be. philips.com) использует первая канадская система автоматиче­ских «желтых страниц» (Торонто), предоставляющая информа­цию о местных ресторанах и способная по желанию абонента соединить его с выбранным заведением.

Она же используется швейцарской железнодорожной компа­нией Swiss Railways. Предусмотрена возможность самообучения системы во время эксплуатации. Из запросов, требующих слож­ного «восприятия речи» (вроде «Я бы хотел попасть из Женевы в Цюрих через Берн»), выделяются ключевые слова — названия станций, предлоги «из», «в», «через» — и на основании наиболее правдоподобного варианта строится обращение к базе данных.

Авиакомпания Lufthansa своим потенциальным пассажирам предлагает автоматическое расписание своих рейсов, а радио­станция Radio Luxembourg — прогноз погоды по туристическим маршрутам всего мира.

Немецкая служба сотовой телефонной GSM-связи Dutch РТТ внедрила систему обработки речи Voice Dialing, разработан­ную американской компанией Glenayre, что обеспечивает не только голосовой набор телефонного номера, но и выполнение необходимых команд и возможность программирования до 40 наиболее часто набираемых телефонных номеров. В результате на возможным звонить прямо во время движения автомоби­ля не отвлекаясь от управления.

Программы от IBM и Dragon Dictate используются в надеваемых компьютерах (wearable PC) компании Xybernaut (www.xybernaut.com). Эти устройства весом всего 795 г исполь­зуются, например, американскими таможенниками, несущими службу на границе с Мексикой. Стражи порядка проверяют но­мера проезжающих автомобилей, сверяясь с удаленными цен­тральными правоохранительными базами. Правда, служащие та­можни жалуются на проблемы с распознаванием, возникающие при сильном ветре.

IBM уже давно использует технологию распознавания речи для своих внутренних задач, а сейчас выпускает средства созда­ния автоматизированных речевых агентов, способных распознавать называемые телефонными абонентами имена людей и на­звания организаций и соединять их с соответствующими номе­рами. Объем каталога имен может достигать 200 тыс. записей.

Фирма Language Force (www.lan-guageforce.com) на осно­ве технологии распознавания речи Via Voice разработала автома­тический переводчик Universal Translator Deluxe, позволяющий устную английскую речь переводить на 33 различных языка, в число которых входят арабский, китайский, японский, корей­ский, испанский, немецкий и иврит.

Достижения компьютерной обработки речевых сигналов мо­гут применяться не только для того, чтобы вести беседы по мо­бильному телефону, — ряд парламентариев стран Западной Европы добиваются контроля над центром прослушивания Менвич-Хилл Агентства национальной безопасности (АНБ) США, Расположенным в Англии, недалеко от Йоркшира. Первоначаль­но центр, созданный при поддержке британской разведки MI 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Европарламента, осуществляет перехват всех европейских телефон­ных разговоров, факсов и электронной почты. Система распознавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим ее перенаправлением для проверки в американ­ское отделение АНБ.

На текущий момент ПО для распознавания речи работает только с английским языком, качественная поддержка русского пока что не достигнута. Однако командовать компьютером мож­но хоть сейчас, а для того, кто имеет дело с англоязычными тек­стами каждый день, подобное ПО окажется полезным.

В дополнение к программам диктования Dragon Systems и IBM предлагают инструменты для разработчиков, желающих усилить мощность своих программ. Dragon предлагает DragonDictate, дискретный механизм распознавания языка, а IBM — набор инструментов Via Voice Developer Tools.

Dragon предлагает ряд опций для разработчиков, желающих использовать DragonDictate. Во-первых, вы можете добавить к DragonDictate специальный словарь, используя любое приложе­ние, включая Microsoft Excel или Word. Семейство программ, именуемое DragonPro, содержит DragonBusiness, DragonExtra (журналистика), DragonLaw (юриспруденция), DragonMed (медицина) и DragonTech. Если вам нужно что-то еще более специ­фическое, вы можете использовать Dragon SpeechTool, чтобы разработать специальный словарь и эталоны произношения.

Вы можете использовать таблицу фонем и средства редакти­рования для создания, добавления, изменения слов и их произ­ношения, а также их удаления.

DragonXTools поддерживает режимы 16-bit VBX и 32-bit OCX для добавления голосовых параметров к существующим прило­жениям. DragonXTools также поддерживает режим текст-речь DgnTTS, что позволит придать голос вашим программам. Руко­водство DragonXTools начинается с простого примера на языке VB и показывает, как создавать программы на С, C++, Delphi Visual Basic и т. п. Руководство содержит большой объем документации по событиям, свойствам и процедурам, необходимым, чтобы разговаривать с DragonDictate.

Вместе с DragonXTools пользователь получает также документацию по DragonDictate Macro Language Guide & Reference, зыку, основанному на BASIC, который разработчики могут использовать, чтобы добавлять команды к DragonDictate, DDE и DLL для контроля за работой мыши, звуковых эффектов и т. п.

Отечественные разработки

К сожалению, распространенные зарубежные системы рас­познавания речи русский язык не поддерживают. Правда, уже упоминавшиеся платы Dialogic в число используемых европей­ских и некоторых азиатских языков включают и русский, но их возможностей хватает только на речевой ввод телефонных номе­ров и построение простейших голосовых меню. Намерение включить поддержку русского языка в свои продукты неодно­кратно выражали многие производители, в том числе и Dragon Systems, но дальше этих заявлений дело так и не пошло.

В этих условиях своеобразной сенсацией стал выход в 1997 г. на коммерческий рынок знаменитого «Горыныча» — адаптации Dragon Dictate Naturally Speaking, проведенной силами малоиз­вестной до того российской компании White Group — официаль­ного дистрибьютора Dragon Systems. Программа оказалась впол­не работоспособной, а ее стоимость — весьма умеренной.

К сожалению, основой послужила уже устаревшая вторая версия Dragon Dictate, не поддерживающая распознавание слит­ной речи. Кроме того, программа требует длительной «трениров­ки» и настройки на конкретного пользователя, очень капризна к оборудованию, более чем чувствительна к интонации и скорости произнесения фраз, возможности ее «обучения» весьма разнятся для различных голосов. Созданная для распознавания англий­ской речи, программа не может учитывать всей специфики рус­ского произношения.

По всей видимости, положение на отечественном рынке ПО для распознавания речи (если вообще можно говорить о таком) напоминает недавнюю ситуацию с оптическим распознава­ем текста. Только специализированные отечественные про­дукты, изначально ориентированные именно на русский язык, смогут по-настоящему решить ту задачу, что не по силам ни «Горынычу», ни «Комбату» (еще один продукт той же фирмы White Group).

Не случайно лидеры отечественного рынка программ OCR которыми являются ABBYY (BIT Software) и Cognitive Technologies, заявили о ведущихся ими в области распознавания русской речи разработках. ABBYY работает над проектом NLC связанным с естественно-языковой обработкой распознаваемых текстов. Пока же технология распознавания речи российскими разработчиками применяется в основном в интерактивных обу­чающих системах и играх вроде «Мой говорящий словарь», «Talk to Me» или «Профессор Хиггинс», а целью их использования являются контроль произношения у изучающих английский язык и аутентификация пользователя. Еще одно остроумное примене­ние технологии — распознавания речи — позволяет весьма ощутимо сжимать файлы с диктофонными записями или послания­ми звуковой почты.



Поделиться:


Последнее изменение этой страницы: 2021-04-05; просмотров: 76; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.222.138.230 (0.007 с.)