Engine — «машины» синтеза и распознавания речи 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Engine — «машины» синтеза и распознавания речи



«Машина» (в просторечии — «движок») — это пакет про­граммных средств, выполняющих строго определенную задачу и предоставляющий интерфейс для использования его возможно­стей. В настоящее время существует целый ряд машин синтеза и распознавания речи, которые разработаны для использования совместно с MS Speech API.

smARTspeak CS — настраиваемая независимая от языка «ма­шина» распознавания речи для набора цифр, указания имен и речевой навигации, т. е. для приложений, используемых в сото­вых телефонах и беспроводных устройствах. Созданный для ис­пользования в указанных устройствах, smARTspeak CS удовле­творяет потребностям как пользователей, так и разработчиков: иммунитет к фоновому шуму, малые требования к процессору и памяти, совместимость с MS SAPI 5.0, оптимизация для средств быстрой разработки приложений и для интеграции в сертифици­рованные устройства.

Conversely предоставляет решение для речевого взаимодеист- вия с информацией, поставляемой через сеть, включая Internet в случае, когда другие интерфейсы слишком сложны или отсутст­вуют. Conversay разрабатывает речевую технологию, которая по­зволяет пользователям взаимодействовать через мобильные уст­ройства привычным для себя способом.

Lernout&Hauspie. Система компании L&H позволяет на­страивать чтение аббревиатур и слов (ударения). Продукт, актив­но продвигаемый Microsoft.

Digalo. Голосовой «движок» для русского языка Digalo — продукт французской фирмы Elan Informatique. Digalo различает буквы «Е» и «Ё» и виртуозно владеет русской ненормативной лексикой. В основном ошибки в ударениях приходятся на неко­торые фамилии и имена, малоупотребительные слова и терми­ны, замечено не всегда корректное озвучивание чисел и очень акцентированное произнесение слов «нет» и «не». Разработчики обещают в дальнейшем сделать возможной корректировку про­изнесения отдельных слов и слогов.

Actor 5. Новый «движок» фирмы Loquendo «Actor 5» предна­значен для использования в областях голосовых технологий и сервиса. Синтезирует речь на итальянском, испанском, англий­ском, немецком, мексиканском, бразильском и американском английском диалекте (русского, к сожалению, нет).

PC Voice Club. Движок синтеза речи Клуба голосовых тех­нологий при Научном Парке МГУ. При его создании исполь­зована базовая технология синтеза речи, разработанная на фи­лологическом факультете МГУ. Синтезатор характеризуется высоким качеством синтеза речи, что позволяет прослушивать тексты без их специальной подготовки. Позволяет синтезиро­вать речь на английском и русском языках. Кроме того, имеет около десятка голосовых типажей (робот, эльф, мышь и пр.). Имеются возможности редактирования голосов. Помимо стан­дартных функций синтеза речи имеется дополнительная функ­ция встраивания в текст управляющих символов, которые по­зволяют устанавливать паузы, изменять тембр, тон и длитель­ность звучания. К примеру, можно, отредактировав текст, заставить синтезатор петь.

Творческий коллектив радиофизиков и программистов раз­работал серию программных продуктов под общим названием «Говорящая мышь»

Синтезатор русской речи

Рассмотрим разработку «Говорящая мышь» упоминавшегося Клуба голосовых технологий. В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам. Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спек­тральных характеристик речевого сигнала, а набор правил — возможность формирования естественного интонационно-про­содического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, но дающие пока менее естественное озвучивание текста. Это, преж­де всего, параметрический (формантный) синтез речи по прави­лам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акусти- ко-фонетические базы данных и соответствующая компьютерная технология, которые пока доступны не всем.

Язык формальной записи правил синтеза. Для создания удоб­ного и быстрого режима изменения и верификации правил, включенных в разные блоки синтезирующей системы, был раз­работай формализованный и в то же время содержательно про­зрачный и понятный язык записи правил, который легко ком­пилируется в исходные тексты программ. В настоящее время блок автоматического транскриптора насчитывает около 1000 строк, записанных на формализованном языке представ­ления правил.

Интонационное обеспечение. Функция разработанных правил состоит в том, чтобы определить временные и тональные ха­рактеристики базовых элементов компиляции, которые при обработке синтагмы выбираются из библиотеки в нужной по­следовательности специальным процессором (блоком кодиров­ки). Необходимые для этого предварительные операции над синтезируемым текстом: выделение синтагм, выбор типа инто­нации, определение степени выделенное™ (ударности-безудар­ности) гласных и символьного звукового наполнения слоговых комплексов осуществляются блоком автоматического транс­криптора.

Во временной процессор входят также правила, за­дающие длительность паузы после окончания синтагмы (ко­нечной/неконечной), которые необходимы для синтеза связ­ного текста. Предусмотрена также модификация общего темпа произнесения синтагмы и текста в целом, причем в двух ва­риантах: в стандартном — при равномерном изменении всех единиц компиляции — и в специальном, дающем возмож­ность изменения длительности только гласных или только со­гласных.

Тональный процессор содержит правила формирова­ния для одиннадцати интонационных моделей: нейтральная по­вествовательная интонация (точка), точковая интонация, типич­ная для фокусируемых ответов на вопросы; интонация предло­жений с контрастивным выделением отдельных слов; интонация специального и общего вопроса; интонация особых противопос­тавительных или сопоставительных вопросов; интонация обра­щений, некоторых типов восклицаний и команд; два вида неза­вершенности, перечислительная интонация; интонация вставоч­ных конструкций.

Алюфонная база данных. Необходимый речевой материал за­писан в режиме оцифровки с частотой дискретизации 22 кГц с разрядностью 16 бит.

В качестве базовых элементов компиляции выбраны аллофо­ны, оптимальный набор которых и представляет собой акусти- ко-фонетическую базу синтеза. Инвентарь базовых единиц ком­пиляции включает в себя 1200 элементов, который занимает около 7 Мбайт памяти. В большинстве случаев элементы компи­ляции представляют собой сегменты речевой волны фонемной размерности. Для получения необходимой исходной базы еди­ниц компиляции был составлен специальный словарь, который содержит слова и словосочетания с аллофонами во всех учиты­ваемых контекстах. В нем содержится 1130 словоупотреблений.

Лингвистический анализ. На основе данных, полученных от остальных модулей синтеза речи и от аллофонной базы, про­грамма формирования акустического сигнала позволяет осуще­ствлять модификацию длительности согласных и гласных. Она дает возможность модифицировать длительность отдельных пе­риодов на вокальных звуках, используя две или три точки тони­рования на аллофон ном сегменте, осуществляет модификацию энергетических характеристик сегмента и соединяет.модифици­рованные аллофоны в единую слитную речь.

На этапе синтеза акустического сигнала программа позволя­ет получать разнообразные акустические эффекты — такие, как реверберация, эхо, изменение частотной окраски.

Готовый акустический сигнал преобразуется в формат дан­ных, принятый для вывода звуковой информации. Используют­ся два формата: WAV (Waveform Audio File Format), являющийся одним из основных, или VOX (Voice File Format), широко ис­пользуемый в компьютерной телефонии. Вывод также может осуществляться непосредственно на звуковую карту.

Инструментарий синтеза русской речи. Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вслух смешанные русско-английские тексты. Инструмен­тарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синте­за, словарь ударений русского языка, модуль правил произнесе­ния английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступа­ет звуковой файл в формате WAV или VOX, записываемый в па­мять или на жесткий диск.

В табл. 4.2 приводятся характеристики ряда систем синтеза речи.


Характеристики

Таблица 4.2. Характеристики некоторых образцов программных средств синтеза речи

f Программный продукт


 

 


Бесплатная программа, которая читает текст разными голосами на разных языках, ис­пользуя голосовые «движки» (text-to-speech engines), установленные на компьютере, за­пишет текст в МРЗ файл. Основные возможности программы Govorilka: чтение текста го­лосом; запись читаемого текста в звуковой файл (*.WAV, *.МРЗ) с повышенной скоро­стью; регулировка скорости чтения и высоты голоса; автоматическая прокрутка текста на экране, чтобы всегда был виден читаемый фрагмент (слежение за речью); пополняемый словарь произношений; открывает большие файлы в DOS и Windows-кодировке, файлы MS Word и HTML (размер читаемого текста практически неограничен); запоминается текст и позиция курсора при выходе из программы; голосовое озвучивание текста, наби­раемого в любых Windows-программах, а также чтение текста из буфера обмена

Программный комплекс, состоящий из трех разных по назначению модулей: TextAioud МРЗ - чтение текста; WeatherAloud - чтение сводок погоды; Stocks Aloud - чтение биржевых новостей;

TextAioud МРЗ - программа для преобразования любого текста в речь и звуковые файлы формата МРЗ. В рабочем состоянии свернута и в любой момент готова прочитать любой текст с e-mail, страниц Internet, текст документа в любом текстовом редакторе; WeatherAloud - синтезатор голоса, предназначенный для прослушивания прогноза пого­ды по 7500 позициям во всех странах. Можно построить персональный список прогнозов и модифицировать его по заказу пользователя по необходимости. Регулярные прогнозы погоды, текущая температура и другие сведения, удобное управление отображением данных на рабочем столе - все это делает эту программу исключительно удобной в ис­пользовании;

Govorilka 1.43
ALOUD

Stocks Aloud позволяет отслеживать информацию на фондовых биржах и торговых пло­щадках, которая должна читаться громко для быстрого реагирования на текущие измене­ния рынка. Биржевой курс, изменения, продажи и другая информация корректируются и отслеживается в определенных интервалах. Данные могут быть прочитаны, записаны или отправлены по e-mail

АV Voice Changer

Программа синтеза речи, использующая любой «движок» (engine) Microsoft SAPI. Имеет­ся функция чтения выделенного текста в любом приложении, для этого требуется нажать дважды с малым интервалом <Gtrl+C>. Имеется возможность просмотра свойств всех движков, установленных в системе, и выбора желаемого, настройки высоты тона и ско­рости речи. Программа может помещаться на панели задач и управляться контекстным меню иконки

' Инструмент для изменения голоса - мечта шутников, телефонных террористов и люби­телей караоке. Пользователь говорит в микрофон, а программа в реальном масштабе времени заставляет его голос звучать ниже (как у солидного мужчины) или выше (как у женщины или подростка). Высота голоса задается с помощью ползунка «Pitch Level», а выходной сигнал может быть дополнительно отредактирован с помощью 9-полосного эк­валайзера. Дополнительно можно выбрать несколько стандартных голосовых решений. AVVCS совместим со всеми программами для Internet-телефонии (NetMeeting, net2phone и т. п.), так что его можно применять не только для розыгрышей, но и для сохранения анонимности при общении в Сети голосом



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 231; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.98.71 (0.01 с.)