Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Engine — «машины» синтеза и распознавания речиСодержание книги
Поиск на нашем сайте
«Машина» (в просторечии — «движок») — это пакет программных средств, выполняющих строго определенную задачу и предоставляющий интерфейс для использования его возможностей. В настоящее время существует целый ряд машин синтеза и распознавания речи, которые разработаны для использования совместно с MS Speech API. smARTspeak CS — настраиваемая независимая от языка «машина» распознавания речи для набора цифр, указания имен и речевой навигации, т. е. для приложений, используемых в сотовых телефонах и беспроводных устройствах. Созданный для использования в указанных устройствах, smARTspeak CS удовлетворяет потребностям как пользователей, так и разработчиков: иммунитет к фоновому шуму, малые требования к процессору и памяти, совместимость с MS SAPI 5.0, оптимизация для средств быстрой разработки приложений и для интеграции в сертифицированные устройства. Conversely предоставляет решение для речевого взаимодеист- вия с информацией, поставляемой через сеть, включая Internet в случае, когда другие интерфейсы слишком сложны или отсутствуют. Conversay разрабатывает речевую технологию, которая позволяет пользователям взаимодействовать через мобильные устройства привычным для себя способом. Lernout&Hauspie. Система компании L&H позволяет настраивать чтение аббревиатур и слов (ударения). Продукт, активно продвигаемый Microsoft. Digalo. Голосовой «движок» для русского языка Digalo — продукт французской фирмы Elan Informatique. Digalo различает буквы «Е» и «Ё» и виртуозно владеет русской ненормативной лексикой. В основном ошибки в ударениях приходятся на некоторые фамилии и имена, малоупотребительные слова и термины, замечено не всегда корректное озвучивание чисел и очень акцентированное произнесение слов «нет» и «не». Разработчики обещают в дальнейшем сделать возможной корректировку произнесения отдельных слов и слогов. Actor 5. Новый «движок» фирмы Loquendo «Actor 5» предназначен для использования в областях голосовых технологий и сервиса. Синтезирует речь на итальянском, испанском, английском, немецком, мексиканском, бразильском и американском английском диалекте (русского, к сожалению, нет). PC Voice Club. Движок синтеза речи Клуба голосовых технологий при Научном Парке МГУ. При его создании использована базовая технология синтеза речи, разработанная на филологическом факультете МГУ. Синтезатор характеризуется высоким качеством синтеза речи, что позволяет прослушивать тексты без их специальной подготовки. Позволяет синтезировать речь на английском и русском языках. Кроме того, имеет около десятка голосовых типажей (робот, эльф, мышь и пр.). Имеются возможности редактирования голосов. Помимо стандартных функций синтеза речи имеется дополнительная функция встраивания в текст управляющих символов, которые позволяют устанавливать паузы, изменять тембр, тон и длительность звучания. К примеру, можно, отредактировав текст, заставить синтезатор петь. Творческий коллектив радиофизиков и программистов разработал серию программных продуктов под общим названием «Говорящая мышь» Синтезатор русской речи Рассмотрим разработку «Говорящая мышь» упоминавшегося Клуба голосовых технологий. В основе речевого синтеза лежит идея совмещения методов конкатенации и синтеза по правилам. Метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а набор правил — возможность формирования естественного интонационно-просодического оформления высказываний. Существуют и другие методы синтеза, может быть, в перспективе более гибкие, но дающие пока менее естественное озвучивание текста. Это, прежде всего, параметрический (формантный) синтез речи по правилам или на основе компиляции, развиваемый для ряда языков зарубежными исследователями. Однако для реализации этого метода необходимы статистически представительные акусти- ко-фонетические базы данных и соответствующая компьютерная технология, которые пока доступны не всем. Язык формальной записи правил синтеза. Для создания удобного и быстрого режима изменения и верификации правил, включенных в разные блоки синтезирующей системы, был разработай формализованный и в то же время содержательно прозрачный и понятный язык записи правил, который легко компилируется в исходные тексты программ. В настоящее время блок автоматического транскриптора насчитывает около 1000 строк, записанных на формализованном языке представления правил. Интонационное обеспечение. Функция разработанных правил состоит в том, чтобы определить временные и тональные характеристики базовых элементов компиляции, которые при обработке синтагмы выбираются из библиотеки в нужной последовательности специальным процессором (блоком кодировки). Необходимые для этого предварительные операции над синтезируемым текстом: выделение синтагм, выбор типа интонации, определение степени выделенное™ (ударности-безударности) гласных и символьного звукового наполнения слоговых комплексов осуществляются блоком автоматического транскриптора. Во временной процессор входят также правила, задающие длительность паузы после окончания синтагмы (конечной/неконечной), которые необходимы для синтеза связного текста. Предусмотрена также модификация общего темпа произнесения синтагмы и текста в целом, причем в двух вариантах: в стандартном — при равномерном изменении всех единиц компиляции — и в специальном, дающем возможность изменения длительности только гласных или только согласных. Тональный процессор содержит правила формирования для одиннадцати интонационных моделей: нейтральная повествовательная интонация (точка), точковая интонация, типичная для фокусируемых ответов на вопросы; интонация предложений с контрастивным выделением отдельных слов; интонация специального и общего вопроса; интонация особых противопоставительных или сопоставительных вопросов; интонация обращений, некоторых типов восклицаний и команд; два вида незавершенности, перечислительная интонация; интонация вставочных конструкций. Алюфонная база данных. Необходимый речевой материал записан в режиме оцифровки с частотой дискретизации 22 кГц с разрядностью 16 бит. В качестве базовых элементов компиляции выбраны аллофоны, оптимальный набор которых и представляет собой акусти- ко-фонетическую базу синтеза. Инвентарь базовых единиц компиляции включает в себя 1200 элементов, который занимает около 7 Мбайт памяти. В большинстве случаев элементы компиляции представляют собой сегменты речевой волны фонемной размерности. Для получения необходимой исходной базы единиц компиляции был составлен специальный словарь, который содержит слова и словосочетания с аллофонами во всех учитываемых контекстах. В нем содержится 1130 словоупотреблений. Лингвистический анализ. На основе данных, полученных от остальных модулей синтеза речи и от аллофонной базы, программа формирования акустического сигнала позволяет осуществлять модификацию длительности согласных и гласных. Она дает возможность модифицировать длительность отдельных периодов на вокальных звуках, используя две или три точки тонирования на аллофон ном сегменте, осуществляет модификацию энергетических характеристик сегмента и соединяет.модифицированные аллофоны в единую слитную речь. На этапе синтеза акустического сигнала программа позволяет получать разнообразные акустические эффекты — такие, как реверберация, эхо, изменение частотной окраски. Готовый акустический сигнал преобразуется в формат данных, принятый для вывода звуковой информации. Используются два формата: WAV (Waveform Audio File Format), являющийся одним из основных, или VOX (Voice File Format), широко используемый в компьютерной телефонии. Вывод также может осуществляться непосредственно на звуковую карту. Инструментарий синтеза русской речи. Упоминавшийся выше инструментарий синтеза русской речи по тексту позволяет читать вслух смешанные русско-английские тексты. Инструментарий представляет собой набор динамических библиотек (DLL), в который входят модули русского и английского синтеза, словарь ударений русского языка, модуль правил произнесения английских слов. На вход инструментария подается слово или предложение, подлежащее произнесению, с выхода поступает звуковой файл в формате WAV или VOX, записываемый в память или на жесткий диск. В табл. 4.2 приводятся характеристики ряда систем синтеза речи.
Таблица 4.2. Характеристики некоторых образцов программных средств синтеза речи f Программный продукт
Бесплатная программа, которая читает текст разными голосами на разных языках, используя голосовые «движки» (text-to-speech engines), установленные на компьютере, запишет текст в МРЗ файл. Основные возможности программы Govorilka: чтение текста голосом; запись читаемого текста в звуковой файл (*.WAV, *.МРЗ) с повышенной скоростью; регулировка скорости чтения и высоты голоса; автоматическая прокрутка текста на экране, чтобы всегда был виден читаемый фрагмент (слежение за речью); пополняемый словарь произношений; открывает большие файлы в DOS и Windows-кодировке, файлы MS Word и HTML (размер читаемого текста практически неограничен); запоминается текст и позиция курсора при выходе из программы; голосовое озвучивание текста, набираемого в любых Windows-программах, а также чтение текста из буфера обмена Программный комплекс, состоящий из трех разных по назначению модулей: TextAioud МРЗ - чтение текста; WeatherAloud - чтение сводок погоды; Stocks Aloud - чтение биржевых новостей; TextAioud МРЗ - программа для преобразования любого текста в речь и звуковые файлы формата МРЗ. В рабочем состоянии свернута и в любой момент готова прочитать любой текст с e-mail, страниц Internet, текст документа в любом текстовом редакторе; WeatherAloud - синтезатор голоса, предназначенный для прослушивания прогноза погоды по 7500 позициям во всех странах. Можно построить персональный список прогнозов и модифицировать его по заказу пользователя по необходимости. Регулярные прогнозы погоды, текущая температура и другие сведения, удобное управление отображением данных на рабочем столе - все это делает эту программу исключительно удобной в использовании;
Stocks Aloud позволяет отслеживать информацию на фондовых биржах и торговых площадках, которая должна читаться громко для быстрого реагирования на текущие изменения рынка. Биржевой курс, изменения, продажи и другая информация корректируются и отслеживается в определенных интервалах. Данные могут быть прочитаны, записаны или отправлены по e-mail
Программа синтеза речи, использующая любой «движок» (engine) Microsoft SAPI. Имеется функция чтения выделенного текста в любом приложении, для этого требуется нажать дважды с малым интервалом <Gtrl+C>. Имеется возможность просмотра свойств всех движков, установленных в системе, и выбора желаемого, настройки высоты тона и скорости речи. Программа может помещаться на панели задач и управляться контекстным меню иконки ' Инструмент для изменения голоса - мечта шутников, телефонных террористов и любителей караоке. Пользователь говорит в микрофон, а программа в реальном масштабе времени заставляет его голос звучать ниже (как у солидного мужчины) или выше (как у женщины или подростка). Высота голоса задается с помощью ползунка «Pitch Level», а выходной сигнал может быть дополнительно отредактирован с помощью 9-полосного эквалайзера. Дополнительно можно выбрать несколько стандартных голосовых решений. AVVCS совместим со всеми программами для Internet-телефонии (NetMeeting, net2phone и т. п.), так что его можно применять не только для розыгрышей, но и для сохранения анонимности при общении в Сети голосом
|
||||||||||
Последнее изменение этой страницы: 2017-02-22; просмотров: 262; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.149.250.19 (0.007 с.) |