Программное обеспечение для голосового управления компьютером 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Программное обеспечение для голосового управления компьютером



 

Такое применение речевого интерфейса гораздо проще, поскольку программное обеспечение должно распознавать только слова из ограниченного набора (словаря). Этот тип программного обеспечения позволяет с помощью команд, подаваемых голосом, вызывать нужные приложения, открывать файлы и необходимые диалоговые окна.

Для среднего пользователя приложения этого типа имеют сомнительное значение. В течение некоторого времени компания Compaq поставляла компьютеры с микрофоном и приложением этого типа, причем стоимость самого приложения была очень низка. Наблюдать за множеством пользователей в офисе, говорящих с компьютерами, было, конечно, интересно, но эксперимент показал, что производительность фактически не увеличилась, зато много времени было потрачено впустую, поскольку пользователи были вынуждены экспериментировать с программным обеспечением, а кроме того, в офисе стало более шумно.

Однако для пользователей, которым в силу ограниченных возможностей сложно работать с клавиатурой, программное обеспечение этого типа может представлять определенный интерес. Поэтому технология распознавания речи непрерывно развивается.

 

Программное обеспечение, позволяющее диктовать тексты

 

Другой тип программного обеспечения распознавания речи гораздо сложнее. Преобразование речи в текст — необычайно трудная задача, прежде всего из-за различий в речевых моделях разных людей. Поэтому почти все программное обеспечение этого типа (а также некоторые приложения для подачи команд голосом) предусматривает этап “обучения” технологии распознавания голоса конкретного пользователя. В процессе такого обучения пользователь должен читать текст (или слова), выводимый программой на экран компьютера. И поскольку предполагается, что программе заранее известно то, о чем вы говорите, это помогает ей адаптироваться к вашей манере речи.

В результате проведенных экспериментов оказалось, что качество распознавания зависит от индивидуальных особенностей речи. Кроме того, как известно, некоторые способны надиктовать целые страницы текста и при этом не прикоснуться к клавиатуре, в то время как другие утверждают, что исправление множества ошибок значительно больше утомляет их, чем набор текста вручную.

Существует множество параметров, влияющих на качество распознавания речи, основные из них представлены далее.

· Программы распознавания дискретной и слитной речи. Слитная (или связная) речь, позволяющая вести более естественный “диалог” с компьютером, в настоящее время является стандартной, но, с другой стороны, существуют большие проблемы в достижении приемлемой точности распознавания.

· Обучаемые и необучаемые программы. Обучение программы для корректного распознавания речи дает хорошие результаты даже в тех программах, которые позволяют пропустить этот этап.

· Большие активные и общие словари. Программы с большим активным словарем значительно быстрее реагируют на устную речь, а программы, имеющие больший общий словарь, позволяют сохранить более уникальный запас слов.

· Производительность аппаратного обеспечения компьютера. Увеличение скорости процессоров и объема оперативной памяти приводит к ощутимому повышению скорости и точности программ распознавания речи, а также позволяет разработчикам вводить дополнительные возможности в новые версии этих приложений.

· Высококачественная звуковая плата и микрофон. Используйте высококачественное аппаратное обеспечение, рекомендуемое производителем для достижения наилучших результатов; наушники со встроенным микрофоном предназначены не для записи музыки или звуковых эффектов, а именно для распознавания речи.

 

Звуковые файлы

 

Для хранения аудиозаписей на персональном компьютере используются файлы двух основных типов. В файлах первого типа, называемых обычными звуковыми файлами, используются форматы.wav,.voc,.au и.aiff. Звуковой файл содержит данные о форме волны, т.е. такой файл представляет собой запись аналоговых аудиосигналов в цифровой форме, пригодной для хранения на компьютере. Подобно графическим изображениям с различными разрешающими способностями, можно хранить и звуковые файлы, которые представляют собой записи различного качества. По умолчанию определены три уровня качества записи звуков, используемые в Windows 9x и Windows Me (табл. 16.2).

В операционной системе Windows Me используется еще один уровень качества записи звука — 48 000 Гц, 16-разрядный стерео и 188 Кбайт/с. Этот уровень предназначен для поддержки воспроизведения звука из таких источников, как DVD и Dolby AC-3.

Для достижения компромисса между высоким качеством звука и малым размером файла можно преобразовать файлы.wav в.mp3. Более подробно эти файлы описываются далее.

 

 

Сжатие аудиоданных

 

Существует две основные области, в которых используется сжатие звука:

· использование звуковых фрагментов на Web-узлах;

· уменьшение объема высококачественных музыкальных файлов.

 

Специальные программы редактирования звуковых файлов, например RealProducer компании Real или Microsoft Windows Media Encoder 7, позволяют уменьшать объем звуковых фрагментов при минимальной потере качества, что необходимо для их использования в глобальной сети.

Самый популярный формат звуковых файлов —.mp3. Качество этих файлов приближается к качеству компакт-диска, по размеру они намного меньше обычных файлов.wav. Сравните сами: пятиминутный звуковой файл формата.wav с качеством компакт-диска имеет размер около 50 Мбайт, в то время как такой же звуковой файл формата.mp3 — около 4 Мбайт.

Единственным недостатком файлов.mp3 является отсутствие защиты от несанкционированного использования, т.е. любой желающий может свободно загрузить такой файл из Internet (благо Web-узлов, предлагающих эти “пиратские” записи, существует великое множество). Описываемый формат файлов, несмотря на свои недостатки, получил довольно широкое распространение, и его можно смело назвать следующим шагом после компакт-дисков в мире звукозаписи. Многие фирмы уже приступили к выпуску проигрывателей файлов.mp3.

 

Файлы MIDI

 

Второй тип аудиофайла — файл MIDI, который настолько же отличается от.wav, как векторный рисунок от растра. Файлы MIDI имеют расширение.mid или.rmi и являются полностью цифровыми, содержащими не запись звука, а команды, используемые аудиооборудованием для его создания. Подобно тому как по командам видеоадаптеры создают изображения трехмерных объектов, звуковые платы MIDI используют файлы MIDI, чтобы синтезировать музыку.

MIDI — мощный язык программирования, который получил распространение в 80-е годы и был разработан специально для электронных музыкальных инструментов. Стандарт MIDI стал новым словом в области электронной музыки. С помощью MIDI можно создавать, записывать, редактировать и воспроизводить музыкальные файлы на персональном компьютере или на MIDI-совместимом электронном музыкальном инструменте, подключенном к компьютеру.

Файлы MIDI, в отличие от других типов звуковых файлов, требуют относительно небольшого объема дискового пространства. Для записи часа стереомузыки, хранимой в формате MIDI, требуется менее 500 Кбайт. Во многих играх используется запись звуков в формате MIDI, а не записи дискретизированного аналогового сигнала.

Файл MIDI — фактически цифровое представление музыкальной партитуры. Оно составлено из нескольких выделенных каналов, каждый из которых представляет различный музыкальный документ или тип звука. В каждом канале определяются частоты и продолжительность звучания нот, которые будут проиграны инструментом точно так же, как нотная запись.

Таким образом, файл MIDI для струнного квартета содержит четыре канала, которые представляют две скрипки, альт и виолончель.

Все три спецификации MPC, а также PC9x, предусматривают поддержку MIDI во всех звуковых платах. Стандарт General MIDI, поддерживаемый большинством звуковых плат, предусматривает до 16 каналов в единственном файле MIDI, но это не обязательно ограничивает вас 16 инструментами. Один канал может представлять звук группы инструментов; таким образом, можно синтезировать полный оркестр.

Поскольку файл MIDI состоит из цифровых команд, его редактировать намного легче, чем звуковой файл типа.wav. Соответствующее программное обеспечение позволяет выбирать любой канал MIDI, записывать ноты, а также добавлять эффекты.

Некоторые пакеты программ могут даже производить запись музыки в файле MIDI, используя стандартную музыкальную систему обозначений. Композитор может записать музыку непосредственно на компьютере, отредактировать ее при необходимости, а затем распечатать ноты для исполнителей. Это очень удобно для профессиональных музыкантов, которые вынуждены тратить много времени на переписывание нот.

 

Проигрывание файлов MIDI

 

Когда вы запускаете файл MIDI на персональном компьютере, вы не воспроизводите запись. Компьютер фактически создает музыку по записанным командам. Для этого в нем должен быть установлен синтезатор, а каждая звуковая плата MIDI его имеет. Поскольку система читает файл MIDI, синтезатор генерирует соответствующий звук для каждого канала, используя команды в файле, чтобы придать нужный тон и длительность звучанию нот. Для моделирования звука определенного музыкального инструмента синтезатор использует предопределенный образец, т.е. набор команд, с помощью которых синтезатор создает звук, подобный воспроизводимому конкретным инструментом. Вы можете задать темп проигрывания музыки и установить громкость в программном обеспечении MIDI-проигрывателя.

Синтезатор на звуковой плате подобен электронному клавишному синтезатору, но его возможности более ограниченны. В соответствии со спецификацией MPC звуковая плата должна иметь частотный синтезатор, который может одновременно проиграть по крайней мере шесть мелодичных нот и две ударные (перкуссивные).

 

Частотный синтез

 

Большинство звуковых плат генерируют звуки, используя частотный синтезатор; эта технология была разработана еще в 1976 году. Используя одну синусоидальную волну для изменения другой, частотный синтезатор создает искусственный звук, который напоминает звучание определенного инструмента. В стандарте MIDI определен набор предварительно запрограммированных звуков, которые можно проиграть с помощью большинства инструментов.

В настоящее время в некоторых частотных синтезаторах используется четыре волны и воспроизводимые звуки имеют вполне нормальное, хотя и несколько искусственное звучание. Например, синтезируемый звук трубы, несомненно, подобен ее звучанию, но его никто и никогда не признает звуком настоящей трубы.

 

Таблично-волновой синтез

 

В настоящее время все меньше устройств используют частотный синтез, потому что даже в лучшем случае воспроизводимый звук не полностью совпадает с реальным звучанием музыкального инструмента. Недорогая технология более естественного звучания была разработана корпорацией Ensoniq в 1984 году.

Технология компании Ensoniq предусматривает запись звучания любого инструмента (включая фортепьяно, скрипки, гитары, флейты, трубы и барабаны) и сохранение оцифрованного звука в специальной таблице. Эта таблица записывается или в микросхемы ROM или на диск, а звуковая плата при необходимости может из таблицы извлекать оцифрованный звук нужного инструмента. Вскоре после создания этой технологии и другие изготовители вместо частотных синтезаторов стали применять таблично-волновые.

Таблично-волновой синтезатор может выбрать инструмент, заставить звучать единственную нужную ноту и при необходимости изменить ее частоту (т.е. воспроизвести заданную ноту из нужной октавы). В некоторых адаптерах для улучшения воспроизведения звука используется несколько образцов звучания одного и того же инструмента. Самая высокая нота на фортепьяно отличается от самой низкой не только высотой тона, поэтому для более естественного звучания нужно выбрать образец, наиболее близкий (по высоте тона) к синтезируемой ноте.

Таким образом, от размера таблицы в значительной степени зависит качество и разнообразие звуков, которые может воспроизводить синтезатор. Лучшие качественные таблично-волновые адаптеры обычно имеют на плате память объемом в несколько мегабайт для хранения образцов. В некоторых из них предусмотрена возможность подключения дополнительных плат для установки дополнительной памяти и записи образцов звуков в таблицу в соответствии с вашим вкусом.

 



Поделиться:


Последнее изменение этой страницы: 2020-12-09; просмотров: 91; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.190.217.134 (0.013 с.)