Классификация систем распознавания речи 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Классификация систем распознавания речи

Поиск

Классификацию систем распознавания речи будем производить со­гласно новому стандарту в области программирования таких систем, принятому сейчас практически всеми известными разработчиками си­стем распознавания речи - Microsoft Speech API.

Согласно этому стандарту, системы распознавания речи различают по следующим признакам:

Интервал между отдельными словами. Если система распо­знает непрерывную речь, пользователь может произносить речевые фразы естественно, не делая паузы между словами. Непрерывное рас­познавание более предпочтительно, однако оно требует большей вычи­слительной мощности компьютеров, что приводит пока к малому числу таких систем. В системах, работающих с дискретной речью, пользо­ватель при диктовке должен делать паузу между отдельными словами, обычно составляющую не менее 1/4 частиь секунды. Третьей разновид­ностью являются системы, выделяющие одно слово из интервала речи, даже если он состоит из нескольких непрерывно произнесенных слов (word-spotting).

Зависимость от диктора. Системы, обладающие относительной независимостью от диктора, позволяют пользователю работать с си­стемой без предварительной настройки, однако улучшают надежность распознавания после обучения. Независимость от диктора таких систем обычно достигается за счет хранения звуковых эталонов для всех наи­более типичных голосов носителей данного языка. Это, безусловно, тре­бует в несколько раз большей производительности и объема памяти. На­стройка на голос диктора дикторозависимых систем занимает обычно от 30 минут до нескольких часов. Это составляет главное неудобство для пользователя. Обычно дикторозависимые системы позволяют ра­ботать с относительной степенью надежности без предварительной на­стройки на голос конкретного пользователя. Третьей разновидностью систем по этому признаку являются системы, автоматически настра­ивающиеся на голос диктора по мере их использования. Системы по­следнего типа обладают двумя особенностями - им нужно знать, сделал ли пользователь ошибку, произнеся конкретное слово (иначе обучение будет неверным); после настройки на одного диктора такие системы перестают надежно работать с другими голосами.

Степень детализации при задании эталонов. Различают алго­ритмы, в которых в качестве эталонов используются целые слова, и ал­горитмы, использующие эталоны элементов слов. Сравнение целых слов дает большую точность, скорость, однако требует значительно боль­шего объема памяти (пропорционально количеству слов в словаре) и обучения каждого слова. Алгоритмы сравнения элементов слов (фонем, слогов и т.п.) приходится применять в случае больших словарей, т.к. объем требуемой памяти пропорционален количеству этих эталонных элементов слов (например, звуков) и не зависит от объема словаря.

Размер словаря. Системы распознавания речи могут использо­вать большие или маленькие словари. Размер словаря системы распозна­вания почти не связан с реальным количеством слов, которые данная си­стема может распознать. Он определяется количеством слов, требуемых для распознавания в данном конкретном состоянии системы. Системы, работающие с маленькими словарями (около 50 слов) позволяет пользо­вателю давать простые команды компьютеру. Для диктовки текстов необходимы большие словари (несколько десятков тысяч слов). Если си­стемы диктовки учитывают контекст для определения активного под-словаря в конкретном состоянии, то фактически они работают со сло­варями среднего размера (около 1000 слов).

Несмотря на то, что в принципе возможна любая комбинация этих характеристик, в настоящее время наиболее популярными являются си­стемы голосового управления компьютером и системы дискретной дик­товки текстов.



Поделиться:


Последнее изменение этой страницы: 2022-09-03; просмотров: 52; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.138.34.93 (0.007 с.)