Приведение акустической формы сигнала к внутреннему алфавиту эталонных элементов. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Приведение акустической формы сигнала к внутреннему алфавиту эталонных элементов.



Область значений акустических параметров речи разбивают на обла­сти сгущения, которые соответствуют элементам фонем, одинаковым для различных слов данного языка. Обычно таких областей для фикси­рованного языка насчитывают около 1000, и если словарь системы распознавания содержит большее количество слов, с целью экономии памяти целесообразно в качестве эталонов системы распознавания рас­сматривать не слова, а соответствующие фонемные элементы. Сово­купность таких эталонных элементов образует фонетическую кодовую книгу.

Примерные значения параметров эталонных элементов для всех дик­торов данного языка известны заранее, и задача начального обучения состоит в уточнении значений этих параметров. В этом случае в про­цессе распознавания речи по акустическим параметрам каждого окна сигнала определяют ближайший к этому окну эталонный элемент.

Распознавание последовательности фонем и преобразование ее к тексту слов.

После определения вероятной последовательности эталонных элемен­тов во входном сигнале необходимо восстановить по ней неизвестную последовательность фонем, являющуюся транскрипцией одного из слов словаря.

В настоящий момент самыми сложными элементами при построении системы распознавания речи являются, как это не покажется странным, не распознающие алгоритмы - их подробные описания можно прочи­тать в монографиях и патентах, предшествующих появлению той или иной коммерческой системы распознавания, а построение акустической модели языка и начальное обучение эталонов слов словаря, чаще всего являющихся вероятностными автоматами Маркова. Как правило, для построения достоверной с вероятностной точки зрения модели того или иного языка необходимо проведение многолетней работы больших вы­сокооплачиваемых коллективов по сбору и анализу акустических дан­ных огромного числа носителей данного языка. Необходимо тщательно учесть все типы голосов и акцентов, имеющихся у носителей языка, и для каждой разновидности голоса и акцента получить достоверную оценку элементов кодовой книги данного языка. Не менее сложная за­дача - это построение эталонов слов. Для этого необходимо, чтобы ка­ждое слово словаря (а их может быть около 100, 000) было произнесено каждым представителем данного типа диктора несколько десятков раз, иначе полученный вероятностный автомат будет статистически недо­стоверен. Наконец, для успешного применения синтаксических и семан­тических зависимостей между словами предложений необходимо постро­ить некоторую грамматику, в той или иной мере отражающую строение предложений языка.

В связи с вышесказанным встает проблема переноса компьютерных систем распознавания речи, работающих сейчас главным образом на мо­делях языков германской группы (английском, немецком, французском, итальянском и т.п.) на другие группы языков, например, славянские или азиатские. По сути, перед разработчиками распознающих систем встает задача построения таких систем заново, практически с нуля, по­скольку львиную долю времени и средств при разработке новой системы занимает процесс построения достоверной акустической модели, этало­нов слов и грамматики языка. При построении систем, распознающих русский язык, например, придется не только строить новую акустиче­скую модель и обучать словарь наиболее используемых русских слов, но и строить модели грамматики русского языка.


Лекция 2

Тема. Способы параметризации речевого сигнала

На лекции будет рассмотрено:

Дискретизация звука.

Амплитудно-временное представление (АВП) сигнала.

Спектральное представление сигнала.

Спектры Фурье и вейвлет-спектры.

 



Поделиться:


Последнее изменение этой страницы: 2022-09-03; просмотров: 28; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.223.125.219 (0.004 с.)