Приведение акустической формы сигнала к внутреннему алфавиту эталонных элементов.

⇐ ПредыдущаяСтр 3 из 17Следующая ⇒

Область значений акустических параметров речи разбивают на области сгущения, которые соответствуют элементам фонем, одинаковым для различных слов данного языка. Обычно таких областей для фиксированного языка насчитывают около 1000, и если словарь системы распознавания содержит большее количество слов, с целью экономии памяти целесообразно в качестве эталонов системы распознавания рассматривать не слова, а соответствующие фонемные элементы. Совокупность таких эталонных элементов образует фонетическую кодовую книгу.

Примерные значения параметров эталонных элементов для всех дикторов данного языка известны заранее, и задача начального обучения состоит в уточнении значений этих параметров. В этом случае в процессе распознавания речи по акустическим параметрам каждого окна сигнала определяют ближайший к этому окну эталонный элемент.

Распознавание последовательности фонем и преобразование ее к тексту слов.

После определения вероятной последовательности эталонных элементов во входном сигнале необходимо восстановить по ней неизвестную последовательность фонем, являющуюся транскрипцией одного из слов словаря.

В настоящий момент самыми сложными элементами при построении системы распознавания речи являются, как это не покажется странным, не распознающие алгоритмы - их подробные описания можно прочитать в монографиях и патентах, предшествующих появлению той или иной коммерческой системы распознавания, а построение акустической модели языка и начальное обучение эталонов слов словаря, чаще всего являющихся вероятностными автоматами Маркова. Как правило, для построения достоверной с вероятностной точки зрения модели того или иного языка необходимо проведение многолетней работы больших высокооплачиваемых коллективов по сбору и анализу акустических данных огромного числа носителей данного языка. Необходимо тщательно учесть все типы голосов и акцентов, имеющихся у носителей языка, и для каждой разновидности голоса и акцента получить достоверную оценку элементов кодовой книги данного языка. Не менее сложная задача - это построение эталонов слов. Для этого необходимо, чтобы каждое слово словаря (а их может быть около 100, 000) было произнесено каждым представителем данного типа диктора несколько десятков раз, иначе полученный вероятностный автомат будет статистически недостоверен. Наконец, для успешного применения синтаксических и семантических зависимостей между словами предложений необходимо построить некоторую грамматику, в той или иной мере отражающую строение предложений языка.

В связи с вышесказанным встает проблема переноса компьютерных систем распознавания речи, работающих сейчас главным образом на моделях языков германской группы (английском, немецком, французском, итальянском и т.п.) на другие группы языков, например, славянские или азиатские. По сути, перед разработчиками распознающих систем встает задача построения таких систем заново, практически с нуля, поскольку львиную долю времени и средств при разработке новой системы занимает процесс построения достоверной акустической модели, эталонов слов и грамматики языка. При построении систем, распознающих русский язык, например, придется не только строить новую акустическую модель и обучать словарь наиболее используемых русских слов, но и строить модели грамматики русского языка.

Лекция 2

Тема. Способы параметризации речевого сигнала

На лекции будет рассмотрено:

Дискретизация звука.

Амплитудно-временное представление (АВП) сигнала.

Спектральное представление сигнала.

Спектры Фурье и вейвлет-спектры.

⇐ Предыдущая 1 234 5 6 7 8 9 10 Следующая ⇒

Приготовление дезинфицирующих растворов различной концентрации

Занятость населения и рынок труда

Социальный статус семьи и её типология

Последнее изменение этой страницы: 2022-09-03; просмотров: 28; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.223.125.219 (0.004 с.)