Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказанием 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказанием



При обработке речевого сигнала (РС) в системах распознавания используют упрощенную модель, основанную на предположении, что РС – результат свертки сигнала возбуждения последовательностью импульсов либо случайным шумом и импульсной характеристики линейного фильтра с медленно изменяющимися параметрами, представляющего собой голосовой тракт (рис. 3.1).

Рис. 3.1. Структурная схема упрощенной модели речеобразования

 

Такая задача разделения компонент, участвующих в операции свертки, называется гомоморфной обработкой сигнала или кепстральным анализом.

 

Гомоморфная система имеет следующее свойство суперпозиции:

Процесс разделения двух компонентов сигнала называют разверткой и описывают так:

s (n) = u (nh (n),

где u (n) — возбуждающий сигнал; h (n) — импульсная характеристика линейного фильтра; Å — развертка. Область частот этого процесса:

S (k) =U (k) K (k),

где K (k) – передаточная функция линейного фильтра. После логарифмирования обеих частей равенства возбуждение и голосовой тракт, наложенные друг на друга, могут быть разделены.

Кепстр представляет собой обратное Фурье-преобразование логарифма мощности сигнала:

, .

Кепстральные коэффициенты чувствительны к шумам и искажениям сигнала. В связи с чем в системах распознавания используют методы сглаживания спектральных характеристик сигнала. Одним из самых широко используемых методов сглаживания является метод КЛП.

В этом методе спектр моделируется как авторегрессионый процесс и передаточная функция голосового тракта представляется в виде:

 ,

где G – коэффициент усиления модели,

 – коэффициенты линейного предсказания,

p – порядок предсказателя.

Линейный предсказатель с коэффициентами  определяется как система, на выходе которой выполняется равенство

.

Задача анализа на основе КЛП заключается в непосредственном определении параметров  по РС с целью получения оценок его спектральных свойств. Вследствие изменения свойств РС во времени коэффициенты предсказания оцениваются на коротких фреймах.

Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать средний квадрат погрешности предсказания

,

что приводит к системе из p линейных уравнений с p неизвестными. Для подсчета коэффициентов предсказания используется автокорреляционный метод, который позволяет предсказать коэффициенты с помощью рекурсии Левинсона-Дарбина на основе автокорреляционной функции

, . (

Используемые в методе коэффициенты отражения  (2.24)

, ,

где  – j -й коэффициент и - погрешность предсказания для линейного предсказателя порядка i, однозначно определяют форму кусочно-постоянной акустической трубы, содержащей (p +1) цилиндрическую секцию фиксированной длины. Процессы в этой трубе – распространение плоской акустической волны, а площади A поперечных сечений соседних секций связаны коэффициентами отражения

, A 1=1, . (

С помощью коэффициентов КЛП, автокорреляционной функции  и автокорреляционной функции коэффициентов КЛП

, , =1 (

Сглаженный энергетический спектр, который используется в системах распознавания в качестве признаков РС, вычисляется по формуле

, . (

Другим представлением сигнала является кепстр импульсной характеристики системы линейного предсказания, который получается с помощью рекурсивных соотношений

, ĥ (0)= a 0, .

Альтернативой методу КЛП являются коэффициенты перцепционного линейного предсказания PLP. Техника использования PLP-параметризации основана на психоакустических концепциях при оценивании спектра: спектральный анализ в критических полосах частот; кривые равной громкости; нелинейная связь между интенсивностью и воспринимаемой громкостью звука. Извлечение PLP коэффициентов основано на стандартном мэл-частотном анализе спектра Фурье с помощью гребенки фильтров, применяемых при вычислении MFCC.

Спектр Фурье предварительно вычисляется по N – отсчетам сигнала s1,…, sN. Коэффициенты, полученные на выходе гребенки фильтров, взвешиваются кривой равной громкости, которая задана эмпирически в виде:

где ωj – частота j-го треугольного окна мел-шкалы,  и затем сжимаются путём извлечения кубического корня .

Далее путём расчета обратного преобразования Фурье на основе значений М"j вычисляют коэффициенты линейного предсказания КЛП по методу, описанному выше.


 

Лекция 4

Тема. Методы формирования наборов признаков распознавания речевых сигналов.

В лекции будет рассмотрено:

Широкая фонетическая классификация звуков речи.

Психоакустические принципы восприятия речи.

Признаки распознавания на основе АВП.

Спектральные признаки распознавания.

Признаки распознавания речевых сигналов на основе кодирования с линейным предсказанием.

Мел-частотные кепстральные коэффициенты (MFCC).

 

Процесс речеобразования и принципы восприятия речи

Образование и артикуляционная классификация звуков речи

РС, как любой акустический сигнал, может быть представлен в виде звуковых волн, источник которых – органы речеобразования человека.

В процессе речеобразования воздух из легких проходит через трахею и голосовые связки, которые смыкаются и размыкаются, модулируя воздушный поток, вследствие чего он приобретает вид последовательности импульсов сложной формы. Частота этих импульсов называется частотой основного тона. Звуки речи, в которых присутствует основной тон, называются вокализованными. Они квазипериодичны, длительность квазипериодов зависит от периода основного тона и составляет 0,0025-0,01 секунд, что составляет 100-400 Гц. Далее, через гортань воздушная струя попадает в ротовые и носовые резонансные области, где она либо проходит свободно, либо встречает препятствия и с шумом преодолевает их. Возможны такие случаи:

1. Тон, созданный голосовыми связками, в ротовой полости не осложняется шумами. Так произносятся гласные.

2. Тон осложняется шумом из-за того, что воздушная струя в ротовой полости встречает препятствия. Однако тон преобладает над шумом, поскольку приток для воздушной среды остается достаточно широким. Так произносятся сонорные согласные.

3. Тон осложняется шумом; шум преобладает над тоном: препятствия на пути воздушной струи заставляют ее с интенсивным шумом преодолевать их. Так произносятся звонкие шумные согласные.

4. Голосовые связки раздвинуты, тон не образуется; звук создают одни шумы, которыми сопровождается протекание воздушной струи через ротовую полость. Так произносятся глухие шумные согласные.

При соответствующей артикуляции языка, зубов и губ в голосовом тракте могут образовываться щели или полное смыкание прохода в нем. При дальнейшем прохождении воздушной струи в первом случае образуются щелевые и смычно-щелевые согласные звуки, во втором – смычные.

 

Таким образом, можно классифицировать звуки по их образованию на широкие фонетические классы (ШФК), как показано на рисунке.

 

 

Согласно этой классификации к согласным относятся: шумные глухие щелевые: [ф], [с], [x], [ш], [ф’], [с’], [x’], [ш’] и шумные глухие смычно-щелевые (аффрикаты):[ц], [ч]; шумные глухие смычные: [к], [т], [п], [к’], [т’], [п’]; шумные звонкие щелевые: [в], [з], [ж], [в’], [з’], [ж’]; шумные звонкие смычные: [б], [д], [г], [б’], [д’], [г’]; сонорные: [й], [л], [л’] – щелевые, [м], [н], [м’], [н’] – смычные, [р], [р’] – дрожащие (символ «’» обозначает мягкий вариант соответствующей согласной); гласные: [и], [э], [о], [у], [а], [ы].



Поделиться:


Последнее изменение этой страницы: 2022-09-03; просмотров: 115; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.151.106 (0.013 с.)