Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву
Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказаниемСодержание книги
Поиск на нашем сайте При обработке речевого сигнала (РС) в системах распознавания используют упрощенную модель, основанную на предположении, что РС – результат свертки сигнала возбуждения последовательностью импульсов либо случайным шумом и импульсной характеристики линейного фильтра с медленно изменяющимися параметрами, представляющего собой голосовой тракт (рис. 3.1).
Рис. 3.1. Структурная схема упрощенной модели речеобразования
Такая задача разделения компонент, участвующих в операции свертки, называется гомоморфной обработкой сигнала или кепстральным анализом.
Гомоморфная система имеет следующее свойство суперпозиции:
Процесс разделения двух компонентов сигнала называют разверткой и описывают так: s (n) = u (n)Å h (n), где u (n) — возбуждающий сигнал; h (n) — импульсная характеристика линейного фильтра; Å — развертка. Область частот этого процесса: S (k) =U (k) K (k), где K (k) – передаточная функция линейного фильтра. После логарифмирования обеих частей равенства возбуждение и голосовой тракт, наложенные друг на друга, могут быть разделены. Кепстр представляет собой обратное Фурье-преобразование логарифма мощности сигнала:
Кепстральные коэффициенты чувствительны к шумам и искажениям сигнала. В связи с чем в системах распознавания используют методы сглаживания спектральных характеристик сигнала. Одним из самых широко используемых методов сглаживания является метод КЛП. В этом методе спектр моделируется как авторегрессионый процесс и передаточная функция голосового тракта представляется в виде:
где G – коэффициент усиления модели,
p – порядок предсказателя. Линейный предсказатель с коэффициентами
Задача анализа на основе КЛП заключается в непосредственном определении параметров Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать средний квадрат погрешности предсказания
что приводит к системе из p линейных уравнений с p неизвестными. Для подсчета коэффициентов предсказания используется автокорреляционный метод, который позволяет предсказать коэффициенты с помощью рекурсии Левинсона-Дарбина на основе автокорреляционной функции
Используемые в методе коэффициенты отражения
где
С помощью коэффициентов КЛП, автокорреляционной функции
Сглаженный энергетический спектр, который используется в системах распознавания в качестве признаков РС, вычисляется по формуле
Другим представлением сигнала является кепстр импульсной характеристики системы линейного предсказания, который получается с помощью рекурсивных соотношений
Альтернативой методу КЛП являются коэффициенты перцепционного линейного предсказания PLP. Техника использования PLP-параметризации основана на психоакустических концепциях при оценивании спектра: спектральный анализ в критических полосах частот; кривые равной громкости; нелинейная связь между интенсивностью и воспринимаемой громкостью звука. Извлечение PLP коэффициентов основано на стандартном мэл-частотном анализе спектра Фурье с помощью гребенки фильтров, применяемых при вычислении MFCC. Спектр Фурье предварительно вычисляется по N – отсчетам сигнала s1,…, sN. Коэффициенты, полученные на выходе гребенки фильтров, взвешиваются кривой равной громкости, которая задана эмпирически в виде:
где ωj – частота j-го треугольного окна мел-шкалы, Далее путём расчета обратного преобразования Фурье на основе значений М"j вычисляют коэффициенты линейного предсказания КЛП по методу, описанному выше.
Лекция 4 Тема. Методы формирования наборов признаков распознавания речевых сигналов. В лекции будет рассмотрено: Широкая фонетическая классификация звуков речи. Психоакустические принципы восприятия речи. Признаки распознавания на основе АВП. Спектральные признаки распознавания. Признаки распознавания речевых сигналов на основе кодирования с линейным предсказанием. Мел-частотные кепстральные коэффициенты (MFCC).
Процесс речеобразования и принципы восприятия речи Образование и артикуляционная классификация звуков речи РС, как любой акустический сигнал, может быть представлен в виде звуковых волн, источник которых – органы речеобразования человека. В процессе речеобразования воздух из легких проходит через трахею и голосовые связки, которые смыкаются и размыкаются, модулируя воздушный поток, вследствие чего он приобретает вид последовательности импульсов сложной формы. Частота этих импульсов называется частотой основного тона. Звуки речи, в которых присутствует основной тон, называются вокализованными. Они квазипериодичны, длительность квазипериодов зависит от периода основного тона и составляет 0,0025-0,01 секунд, что составляет 100-400 Гц. Далее, через гортань воздушная струя попадает в ротовые и носовые резонансные области, где она либо проходит свободно, либо встречает препятствия и с шумом преодолевает их. Возможны такие случаи: 1. Тон, созданный голосовыми связками, в ротовой полости не осложняется шумами. Так произносятся гласные. 2. Тон осложняется шумом из-за того, что воздушная струя в ротовой полости встречает препятствия. Однако тон преобладает над шумом, поскольку приток для воздушной среды остается достаточно широким. Так произносятся сонорные согласные. 3. Тон осложняется шумом; шум преобладает над тоном: препятствия на пути воздушной струи заставляют ее с интенсивным шумом преодолевать их. Так произносятся звонкие шумные согласные. 4. Голосовые связки раздвинуты, тон не образуется; звук создают одни шумы, которыми сопровождается протекание воздушной струи через ротовую полость. Так произносятся глухие шумные согласные. При соответствующей артикуляции языка, зубов и губ в голосовом тракте могут образовываться щели или полное смыкание прохода в нем. При дальнейшем прохождении воздушной струи в первом случае образуются щелевые и смычно-щелевые согласные звуки, во втором – смычные.
Таким образом, можно классифицировать звуки по их образованию на широкие фонетические классы (ШФК), как показано на рисунке.
Согласно этой классификации к согласным относятся: шумные глухие щелевые: [ф], [с], [x], [ш], [ф’], [с’], [x’], [ш’] и шумные глухие смычно-щелевые (аффрикаты):[ц], [ч]; шумные глухие смычные: [к], [т], [п], [к’], [т’], [п’]; шумные звонкие щелевые: [в], [з], [ж], [в’], [з’], [ж’]; шумные звонкие смычные: [б], [д], [г], [б’], [д’], [г’]; сонорные: [й], [л], [л’] – щелевые, [м], [н], [м’], [н’] – смычные, [р], [р’] – дрожащие (символ «’» обозначает мягкий вариант соответствующей согласной); гласные: [и], [э], [о], [у], [а], [ы].
|
||||||||||||||||
|
Последнее изменение этой страницы: 2022-09-03; просмотров: 216; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.216.15 (0.011 с.) |