Сегментация речевого сигнала 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Сегментация речевого сигнала



Цель шага сегментации подготовить для этапа классификации гипотезы границ сегментов на основе признаков, характерных для целого сегмента или больших единиц речи, таких как слоги и слова.

Система пробует найти стационарные области (где признаки изменяются несущественно) и затем маркировать сегментированную область согласно тому, насколько признаки в пределах той области соответствуют индивидуальным признакам фонетических единиц. Эта стадия – основа акустическо-фонетического распознавателя. Ее надежность определяет качество работы всей системы, поэтому для ограничения диапазона вариантов сегментации и возможной маркировки используются различные стратегии. Стратегия маркировки может использовать лексические ограничения на слова, чтобы рассмотреть только слова с n фонетическими единицами всякий раз, когда сегментация дает n-1 границ сегментов. Эти ограничения уменьшают область поиска и значительно увеличивают эффективность (точность сегментации и маркировки) системы.

В мире системы сегментации находятся на уровне лабораторных разработок, исследования в этой области являются достаточно перспективными, а использование даже частных результатов сегментации в сочетании с другими техниками дает значительные преимущества в распознавании. Известно несколько общих подходов к сегментации речевого сигнала. Часть из них основана на фильтрации, часть оперирует такими просто вычисляемыми параметрами, как число пересечений определенного уровня и относительная энергия в заданных областях частот, часть ориентирована на использование формантных признаков. Часть исследователей использует спектрально-временное представление речи, часть – кепстрально-временное.

Ряд работ посвящен описанию методов выполнения предварительной сегментации речевых сигналов на основании признаков, относящихся к широкому классу способов артикуляции, используемых при, пре­рывании голоса, произнесении звонких взрывных и сонорных звуков. Такие алгоритмы не позволяют получить окон­чательную сегментацию, однако, если возможна последующая кор­рекция ошибок, то они могут быть полезны в качестве первого шага в процессе фонетической идентификации. Трудность состоит в том, что точная сегментация на основании простых акустических критериев невозможна. Для некоторых случаев сегментации необходимо детальное знание связей между фоноло­гией, артикуляцией и акустикой. В немногих случаях решения могут быть произвольными. Границы сег­ментов в этих случаях могут быть переопределены для удобства исследователей. Другие задачи, например, определение числа сег­ментов в словах коала, миллион или нахождение второй гласной в вы­ражении прими от, являются более сложными. Движение формант, со­ответствующее сочетанию прими от, акустически аналогично многим формантным переходам между гласными и согласными и анало­гично промежуточному звуку ненапряженных гласных.

Расщепление фрикативных последовательностей провести трудно, по­скольку они зависят от сложных проверок изменений спектра, ко­торые должны быть организованы так, чтобы исключить специаль­ные изменения, например, такие, как изменение спектров в взрывных сочетаниях. Два взрывных звука в сочетаниях не всегда можно отличить от одного взрывного звука, так как первый из них редко можно выделить, а их интер­вал смыкания ненамного больше, чем для одного предударного взрывного звука. Наконец, встречаются случаи искажения поло­жения третьей форманты, связанные с объединением пиков фор­мант для некоторых переходов между согласными и гласными. Например, в слове уа появляется дополнительный сегмент, если полагаться на расположение максимума и минимума формант у последовательности сонорных сегментов (видимо, следует счи­тать только максимумы и минимумы в F1 и F3).

Методы сегментации и общие положения об их реализации

Основное преимущество использования архитектуры распознавания, ориентированной на сегментацию, – дополнительная гибкость и возможность классификации сегмента в целом (в сравнении с фрейм-ориентированной концепцией).

Знание расположения границ сегмента позволяет использовать мощные внутри- и межсегментные признаки. Высокая степень корреляции между параметрами фреймов речи фонетического сегмента, как по частоте, так и по длительности – хорошо известный факт. Одна из тем исследований в области классификации сегментов – моделирование этих корреляций с использованием представления признаков, которое фиксирует динамику (траектории) параметров на протяжении всего фонетического сегмента.

Системы распознавания речи можно разделить на два класса: явно и неявно сегментирующие речь (фрейм-ориентированная архитектура). Системы, основанные на фреймах, неявно делят речь на фонетические сегменты как результат распознавания каждого фрейма. В основном, эти системы работают с малыми словарями, где основная единица распознавания – целое слово.

Для распознавания непрерывной речи и слов большого словаря применяют пофонемное распознавание, использующее явную сегментацию РС, т. е. разбиение сигнала на фонетически или артикуляторно значимые элементы. В связи с тем, что акустические характеристики для каждого из представителей фонетического класса сильно различаются, то для них невозможно отыскать инвариантные, контекстно-независимые признаки. Поэтому исследуют динамические свойства РС. Использование динамики состоит в оценке различия между векторами признаков соседних фреймов сигнала. В пределах одного сегмента расстояние между векторами не должно превышать некоторый порог. Недостатком этого подхода к сегментации является необходимость настройки порога, который зависит от голосовых данных диктора и интенсивности сигнала, а также невозможность четкого определения границ между фонемами, имеющими небольшой уровень амплитуды.

Приведем несколько алгоритмов сегментации



Поделиться:


Последнее изменение этой страницы: 2022-09-03; просмотров: 53; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.21.34.0 (0.004 с.)