Сегментация на основе кластеризации 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Сегментация на основе кластеризации



Рассмотрим простейший случай сегментации. Пусть известно, что отрезок речи содержит две фонемы, начало речевого отрезка соответствует началу первой фонемы, окончание – концу второй фонемы. Т.е. задача сводится к определению момента времени, в который происходит смена фонем. В этом случае можно применить технику кластерного анализа, используемую для построения пофонемной кодовой книги. В ее основе лежит процедура усреднения. Поскольку заранее известно, что перед нами два участка, соответствующие двум различным классам, то критерием разделения двух звуков может быть изменение центроида, к которому тяготеют вектора признаков.

Приведем пример получения сегментации слога. Наговариваем слог, состоящий из двух фонем, например, слог “си” и строим кодовую книгу из двух кодовых векторов.

С микрофона вводится речевой сигнал. Машина разбивает сигнал на отрезки по 368 отсчетов и для каждого из них строит вектор признаков. При сигнале в 10 тысяч отсчетов таких векторов получается 27. Далее происходит разбиение векторов на классы и построение соответствующих кодовых векторов.

Пусть речевой сигнал задается множеством векторов

.  

Выберем число  и построим вектора

 ,           .  

Определим теперь функцию

.  

Если наименьшее значение этой функции достигается при  то правый конец отрезка с номером  принимается за границу аллофона. Далее отрезки по одну сторону найденной границы отбрасываются, к оставшейся части сигнала применяется вышеописанная процедура и т.д. Этот метод позволяет весьма надежно разделять две соседние гласные фонемы или гласную и соседствующую с ней сонорную согласную.

Амплитудная сегментация

Следующий метод сегментации является по сути своей амплитудным. Сигнал в 10 тысяч отсчетов разбивается на отрезки по 300 отсчетов в каждом. Для каждого из них вычисляется величина

 

.  

Здесь  - номер отрезка ,  - значение сигнала на -ом отсчете -го отрезка. Величины , как известно, принимают целочисленные значения от 1 до 256, так что под знаком суммы стоят отклонения от средней линии. Затем вычисляется среднее величин :

.  

Наконец, весь сигнал разбивается на участки, состоящие из отрезков, для которых pi < p и участки, состоящие из отрезков, для которых pip.

Границы между этими участками принимаются за искомые границы сегментации.

Этот метод с высокой надежностью позволяет выделить участки отвечающие звукам “с”, “ш”, “щ”, “ц”, “ч”, “ф”, “х”, “б”, “г”, “д”, “п”, “к”, “т”. Он может выделять также другие согласные, особенно при отсутствии в слове вышеперечисленных звуков. В целом этот простой, надежный и чрезвычайно быстро работающий метод может, как показывает опыт, с успехом служить для целей предварительной сегментации речевого сигнала.



Поделиться:


Последнее изменение этой страницы: 2022-09-03; просмотров: 54; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.117.196.184 (0.003 с.)