Введение: задача распознавания речи 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Введение: задача распознавания речи



Распознавание речи

Курс лекций по дисциплине «Распознавание речи» для студентов магистратуры, обучающихся по направлению подготовки 09.04.01 – «Информатика и вычислительная техника»

 

Донецк – 2016

Лекция 1

Тема. Классификация и общая структура систем распознавания речи, подходы к их разработке.

В лекции будет рассмотрено:

Классификация систем распознавания речи.

Речевые базы данных.

Архитектура систем распознавания речи.

Проблемы, возникающие при разработке систем распознавания речи.

Наиболее распространенный подход к распознаванию речи

Упрощенно процесс распознавания речи может быть описан в виде последовательности следующих основных шагов.

Шумоочистка и отделение полезного сигнала.

Методы, применяемые для решения данной задачи, можно условно разделить на четыре группы.

Методы первой группы обычно сводятся либо к выделению некото­рых инвариантных относительно шума признаков, либо к обучению в условиях шумов или модификации эталонов распознавания с использо­ванием оценки уровня шумов. Узким местом подобных методов явля­ется поразительный эффект ненадежной работы систем распознавания, настроенных на распознавание в шуме, в условиях отсутствия шумов.

Преобразование входного речевого сигнала в набор акустических параметров.

Как отмечалось выше, обычно звуковой сигнал разбивают на окна одинаковой длины и преобразуют в частотную область с помощью дис­кретного преобразования Фурье или более сложного преобразования, после чего частотные параметры факторизуют с целью сокращения размерности. По физическому смыслу частотные параметры наиболее близки к тем, которые использует человек в процессе восприятия речи.

Лекция 2

Тема. Способы параметризации речевого сигнала

На лекции будет рассмотрено:

Дискретизация звука.

Амплитудно-временное представление (АВП) сигнала.

Спектральное представление сигнала.

Спектры Фурье и вейвлет-спектры.

 

Ключевые операции ЦОС

Цифровая обработка сигналов (ЦОС) выполняется либо специальными процессорами, либо на универсальных ЭВМ и компьютерах по специальным программам. Наиболее просты для рассмотрения линейные системы. Линейными называются системы, для которых имеет место суперпозиция (отклик на сумму двух входных сигналов равен сумме откликов на эти сигналы по отдельности) и однородность, или гомогенность (отклик на входной сигнал, усиленный в определенное число раз, будет усилен в то же число раз). Линейность позволяет рассматривать объекты исследования по частям, а однородность - в удобном масштабе. Для реальных объектов свойства линейности могут выполняться приближенно и в определенном интервале входных сигналов.

Если входной сигнал x (t - t 0) порождает одинаковый выходной сигнал y (t - t 0) при любом сдвиге t 0, то систему называют инвариантной во времени. Ее свойства можно исследовать в любые произвольные моменты времени. Для описания линейной системы вводится специальный входной сигнал - единичный импульс (импульсная функция). В силу свойства суперпозиции и однородности любой входной сигнал можно представить в виде суммы таких импульсов, подаваемых в разные моменты времени и умноженных на соответствующие коэффициенты. Выходной сигнал системы в этом случае представляет собой сумму откликов на эти импульсы, умноженных на указанные коэффициенты. Отклик на единичный импульс называют импульсной характеристикой системы h (n), а отклик на произвольный входной сигнал s (k) можно выразить сверткой g (k) = h (n)* s (k - n).

Если h (n)=0 при n <0, то систему называют каузальной (причинной). В такой системе реакция на входной сигнал появляется только после поступления сигнала на ее вход. Некаузальные системы реализовать физически невозможно. Если требуются физически реализовать свертку сигналов с двусторонними операторами (при дифференцировании, преобразовании Гильберта, и т.п.), то это выполняется с задержкой (сдвигом) входного сигнала минимум на длину левосторонней части оператора свертки.

Существует большое количество разнообразных алгоритмов ЦОС, еще больше находится в стадии разработ­ки или ждет своего открывателя. Однако для всех этих алгоритмов, включая самые сложные, необходимы одни и те же основные операции. Для начала будет полезно рас­смотреть некоторые из них, чтобы оценить простоту реализации ЦОС.

Итак, основные операции ЦОС — это свертка, корреляция, фильтрация, дискретные преобразования. Дадим краткое описание каждой из них. При этом заметим, что для всех основных операций ЦОС потребуется выполнение толь­ко простых арифметических действий — умножения, сложения, вычитания и операции сдвига. Кроме того, отметим сходство между многими операциями.

Свертка

Свертка — это одна из наиболее используемых операций в ЦОС. Например, это основная операция цифровой фильтрации. Для двух массивов x (n) и h (n) длиной  и  соответственно, их свертка определяется соотношением:

, (2.1)

где  - символ свертки, а .

Если h (n) трактовать как импульсную характеристику линейной цифровой системы, значения отсчетов которой приведены в таблице 1, а x (n) - как сигнал на входе цифровой системы (см.табл.2), тогда массив y (n) представляет собой сигнал на выходе линейной цифровой системы (см.табл.3).

Действительно, учитывая финитность данных конкретных массивов, соотношение (4.1) можно переписать в виде:

.                                                               (2.2)

Для  получим:

.

Для :

.

Продолжая таким образом вычисления и учитывая, что , получим результаты, сведенные в таблицу 3.

 

Таблица 1

-3 -2 -1 0 1 2 3 4 5
0 0 0 1 0.5 0.2 0 0 0

Таблица 2

-3 -2 -1 0 1 2 3 4 5
0 0 0 2 3 4 0 0 0

Таблица 3

-3 -2 -1 0 1 2 3 4 5
0 0 0 2 4 5.9 2.6 0.8 0

 

Графически результаты вычисления свертки представлены на рис.2.1.

 

                                    

 

 

                                   0  1  2  3  4                   

 

                                  

 

 

                                   0  1  2  3  4                   

 

                                  

 

 

                                   0  1  2  3  4                   

Рис.2.1

Цифровая фильтрация

Цифровая фильтрация для одной из разновидностей цифровых фильтров – так называемых КИХ-фильтров (трансверсальных фильтров), математически описывается соотношением:

.                                                                                      (2.3)

Сравнивая соотношения (2.2) и (2.3), нетрудно заметить их принципиальное сходство. Таким образом, цифровая фильтрация есть свертка сигнала с импульсной характеристикой фильтра. На рис.2.2 показана блок-схема такого фильтра. Символом  обозначена задержка на один интервал дискретизации.

                                         

 

                                                         

 

 

                                                                                    

Рис.2.2

Основное применение цифровой фильтрации – подавление помех, маскирующих сигнал. Однако существует ряд иных интересных применений цифровых фильтров: моделирование резонансных свойств речевого тракта человека, физическое моделирование музыкальных звуков, выравнивание сигнала (эквалайзинг) и др.

Корреляция

Корреляциясуществует в двух формах: автокорреляции и взаимной корреляции.

Взаимно-корреляционная функция (ВКФ, cross-correlation function - CCF), и ее частный случай для центрированных сигналов функция взаимной ковариации (ФВК)– это показатель степени сходства формы и свойств двух сигналов. Для двух последовательностей x (k) и y (k) длиной К с нулевыми средними значениями оценка взаимной ковариации выполняется по формулам:

.                                                                       (2.4)

ВКФ – это показатель степени сходства формы и свойств двух сигналов.

Автокорреляционная функция (АКФ, correlation function, CF) является количественной интегральной характеристикой формы сигнала, дает информацию о структуре сигнала и его динамике во времени. Она, по существу, является частным случаем ВКФ для одного сигнала и представляет собой скалярное произведение сигнала и его копии в функциональной зависимости от переменной величины значения сдвига:

,                                                                          (2.5)

Нетрудно видеть известное сходство операций корреляции и свертки – разница лишь в том, что при свертке один из сигналов инвертируется, а при корреляции такой инверсии нет.

Автокорреляционная функция успешно применяется для выявления так называемой «скрытой» периодичности сигнала.

Взаимно-корреляционная функция применяется в задачах обнаружения сигнала известной формы, маскируемого помехами.

Дискретные преобразования

Дискретные преобразования позволяют описывать сигналы с дискретным временем в частотных координатах или переходить от описания во временной области к описанию в частотной. Переход от временных (пространственных) координат к частотным необходим во многих приложениях обработки данных. Дискретных преобразований достаточно много (преобразования Фурье, Хаара, Уолша, Гильберта и др.), однако самым распространенным является дискретное преобразование Фурье (ДПФ), с помощью которого осуществляют спектральный анализ сигналов:

.                                                                              (2.6)

Если соотношение (4.6) переписать в виде:

,

тогда становится очевидным, что ДПФ можно трактовать как результат цифровой фильтрации сигнала  гребенкой узкополосных цифровых фильтров – с той лишь особенностью, что из результата фильтрации оставляется только один отсчет.

При достаточно большом значении параметра  вычисление ДПФ весьма трудоемко. Благодаря изобретению алгоритма быстрого преобразования Фурье (БПФ) стало возможным весьма эффективное вычисление ДПФ (  арифметических операций вместо  операций).

Модуляция сигналов

Системы регистрации, обработки, интерпретации, хранения и использования информационных данных становятся все более распределенными, что требует коммуникации данных по высокочастотным каналам связи. Как правило, информационные сигналы являются низкочастотными и ограниченными по ширине спектра, в отличие от широкополосных высокочастотных каналов связи, рассчитанных на передачу сигналов от множества источников одновременно с частотным разделением каналов. Перенос спектра сигналов из низкочастотной области в выделенную для их передачи область высоких частот выполняется операцией модуляции. При модуляции значения информационного (модулирующего) сигнала переносятся на определенный параметр высокочастотного (несущего) сигнала.

Самые распространенные схемы модуляции для передачи цифровой информации по широкополосным каналам – это амплитудная (amplitude shift keying – ASK), фазовая (phase shift keying – PSK) и частотная (frequensy shift keying – FSK) манипуляции. При передаче данных по цифровым сетям используется также импульсно-кодовая модуляция (pulse code modulation – PCM).

 

Формы преобразования Фурье

Непрерывное преобразование Фурье

Известно несколько форм представления ряда Фурье:

1) синусно-косинусная;

2) амплитудно-фазовая;

3) комплексная.

А. Синусно-косинусная форма

Функция  - периодическая с периодом . «Классическая» синусно-косинусная форма представления этой функции в виде ряда Фурье имеет вид:

,                                                  (2.7)

где , .

Здесь  - «основная» частота ряда частот  гармоник, на которые раскладывается сигнал .

                                                                                                                

 

               0                  0 1 2 3          0 1 2 3

Достоинство такого представления – вещественность величин  и .

Недостаток – не очень понятна необходимость функций  и .

Б. Амплитудно-фазовая форма

Запишем (2.7) в виде:

. (5.2)

Или, что то же,

.

Сравнивая с (5.1), видим, что:

откуда

.

 

В. Комплексная форма

В амплитудно-фазовой форме полагаем:

.

Получаем:

;                           (2.8а)

(2.8б)

 

Дискретное преобразование Фурье

Пару непрерывных преобразований Фурье обычно записывают в виде:

                                                                                       (2.9а)

                                                                                       (2.9б)

 

Перепишем соотношения (2.8) в виде:

;

.

При  эти соотношения превращаются в пару непрерывных преобразований Фурье, поэтому:

                                                                                                          (2.10)

.

Можно рассуждать и по-иному. Сравним соотношения:

;

.

Если функция , тогда, периодизируя ее, можем записать:

, что совпадает с полученным ранее соотношением (2.8).

Таким образом, с учетом соотношений (2.6) и (2.8) можем записать:

;                                                                          (2.11а)

,                                                                       (2.11б)

где обозначено . Сравнивая пары соотношений (2.9) и (2.11), видим, что пару (5.6) можно формально и абсолютно точно получить, заменяя в (2.9а) бесконечные пределы интегрирования на конечные, а в (2.9б) – заменяя интеграл суммой. Причина точности произведенной замены – периодическое продолжение функции времени, приводящее к дискретизации спектра. Чтобы подчеркнуть периодический характер функции времени, мы и применили обозначение .

Используя дуальность времени t и частоты f, а также полученный выше результат о возможности формального перехода от пары непрерывных преобразований Фурье к паре дискретно-непрерывных преобразований Фурье, сразу запишем:

;                                                                    (2.12а)

,                                                                    (2.12б)

Продолжая развивать идею «дискретизации-периодизации», приходим к паре дискретных соотношений:

;

, где  .

                                                                                                                 

                   0                                                                                         -                                        

                                                                                                               

 

Обозначая , получим «классическую» пару дискретных преобразований Фурье (ДПФ):

;                                                                                  (2.13а)

                                                                                  (2.13а)

 

 

Быстрое преобразование Фурье (БПФ)

 

Пару ДПФ часто записывают в виде:

 

где

,

 - отсчеты сигнала,  - коэффициенты ДПФ.

 

Для вычисления одного элемента последовательности  необходимо примерно  операций комплексных умножений и сложений, если вычисления производить «в лоб», т.е. в соответствии с приведенным выше соотношением. БПФ – это «хитроумная» схема вычислений, при которой количество вычислительных операций удается сделать существенно меньшим. Например, если N - степень двойки, тогда количество вычислительных операций пропорционально величине . Преимущества алгоритма БПФ быстро увеличиваются с ростом N, что существенно при обработке массивов большой размерности.

Еще более заметен выигрыш алгоритма БПФ при обработке двумерных массивов чисел, например, при обработке изображений. В этом случае необходимо  операций против  при «лобовых» вычислениях.

Существует несколько разновидностей алгоритма БПФ. Ниже будет изложена модификация алгоритма БПФ: с прореживанием по времени. Существует и вторая - с прореживанием по частоте. При этом рассмотрим случай, когда N - степень двойки.

А. Прореживание по времени

Разделим последовательность , состоящую из  отсчетов, на две подпоследовательности  и , каждая из N/ 2 отсчетов (рис.5.3).

Отсчеты  образованы из четных отсчетов исходной последовательности , а отсчеты  - из нечетных:

.  

Поскольку подпоследовательности  и  состоят из N/ 2 отсчетов каждая, ДПФ для них имеет вид:

 

Нам нужна последовательность , которую мы можем представить через четные и нечетные элементы исходной последовательности :

 

   

                                     Рис.2.3                                                     Рис.2.4

 

Поскольку  и  периодичны с периодом , можем записать:

Таким образом, первые  и последние  отсчетов ДПФ от  могут быть получены комбинацией отсчетов ДПФ двух подпоследовательностей  и .На рис.2.4 представлен сигнальный граф, наглядно представляющий процедуру конструирования отсчетов  из отсчетов  и  для случая .

      

                          Рис.2.5                                                              Рис.2.6

 

Поскольку нам удалось задачу вычисления N -точечного ДПФ редуцировать к задаче вычисления двух N /2-точечных ДПФ, естественно попытаться “развить” успех в данном направлении. На рис.2.5 и 2.6 показаны два следующих аналогичных шага, после которых отсчеты сигнала  оказываются связанными с коэффициентами ДПФ своеобразными нитями-операциями, похожими на своеобразную «бабочку».

Итак, для случая N = 23 = 8 вычисления совершаются в 3 этапа. На первых двух этапах вычисляются некие “промежуточные” массивы из 8 точек каждый. На третьем этапе вычисляется “окончательный” 8-точечный массив. Для вычисления каждого элемента этих 3-х массивов необходимо выполнить одно комплексное умножение и одно комплексное сложение – итого  комплексных умножений и сложений вместо  комплексных умножений и сложений при “лобовых” вычислениях.

Обобщая наши рассуждения на случай N -точечных массивов, заключаем, что для вычислений в соответствии с алгоритмом БПФ необходимо N log2 N комплексных умножений и сложений, тогда как при прямых вычислениях требуется N операций.

Таким образом, при прореживании по частоте, как и при прореживании по времени, процедуру вычислений делят наlog2 N этапов. При этом на каждом этапе на вычисление элементов N -точечного массива затрачивается N комплексных сложений и умножений. В результате вычисления производятся примерно за N log2 N комплексных сложений и умножений против N 2 при “лобовых” вычислениях.

Признаки вейвлета

Для практического применения важно знать признаки, которыми обязательно должна обладать функция, чтобы быть вейвлетом:

Локализация. Вейвлет должен быть локализован и во временном пространстве, и по частоте.

Нулевое среднее:

Часто для приложений оказывается необходимым, чтобы первые моментов были равны 0:

Такой вейвлет называется вейвлетом -го порядка. Обладающие большим числом нулевых моментов вейвлеты позволяют, игнорируя наиболее регулярные полиномиальные составляющие сигнала, анализировать мелкомасштабные флуктуации и особенности высокого порядка.

Ограниченность:

Опишем сигнал в терминах вейвлет-преобразования при помощи его средних (по некоторым интервалам) значений и изменений вокруг этих средних (флуктуациями). Это позволит вскрыть флуктуационную структуру сигнала на разных масштабах, что приводит к понятию многомасштабного анализа.

Многомасштабный анализ

Многомасштабное приближение  представляет собой нарастающую последовательность замкнутых линейных пространств  со следующими свойствами:

1. всюду плотно в ;

2.  и ;

3.  и ;

4.  такая функция  что последовательность  является ортонормальным базисом Рисса в пространстве .

С учетом многомасштабного анализа разложение функции в вейвлет-ряд имеет вид:

                                                                       (2.14)

при этом  является уровнем детализации, - коэффициенты вейвлет-разложения, ,  - скейлинг-функция или масштабная функция, ,  - базисный или «материнский» вейвлет. Эти коэффициенты зачастую называют суммами () и разностями (), связывая со средними значениями и флуктуациями соответственно.

Возвращаясь к вейвлетам, отметим, что  образуют ортонормированный базис ;  образуют ортонормированный базис в , где  - ортогональное дополнение  в . Полный набор  и  при всех  образуют ортонормированный базис в .

Вейвлет-коэффициенты  и  можно вычислить по формулам:

                                                                                                    (2.15)

                                                                                                   (2.16)

Первая сумма в (1) со скейлинг-функциями содержит средние значения  по диадным интервалам  (усреднение проводится с весовыми функциями , отличными от нуля только на -том отрезке). Второй член содержит все флуктуации  по данным интервалам. Эти флуктуации проистекают из всех меньших интервалов, заключенных внутри данного и соответствующих большим значениям параметра масштабирования . Этот член фокусирует наше внимание на все более тонких деталях изучаемого сигнала. На любом уровне детализации общее число членов в разложении остается неизменным и равным , где  - начальный уровень с наименьшими интервалами, число членов в каждой сумме зависит от выбранного уровня разрешения. На -том уровне имеется -коэффициентов и - коэффициентов.

Представление (2.14) взаимно однозначно для любой функции из , т.е. коэффициенты преобразования определяются единственным образом для заданного вейвлет-базиса и функция может быть полностью восстановлена по коэффициентам разложения. На самом детальном уровне остаются только коэффициенты и получается представление скейлинг-функцией, конечное представление улавливает все флуктуации, имеющиеся в сигнале. При практическом анализе сигналов скейлинг- и вейвлет-функции называют широкополосными и узко-полосными фильтрами, т. к. они отфильтровывают компоненты сигнала на больших и малых масштабах.

Вейвлеты Добеши

Свяжем функцию  с ее сдвинутыми и сжатыми модификациями. Простейшее линейное соотношение с числом коэффициентов  можно записать в виде:

Величина масштабирующего множителя определяет размер ячеек выбранной решетки, число  - число коэффициентов  и длину области задания вейвлета. Для ортонормированных базисов

Если  известна, тогда можно построить базисный вейвлет  по формуле:

, где . Связь  и  рассмотрим ниже.

В практических приложениях используются только вейвлет-коэффициенты  без вычисления конкретной формы вейвлета.

Общие свойства скейлинг-функций и вейвлетов однозначно определяют коэффициенты  в рамках многомасштабного анализа.

Из свойства ортогональности масштабных функций:

                                                  (2.17)

Из ортогональности вейвлетов масштабным функциям:

 

Отсюда получим

                                                                                                  (2.18)

т. е.  однозначно определяют .

Условие ортогональности вейвлетов полиномам до степени :

           (2.19)

Вообще говоря, чем больше моментов равны нулю, тем больше вейвлет-коэффициентов для гладких функций близки к нулю. Очевидно, число нулевых моментов важно для достижения более сильного сжатия сигнала.

Условие нормировки:

                                                                                     (2.20)

Набор всех возможностей (2.17) - (2.20) задает полную систему вейвлетов данного порядка из известного семейства ортонормальных вейвлетов Добеши. Вейвлеты Добеши с компактным носителем определяются одн



Поделиться:


Последнее изменение этой страницы: 2022-09-03; просмотров: 59; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.189.177 (0.125 с.)