Параметрична компресія мовних сигналів 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Параметрична компресія мовних сигналів



Загальні положення

Методи компресії телефонних сигналів з функціональним перетворенням мови (параметрична компресія) ґрунтуються на заміні мови її параметрами, відомості про які передаються в лінію зв’язку для відновлення повідомлення в приймальному пристрої. Найчастіше вибирають параметри, які повільно змінюються в часі, тому для передачі інформації про такі параметри треба використовувати смугу частот, вужчу ніж для передачі самої мови [8].

Пристрої для функціонального перетворення мови називають вокодерами (від англ. voice – голос та coder – кодувальник).

Робота вокодерів ґрунтується на моделюванні людської мови з урахуванням її характерних особливостей. Замість безпосереднього вимірювання амплітуди вокодер перетворює вхідний сигнал в деякий інший, схожий на первинний. При цьому характеристики мовного сигналу використовують для коригування параметрів прийнятої моделі мовного сигналу. Саме ці параметри і передаються приймачу, який за ними відновлює первинний мовний сигнал. По суті йдеться про синтез мови. У цьому випадку випромінювання спотворень відношення сигнал/шум не має сенсу для вокодерів, а тому необхідні інші суб’єктивні оцінки, такі як середня експертна оцінка, діагностичний римований текст та інші оцінки.

Вокодери можна розділити на два класи: мовноелементні та параметричні. У мовноелементних вокодерах під час передачі розпізнаються елементи мови (наприклад фонеми) і передаються тільки їх номери. На приймальному кінці ці елементи створюють за правилами мовоутворення або беруть із пам’яті пристрою. Галузь застосування фонемних вокодерів – лінії командного зв’язку, мовне керування та інформаційно-довідкові служби. Практично в таких вокодерах здійснюється автоматичне розпізнавання слухових образів, а не визначення параметрів мови.

В параметричних вокодерах з мовного сигналу виділяють два типи параметрів:

- параметри, які характеризують огинаючу спектра мовного сигналу (фільтрову функцію);

- параметри, які характеризують джерело мовних коливань (генераторну функцію) – частота основного тону, її зміни в часі, моменти появи та зникнення основного тону, шумового сигналу.

За цими параметрами на приймальній стороні синтезують мову.

За принципом визначення параметрів фільтрової функції мови розрізняють вокодери:

- смугові канальні (channel);

- формантні;

- ортогональні;

- ліпредери (з лінійним передбаченням мови);

- гомоморфні.

У смугових вокодерах спектр мови ділиться на 7...20 смуг (каналів) аналоговими або цифровими смуговими фільтрами. Велике число каналів у вокодері дозволяє збільшити натуральність та розбірливість. З кожного смугового фільтра сигнал надходить на детектор та фільтр низьких частот з частотою зрізу . Таким чином, сигнали на виході кожного каналу змінюються з частотою не більше . Їх передача можлива в аналоговому та цифровому вигляді.

У формантних вокодерах огинаюча спектра мови зображується комбінацією формант (резонансних частот голосового тракту). Основні параметри формант – центральна частота, амплітуда та ширина смуги частот.

В ортогональних вокодерах огинаюча миттєвого спектра розкладається в ряд за вибраною системою ортогональних базисних функцій. Коефіцієнти цього розкладання передаються на приймальну сторону. Найбільше поширення отримали гармонічні вокодери, які використовують розкладання в ряд Фур’є.

Вокодери з лінійним передбаченням (LPC – Linear Prediction Coding) ґрунтуються на оригінальному математичному апараті.

Гомоформна обробка дозволяє розділити генераторну та фільтрову функції, які утворюють мовний сигнал.

Враховуючи складність одержання параметрів генераторної функції, широке застосування отримали напіввокодери (VE – Voice Excited Vocodec), в яких замість сигналів основного тону та тон-шум використовується смуга мовного сигналу. Смуга частот до 1000 Гц передається по каналу зв’язку в аналоговому або цифровому вигляді. Найбільш відомі напіввокодери VELP (Voice Excited Linear Prediction) та RELP (Residual Excited Linear Prediction).

Вокодери VELP використовують голосове збудження та коефіцієнти лінійного передбачення (КЛП). У вокодерах RELP по вихідному сигналу також обчислюють КЛП.

Якість мови вокодерів є функція від швидкості передачі, продуктивності та затримки обробки. Так, наприклад, низькошвидкісні вокодери звичайно мають більшу затримку та нижчу якість мови ніж високошвидкісні.

У зв’язку з тим, що вокодер використовує канал разом з іншими споживачами або Інтернет з іншими інформаційними потоками, максимальна швидкість повинна бути якомога меншою. Метою сучасних розробок є вокодери зі змінною швидкістю. При цьому використовують фіксовану швидкість для мови та низьку швидкість для фонових шумів. Це досягається за допомогою алгоритмів стискання пауз. У цьому випадку використовують детектор активності мови (VAD), який визначає, чи є вхідний сигнал мовою, чи фоновим шумом. Якщо сигнал вважається мовою, він кодується на номінальній фіксованій швидкості, а коли сигнал вважається шумом, він кодується на більш низькій швидкості.

На приймальній стороні відбувається генерація комфортного шуму. Спосіб генерації комфортного шуму повинен бути таким, щоб кодер та декодер залишалися синхронізованими, навіть якщо протягом деякого часу передача даних не здійснюється. Це дозволяє згладжувати переходи між сегментами активної та неактивної мов.

Смугові вокодери

Типова схема смугового вокодера показана на рис 1.13. Мовний сигнал із мікрофона надходить на гребінку смугових фільтрів (СФ) аналізатора. Кількість фільтрів, а отже і кількість смуг можуть бути різними (від 5 до 20). На виході кожного СФ підключено детектор та згладжувальний фільтр НЧ, який виділяє огинаючу мовного сигналу в даній частотній смузі. Отримана повільно змінювана напруга на виході ФНЧ характеризує амплітуду мовного сигналу в даній смузі частот . Практика показує, що при досить великій кількості смуг напруга на виході ФНЧ змінюється повільно, тому за амплітуду мовного сигналу в i -й смузі для інженерних розрахунків приймають значення мовного сигналу на середній частоті i -ї смуги. Мовний сигнал надходить також на пристрій виділення основного тону (ОТ), на виході якого формується сигнал, який характеризує частоту основного тону .

Крім того, в аналізаторі виділяється сигнал тон-шум (Т-Ш), який характеризує склад спектра звуків мови – дискретний для вокалізованих звуків (тон) або безперервний для невокалізованих звуків (шум). Пристрій виділення сигналів Т-Ш може працювати або безпосередньо від мовних сигналів, або від сигналів, отриманих на виході пристрою виділення ОТ. Тому на рис. 1.26. схема виділення сигналів має два входи.

Сигнали, отримані на виході згладжувального фільтра та на виходах схеми виділення сигналів ОТ та Т-Ш, об’єднуються і перетворюються у форму, яка придатна для передачі каналом зв’язку.

Об’єднання та перетворення сигналів , виконуються в пристрої (рис. 1.26), який називається об’єднуючим. На приймальній стороні каналу зв’язку здійснюється розділення сигналів (у розділювальному пристрої) та перетворення їх у форму, яка необхідна для роботи синтезатора.

1.26. Функціональна схема полосного вокодера

В аналогових вокодерах об’єднувальні та розділювальні пристрої реалізуються за принципами частотного розділення сигналів, а в аналогових та цифрових вокодерах – за часовим розділенням сигналів.

Сигнали Т-Ш керують приймачем, за допомогою якого на вхідну гребінку смугових фільтрів подається або широкосмуговий шум від генератора шуму, або імпульси від генератора ОТ. Цей генератор керується сигналом таким чином, що частота слідування імпульсів на виході дорівнює частоті основного тону мовного сигналу на передавальній стороні. Сукупність генераторів ОТ, шуму та схеми переключення Т-Ш називають генератором мовного сигналу (ГМС).

З виходу смугових фільтрів сигнали надходять на амплітудні модулятори (АМ). На інший вхід АМ як модулюючі надходять сигнали , , які після розділювального пристрою проходять через згладжувальні фільтри ФНЧ. З виходу АМ сигнали надходять на гребінку вихідних смугових фільтрів, які застосовуються для зменшення впливу побічних продуктів модуляції, які виникають в АМ. Сукупність схем та вузлів, у яких перетворюють мовні сигнали в межах кожної з частотних смуг (від входу смугового фільтра до виходу вихідного смугового фільтра синтезатора), називають спектральним каналом смугового вокодера. Звичайно, схеми смугових вокодерів доповнюються пристроями лінійного передбачення, що дозволяє створити смугові вокодери з лінійним передбаченням або ЛПК-вокодери. У таких вокодерах використовуються алгоритми лінійного передбачування, за допомогою яких під час аналізу в передавальному пристрої визначаються коефіцієнти передбачення, а в приймальному пристрої на основі цих коефіцієнтів за допомогою рекурсивного цифрового фільтра синтезується еквівалент голосового тракту.

Ідея методу лінійного передбачення заключається в тому, що величина, яка прогнозується у мовному сигналі на момент випробування h, визначається як лінійно зважена сума попередніх вибірок:

,

де – мовний сигнал в попередній момент випробувань; ; – коефіцієнти передбачення.

Інтервали часу між моментами вимірювань частотної дискретизації . В момент h, коли відомі , але й дійсне значення мовного сигналу , можна визначити помилку передбачення

,

а потім підібрати коефіцієнти передбачення таким чином, щоб помилка передбачення була мінімальною. Звичайно, як критерій мінімізації використовують мінімум середньоквадратичної помилки. В цьому випадку треба визначити такі значення , при яких . Задача мінімізації зводиться до рішення системи лінійних рівнянь відносно .

Пристрій для обчислення помилки передбачення відповідно до виразу (1.53) представляє собою фільтр, передатна характеристика якого дорівнює передатній характеристиці фільтра, який імітує мовний тракт. Тому перетворення, що відповідає виразу (1.53), називають інверсною фільтрацією.

Усереднення помилки передбачення виконується на інтервалі вибірок, які утворюють кадр (фрейм). Бажано, щоб довжина аналізованого звуку мови була узгоджена з довжиною кадру, але це технічно виконати складно. Тому звичайно приймають , що при 8000 Гц відповідає довжині кадру мс.

Для одержання задовільної якості мовних сигналів, які синтезуються, потрібно підрахувати не менше десяти коефіцієнтів передбачення , що в (1.54) відповідає . Враховуючи це, в аналізаторі ЛПК-вокодера треба вирішувати 100...200 лінійних рівнянь з 10...12 невідомими.

Коефіцієнти передбачення, значення яких передаються каналом зв’язку, використовуються як перемінні параметри у рекурсивному цифровому фільтрі, на вхід якого подаються сигнали збудження. Як сигнали збудження в ЛПК-вокодері використовуються такі ж сигнали, які мають місце на виході генераторів мовного спектра (ГМС) у смугових вокодерах. Під час відтворення вокалізованих звуків – це послідовність імпульсів ОТ, а невокалізованих звуків – це випадкова послідовність імпульсів, сформованих генератором шуму.

Замість коефіцієнтів передбачення в більшості варіантів схем ЛПК-вокодерів передбачено отримання еквівалентного набору величин, які носять назву коефіцієнтів відбиття . Ці параметри менш чутливі до квантування, ніж коефіцієнти передбачення . Набори параметрів та пов’язані поміж собою набором стандартних рекурентних співвідношень.

Ширина смуги фільтрів на вході та виході вибирається з урахуванням електроакустичних перетворювачів, які використовуються при цьому. Перетворювачі аналог-код та код-аналог працюють на принципах ІКМ. Аналізатор сигналів збудження здійснює виділення сигналів ОТ та Т-Ш, а також загального рівня (огинаючої мовного сигналу). Інші вузли виконують ті ж функції, що й у смуговому вокодері без лінійного передбачення.

Під час синтезу та дослідження смугових вокодерів з ЛПК використовують різні моделі мовного процесу. Найбільш точна модель мови представляє собою нестаціонарний випадковий процес з повільно змінюваною дисперсією та спектральною щільністю. У разі використання такої моделі можна одержати найбільш точний результат оцінки якості вокодера.

1.6. Системи передачі безперервних повідомлень за допомогою дискретних сигналів

Можливість передачі безперервних повідомлень за допомогою дискретних сигналів витікає з теореми В.І. Котельникова, згідно з якою будь-яка функція з обмеженим спектром цілком визначається послідовністю її значень у точках, які знаходяться одна від одної на відстані , де – максимальна частота спектра функції . Такі системи називаються імпульсними системами радіозв’язку [9].

В імпульсних системах зв’язку частота слідування імпульсів дорівнює частоті Котельникова, а один із параметрів імпульсної послідовності визначається значенням моделюючої функції (повідомлення, яке передається) на момент відліку. Послідовність відеоімпульсів характеризується такими параметрами: А – амплітуда; – довжина (ширина) імпульсу; – тактова частота; – період слідування імпульсів; – часове положення імпульсів відносно тактових точок.

Важливими параметрами імпульсної послідовності є скважність імпульсів та коефіцієнт заповнення . Ці параметри визначають спектр імпульсної послідовності.

Спектр немодульованої послідовності відеоімпульсів визначається за формулою

. (1.54)

Під час модуляції за законом модулюючого сигналу змінюється один із параметрів імпульсної послідовності. Залежно від того, який параметр модулюється, розрізняють:

- амплітудно-імпульсну модуляцію (АІМ), тут змінюється амплітуда імпульсів;

- широтно-імпульсну модуляцію (ШІМ), тут змінюється ширина імпульсів;

- фазо-імпульсну модуляцію (ФІМ), тут змінюється часове положення імпульсів відносно тактових точок.

Розглянемо більш детально ці види модуляції.

Представимо амплітуду імпульсів при АІМ у вигляді

де – амплітуда імпульсів немодульованої послідовності; – максимальна зміна амплітуди імпульсів; – модулююча функція; – коефіцієнт модуляції.

Якщо модулююча функція являє собою гармонічні коливання (), , то спектр АІМ сигналу можна знайти підстановкою значення у формулу (1.54):

.

З цієї формули видно, що спектр АІМ сигналу складається зі сталої складової, складової з частотою модулюючого сигналу та амплітудно-модульованих гармонік тактової частоти.

Демодуляцію АІМ сигналів можна здійснити за допомогою ФНЧ, який виділяє складову з частотою модулюючого сигналу із спектра АІМ сигналу.

У ШІМ пропорційно значенню моделюючої функції змінюється довжина (ширина) імпульсів.

Довжина імпульсів у ШІМ може бути представлена виразом

,

де – довжина імпульсів немодульованої послідовності; – максимальна зміна довжини імпульсів; – коефіцієнт модуляції у ШІМ.

Зміна довжини імпульсів зумовлює зміну коефіцієнта заповнення

, (1.55)

де – коефіцієнт заповнення немодульованої послідовності імпульсів.

Під час модуляції гармонічним сигналом та мають такий вигляд:

Підставляючи значення коефіцієнта заповнення (1.55) у формулу (1.7), одержимо вираз для спектра сигналу з ШІМ:

де .

Спектр ШІМ сигналу може бути отриманий за допомогою розкладу в ряд виразу

.

В загальному випадку такий розклад відбувається за функціями Бесселя. Характер спектра біля гармонік тактової частоти виявляється схожим на спектр при кутовій модуляції.

Приклади спектрів немодульованої послідовності, з АІМ та ШІМ наведені на рис. 1.27.

Відзначимо деякі властивості спектра немодульованої послідовності. Так, амплітуда спектральних складових дорівнює 0 в точках , тощо. Стала складова спектра дорівнює або .

Рис. 1.27. Спектри сигналів з імпульсною модуляцією:

а – спектр немодульованої послідовності;

б – спектр АІМ сигналів;

в – спектр ШІМ сигналів.

В основній ділянці спектра частот від 0 до розташовано гармоніки на відстані одна від одної, яка дорівнює . Амплітуда спектральних складових змінюється за законом .

В спектрі сигналу з АІМ є складова, яка пов’язана з модулюючою функцією . Величина цієї складової дорівнює . Таким чином, якщо , то максимально можливий рівень складової з корисним сигналом дорівнює .

Аналіз спектра сигналу з АІМ показує, що корисна складова може бути легко виділена за допомогою ФНЧ з характеристикою .

Спектр сигналу з ШІМ хоч і носить більш складний характер також має складову, яка пов’язана з модулюючою функцією. Величина цієї складової дорівнює або , тут . Таким чином, рівень складової спектра з корисним сигналом залежить тільки від .

Ця складова також може бути виділена із спектра сигналу за допомогою ФНЧ з характеристикою .

Фазово-імпульсна модуляція – це найбільш розповсюджений вид аналогової модуляції, який застосовується в багатоканальних системах із часовим ущільненням. Вона, як і ЧІМ, є різновидом часо-імпульсної модуляції. У цих видах модуляції інформація закладена у часовому положенні імпульсів відносно тактових точок.

У ФІМ частота слідування імпульсів визначається за формулою

.

У разі модуляції гармонічним сигналом . Тому ,

де – максимальний часовий зсув імпульсу відносно тактової точки.

Коефіцієнт заповнення визначають як

де .

Таким чином, у ФІМ коефіцієнт заповнення залежить від моделюючої частоти і, як наслідок, від частоти та амплітуди відповідних складових спектра, в тому числі й складових з частотою модулюючого сигналу.

Спектр сигналу з ФІМ дещо схожий на спектр сигналу з ШІМ. Для аналізу складової, яка містить інформацію про корисний сигнал, треба вираз для підставити в формулу (1.7). Ця складова має вигляд або

(1.56)

де .

Аналіз складової (1.56) показує, що демодуляція сигналу можлива при наявності ФНЧ з характеристикою , що має досить складну схемну реалізацію. Іншим недоліком системи з ФІМ є те, що складова (1.9) має дуже малу амплітуду. Порівняємо її з складовою ШІМ. якщо врахувати, що за фізичним змістом , отримаємо

Враховуючи те, що мкс, а Гц, можна визначити величину , яка дорівнює . Тобто амплітуда складової з корисним сигналом з ШІМ у 53 рази більше, ніж у сигналу з ФІМ. Тому сигнал з ФІМ спочатку перетворюють в АІМ або ШІМ, а потім здійснюють демодуляцію за допомогою ФНЧ. Перетворення ФІМ у ШІМ можна здійснити за допомогою звичайного RS-тригера.

Для передачі сигналів з імпульсною модуляцією на велику відстань за допомогою радіохвиль застосовують амплітудну або частотну модуляцію високочастотних коливань. Найбільш поширені системи з АІМ-АМ, АІМ-ЧМ, ШІМ-АМ, ШІМ-ЧМ та ФІМ-АМ.

Питання для самоперевірки

1. Яка роль безперервних систем зв’язку в загальній системі зв’язку цивільної авіації?

2. Наведіть основні характеристики мовного сигналу.

3. Що таке основний тон мови, форманта, фонема?

4. Що таке артикуляція?

5. Які орієнтовні цифри, що характеризують норми розбірливості?

6. Яка природа надлишковості мовного сигналу?

7. Що таке кліпування мови?

8. Яка теоретична границя можливого стиснення спектра телефонного сигналу?

9. Що таке вокодер?

10. Які схемні методи підвищення завадостійкості безперервних систем зв’язку ви знаєте?



Поделиться:


Последнее изменение этой страницы: 2016-08-16; просмотров: 795; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.17.75.227 (0.059 с.)