Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Методи безпосередньої компресії

Поиск

Компресією мовних сигналів називається зменшення обсягу сигналів за рахунок стиснення одного чи декількох параметрів сигналу (динамічний діапазон, спектр частот, тривалість). Ці методи відрізняються тим, що виробляються тільки деформації обсягу сигналу, а мікроструктура сигналу цілком не знищується. Під час деформації об’єму сигнал частково викривляється, однак ці викривлення відіграють роль завад. Тут сигнал у відповідному вимірі “деформується”, тобто стискається на передавальному кінці з відповідним розширенням його на приймальному кінці.

Отже, після обмеження сигналу по динамічному, частотному діапазону чи в часі відновити сигнал цілком на приймальному кінці не вдається.

Розгляд методів безпосередньої компресії почнемо з амплітудної компресії. У динамічному діапазоні сигналу міститься переважно інформація про якість звучання й у значно меншому ступені – інформація про розбірливість звуків, тобто компресований за рівнем мовний сигнал має розбірливість, що мало відрізняється від вихідного сигналу. Таким чином, компресія дозволяє підвищувати завадостійкість передачі.

Стиснення динамічного діапазону мови виробляється або методом автоматичного регулювання фонетичного рівня мови, або миттєвою компресією сигналу. При першому способі стиснення рівні звуків мови так чи інакше зближаються один з одним. У результаті піковий і мінімальний рівні компресованої мови також зближаються. Перехідні процеси, що залежать від сталої часу компресуючого пристрою, дуже спотворюють деякі звуки мови (б, п, д, т). В цілому динамічне компандування мови, крім корисного ефекту, має недолік – поява викривлень через наявність перехідних процесів. Корисна дія компандування виявляється в тому, що при заданій піковій потужності передавача, незважаючи на викривлення, розбірливість мови підвищується навіть при наявності завад. У цьому випадку максимальний рівень мови на виході компресора буде таким же, як і на вході, а більш низькі рівні будуть піднятими.

Внаслідок “підтягування” слабких складових мови збільшується її розбірливість на тлі завад. Крім того, стиснення динамічного діапазону при заданій піковій потужності генератора забезпечує краще використання вихідних каскадів. Більш ефективним є спосіб стиснення динамічного діапазону шляхом миттєвої компресії (амплітудного обмеження). Цей спосіб є без інерційним. Розрізняють обмеження по максимуму (рис.1.22, а, в) і по мінімуму (рис.1.22, б, г).

Під ступенем обмеження зверху розуміють величину , а при обмеженні знизу – , де – максимальне значення напруги на вході обмежувача; – напруга початку обмеження.

Рис. 1.22. Епюри напруг, що пояснюють принцип обмеження

по максимуму і мінімуму

Вплив обмеження знизу і зверху на розбірливість мови різний (рис. 1.23). Незначне обмеження знизу викликає істотне зниження розбірливості мови, а навіть при сильному обмеженні зверху розбірливість мови неістотно падає. Встановлено, що висока розбірливість мови зберігається навіть при граничному обмеженні, що називається кліпуванням. Кліпована мова має вигляд прямокутних імпульсів різної тривалості (рис. 1.24). При цьому єдиною інформацією про первісну мову є послідовність нульових переходів. Виходячи з високої розбірливості процесу кліпування, випливає, що ті чи інші властивості розташування нулів (рис. 1.24) містять велику кількість інформації про мовне повідомлення.

Рис. 1.23. Вплив на розбірливість обмеження зверху (2), і знизу (1)

Рис. 1.24. Осцилограма кліпованої мови

Ще краща розбірливість, якщо мову попередньо диференціюють, а потім обмежують похідну мовного процесу. У цьому випадку зберігається положення не нульових, а екстремальних значень мовного повідомлення. Більш висока розбірливість мови для цього випадку пояснюється тим, що число екстремальних значень у мовному повідомленні більше числа нульових значень. Експериментально встановлено, що для чоловічих голосів нульові значення випливають з частотою 2780 Гц, а екстремальні – з частотою 4700 Гц. Таким чином, при збереженні положень екстремальних значень за допомогою диференціювання зберігається і передається в лінію зв’язку більш повна інформація про структуру сигналу.

Мовний сигнал у разі дотримання деяких умов може бути записаний як

.

При цьому функції і визначені у такий спосіб:

; ,

де вихідна функція і сполучена функція однозначно пов’язані між собою інтегральними перетвореннями Гільберта:

; .

Визначені таким способом функції і являють собою на комплексній площині функцію , що називається аналітичною формою сигналу, утвореного з функції .

Сигнал є дійсною частиною аналітичного виразу .

Вхідні у виразі (1.7) функції і являють собою огинаючу і фазу сигналу і містять відповідно амплітудну і частотну інформації. Очевидно, що похідна миттєвої фази є миттєва частота сигналу .

Кліпування мови зводиться до усунення амплітудної інформації і до виділення та передачі частотної інформації, що міститься у функції , тобто в передачі мови постійного рівня. Виділення частотної інформації не можна здійснювати шляхом безмежного стискання, тому що спектри і перекриваються, а ширина спектра перевершує октаву. У такому випадку частина гармонік, що виникли в результаті сильного обмеження, потрапить у вхідний діапазон частот і буде засмічувати обмежений сигнал на виході. Один зі способів усунення зазначеного недоліку полягає в зменшенні продуктів нелінійного викривлення шляхом попередньої корекції частотної характеристики мови до обмеження.

При стисненні динамічного діапазону сигналу найбільш обмежуються низькочастотні складові спектра, що мають найбільшу частку енергії мови, в результаті чого утворюються інтенсивні гармоніки, що не виходять за межі спектра мови, і тому спотворюють її. Крім того, в обмежувачі має місце безпосереднє придушення високочастотних складових низькочастотними. Якщо перед обмежувачем підняти високочастотні складові мови, то воно буде більш рівномірним, і зазначені викривлення зменшаться. Таке піднімання частотної характеристики може бути отримано під час проходження мовного сигналу через ланку, що диференціює. Це також є причиною підвищення розбірливості попередньо диференційованої обмеженої мови. Ще більш ефективним способом зменшення продуктів нелінійних викривлень є перенесення обмеження в область високих частот. Так, якщо

,

то частоту можна вибрати настільки великою, що спектри функцій і не будуть перекриватися, тобто порівняно з буде змінюватися повільно. Крім того, можна домогтися, щоб ширина спектра сигналу, зміщеного на частоту , була меншою порівняно зі значенням , тобто вже октави.

Таким чином, гармоніки, що виникають при обмеженнях, виявляються поза межами діапазону частот функції і тому можуть бути відфільтровані на виході обмежувача.

У результаті замість сигналу прямокутної форми процес на виході фільтра буде мати вигляд частотно-модульованого коливання.

Отже, оптимальний ступінь обмеження залежить від виду модуляції, від заходів, прийнятих для боротьби з нелінійними викривленнями, а також від умов, за яких здійснюється передача мовних повідомлень. Так, під час передачі з тиші оптимальним є обмеження на 18...24 дБ щодо пікового рівня мови. Таке обмеження прийнятне доти, поки відношення шум/сигнал менше одиниці. У разі більш інтенсивних завад розбірливість обмеженого сигналу різко знижується. Розбірливість необмеженого сигналу за таких умов знижується менш різко, однак вона буде також незадовільною. У разі ступеня обмеження 40 дБ розбірливість обмеженого сигналу при будь-якому рівні завад буде нижче розбірливості необмеженого сигналу.

За умов роботи з високим рівнем шуму за рахунок мимовільного збільшення рівня мови оператором на 6...8 дБ ступінь обмеження можна вибирати в межах 18...24 дБ. Слід зазначити, що передача обмеженої мови пов’язана з необхідністю великого підсилення в низькочастотному тракті передавального пристрою. Це призводить до відносного зростання шумів у паузах, що погіршує якість звучання, і є істотним недоліком систем зв’язку, що використовують граничну компресію динамічного діапазону.

Одним зі способів зменшення шумів у паузах є запирання мовного тракту за допомогою обмежувача по мінімуму. Однак у цьому випадку погіршується якість відтворення внаслідок пропадання коротких вибухових звуків, особливо на початку слів. Високу розбірливість і гарну якість звучання мови можна одержати шляхом передачі по рівнобіжних каналах кліпованого сигналу і його огинаючої з наступним перемножуванням на приймальному кінці. Порівнюючи між собою перший і другий способи стиснення динамічного діапазону, бачимо, що при другому способі відбувається більше звуження динамічного діапазону, однак нелінійні викривлення при цьому більш значні. Пристрої, що реалізують цей спосіб, дуже прості, тоді як пристрої автоматичного регулювання рівня досить складні, нестійкі в роботі і вносять помітні викривлення внаслідок процесів, що відбуваються в них.

Існує третій спосіб стиснення динамічного діапазону, що називається амплітудною селекцією. Сутність його полягає в передачі тільки максимальних і мінімальних значень мовного сигналу. Амплітудна селекція, маючи всі достоїнства кліпованої мови, має перевагу перед нею, тому що потребує смугу передачі в 2,5 рази вужчу.

Розглянемо основні методи частотної компресії. Спектр мови займає смугу частот 100...9000 Гц. Найпростіший і найбільш поширений спосіб частотної компресії полягає в обмеженні спектра мовних сигналів, переданих по лінії зв’язку. Для передачі вибирається ділянка спектра, що є найбільш важливою для забезпечення необхідної якості зв’язку. Високочастотні складові мови понад 3...5 кГц несуттєво впливають на її розбірливість, тому з метою звуження спектра телефонного каналу і зниження внаслідок цього рівня завад ці складові доцільно обрізати. Це також доцільно і для низькочастотних складових нижче 250...300 Гц, що мають досить високу інтенсивність, однак мало впливають на розбірливість мови. Результати досліджень показали, що під час телефонної передачі мови, особливо за умов флуктуаційних шумів з рівномірною щільністю по частоті, обмеження частотного діапазону зверху частотою 3500 Гц і знизу частотою 300 Гц призводить лише до підвищення розбірливості мови.

Компресія спектра телефонного сигналу може бути отримана також за рахунок збільшення часу передачі. Якщо мову спочатку записати на плівку і зменшувати частоту обертання магнітофона проти нормальної в n разів, то у таке ж число разів звузиться спектр мови. На приймальній стороні для відновлення нормальної мови частота обертання повинна бути збільшена в n разів. Хоча розглянуті вище методи безпосередньої частотної компресії мають практичне значення, стиснення спектра мови в цьому випадку невелике і дуже далеке від гранично можливого стиснення.

Теоретична межа можливого стиснення спектра телефонного сигналу може бути встановлена на основі формули Шеннона [1]:

,

де F – ширина спектра сигналу; – відношення потужності сигналу до потужності функціональної завади.

Нормальна розмова ведеться зі швидкістю фонем/с. У разі ідеального кодування кількість двоїчних одиниць, необхідних для передачі кожної букви, близька до ентропії повідомлення, тобто біт/фонем. Тоді швидкість передачі при розмові біт/с. Якщо взяти відношення сигналу до завади в каналі зв’язку рівним , тобто , що необхідно для системи зв’язку з амплітудною модуляцією (АМ), то необхідна смуга частот визначиться з умови

.

Якщо біт/фонем, то Гц, а при біт/фонем Гц. Системи телефонного радіозв’язку з безпосередньою компресією, які застосовуються на практиці, займають значно більшу смугу частот.

Існує також метод тимчасової компресії телефонного сигналу, що полягає в збереженні часу передачі і заснований на надмірності мови, обумовленої її тимчасовими характеристиками. Зазначена надмірність характеризується наявністю повторюваних ділянок у тимчасовій функції. Так, при розгляді спектрограм голосних звуків помітні повторювані ділянки, що випливають одна за одною з частотою основного тону. Наявність основного тону в мові може бути визначена за її осцилограмою (див. рис.1.2). Осцилограма являє собою серію згасаючих коливань. Інтервал між сусідніми коливальними процесами дорівнює періоду основного тону. Статистика показує, що основний тон чоловічих голосів знаходиться в межах від 70...120 до 150...160 Гц із середньою частотою 120 Гц, для жіночих голосів в межах від 180...220 до 300...330 Гц із середньою частотою 240 Гц.

Враховуючи, що більшість дзвінких звуків має тривалість 50...300 мс, процес коливань можна вважати до середини звуку цілком сталим і тому говорять про частоту тимчасової огинаючої процесу коливань, вимірюваної системами з невеликою сталою часу (не більше 1/50 с). При цьому розрізняють два основних аспекти основного тону: мелодію, що представляє собою зміну миттєвої частоти тону, та інтегральний розподіл миттєвої частоти тону. Можна сформулювати три основні особливості характеристик основного тону.

Першою особливістю є те, що основний тон голосу є майже періодичним процесом і, отже, має спектр, що складається з ряду груп складових. У кожній групі є складові, які розташовані на частотних інтервалах, близьких до інтервалів між гармоніками основного тону при тривалому його звучанні. Таке представлення про особливості основного тону не завжди правомірно, тому що тільки для деяких тривалих звуків можна говорити про встановлення процесу. У більшості ж випадків тривалість звучання основного тону невелика. Вважають, що якщо різниця в інтервалах не виходить за межі 10...15 %, то основний тон незмінний. Однак слух розрізняє таку зміну основного тону як характерну рису, за якою можна впізнати голос.

Другою особливістю основного тону є зміна в значних межах тривалості інтервалів під час вимови окремих фраз, а також наявність у багатьох людей різного основного тону для вимови тих чи інших фраз. Перше явище називається мелодією основного тону. Вона характерна, наприклад, для питальних і окличних речень. За цією особливістю можна впізнати голос людини, що говорить.

Третьою особливістю основного тону є швидка зміна його інтервалів, особливо при переходах від голосного до приголосного, і навпаки. Якщо ввести поняття швидкості зміни основного тону, то виявляється, що вона доходить до 6000 Гц/с.

Розглянуті вище характеристики основного тону допомагають краще зрозуміти процес тимчасової компресії мовного сигналу. На відміну від спектрограми голосних звуків багато приголосних звуків за своїми властивостями наближаються до шумів, а, отже, не мають періодичності. Однак і в цьому випадку деякі параметри коливання на невеликому відрізку часу залишаються постійними.

Для розпізнавання звуків необов’язково передавати їх протягом всього інтервалу часу мовного повідомлення. Щоб зрозуміти звук мови, потрібно інтервал часу близько 10 мс. Отже, скорочення часу передачі можливо шляхом усунення тимчасової надмірності. Дослідження показують, що можна скоротити половину чи навіть більше половини загальної тривалості передачі при збереженні досить високої розбірливості.

В роботі запропонований метод тимчасової компресії мови, синхронної з частотою основного тону. Тут із сигналу, що надходить, виділяється частота основного тону і замикає канал передачі сигналу в момент найбільш слабких коливань на час, рівний трьом періодам основного тону, після чого канал відкривається на один період основного тону і т. ін.

На приймальному кінці є лінія затримки з паралельними послідовними ланками, керована імпульсами основного тону. Сумарний сигнал від відповідних ланок лінії затримки представляє безупинний сигнал.



Поделиться:


Последнее изменение этой страницы: 2016-08-16; просмотров: 432; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.146.255.87 (0.008 с.)