Средний уровень спектра речи и динамический диапазон разговорной речи 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Средний уровень спектра речи и динамический диапазон разговорной речи



Речевые сигналы ограничены частотным диапазоном 100 — 10000 Гц и уровнями от 50 до 80 дБ. При этом основные голосо­вые тоны составляют диапазон частот 100 — 250 Гц. Энергия глас­ных фонем сосредоточена главным образом в диапазоне 200 — 1500 Гц, а энергия согласных звуков — в диапазоне 1000 — 6000 Гц. На частотах 200—1000 Гц содержится максимальная энергия зву­ков речи (гласные звуки), которая уменьшается примерно по 5 — 8 дБ на октаву при расширении речевого диапазона частот от 100 до 6000 Гц (см. рис. 21).

Фонемы отличаются не только по частотному составу, но и по уровню; гласные фонемы имеют большую интенсивность, чем согласные. Различия уровней гласных и согласных звуков дости­гают 25 — 30 дБ. Интенсивность речи обычно выражают через ус­ловный эквивалентный уровень, время суммирования которого составляет не менее 60 с (Р. Герлих, 1960). Средний или экви­валентный уровень речи может быть приближенно определен с помощью прецизионного шумомера измерением в режиме «бы­стро» или «медленно» с усреднением регистрируемых максималь­ных значений (соответственно за вычетом 3 дБ или с добавлени­ем 2 дБ).

Пиковые амплитуды изменения речи приблизительно на 12 дБ выше, а минимальные «провалы» примерно на 18 дБ ниже сред­него уровня речи. Диапазон изменения УЗД звуков речи в среднем равен 30 дБ. Наибольшие отклонения мгновенных пиковых значе­ний обнаруживаются на более высоких частотах. Так, для области средних частот наибольшие различия между максимальными и минимальными мгновенными значениями уровня речи составля-


100 200 500 1000 2000 5000 10000

Частота, Гц :••-

Рис. 21. Область звуков речи и средний уровень спектра речи "''''.

ют приблизительно 14—16 дБ, а для частот 2000 — 4000 Гц они достигают 30 — 35 дБ (Г.Фант, 1970).

Разборчивость речи

Распознавание речи, как следует из многочисленных эксперимен­тальных и теоретических исследований, по-видимому, происходит последовательно в два этапа. Сначала слуховая система осуществляет перевод простых физических или акустических признаков речево­го сигнала в дискретный ряд фонем. На втором этапе происходит непосредственный перевод фонем в языковую единицу (А. И. Со­ловьева, 1972; Н.А-Позин и др., 1972; И.А.Вартанян, 1978).

Чтобы речь была услышана, ее уровень должен быть выше по­рога слышимости или порога обнаружения. Только в этом случае слушающий начинает различать отдельные слова.


Основным методом количественной оценки разборчивости ре­чевых сигналов является артикуляционный метод, согласно кото­рому определяют количество слогов, слов или предложений, про­изнесенных диктором или записанных на магнитный носитель и правильно повторенных слушателем. Разборчивость речи выража­ют через коэффициент разборчивости или в процентах.

Многочисленными экспериментами установлено, что с повы­шением интенсивности речевых сигналов их разборчивость повы­шается. Пороги разборчивости зависят как от фонемного состава речевого материала и количества слогов в слове, так и от частоты их употребления, а также от наличия и характера шумовой поме­хи. Разборчивость речи зависит не только от морфологических, синтаксических и лингвистических особенностей речевого мате­риала, но также и от акустических условий и других физических факторов, влияющих на качество звука и его воспроизведение.

Оценка спектрального состава, а также амплитудных соотно­шений периодических звуков — наиболее важный ключ для рас­познавания речи. Хотя речевые сигналы содержат частоты от 500 до 10000 Гц, однако в реальных условиях человек обычно воспринимает их в более узком диапазоне частот. Так, при разгово-I ре по телефону достаточно высокая разборчивость речи обеспечи­вается при сохранении только части частотного диапазона, на-| пример от 300 до 3500 Гц.

Эксперименты по разборчивости речи, пропущенной через I фильтры низких и высоких частот, позволили установить влияние различных участков частотного диапазона на качество звучания речи и разборчивость (Д. Ликлайдер, Д.Миллер, 1963; М.М.Эф-| русси, 1975). Результаты этих исследований показали, что частоты выше 3400 Гц практически не вносят вклада в разборчивость, поскольку диапазон частот от 100 до 3400 Гц обеспечивает более 90 % разборчивости речи.

На разборчивость речи влияют также ее амплитудные ограни­чения. Типичным амплитудным искажением является клиппиро-вание звуковых сигналов. При этом если ограничение пиковых ам­плитуд сигнала составляет 0 —20 дБ от их максимальных значе­ний, то разборчивость речи уменьшается незначительно и снижа­ется до 90 — 96 % по сравнению с разборчивостью речи без клип-пирования. Если же амплитуды речевого сигнала ограничиваются от 20 до 50 дБ, то разборчивость речи снижается до 70 % и остает­ся на этом уровне практически до бесконечного клиппирования (Д.Ликлайдер). При этом форма сигнала становится практически прямоугольной с различными длительностями и интервалами между импульсами.

Один из видов амплитудных искажений — центральное огра­ничение речевого сигнала: форма пиковых значений сигнала со­храняется, но исключается информация о местах и времени пе-


ресечения звуковой волны с центральной осью. Именно такие виды искажений вызывают резкое снижение разборчивости речи. Однако наибольшее ее снижение происходит при суммации раз­ных видов амплитудных искажений.

На форму речевого сигнала также влияет время реверберации, определяемое акустическими условиями помещений. С его повы­шением, начиная от 0,4 до 5 с, разборчивость речи снижается. Так, при увеличении времени реверберации от 2 до 8 с разборчи­вость речи понижается от 60 до 20 %.

Помимо указанных факторов на разборчивость речи влияет так­же скорость воспроизведения или произнесения говорящим сло­гов или слов. Нормальная скорость воспроизведения речи состав­ляет 100—140 слогов в минуту; разборчивость заметно снижается, если скорость воспроизведения достигает 180 — 200 слогов в ми­нуту. Искажения возникают, если не совпадают скорость воспро­изведения и скорость записи. При этом меняется тембровая ок­раска речевых звуков, что обусловлено изменением спектрально­го состава речи.

Аналогичные искажения речи происходят и при сдвиге спектра речевого сигнала в сторону высоких или низких частот (Ю. В. Кры­лов и др., 1980; Д.Ликлайдер, Д.Миллер, 1963). Такой вид час­тотных искажений иногда наблюдается при передаче и приеме речевых сигналов через приемопередающие системы. Линейный сдвиг спектра речи приводит к резкому нарушению ее разборчи­вости. При этом потеря разборчивости пропорциональна величи­не сдвига спектра речи.

Вопросы и задания

1. Дайте определение понятия «звук».

2. Какую форму имеет звуковая волна?

3. От чего зависят сила и интенсивность звука?

4. На какие группы можно разделить звуки?

5. Дайте определение понятия «область звукового восприятия».

6. В каких единицах принято выражать силу и частоту звука?

7. Дайте определение понятия «слуховая чувствительность».

8. Что такое маскировка? Какой звук является маскирующим?

9. Назовите преимущества бинаурального слуха.

10. Чем отличаются гласные звуки от согласных с точки зрения акус­тики?

11. Каков частотный диапазон речевых сигналов? Каков диапазон ос­новных голосовых тонов.

12. В каких диапазонах сосредоточена энергия гласных фонем, энер­гия согласных звуков?

13. От чего зависит разборчивость речи?


Глава 3



Поделиться:


Последнее изменение этой страницы: 2017-01-19; просмотров: 914; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 35.170.66.78 (0.006 с.)