Краткая теория звука, основные характеристики 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Краткая теория звука, основные характеристики



Краткая теория звука, основные характеристики

Звуковая волна - это колебания воздуха, передающиеся в пространстве; ещё это можно назвать: перепады давления в воздухе. Если мы возьмем лист бумаги и начнем им махать на человека, то в тот момент, когда лист движется вперед - он «гонит» воздух перед собой (давление воздуха больше), а когда назад – отгоняет воздух (давление меньше) – это и есть перепады давления. А если мы начнем махать листом несколько десятков раз в секунду, то эти колебания можно будет уловить ухом. Колебания воздуха улавливаются барабанной перепонкой – слуховым органом человека.

Давайте представим себе, каким образом происходит распространение звуковых волн в пространстве. В результате каких-то возмущений (например, в результате колебаний диффузора громкоговорителя или гитарной струны), вызывающих движение и колебания воздуха в определенной точке пространства, возникает перепад давления в этом месте, так как воздух в процессе движения сжимается, в результате чего возникает избыточное давление, толкающее окружающие слои воздуха. Эти слои сжимаются, что в свою очередь снова создает избыточное давление, влияющее на соседние слои воздуха. Так, как бы по цепочке, происходит передача первоначального возмущения в пространстве из одной точки в другую. Этот процесс описывает механизм распространения в пространстве звуковой волны. Тело, создающее возмущение (колебания) воздуха, называют источником звука.

Привычное для всех нас понятие «звук» означает всего лишь воспринимаемый слуховым аппаратом человека набор звуковых колебаний. О том, какие колебания человек воспринимает, а какие нет, мы поговорим позднее. Звуковые колебания, а также вообще все колебания, как известно из физики, характеризуются амплитудой (интенсивностью), частотой и формой звуковой волны.

Амлитуда звуковой волны влияет на громкость звука, т.е. чем больше амплитуда – тем громче звук.

Частота звука - количество перепадов или колебаний в 1-ну секунду. Среднестатистический человек способен различать частотные составляющие звука в пределах от 20 Гц до ~20 КГц (верхняя и нижняя граница может колебаться в зависимости от возраста человека и других факторов).

Частотный диапазон

  • низкие частоты(20 Гц – 500 Гц) - их ещё называют «басы» - bass. К низким частотам можно отнести звучание барабанов = ударных, бас гитары или контрабаса.
  • средние частоты(500 Гц – 5000 Гц) – middle. Человеческая речь, большинство музыкальных инструментов. Ухо человека наиболее восприимчиво именно к этим частотам.
  • высокие частоты (5000 Гц – 20000 Гц) - treble. Писк комара, скрипка, пение птичек: писк, свист, визг.

Частоты ниже 20 Гц называются инфразвуком, человеческое ухо их не слышит, но может воспринимать на подсознательном уровне (при определенной чатоте и мощности звука может возникать волнение и паника). Частоты чуть ниже 20 Гц слышит не само ухо, а вибрации передаются на все тело, вспомните свои ощущения, если чтоять рядом с колонкой на концерте или дискотеке, басы,как говорят «бьют в живот».

Частоты выше 20 кГц называются ультразвуком, человек их не слышит, но такие частоты часто слышать животные (вспомним свисток для отпугивания акул, мы его не слышим, а у акулы он вызывает неприятные ощущения).

Форма звуковой волны – влияет на характер звука или его тембр. Что бы было понятней: одну и туже ноту мы можем взять как на пианино, так и на электрогитаре. Громкость и частота будут одинаковые, но из-за разной формы волны тембр звука будет разный.

Источники звука

Как мы уже выяснили, звук – это слышимые человеком колебания, распространяющиеся в пространстве. Что же представляет собой звук в аудио аппаратуре?

В звуковой аппаратуре звук представляется либо непрерывным электрическим сигналом, либо набором цифр (нулей и единиц). Аппаратура, в которой рабочий сигнал является непрерывным электрическим сигналом, называется аналоговой аппаратурой (например, бытовой радио приемник или стерео усилитель), а сам рабочий сигнал – аналоговым сигналом.

Для преобразования этого электрического сигнала в слышимый звук служат колонки или наушники, внутри которых используется излучатель звука какой либо конструкции. Самым распространенным решением является динамическая головка или, как ее чаще называют «динамик».

При подаче электрического сигнала акустической (звуковой) частоты на выводы катушки на её полюсах возникает магнитное поле, которое взаимодействует с полем постоянного магнита, в результате чего катушка вместе с диффузором перемещается в зазоре относительно постоянного магнита, создавая звуковые колебания.

Есть еще несколько конструкций звуковых излучателей (арматурные, пьезоэлектрические и тд.), но мы не будем их рассматривать, т.к. они довольно редки. Во всех наушниках, что у нас продаются используются миниатюрные динамические излучатели.

Наушники

Характеристики наушников

У наушников есть несколько основных характеристик, которые напрямую влияют на звук.

Частотный диапазон – тот диапазон частот, которые воспроизводят наушники. Теоретически, если наушники воспроизводят частоты от 20 до 20000 Гц – то этого хватит любому человеку, т.е. будут воспроизводиться и басы и верхние частоты (наушники перекрывают диапазон человеческого уха), но на деле все так просто. Производитель может заявить, что нижняя частота наушников 20 Гц, но на деле эти частоты (самые басы) наушники воспроизводят настолько тихо, что ухо их не слышит. Понять, как так может быть очень просто: возьмите наушники, включите музыку, но наушники не вставляйте в уши. Вы услышите только писк из наушников (средние и высокие частоты), но если наушники одеть, то появятся басы, хотя раньше вы их не слышали. Т.е. производители не врут, когда указывают нижнюю частоту, например, в 5 Гц, наушники это воспроизводят, но так тихо, что нам от этого ни горячо, ни холодно. Зависимость амплитуды (громкости) от частоты звука называют Амплитудно-частотной характеристикой. Ее иногда рисуют на упаковке наушников, в советские времена часто изображали прямо на звуковой колонке. Изображается она в виде графика, например такого:

По нему ясно, что акустическая система имеет наименьшие искажения в полосе частот от 100 до 10 000 Гц. Человеческая речь имеет диапазон от 80 до 10 000 Гц, а, к примеру, диапазон симфонического оркестра от 30 до 20 000 Гц. Отсюда видно, что данная акустическая система пригодна в лучшем случае для прослушивания человеческой речи. Разумеется, это не говорит о том, что музыку, исполняемую симфоническим оркестром, нельзя будет слушать на данной системе. Просто такое звучание будет ненатуральным. Поэтому в принципе, можно особо не смотреть на эту характеристику при выборе наушников, любые наушники стоимостью более 20$ обладают вполне приемлемым звучанием, которое подойдет многим пользователем портативной аудиотехники. Если вам в наушниках не хватает например басов (низких частот), то это практически всегда можно исправить с помощью эквалайзера.

Эквалайзер - Equalizer или просто EQ Возможность управлять громкостью звучания определённых частот. Существует 2 основных типа эквалайзера:

Предустановленный

пользователь может выбрать один из предустановленных вариантов (шаблонов): стандартный (normal) – без изменений, джаз (jazz), рок (rock), где подчеркиваются (увеличивается громкость) низких и высоких частот; классика (classic), поп (pop). Каждая предустановка оптимизирует (или адаптирует) звучание плеера для определенного музыкального жанра. Производители (каждый по-своему) под этими настройками предполагают свой стиль звучания. Пользователю не нужно настраивать – достаточно выбрать.

Пользовательский или USER

пользователь настраивает звук на своё усмотрение/вкус: убавляет или прибавляет громкость высоких, средних или низких частот. Если можно изменить только высокие (treble) и низкие (bass) частоты – такой эквалайзер называют 2-х полосным; если высокие, средние (middle) и низкие – 3-х полосным. Есть эквалайзеры, где каждая полоса задана частотными пределами, например: 16Гц – 100Гц, 100Гц – 500Гц, 500Гц – 5КГц, 5КГц – 10КГц, 10КГц – 20КГц – это 5-и полосный.

Предустановленный эквалайзер есть в любом современном плеере, в большинстве плееров есть еще и пользовательский, что расширяет возможные настройки звучания плеера.

Сопротивление

Сопротивление наушников измеряется в Омах и составляет от 16 до нескольких сотен Ом. В наушниках арматурной конструкции сопротивление может быть меньше 16 Ом. Большинство плееров рассчитаны на нагрузку в 16 Ом. Если подключить к ним наушники с большим сопротивлением, то наушники будут звучать тише, будет сильнее расходоваться заряд аккумулятора, но звук будет чище, т.е. с меньшим количеством искажений. Т.е. можно сказать, что сопротивление влияет на громкость наушников и качество звука (но тут все зависит от конкретной модели наушников).

Чувствительность

Это отношение громкости воспроизводимого звука к мощности входного сигнала, измеряется в дБ/мВт, иногда просто в дБ. Если написано, что чувствительность наушников составляет 100 дБ/мВт, это значит, что при подаче 1 мВт мощности, они выдают громкость в 100 дБ. Т.к. дБ – величина нелинейная, то разница в громкости между наушниками в 100 и 105 дБ/мВт будет очень существенная. Для портативной техники рекомендуется выбирать наушники с чувствительностью не менее 100 дБ, если будут меньше, то вы просто в них практически не услышите музыки, они будут очень тихо играть, т.е. такие наушники можно использовать только со стационарной аппаратурой, где запас мощности очень большой. Итог-чувствительность это основная характеристика, влияющая на конечную громкость наушников. Такой же параметр есть у колонок, но там значения ниже, в среднем около 90 дБ.

Диаметр мембраны

Диаметр динамика, встроенного в наушники влияет на количество искажений и общее качество звука. Т.е. намного проще сделать качественные наушники с большим диаметром мембраны, чем с маленьким. Именно поэтому профессиональные наушники очень большие, у них внутри динамик с большой мембраной, дающий очень маленькие искажения. Не надо думать, что все наушники с большой мембраной качественные, это не так, просто качественные наушники с большой мембраной сделать намного проще. Есть наушники-затычки стоимостью более 500$, дающие очень качественный звук, но за меньшие деньги можно купить большие мониторные наушники с выдающимся звучанием.

Это основные характеристики наушников. Есть еще, например, максимальная входная мощность, материал провода и тд., но это неважно, если наушники нужны для использования с плеером. Даже если все вышеперечисленные характеристики вас устраивают, для окончательного выбора наушники нужно слушать, потому что сам характер звука, которые они выдаю нельзя выразить никакими цифрами.

Некоторые виды наушников

Наушники делятся на два больших класса: открытые и закрытые. Открытые – это такие наушники, у которых сзади есть отверстия, через них могут проникать внешние звуки. Из недостатков стоит отметить, что из-за отверстий часть звука выходит наружу и слышно, что играет у вас в плеере, с другой стороны – меньше шансов попасть под машину, т.к. большая часть внешних звуков слышна.

Закрытые наушники не имеют отверстий на корпусе и вся музыка идет только в ухо. Из достоинств стоит отметить отличную шумоизоляцию (внешних звуков практически не слышно), большую отдачу на басах, но в таких наушниках сильно устает ухо и музыку в них несколько часов не послушаешь.

Нельзя сказать какие наушники лучше по звуку (все зависит от конкретной модели), если требуется большая звукоизоляция, то выбираем закрытые наушники, если наушники нужны для домашнего использования (например с компьютером), то разумнее выбрать открытые наушники, т.к. в них меньше устаешь.

По способу ношения наушники принято разделять на следующие виды:

Мониторные – самые большие наушники, чашка с динамиком полностью закрывает ухо (динамик имеет большой размер). В основном такие наушники рассчитаны на использование со стационарной техникой, поэтому для достижения отличного качества звука имеет относительно низкую чувствительность и большое сопротивление (иногда несколько сотен Ом). Из особенностей стоит отметить кабель длиной 3-5 метров, т.е. мониторных наушников с коротким кабелем не бывает.

Накладные – средние наушники, динамик в среднем диаметром около 30 мм и просто прикладывается к уху каким либо способом. Это может быть и верхняя дужка, и задняя дужка и просто заушины, в общем способов много. Такие наушники звучат часто очень приятно, от них не сильно устают уши. Но у них плохо с шумоизоляцией, т.к. динамик невозможно очень плотно прижать к уху. Обладают средним сопротивлением в 32 Ома и чувствительностью около 100 дБ.

Вставные (затычки) – динамик наушника вставляется непосредственно в ушной канал. Самые маленькие наушники, рассчитаны на использование с портативной техникой, поэтому имеют в большинстве случаев сопротивление в 16 Ом и обладают высокой чувствительностью (не менее 100 дБ). У них всегда короткий провод (не более метра). Из-за малых размеров излучателя недорогие модели обладают очень неровной АЧХ, поэтому звучание таких наушников часто не очень достоверно (слишком выпирают определенные частоты и настройками эквалайзера это очень сложно исправить).

Подключаются наушники к источнику звука в большинстве случаев проводом с разъемом. Основные типа разъемов под наушники:

Jack – диаметр 6,3 мм. Применяется в профессиональной или устаревшей технике. Мониторные наушники часто оснащены именно таким разъемом или имеют переходник на него.

miniJack – диаметр 3,5 мм. Самый распространенный разъем для наушников, применяется практически везде.

microJack – диаметр 2,5 мм. Применяется из-за своих компактных размеров в мобильных телефонах и некоторых плеерах. С помощью переходника можно подключать обычные 3,5 мм наушники.

Необычные наушники – иногда наушники оснащаются какими-либо необычными функциями. Например, из-за того, что глубокий бас чувствуется всем телом, то для усиления ощущений выпускаются наушники с вибромотором. При сильных басах он работает и усиливает ощущения. При прослушивании музыки он не используются, а вот например при игре в компьютерные игры – иногда применяются. Очень необычно будут например ощущаться взрывы и другие эффекты.

Так же существую наушники с активной системой шумоподавления. Устроены они несложно, в наушниках есть микрофон, специальная схема и элементы питания. Микрофон улавливает внешние шумы, схема эту шумовую волну, но в противофазе подает на наушники. Из курса физики известно, что если сложить волну и эту же волну в противофазе, то на выходе получится нулевой сигнал, т.е. внешних шумов вообще слышно не будет. Есть и оборотная сторона медали: при использовании такой системы приглушаются верхние частоты, т.е. такая система негативно сказывается на звуке. Компания Sony такую систему встроила в сам плеер, а в наушники встроила микрофон, т.е. с комплектными наушниками система активного шумоподавления работает, а с неродными – не работает.

Беспроводные наушники

Беспроводные наушники бывают нескольких видов:

Радионаушники – сигнал от базы к наушникам передается с помощью обычных аналоговых радиоволн, поэтому возможны помехи (например от работающего пылесоса) и такие наушники не могут выдавать качественный звук, поэтому их основное применение - это использование с телевизором, где изначально звук не особо качественный.

Bluetooth наушники – самый распространённый тип беспроводных наушников. Практически полное отсутствие помех, малое энергопотребление способствовали распространению данного типа наушников. В плееры иногда встраивают модуль Bluetooth, что еще более удобно. Но у таких наушников есть недостаток: при передаче музыки звуковая информация дополнительно сжимается, что негативно сказывается на качестве звука. Помимо Bluetooth иногда применяется другой протокол беспроводной связи, чтобы обеспечить лучшее качество звука, но такие наушники пока редкость.

 

Носители звуковой информации

Носители звуковой информации делятся на 2 больших класса: цифровые и аналоговые. Аналоговые носители – это виниловая пластинка, магнитная пленка. У аналоговых носителей есть большой недостаток – чем чаще мы слушаем музыку на них, тем быстрее они изнашиваются (грампластика стирается и начинает сильно потрескивать, пленка размагничивается и начинает сильно фонить плюс у нее сужается диапазон воспроизводимых частот). Поэтому при разработке цифровых носителей стоял вопрос о независимости качества звука от количества проигрываний. В середине 70-х придумали технологию записи на оптический диск, а в самом начале 80-х компании Sony и Philips выпускают всем известный Compact Disc. Как же он устроен: Сам компакт-диск имеет диаметр 120 мм (примерно в 3 раза меньше обычной грампластинки), толщину 1,2 мм, массу 10 г. Запись на диск выполняется только на одной стороне. Воспроизведение компакт-диска осуществляется на специальном проигрывающем устройстве, где вместо иглы применен лазерный луч.

Внешне поверхность компакт-диска блестящая, как зеркало (хотя бывают и с темной поверхностью), совершенно гладкая, без каких-либо канавок. Если взглянуть в микроскоп, то станут заметны мельчайшие продолговатые углубления (питы, от буржуйского pit - ямка, углубление), образующие дорожку записи. В разрезе диск показан на рис. Он состоит из пластмассовой прозрачной подложки 1, несущей информацию, алюминиевой отражающей пленки 2, нанесенной на подложку, лакового непрозрачного защитного слоя 3 с этикеткой. Цифрой 4 обозначены питы, образующие дорожку записи.

 


Дорожка записи с питами находится внутри диска и предохранена от повреждения, направлена по спирали от центра к краю диска. Всего концентрических дорожек с информацией около 20 000, общая длина примерно 5 км. Информация с диска считывается бесконтактным способом с помощью лазерного луча. Вопрос о сохранности пластинки, как уберечь её от "запиливания" отпадает сам собой, т.к. физический контакт со считывающей головкой отсутствует.

Компакт-диск не боится пыли, отпечатков пальцев (в разумных пределах), мелких царапин. Все дело в том, что если на информационном слое диска луч фокусируется в пятно размером около одного микрона (1 мкм), то на наружной поверхности диска размер его возрастает в тысячу раз - до 1 мм и мелкие дефекты на поверхности диска луч просто не замечает (рис. 2).

 

На CD помещается 700 Мб информации или 74 минуты музыки (почему именно так – разберем немного позднее). С течением времени разработки продолжались и в 90-х годах появились диски большего объема – DVD. На него уже помещалось 4,7 Гб информации, появилась возможность добавить второй слой для записи (т.е. один из них – полупрозрачный), что позволило увеличить полезную емкость до 9 Гб (сейчас часто применяется для записи лицензионных DVD-фильмов). Так же часто можно встретить двухсторонние диски, т.е. его надо переворачивать и считывание информации происходит с другой стороны диска. Увеличение емкости стало возможным в основном за счет использования более тонкого лазерного луча (синий лазер). Однослойный односторонний диск с DVD-фильмом обозначают как DVD5, двухслойный односторонний – DVD9, а двухсторонний – DVD10.

Далее для записи фильмов на диск в HD качестве стали разрабатывать диски еще больше емкости HD-DVD (Toshiba) и Blu-Ray (Sony). Диски HD-DVD сейчас больше не выпускаются, но их емкость была 15 Гб, а Blu-Ray 25 Гб (это однослойный односторонний диск). Это стало возможным из-за использования так называемого «голубого» лазера, который еще более тонкий. На такие диски помимо фильма в HD-качестве помещается еще несколько высококачественных звуковых дорожек (лучше качество звука, чем в DVD) и множество дополнительных материалов.

Цифровой звук, оцифровка звука

Оцифровка звука осуществляется Аналого-цифровым преобразователем (АЦП). Технология оцифровки в принципе проста: замеряется амплитуда аналогового сигнала (через определенные промежутки времени), а при воспроизведении амлитуда восстанавливается по полученным точкам (это делает уже Цифро-аналоговый преобразователь).

 

 

У цифрового звука есть несколько основных характеристик:

Частота дискретизации (кГц) — частота, с которой АЦП измеряет оцифровываемый аналоговый сигнал, поданный ему на вход извне. Другими словами, это количество промеров входящего аналогового сигнала, выполняемых за одну секунду. Соответственно, и при воспроизведении оцифрованного звука он выдаётся из файла или звукового компакт-диска на ЦАП с той же частотой, с какой был промерен и записан. Для звуковых компакт-дисков этот параметр равен 44,1 кГц.

Битность или битность счетчика (бит) — количество бит, которое отводится на хранение результата каждого промера. Для записей на звуковых компакт-дисках этот параметр равен 16 битам. Таким образом, громкость сигнала на звуковом компакт-диске может иметь до 65535 градаций.

Помимо Audio CD существую более продвинутые аудио форматы. Их разработали, т.к. CD все таки не дает отличного звука, многие жалуются на жесткость звучания и недостаточный динамический диапазон (разница в громкости между самым тихим и самым громким звуком). Для аудиофилов разработали форматы DVD-Audio и Super Audio CD. В этих форматах звук оцифровывается с другими параметрами частоты дискретизации и битности. Занимают такие форматы больше места, поэтому записываются на DVD диски, так же они поддерживают многоканальность (о ней ниже). Разницу в качестве по сравнению с AudioCD можно будет услышать если только у вас музыкальный слух и очень, подчеркиваю ОЧЕНЬ качественная аппаратура для воспроизведения музыки.

 

Зная частоту дискретизации и битность можно вычислить битрейт – т.е. количество бит, приходящихся на секунду композиции или объем одной секунды композиции. Битрейт иногда называют потоком и влияет он только на конечный объем файла. Битрейт Audio CD составляет около 1400 кбит/с, т.е. каждая секунда записи «весит» 1400 кбит или 175 кбайт.

Форматы сжатия звука

По сути дела, та или иная цифровая форма представления аналоговых аудио сигналов уже является способом кодирования – последовательность чисел, описывающая аналоговый аудио сигнал, сама по себе является цифровым кодом. Однако кодирование, о котором мы будем сейчас говорить, - это нечто другое. Сейчас рассмотрим методы кодирования цифровых аудио сигналов.

Оцифрованный аудио сигнал «в чистом виде» является достаточно точной, но не самой компактной формой записи исходного аналогового сигнала.

Чтобы получить полную информацию об оригинальном аналоговом сигнале в частотной полосе от 20 до 20 кГц (в слышимом диапазоне частот), аналоговый сигнал необходимо дискретизовать с частотой не менее 40 кГц. Так, стандарт CD - DA (стандарт записи данных на привычных для всех аудио компакт-дисках) устанавливает следующие параметры кодирования: двух- или одноканальная запись в формате с частотой дискретизации 44.1 кГц и разрядностью квантования 16 бит. Один час музыки в таком формате занимает объем около 600 Мб (60 минут * 60 секунд * 2 канала * 44100 отсчетов в секунду * 2 байта на отсчет = около 605 Мб). Учитывая, что, например, музыкальная коллекция рядового любителя музыки вполне может насчитывать 5000 треков средней продолжительностью около 3 минут каждый, объем памяти, требуемый для ее хранения в исходном цифровом виде, оказывается очень внушительным. Поэтому хранение относительно больших объемов аудио данных, гарантирующее достаточно хорошее качество звучания, требует применения разных «ухищрений», позволяющих уплотнить данные.

Форматы цифрового звука можно разделить на 2 больших типа.

1. Сжатие данных без потерь (англ. «lossless coding») - это способ кодирования (уплотнения) цифровой аудио информации, позволяющий осуществлять стопроцентное восстановление исходных данных из сжатого потока (под понятием «исходные данные» здесь подразумевается исходный вид оцифрованных аудио данных). К такому способу уплотнения данных прибегают в случаях, когда требуется абсолютное, стопроцентное сохранение качества оригинального звучания аудио данных. Существующие сегодня алгоритмы беспотерьного сжатия позволяют сократить занимаемый данными объем на 20-50% и при этом гарантировать стопроцентное восстановление исходного цифрового материала из сжатых данных. Механизмы работы подобных кодеров сходны с механизмами работы архиваторов общих данных, таких, как, например, ZIP или RAR, но при этом адаптированы специально для сжатия аудио данных. Беспотерьное кодирование, хотя и идеально с точки зрения сохранности качества аудио материалов, но оказывается неспособным обеспечить высокий уровень компрессии. Самыми известными и распространенными форматами беспотерьного сжатия являются FLAC и APE. Они обеспечивают сжатие в среднем на 30%, т.е. если сжать обычный CD в формат FLAC, то битрейт будет вместо 1400 кбит/с, примерно 900 кбит/с, а качество соответственно остается исходным.

2. Существует другой, более современный путь уплотнения данных. Это так называемое сжатие данных с потерями (англ. «lossy coding»).Цель такого кодирования заключается в достижении любыми путями максимально высокого коэффициента компрессии данных при сохранении качества их звучания на приемлемом уровне. В основе идеи кодирования с потерями лежит два простых основополагающих соображения:

исходные цифровые аудио данные избыточны – они содержат много лишней, бесполезной для слуха информации, которую можно удалить, тем самым, повысив коэффициент компрессии;

требования к качеству звучания аудио материала могут быть разными и зависят от конкретных целей и сфер использования.

Кодирование с потерями потому и называется «с потерями», что приводит к утрате некоторой части аудио информации. Такое кодирование приводит к тому, что декодированный сигнал при воспроизведении звучит похоже на оригинальный, но фактически перестает быть ему идентичным. В основе большинства методов кодирования с потерями лежит использование психоакустических свойств слуховой системы человека, а также различных хитростей, связанных с переквантованием и передискретизацией сигнала. В частотности, в процессе компрессии аудио данные анализируются кодером на предмет выявления различных деталей звучания, которыми можно пренебречь. Замаскированные частоты, неслышимые и слабослышимые детали звучания – всем этим можно пожертвовать с целью достижения более высокого значения коэффициента компрессии. Там, где в звучании важна лишь разборчивость (например, в телефонии, где наличие частот выше 4 кГц не является необходимым), аудио информация в процессе кодирования подвергается серьезному «упрощению», что вкупе с использованием «умных» квантователей и удачных «жадных» алгоритмов компрессии данных позволяет достичь высочайших степеней компрессии (1: 50 и выше). Там, где качеству звучания предъявляются более высокие требования (например, в портативных и бытовых аудио устройствах), аудио материалы подвергают более щадящему кодированию. Надо отметить, что степень агрессивности кодера по отношению к деталям звучания может регулироваться (эта способность, впрочем, зависит от конкретной реализации). В среднем, современные кодеры даже при столь высокой степени компрессии, как 1: 10 позволяют обеспечить отличное звучание, качество которого средним слушателем на средней аппаратуре оценивается как равное качеству звучания исходных аудио данных.

Сегодня существует множество кодеров аудио данных, основанных на идее кодирования с потерями. Вот только некоторые из них: MPEG-1 Audio Layer 3 (всем известный как MP3), Windows Media Audio (WMA), Ogg Vorbis (OGG), MPEG-2/4 AAC и другие. Рассмотрим их поподробнее.

 

Форматы сжатия с потерями

MPEG-1 Layer 3

Известный сегодня фактически каждому пользователю компьютера под незамысловатой маркой «MP3» кодек MPEG-1 Layer 3 – это наиболее старый из всех распространенных на сегодня lossy-кодеков. Своим названием он обязан группе MPEG, которая занималась его разработкой и которая продолжает разрабатывать новые аудио и видео кодеки. О ней стоит упомянуть отдельно.

MPEG расшифровывается как «Moving Picture Coding Experts Group», дословно – «группа экспертов по кодированию подвижных изображений». Группа MPEG ведет свою историю с января 1988 года и занимается разработкой различных алгоритмов и стандартов кодирования аудио и видео информации. В собраниях MPEG принимают участие несколько сотен специалистов из более чем двухсот крупных и мелких компаний. При этом большая часть участников MPEG - это специалисты, занятые в тех или иных научных и академических учреждениях. На сегодняшний день группой MPEG разработаны следующие стандарты:

MPEG-1 (принят в ноябре 1992 г.) - стандарт кодирования, хранения и декодирования подвижных изображений и аудио информации;

MPEG-2 (принят в ноябре 1994 г.) - стандарт кодирования данных для цифрового телевещания;

MPEG-4 - стандарт для мультимедиа приложений (в его разработке еще далеко не поставлена точка);

MPEG-7 - универсализованный стандарт работы с мультимедиа информацией, предназначенный для обработки, компоновки и управления мультимедиа информацией.

Стандарт MPEG-1 представляет собой, по сути, целый комплект аудио и видео стандартов. Согласно стандартам ISO (International Standards Organization), аудио часть MPEG-1 включает в себя три алгоритма различных уровней сложности: Layer 1 (уровень 1), Layer 2 (уровень 2) и Layer 3 (уровень 3, называемый большинством просто «MP3»). Общая структура процесса кодирования одинакова для всех уровней MPEG-1. Вместе с тем, несмотря на схожесть уровней в общем подходе к кодированию, уровни различаются по целевому использованию и задействованным в кодировании внутренним механизмам. Для каждого уровня определен свой формат записи выходного потока данных и, соответственно, свой алгоритм декодирования. Алгоритмы MPEG-1 основаны в целом на изученных свойствах восприятия звуковых сигналов слуховым аппаратом человека.

Процедура кодирования аудио информации, вкратце, представляет собой следующий процесс. В начале кодирования входной цифровой аудио поток в формате WAV с помощью цифровых фильтров разделяется на несколько частотных полос. Дальнейший процесс зависит от Layer ' a.

В случае Layer 3 (то есть, в случае MP3) в каждой полосе сигнал раскладывается на частотные составляющие спектра. Спектр входного сигнала очищается от заведомо неслышных составляющих - низкочастотных шумов и наивысших гармоник. На следующем этапе производится психоакустический анализ кодируемого аудио материала в диапазоне слышимых частот. Вышеописанные процессы преобразования позволяют исключить из исходного аудио материала больше половины информации. На заключительном этапе кодирования производится сжатие уже готового потока данных (архивация).

Комплект MPEG-1 предусмотрен для кодирования аудио сигналов, оцифрованных с частотой дискретизации 32, 44.1 и 48 КГц. Три упомянутых выше уровня MPEG-1 различаются свой целевой направленностью, механизмами кодирования и, таким образом, обеспечивают различные степени сжатия. Так, например, аудио данные в формате [44.1 кГц / 16 бит / стерео], Layer 1 позволяет сохранить без особо ощутимых потерь качества при скорости потока (битрейте) 384 Кбит/с, что составляет 4-х кратный выигрыш в занимаемом данными объеме; Layer 2 обеспечивает субъективно такое же качество при 192 - 224 Кбит/с, а Layer III (MP3) - при 128-160. Нельзя говорить о выигрыше или проигрыше одного уровня перед другим, так как каждый уровень разработан для достижения своей собственной цели. Например, преимущество Layer 3 заключается в том, что фактически он позволяет сжимать информацию в 8-12 раз (в зависимости от битрейта) без сильно ощутимых потерь качества исходного звучания. При этом, однако, обеспечиваемая им скорость компрессии является самой низкой среди всех уровней. Layer 2 потенциально способен обеспечить более высокое качество кодирования в виду более «легкой» внутренней обработки сигнала в процессе преобразования. В то же время, Layer 2 не позволяет достичь таких высоких степеней компрессии, какие достигаются при использовании Layer 3.

Ogg Vorbis Одной из негативных сторон кодека MP3 являлась и является его коммерческая основа, заключающаяся как минимум в том, что каждый производитель, создающий новый программный или аппаратный MP3-кодер, обязан платить отчисления изобретателям кодека. Эта ситуация не могла не вызывать недовольство среди пользователей и разработчиков. Так появились независимые разработки в области компрессии аудио.

Кодек Ogg Vorbis вышел в свет в июне 2000 года. Он является частью проекта Ogg Squish, нацеленного на создание полностью открытой системы мультимедиа. Разработчиком проекта является группа, именующаяся Xiphophorus. В основе Ogg Vorbis лежат те же идеи, что и в основе MPEG-1 Layer II, при этом Ogg Vorbis использует свои собственные оригинальные математические алгоритмы, а также собственную психоакустическую модель, что освобождает его разработчиков от необходимости выплачивать какие-то лицензионные отчисления или производить иные выплаты сторонним фирмам-производителям. Кодек Ogg Vorbis, будучи созданным позже MPEG-1, является несколько более развитым. Он рассчитан на сжатие данных на всех возможных битрейтах без ограничений, от 8 Кбит/с до 512 Кбит/с. Кодер позволяет хранить внутри файлов-контейнеров подробные комментарии об исполнителе и названии композиции, а также предусматривает возможность кодирования нескольких каналов аудио (более двух), возможность редактирования содержимого файлов и поддержку техники «масштабируемых битрейтов» - возможности изменения битрейта аудио потока без необходимости его декодирования. Стоит отметить, что при кодировании в этот формат нет возможности выставить битрейт, можно выставить только уровень качества от 1 до 10, соостветственно 10- наивысшее качество, но и объем файла тоже будет довольно большой.

 

Windows Media Audio (WMA) Кодек Windows Media Audio (сокращенно WMA) является сегодня собственной разработкой компании Microsoft и успешно ею продвигается. Изначально, кодек WMA разрабатывался фирмой Voxware и имел название Voxware Audio Codec, однако впоследствии компания забросила его доработку, остановившись на v4.0. Разработки Voxware были выкуплены компанией Microsoft, серьезно доработаны и представлены общественности в виде аудио кодека под названием Windows Media Audio (сокращенно WMA).

Если кодек MP3 был изначально стандартизован на предмет разрешенных значений битрейтов и других основных параметров, то WMA изменялся параллельно своему становлению и развитию. На сегодняшний день существует несколько версий кодека WMA: v1, v2, v7, v8 и v9. Внутреннее устройство и механизмы кодирования кодека держатся компанией Microsoft в секрете, однако, опираясь на результаты некоторых тестов, можно предположить, что идеи, легшие в основу WMA, не сильно отличаются от идей, на которых базируются методы MPEG-1.

AAC (Advanced Audio Coding) Группа MPEG, конечно, не удовлетворилась разработкой аудио кодека, включенного в стандарт MPEG-1. Исследования в области кодирования аудио продолжались и вылились в создание новых стандартов кодирования аудио от MPEG.

Общий стандарт MPEG-2 разрабатывался специально для кодирования телевизионных сигналов. В апреле 1997 комплект MPEG-2 получил «продолжение» в виде алгоритма MPEG-2 AAC (MPEG-2 Advanced Audio Coding – продвинутое аудио кодирование).

Так же, как и в комплекте аудио стандартов MPEG-1, в основе алгоритма AAC лежит психоакустический анализ сигнала. Вместе с тем, алгоритм AAC имее



Поделиться:


Последнее изменение этой страницы: 2020-12-09; просмотров: 179; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.221.15.15 (0.064 с.)