Единый (общий) стандарт midi ( general midi ) 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Единый (общий) стандарт midi ( general midi )



Ввод стандарта MIDI позволял музыкантам создавать аран­жировки, используя любые инструменты MIDI, имевшиеся в на­личии. Но когда созданные файлы проигрывались на другом синтезаторе, не было никакой гарантии, что звучание будет тем же самым, потому что различные изготовители могли назначить инструментам различные номера программ, так что фортепьяно, записанное на одном синтезаторе, может прозвучать как труба на другом и пр.

В сентябре 1991 г. Ассоциация изготовителей MIDI (MMA) и Японский комитет стандартов MIDI (JMSC) положили начало новому этапу в технологии MIDI, приняв стандарт «Общая Система MIDI, уровень 1» (General MIDI System Le­vel 1 — GM или GM1). Спецификация разработана, чтобы обес­печить необходимый уровень совместимости функционирования инструментов MIDI.

GM 1. Спецификация налагает ряд требований на совмести­мые звукогенерирующие устройства (клавиатура, звуковой мо­дуль, звуковая плата, программные продукты), включая:

• минимум 24 канала («голоса») должно быть доступно одно­временно для звуков мелодии и ударных инструментов, или 16 каналов для мелодии плюс 8 для ударных;

• поддерживаются все 16 каналов MIDI, каждый из которых способен воспроизвести различное число голосов (полифо­ния) или различные инструменты (звук, аккорд, тембр);

• минимум 16 различных тембров может выполняться одно­временно, воспроизводя различные инструменты. Поддер­живается как минимум 128 предварительно настроенных инструментов (номера MIDI-программ), соответствующих

Инструментальной карте GM1 (GM1 Instrument Patch Map), и 47 звуков ударных, которые соответствуют Карте ударных GM1 (GM1 Percussion Key Map). Ме­лодический набор состоит из 16 групп инструментов по 8 в каждой группе (фортепиано, органы, струнные, духовые гитары, и т. п.).

За всеми инструментами были закреплены конкретные но­мера, поэтому мелодия, записанная в GM, будет похоже звучать на разных GM-синтезаторах. GS (General Synthesizer) — стан­дартный набор тембров фирмы Roland, включает дополнительно к General MIDI новые наборы мелодических и ударных инстру­ментов, различные эффекты (скрип двери, звук мотора, крики и т. п.), а также дополнительные способы управления инстру­ментами через MIDI-контроллеры. Многие звуковые карты поддерживают GM по умолчанию, a GS — в порядке расшире­ния.

Стандарт XG (Extended General) фирмы Yamaha включает несколько сотен мелодических и ударных инструментов, приме­няемых профессиональными музыкантами. XG содержит зна­чительно более развитые средства управления синтезом, чем GM и GS. Любой MIDI-канал может быть независимо от дру­гих установлен в режим мелодических или ударных инструмен­тов. Использование стандарта XG позволяет создавать перено­симые MIDI-файлы со звучанием, приближенным к профес­сиональному.

Форматы записи-воспроизведения аудиосигналов

Формат МРЗ

МРЗ — сокращение от MPEG Lауег3. Это один из основных цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирова­ния по сравнению с двумя другими и обеспечивает более высо­кое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования Audio CD.

Высокая степень компактности МРЗ при сохранении качества звучания достигается с помощью дополнительного квантования по установленной схеме, позволяющей минимизировать по­тери качества.

Степень сжатия и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользовате­лем при задании параметров кодирования. Ширина потока, или битрейт (bitrate) может изменяться от наибольшего для МРЗ (320 кбит/с) до 96 кбит/с и даже ниже. Термин битрейт обозначает общую ширину потока, независимо от того, монофо­нический или стереофонический сигнал он содержит.

При испытаниях опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодирован­ного в МРЗ с коэффициентом сжатия 6: 1, т. е. с битрейтом в 256 кбит/с.

Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирова­ния. Объективно и 256 кбит/с не дает возможности осуществить полностью обратимое кодирование, то же самое можно сказать и про наивысший битрейт — 320 кбит/с, но отличия от CD Audio, по которому кодируется тестовый МРЗ, сравнимы с отличиями самого CD Audio от исходного высококачественного сигнала, из которого он был получен путем оцифровки.

Поэтому самое большое на сегодня преимущество МРЗ перед другими подобными форматами состоит в том, что ни про один другой формат нельзя пока уверенно сказать, что он полностью гарантирует устойчивое сохранение качества звучания на доста­точно высоких битрейтах, или что для него написано такое же множество удобного программного обеспечения, как для МРЗ.

Файл формата МРЗ (обычно используется расширение *. mp3) может также содержать информацию о файле непосредственно в заголовке: имя исполнителя, графику (альбом диска), KL для дальнейшей информации, текст песни и т. д.

Процесс кодирования. Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из которых кодируется отдельно и помещается в конечный файл независимо от других. Последовательность воспроизведения определяется порядком Расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них со­держится в заголовке фрейма.

Кодирование начинается с того, что исходный сигнал с по­мощью фильтров разделяется на несколько, представляющих от­дельные частотные диапазоны, сумма которых эквивалентна ис­ходному сигналу.

Для каждого диапазона определяется величина маски­рующего эффекта, создаваемого сигналами соседних диа­пазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сиг­нала в нем оказывается ниже определенного опытным путем по­рога слышимости, то для данного фрейма данный диапазон сиг­нала не кодируется.

Для оставшихся данных каждого диапазона определяется, сколькими битами на сэмпл можно пожертвовать, чтобы поте­ри от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6дБ.

После завершения работы психоакустической модели фор­мируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.

Кроме того, кодирование стереосигнала осуществляется че­тырьмя различными методами:

• Dual Channel — каждый канал получает ровно половину потока и кодируется отдельно, как моносигнал. Рекомен­дуется главным образом в случаях, когда разные каналы содержат принципиально разный сигнал — скажем, текст на различных языках;

• Stereo — каждый канал кодируется отдельно, но кодер мо­жет принять решение отдать одному каналу больше места, чем другому;

• Joint Stereo (MS Stereo) — стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколь­ко увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не сов­падающие;

• Joint Stereo (MS/IS Stereo) — вводит еще один метод упро­щения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некото­рых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Очевидно, для кодирования этой инфор­мации употребляется еще меньший битрейт. MS Stereo — частный случай MS/IS Stereo, когда переменная, отвечаю­щая за кодируемый таким образом диапазон, принимает нулевое значение.

Скорости передачи. На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие ко­торых нередко серьезно меняет эмоциональную окраску компо­зиции, придает или лишает ее таких эффектов, как ощущение «кристальной чистоты» звука (в той мере, в которой она присут­ствует в CD Audio). Кроме того, в соответствии с психоакустиче­ской моделью, высшие (более 16 кГц) частоты на низких битрейтах кодируются с очень низким приоритетом. Кроме того, имеют место разные особенности кодеров. Так, у кодеров от FhG IIS на 128 кбит/с могут оказаться «смазанными» верхние частоты, наблюдается эффект «шепелявости». Узкое место всех схем компрессии класса MPEG — участки с резкими измене­ниями сигнала. В случае МРЗ задержка может достигать величин порядка 160 мс, теоретический минимум — 59 мс.

На высших битрейтах при последовательном применении психоакустической модели, разработанной FhG IIS, проблемы могут доставлять только ошибки, внесенные при написании ко­дера.

Битрейты порядка 112—128 кбит/с по качеству неплохи для прямых трансляций и ознакомительного прослушивания, но от­нюдь не для создания архивов музыки качества CD Audio.

Любители МРЗ по-разному оценивают степень приемлемо­сти одних и тех же битрейтов и имеют свой взгляд на то, какой именно битрейт следует считать оптимальным. Одни выбирают 128 кбит/с, другие — 160 кбит/с, третьи золотую середину: 192—256 кбит/с, некоторые — 320 кбит/с.

Из этого можно сделать три вывода. Во-первых, битрейт 256 кбит/с следует считать пограничным. Во-вторых, для абсо­лютного большинства пользователей он действительно достато­чен. В-третьих, для высокого качества следует несколько увели­чить запас скорости.

С Другой стороны, те же тесты определили диапазон «—192 кбит/с как в большинстве случаев вполне приемлемый я хранения аудио на компьютере, например, в компьютерных Tax, когда внимание отвлечено.

Следующий после 256 кбит/с битрейт — 320 кбит/с, он же — максимальный для кодирования аудио с характеристиками CD Audio, т. е. 44,1 кГц 16 бит Stereo. В данном случае мы имеем запас в 1/4 от битрейта 256 кбит/с, и его вполне можно считать достаточ­ным в силу имеющихся данных о степени улучшения качества ко­дирования при кодировании на 160 кбит/с вместо 128 кбит/с.

Однако различие между качеством звука на битрейтах 128 кбит/с и 256 кбит/с / 320 кбит/с принципиально. Первый к качеству уровня CD никакого отношения не имеет, в отличие от двух последних.

В Internet, как правило, можно найти только МРЗ, закодиро­ванные с битрейтом 128 кбит/с. Этот битрейт был признан также, оптимальным для использования в Internet.

В XingTech был разработан кодер, использующий технику переменного битрейта (VBR), при которой разные участки трека кодируются с разным битрейтом, исходя из степени их сложности для кодирования.

Другие форматы

WAV. Формат WAV является метаформатом для данных лю­бого типа. Имеет стандартный заголовок и описания областей данных, которых может быть несколько, способ же кодирования аудиосигнала может быть каким угодно. Вполне могут содер­жаться данные, не имеющие отношения к аудио.

Каждый метод кодирования, указываемый в заголовке, имеет собственный идентификатор, в соответствии с которым Windows и определяет, установлен ли кодек для работы с данным фай­лом, и если установлен — подключает его.

Кодеки, индивидуальные для каждого подформата, регистри­руются в системе при их установке, после чего становится возможным использовать WAV-файлы, содержащие аудиоданные в форматах, поддерживаемых данными кодеками.

Стандарт МРЗ не определяет никакого точного стандартного математического алгоритма кодирования, его разработка целиком и полностью остается на совести разработчиков кодеров. Вместо этого он определяет общую схему процесса кодирования, а также формат закодированного фрейма. Сами последователь­ности фреймов могут передаваться потоком (streaming) или хра­ниться в файлах.

Часто к последовательности фреймов добавляют стандартный заголовок мета-аудиоформата WAV и получается то, что называют WAV -МРЗ.

VQF Этот формат разработан компанией NТТ. Алгоритм кодирования широко не разглашается, но если сравнить результаты кодирования в форматах VQF и МРЗ, то можно заключить, что алгоритмы имеют очень мало общего и основаны на совер­шенно разных подходах к сжатию звука.

Самая сильная сторона формата — степень сжатия. VQF-файл с компрессией 80 кбит/с по качеству идентичен МРЗ-файлу, записанному в 128 кбит/с, степень сжатия превос­ходит МРЗ более чем на 30 %. Главный недостаток алгоритма — высокое потребление системных ресурсов.

WMA. В 1998 г. компания Voxware присоединилась к проекту TwinVQ и в его составе участвовала в разработке формата VQF. Через некоторое время компания отделилась от проекта и на ос­нове разработок VQF создала новый формат, получивший назва­ние Voxware Audio Codec 4.0. Он стал первым алгоритмом сжа­тия, обеспечивающим качество 128 кбит/с МРЗ-файлов при цифровом потоке в 64 кбит/с.

OGG Vorbis. Этот формат был опубликован летом 2000 г. В это же время появилась бета-версия его кодера. После втрое более медлительного по сравнению с WMA процесса кодирова­ния на выходе при 128 кбит/с получается звук, близкий к ориги­нальной записи.

В файле OGG может содержаться до 255 каналов, т. е. мож­но кодировать многоканальные потоки вроде Dolby Digital. Кро­ме того, в OGG-файлы можно встраивать графические изобра­жения и тексты, которые могут возникать по ходу воспроизве­дения.

МРЗР r о. Создателем МРЗРrо является частная компания Coding Technologies. Созданная в 1997 г., компания занимается Разработкой и маркетингом кодеков на основе технологии SBR (Spectral Band Replication). У Coding Technologies два солидных стратегических партнера — Fraunhofer Institute и Thomson Multimedia.

Прежде всего своим появлением она обязана возникновению потребности передачи цифровой музыки в реальном времени через Internet (Internet-радио и т. д.), а также для мобильных копьютеров и различных портативных цифровых плейеров. Ограниченная скорость передачи или малый объем памяти вынуждают использовать низкие битрейты при сжатии музыки применяя форматы МРЗ или ААС. Использование более скоро­стных способов связи, таких, как ISDN или xDSL, не обеспечи­вает постоянного потока данных из-за перегрузки сети Internet

Формат МРЗ Pro в отличие от стандартного МРЗ содержит два потока, один из которых обычный Layer III-поток, а второй содержит информацию, на основе которой декодер восстанавли­вает самые верхние частоты. Поэтому файл, сжатый с использо­ванием МРЗРrо (имеющий расширение *.mp3), может быть вос­произведен и обычным проигрывателем, но с частотой дискре­тизации 22 кГц, так как плейер воспримет только первый поток.

DVD -аудио. Известно, что первым оптическим носителем дан­ных, ставшим широко доступным публике, был хорошо знако­мый аудиокомпакт-диск. Компьютерной промышленности потре­бовалось несколько лет для того, чтобы понять, что компакт-диск является идеальной средой для того, чтобы сохранять и распреде­лять большие количества цифровых данных, и только в 1990 гг. устройства CD-ROM стали стандартными компонентами ПК.

С появлением DVD производители CD начали создавать стандарты более высококачественного воспроизведения. Среди них — аудиокомпакт-диск высшего качества (SACD или Super Audio CD), диск цифровой звукозаписи (DAD или Digital Audio Disc).

Эти стандарты предполагают диски с разрешающей способ­ностью (уровни квантования) 24 бита и частотой выборки в 96 кГц, в противоположность обычному CD с форматом 16 бит и 44,1 кГц. Кроме того, формат SACD обладает обратной совмес­тимостью с существующими проигрывателями — факт, который может помочь в сражении за потребителя.

Когда DVD появились в 1996 г., еще не был предусмотрен формат DVD-Audio и только в начале 1998 г. DVD-Форум в со­трудничестве с ключевыми производителями промышленности музыки выпустил проект такого стандарта [24, 25]. Специфика­ция DVD аудио VI.0 была выпущена весной 1999 г., но потребо­вался еще год, прежде чем вышла спецификация VI.2, в которой были добавлены защита от копирования и создание водяных знаков.

Основное преимущество спецификации DVD-аудио сравни­тельно с DVD-видео и компакт-диском заключается в значи­тельном увеличении качества при записи в аудиоформате РСМ (Pulse Code Modulation или импульсно-кодовая модуляция).

DVD -аудио обеспечивают значительно более высокое качество РСМ -аудио, чем возможно на компакт-диске или DVD-видео. DVD-аудио РСМ может быть записан с диапазоном частот, который более чем в 4 раза шире, чем для CD, что предоставляет

живость и выразительность, невозможные на компакт-диске. DVD -аудио РСМ также имеет намного больший динамический диапазон, чем это возможно на компакт-диске, — делающий

громкие звуки громче, а тихие — более тихими.

Таблица 3.1 сравнивает технические спецификации для РСМ на DVD-аудио и стандартном компакт-диске.

Вместимость двухслойного диска DVD-аудио — по крайней мере до 2 ч для полного, окружающего звука, и до 4 ч для сте­реозвука. Вместимость однослойного диска — вполовину ниже.

Сравнительные характеристики некоторых форматов. На Рис. 3.4 приводятся амплитудно-частотные характеристики (АЧХ) аудиосигналов:

• исходный звук (WAVE-файл);

• результаты кодирования-декодирования каждым из коде­ков: МРЗ на 128 и 192 кбит/с; МРЗРrо на 64 и 96 кбит/с; WMA на 64 и 96 кбит/с.

Жанры музыки, выбранные для тестирования:

Dance — современная танцевальная музыка (Gala «Keep Secret», ритмичный и богатый различными стереоэффектами фрагмент);

Jazz — джаз с живыми исполнителями (Joe Cocker «Could You Be Loved», исключительно живая музыка с мощным муж­ским вокалом и женским бэк-вокалом, насыщенная на средних и высоких частотах);

Pop — поп-музыка с вокалом (Nek «Laura No Esta», итало-поп с ярко выраженным вокалом и, соответственно, богаты­ми средними частотами).

На АЧХ, представляющих танцевальную музыку и битрейты, соответственно 128 кбит/с для МРЗ и 64 кбит/с для МРЗРrо и WMA (рис. 3.4, а), легко заметить, что на частотах до 10 кГц все кодеки выглядят практически одинаково, не считая провала на 30 Гц у МРЗ, который, правда, не будет заметен на слух.

В случае джаза, где реальные инструменты звучат в сочета­нии с различными вокалами (рис. 3.4, б) следует отметить МРЗ/128, как обеспечивающий наиболее точный результат. Несмотря на то, что фильтрация верхнего диапазона начинается уже на 15,5 кГц, передача высоких частот до этого момента дос­таточно точная. В случае МРЗРrо /64 звук более богат деталями высоких частот.

В случае поп-музыки (рис. 3.4, в) лидером является МРЗРrо.

При рассмотрении более высоких битрейтов (рис. 3.4, г, д), заметно, что все кодеки ведут себя более предсказуемо, при этом ближе всех к форме оригинальной АЧХ графики у МРЗРrо и МРЗ, a WMA не передает ряд мелких деталей.

Если говорить о поп-музыке, то теперь WMA не искажает вокал Nek и звучит очень хорошо, примерно на уровне МРЗ в 128 —160, хотя этого и не скажешь, глядя на графики АЧХ. По частотному балансу МРЗРrо 96 и МРЗ 192 идут практически на одном уровне.

Вполне естественно, что увеличение потока приведет к улуч­шению и такой более сложной для кодирования музыки, как джаз.



Поделиться:


Последнее изменение этой страницы: 2021-04-05; просмотров: 153; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 52.15.128.243 (0.041 с.)