Единый (общий) стандарт midi (general midi) 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Единый (общий) стандарт midi (general midi)



Ввод стандарта MIDI позволял музыкантам создавать аран­жировки, используя любые инструменты MIDI, имевшиеся в на­личии. Но когда созданные файлы проигрывались на другом синтезаторе, не было никакой гарантии, что звучание будет тем же самым, потому что различные изготовители могли назначить инструментам различные номера программ, так что фортепьяно, записанное на одном синтезаторе, может прозвучать как труба на другом и пр.

В сентябре 1991 г. Ассоциация изготовителей MIDI (ММА) и Японский комитет стандартов MIDI (JMSC) положили начало новому этапу в технологии MIDI, приняв стандарт «Общая

Система MIDI, уровень 1» (General MIDI System Le­vel 1 — GM или GM1). Спецификация разработана, чтобы обес­печить необходимый уровень совместимости функционирования инструментов MIDI.

Спецификация налагает ряд требований на совместимые зву- когенерируюшие устройства (клавиатура, звуковой модуль, зву­ковая плата, программные продукты), включая:

• минимум 24 канала («голоса») должно быть доступно одно­временно для звуков мелодии и ударных инструментов, или 16 каналов для мелодии плюс 8 для ударных;

• поддерживаются все 16 каналов MIDI, каждый из которых способен воспроизвести различное число голосов (полифо­ния) или различные инструменты (звук, аккорд, тембр);

• минимум 16 различных тембров может выполняться одно­временно, воспроизводя различные инструменты. Поддер­живается как минимум 128 предварительно настроенных инструментов (номера MIDI-программ), соответствующих Инструментальной карте GM1 (GM1 Instrument Patch Map), и 47 звуков ударных, которые соответствуют Карте ударных GM1 (GM1 Percussion Key Map). Ме­лодический набор состоит из 16 групп инструментов по 8 в каждой группе (фортепиано, органы, струнные, духовые, гитары, и т. п.).

За всеми инструментами были закреплены конкретные но­мера, поэтому мелодия, записанная в GM, будет похоже звучать на разных GM-синтезаторах. GS (General Synthesizer) — стан­дартный набор тембров фирмы Roland, включает дополнительно к General MIDI новые наборы мелодических и ударных инстру­ментов, различные эффекты (скрип двери, звук мотора, крики и т. п.), а также дополнительные способы управления инстру­ментами через MIDI-контроллеры. Многие звуковые карты под­держивают GM по умолчанию, a GS — в порядке расширения.

Стандарт X G (Extended General) фирмы Yamaha включа­ет несколько сотен мелодических и ударных инструментов, при­меняемых профессиональными музыкантами. XG содержит зна­чительно более развитые средства управления синтезом, чем GM и GS. Любой MlDI-канал может быть независимо от дру­гих установлен в режим мелодических или ударных инструмен­тов. Использование стандарта XG позволяет создавать перено­симые MIDI-файлы со звучанием, приближенным к профессио­нальному.


3.2. Форматы записи-воспроизведения аудиосигналов

Формат МРЗ

МРЗ — сокращение от MPEG Laver3. Это один из основных цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMSON, позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является наиболее сложной схемой семейства MPEG Layer 1/2/3. Она требует наибольших затрат машинного времени для кодирова­ния по сравнению с двумя другими и обеспечивает более высо­кое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования Audio CD.

Высокая степень компактности МРЗ при сохранении качест­ва звучания достигается с помощью дополнительного квантова­ния по установленной схеме, позволяющей минимизировать по­тери качества.

Степень сжатия и, соответственно, объем дополнительного квантования, определяются не форматом, а самим пользовате­лем при задании параметров кодирования. Ширина потока, или битрейт (bitrate) может изменяться от наибольшего для МРЗ (320 кбит/с) до 96 кбит/с и даже ниже. Термин битрейт обозначает общую ширину потока, независимо от того, монофо­нический или стереофонический сигнал он содержит.

При испытаниях опытные эксперты, специализирующиеся на субъективной оценке качественности звучания, не смогли различить звучание оригинального трека на CD и закодирован­ного в МРЗ с коэффициентом сжатия 6: 1, т. е. с битрейтом в 256 кбит/с.

Более низкие битрейты, несмотря на их популярность, не дают возможности обеспечить надлежащее качество кодирова­ния. Объективно и 256 кбит/с не дает возможности осуществить полностью обратимое кодирование, то же самое можно сказать и про наивысший битрейт — 320 кбит/с, но отличия от CD Audio, по которому кодируется тестовый МРЗ, сравнимы с отличиями самого CD Audio от исходного высококачественного сигнала, из которого он был получен путем оцифровки.

Поэтому самое большое на сегодня преимущество МРЗ пе­ред другими подобными форматами состоит в том, что ни про один другой формат нельзя пока уверенно сказать, что он пол­ностью гарантирует устойчивое сохранение качества звучания на достаточно высоких битрейтах, или что для него написано такое же множество удобного программного обеспечения, как для МРЗ.

Файл формата МРЗ (обычно используется расширение *.трЗ) может также содержать информацию о файле непосред­ственно в заголовке: имя исполнителя, графику (альбом диска), URL для дальнейшей информации, текст песни и т. д.

Процесс кодирования. Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из кото­рых кодируется отдельно и помешается в конечный файл неза­висимо от других. Последовательность воспроизведения опреде­ляется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них со­держится в заголовке фрейма.

Кодирование начинается с того, что исходный сигнал с по­мощью фильтров разделяется на несколько, представляющих от­дельные частотные диапазоны, сумма которых эквивалентна ис­ходному сигналу.

Для каждого диапазона определяется величина маски­рующего эффекта, создаваемого сигналами соседних диа­пазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сиг­нала в нем оказывается ниже определенного опытным путем по­рога слышимости, то для данного фрейма данный диапазон сиг­нала не кодируется.

Для оставшихся данных каждого диапазона определяется, сколькими битами на сэмпл можно пожертвовать, чтобы по­тери от дополнительного квантования были ниже величины маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 дБ.

После завершения работы психоакустической модели фор­мируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.

Кроме того, кодирование стереосигнала осуществляется че­тырьмя различными методами:

• Dual Channel — каждый канал получает ровно половину потока и кодируется отдельно, как моносигнал. Рекомен­дуется главным образом в случаях, когда разные каналы

содержат принципиально разный сигнат — скажем, текст на различных языках;

• Stereo — каждый канал кодируется отдельно, но кодер мо­жет принять решение отдать одному канату больше места, чем другому;

• Joint Stereo (MS Stereo) — стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом. Это позволяет несколь­ко увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не сов­падающие;

• Joint Stereo (MS/IS Stereo) — вводит еще один метод упро­щения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некото­рых частотных диапазонов оставляется уже даже не разно­стный сигнал, а только отношение мощностей сигнала в разных каналах. Очевидно, для кодирования этой инфор­мации употребляется еще меньший битрейт. MS Stereo — частный случай MS/IS Stereo, когда переменная, отвечаю­щая за кодируемый таким образом диапазон, принимает нулевое значение.

Скорости передачи. На низких битрейтах всегда срезаются мелкие, сравнительно тихие детали, наличие или отсутствие ко­торых нередко серьезно меняет эмоциональную окраску компо­зиции, придает или лишает ее таких эффектов, как ощущение «кристальной чистоты» звука (в той мере, в которой она присут­ствует в CD Audio). Кроме того, в соответствии с психоакустиче­ской моделью, высшие (более 16 кГц) частоты на низких бит­рейтах кодируются с очень низким приоритетом. Кроме того, имеют место разные особенности кодеров. Так, у кодеров от FhG IIS на 128 кбит/с могут оказаться «смазанными» верхние частоты, наблюдается эффект «шепелявости». Узкое место всех схем компрессии класса MPEG — участки с резкими измене­ниями сигнала. В случае МРЗ задержка может достигать величин порядка 160 мс, теоретический минимум — 59 мс.

На высших битрейтах при последовательном применении психоакустической модели, разработанной FhG IIS, проблемы могут доставлять только ошибки, внесенные при написании ко­дера.

Битрейты порядка 112—128 кбит/с по качеству неплохи для прямых трансляций и ознакомительного прослушивания, но от­нюдь не для создания архивов музыки качества CD Audio.

Любители МРЗ по-разному оценивают степень приемлемо­сти одних и тех же битрейтов и имеют свой взгляд на то, какой именно битрейт следует считать оптимальным. Одни выбирают 128 кбит/с, другие — 160 кбит/с. третьи золотую середину: 192—256 кбит/с, некоторые — 320 кбит/с.

Из этого можно сделать три вывода. Во-первых, битрейт 256 кбит/с следует считать пограничным. Во-вторых, для абсо­лютного большинства пользователей он действительно достато­чен. В-третьих, для высокого качества следует несколько увели­чить запас скорости.

С другой стороны, те же гесты определили диапазон 160—192 кбит/с как в большинстве случаев вполне приемлемый для хранения аудио на компьютере, например, в компьютерных играх, когда внимание отвлечено.

Следующий после 256 кбит/с битрейт — 320 кбит/с, он же — максимальный для кодирования аудио с характеристиками CD Audio, т. е. 44,1 кГц 16 бит Stereo. В данном случае мы имеем запас в '/4 от битрейта 256 кбит/с, и его вполне можно считать достаточ­ным в силу имеющихся данных о степени улучшения качества ко­дирования при кодировании на 160 кбит/с вместо 128 кбит/с.

Однако различие между качеством звука на битрейтах 128 кбит/с и 256 кбит/с / 320 кбит/с принципиально. Первый к качеству уровня CD никакого отношения не имеет, в отличие от двух последних.

В Internet, как правило, можно найти только МРЗ, закодиро­ванные с битрейтом 128 кбит/с. Этот битрейт был признан также оптимальным для использования в Internet.

В XingTech был разработан кодер, использующий технику переменного битрейта (VBR). при которой разные участки трека кодируются с разным битрейтом, исходя из степени их сложно­сти для кодирования.

Другие форматы

WAV. Формат WAV является метаформатом для данных лю­бого типа. Имеет стандартный заголовок и описания областей данных, которых может быть несколько, способ же кодирования аудиосигнала может быть каким угодно. Вполне могут содер­жаться данные, не имеющие отношения к аудио.

Каждый метод кодирования, указываемый в заголовке, имеет собственный идентификатор, в соответствии с которым Windows и определяет, установлен ли кодек для работы с данным фай­лом, и если установлен — подключает его.

Кодеки, индивидуальные для каждого полформата, регистри­руются в системе при их установке, после чего становится воз­можным использовать WAV-файлы, содержащие аудиоданные в форматах, поддерживаемых данными кодеками.

Стандарт МРЗ не определяет никакого точного стандартного математического алгоритма кодирования, его разработка цели­ком и полностью остается на совести разработчиков кодеров. Вместо этого он определяет общую схему процесса кодирования, а также формат закодированного фрейма. Сами последователь­ности фреймов могут передаваться потоком (streaming) или хра­ниться в файлах.

Часто к последовательности фреймов добавляют стандарт­ный заголовок мета-аудиоформата WAV и получается то, что на­зывают WAV-МРЗ.

VQF. Этот формат разработан компанией NTT. Алгоритм ко­дирования широко не разглашается, но если сравнить результа­ты кодирования в форматах VQF и МРЗ. то можно заключить, что алгоритмы имеют очень мало общего и основаны на совер­шенно разных подходах к сжатию звука.

Самая сильная сторона формата — степень сжатия. VQF-файл с компрессией 80 кбит/с по качеству идентичен МРЗ-файлу. записанному в 128 кбит/с. степень сжатия превос­ходит МРЗ более чем на 30 °с. Главный недостаток алгоритма — высокое потребление системных ресурсов.

WMA. В 1998 г. компания Voxware присоединилась к проекту TwinVQ и в его составе участвовала в разработке формата VQF. Через некоторое время компания отделилась от проекта и на ос­нове разработок VQF создала новый формат, получивший назва­ние Voxware Audio Codec 4.0. Он стал первым алгоритмом сжа­тия, обеспечивающим качество 128 кбит/с МРЗ-файлов при цифровом потоке в 64 кбит/с.

OGG Verbis. Этот формат был опубликован летом 2000 г. В это же время появилась бета-версия его кодера. После втрое более медлительного по сравнению с WMA процесса кодирова­ния на выходе при 128 кбит/с получается звук, близкий к ориги­нальной записи.

В файле OGG может содержаться до 255 каналов, т. е. можно кодировать многоканальные потоки вроде Dolby Digital. Кроме того, в OGG-файды можно встраивать графические изображения и тексты, которые могут возникать по ходу воспроизведения.

МРЗРго. Создателем МРЗРго является частная компания Coding Technologies. Созданная в 1997 г.. компания занимается разработкой и маркетингом кодеков на основе технологии SBR (Spectral Band Replication). У Coding Technologies два солидных стратегических партнера — Fraunhofer Institute и Thomson Multimedia.

Прежде всего своим появлением она обязана возникнове­нию потребности передачи цифровой музыки в реальном вре­мени через Internet (Internet-радио и т. д.), а также для мо­бильных компьютеров и различных портативных цифровых плейеров. Ограниченная скорость передачи или малый объем памяти вынуждают использовать низкие битрейты при сжатии музыки, применяя форматы МРЗ или ААС. Использование бо­лее скоростных способов связи, таких, как ISDN или xDSL, не обеспечивает постоянного потока данных из-за перегрузки сети internet.

Технология SBR дополняет использование психоакустиче­ских моделей. Ее идея такова: при кодировании передавать чуть более узкий диапазон частот, при этом, естественно, обрезая «верхи», а при декодировании верхние частоты восстанавлива­ются, основываясь на информации о более низких частотах.

Формат МРЗРго в отличие от стандартного МРЗ содержит два потока, один из которых обычный Layer Ill-поток, а второй содержит информацию, на основе которой декодер восстанавли­вает самые верхние частоты. Поэтому файл, сжатый с использо­ванием МРЗРго (имеющий расширение *.трЗ), может быть вос­произведен и обычным проигрывателем, но с частотой дискре­тизации 22 кГц, так как плейер воспримет только первый поток.

DVD-аудио. Известно, что первым оптическим носителем данных, ставшим широко доступным публике, был хорошо зна­комый аудиокомпакт-диск. Компьютерной промышленности потребовалось несколько лет для того, чтобы понять, что ком­пакт-диск является идеальной средой для того, чтобы сохранять;t распределять большие количества цифровых данных, и только в 1990 гг. устройства CD-ROM стали стандартными компонен­тами ПК.

С появлением DVD производители CD начали создавать стандарты более высококачественного воспроизведения. Среди них — аудиокомпакт-диск высшего качества (SACD или Super Audio CD), диск цифровой звукозаписи (DAD или Digital Audio Disc).

Эти стандарты предполагают диски с разрешающей способ­ностью (уровни квантования) 24 бита и частотой выборки в 96 кГц, в противоположность обычному CD с форматом 16 бит и 44,1 кГц. Кроме того, формат SACD обладает обратной совмес­тимостью с существующими проигрывателями — факт, который может помочь в сражении за потребителя.

Когда DVD появились в 1996 г., еще не был предусмотрен формат DVD-Audio и только в начале 1998 г. DVD-Форум в со­трудничестве с ключевыми производителями промышленности музыки выпустил проект такого стандарта [24, 25]. Специфика­ция DVD аудио VI.0 была выпушена весной 1999 г., но потребо­вался еще год, прежде чем вышла спецификация VI.2, в которой были добавлены зашита от копирования и создание водяных знаков.

Основное преимущество спецификации DVD-аудио сравни­тельно с DVD-видео и компакт-диском заключается в значи­тельном увеличении качества при записи в аудиоформате РСМ (Pulse Code Modulation или импульсно-кодовая модуляция).

DVD-аудио обеспечивают значительно более высокое каче­ство РСМ-аудио, чем возможно на компакт-диске или DVD-ви­део. DVD-аудио РСМ может быть записан с диапазоном частот, который более чем в 4 раза шире, чем для CD, что предоставляет живость и выразительность, невозможные на компакт-диске. DVD-аудио РСМ также имеет намного больший динамический диапазон, чем это возможно на компакт-диске. — делающий громкие звуки громче, а тихие — более тихими.

Таблица 3.1 сравнивает технические спецификации для РСМ на DVD-аудио и стандартном компакт-диске.

Звуковое окружение театральной системы (Digital Theatre Systems Digital Surround или DTS) — формат аудиокодирования, подобный цифровой системе Долби, которому для воспроизве­дения требуется декодер, находящийся в проигрывателе либо во внешнем приемнике [25]. Система предполагает шесть каналов: один для басового громкоговорителя плюс пять для динами-

Таблица 3. 1.Технические спецификации для РСМ-кодирования
Спецификация DVD-Audio CD
Аудиоформат PCM PCM
Емкость диска, Гбайт 4,7 - однослойный 8,5 - двухслойный 17 - двусторонний двухслойный 650 Мбайт
Число каналов До 6 2 (стерео)
Полоса пропускания, кГц 0-96 (макс.) 5-20
Динамический диапазон, дБ    
Частота дискретизации (2 канала), кГц 44,1, 88,2, 176,4 или 48, 96, 192 44,1
Частота дискретизации (много каналов) 44,1, 88,2 или 48,96 N/A
Разрешающая способность (уровни оцифровки), бит 12, 16, 20 или 24  
; Скорость передачи (макс.), Мбайт/с 9,6 9,6

 

ков — слева спереди, в центре спереди, справа спереди, слева сзади, справа сзади — и иногда утверждают, что DTS звучит луч­ше, чем Dolby Digital из-за более низкого коэффициента сжатия. Как и для видео, качество аудио зависит от того, насколько хо­рошо были выполнены обработка и кодирование сигнала. Не­смотря на сжатие, системы Dolby Digital и DTS обеспечивают качество лучшее, чем CD.

Вместимость двухслойного диска DVD-аудио — по крайней мере до 2 ч для полного, окружающего звука, и до 4 ч для сте­реозвука. Вместимость однослойного диска — вполовину ниже.

Сравнительные характеристики некоторых форматов. На рис. 3.4 приводятся амплитудно-частотные характеристики (АЧХ) аудиосигналов:

• исходный звук (WAVE-файл);

• результаты кодирования-декодирования каждым из коде­ков: МРЗ на 128 и 192 кбит/с; МРЗРго на 64 и 96 кбит/с; WMA на 64 и 96 кбит/с.

Жанры музыки, выбранные для тестирования:

Dance — современная танцевальная музыка (Gala «Keep The Secret», ритмичный и богатый различными стереоэффектами фрагмент);


Рис. 3.4. Характеристики кодирования-декодирования различных (|юрматов
д

Jazz — джаз с живыми исполнителями (Joe Cocker «Could You Be Loved», исключительно живая музыка с мощным муж­ским вокалом и женским бэк-вокалом, насыщенная на средних и высоких частотах);

Pop — поп-музыка с вокалом (Nek «Laura No Esta», ита- ло-поп с ярко выраженным вокалом и, соответственно, богаты­ми средними частотами).

На АЧХ, представляющих танцевальную музыку и битрейты, соответственно 128 кбит/с для МРЗ и 64 кбит/с для МРЗРго и WMA (рис. 3.4, а), легко заметить, что на частотах до 10 кГц все кодеки выглядят практически одинаково, не считая провала на 30 Гц у МРЗ, который, правда, не будет заметен на слух.

В случае джаза, где реальные инструменты звучат в сочета­нии с различными вокалами (рис. 3.4. б) следует отметить МРЗ/128, как обеспечивающий наиболее точный результат. Не­смотря на то, что фильтрация верхнего диапазона начинается уже на 15,5 кГц, передача высоких частот до этого момента дос­таточно точная. В случае МРЗРго/64 звук более богат деталями высоких частот.

В случае поп-музыки (рис. 3.4, в) лидером является МРЗРго.

При рассмотрении более высоких битрейтов (рис. 3.4, г, д), заметно, что все кодеки ведут себя более предсказуемо, при этом ближе всех к форме оригинальной АЧХ графики у МРЗРго и МРЗ, a WMA не передает ряд мелких деталей.

Если говорить о поп-музыке, то теперь WMA не искажает вокал Nek и звучит очень хорошо, примерно на уровне МРЗ в 128 —160, хотя этого и не скажешь, глядя на графики АЧХ. По частотному балансу МРЗРго 96 и МРЗ 192 идут практически на одном уровне.

Вполне естественно, что увеличение потока приведет к улуч­шению и такой более сложной для кодирования музыки, как джаз.



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 212; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.119.111.9 (0.045 с.)