В каждом из продающихся на сегодня мультимедийных устройств, будь то CD-плеер, диктофон, или плеер на флэш-памяти, используется множество самых различных видов представления потоков данных, которые преобразуются затем в звук. А уж форматов звука, используемых в профессиональных целях, придумано и того больше. Неискушенный покупатель вынужден черпать информацию об обозначениях на коробках и устройствах из самых разных источников, зачастую получая неверные сведения или запутываясь еще больше.
Практически каждое устройство из раздела «Портативное Аудио» каталога ZOOM.CNews.ru поддерживает сразу несколько форматов звука, а многие устройства, не относящиеся к этой категории, также снабжены надписями о поддержке воспроизведения звуковых файлов. Для того чтобы помочь нашему читателю, мы решили создать небольшой глоссарий сокращений и рассказать о наиболее распространенных форматах. Мы планируем сделать его открытым для пополнения и поправок, добавляя новые форматы и более подробно описывая преимущества и недостатки уже распространенных или забытых.
Немного теории
Для начала следует напомнить, что цифровой звук – это не более чем набор цифр. Определяющим фактором является система, с помощью которой звук как давление воздуха был преобразован в потоки данных и закодирован для последующей обработки и воспроизведения. Соответственно, цифровой звук обычно заключен в компьютерных файлах с различным расширением, по которому чаще всего (но не всегда) и можно определить его формат. А само понятие формата может иметь, как это ни парадоксально, два смысла. Во-первых, формат может существовать как всеобъемлющая характеристика, включающая в себя и тип, и физические характеристики носителя (диска или кассеты), способа записи, принципов кодирования и защиты от ошибок. Во-вторых, под форматом можно понимать только сам способ кодирования и сжатия звука, так как для переноса используются стандартные средства, например, компьютер.
Аналоговый звук, в отличие от цифрового, воспроизводится в аналоговых устройствах и имеет ряд существенных отличий. Не являясь потоком данных, аналоговый звук представляется непрерывным электрическим сигналом, отображающим изменение звуковой волны. Для перевода его в цифровой формат звук «оцифровывается», то есть разбивается на определенные отрезки, в которых фиксируется числовое значение амплитуды в данный момент. Мы не будем углубляться в принципы создания цифрового звука, однако совершенно необходимо отметить, что чем чаще происходит разбиение отрезка звука и описание его характеристик, тем яснее и полнее создается картина собственно звука.
Такой процесс порождает огромный поток данных, описывающих звук, и очевидно, что каждый формат цифрового звука является не больше чем компромиссом между необходимостью представить звук как можно более качественным и ограничениями объема памяти компьютера или устройства воспроизведения.
Еще немного теории. Человеческое ухо воспринимает в большинстве случаев звук с частотой не выше 22000 Гц, и для того чтобы его полностью описать в цифровом виде, требуется частота дискретизации не менее 44,1 кГц. Так как абсолютно точно определить значение сигнала в определенный момент времени невозможно, то при оцифровке происходит квантование, то есть замена реальных значений сигнала приближенными. Чем больше уровней квантования звука, тем точнее описывается уровень сигнала. В итоге каждый стандартный компакт-диск несет на себе звуковой сигнал с частотой дискретизации в те самые 44,1 кГц и уровнем квантования в 16 бит, а в некоторых устройствах производится дискретизация с частотой 48 кГц.
Достоинства цифрового звука
А теперь вкратце о том, для чего данный алгоритм был разработан. Цифровой звук имеет перед аналоговым огромные преимущества, хотя нельзя забывать и об определенных его недостатках. Основной ценностью цифрового звука является возможность бесконечно долгого хранения и бесконечного тиражирования материала без потери исходного качества, тогда как у аналогового звука качество теряется при каждой записи-перезаписи. Кроме того, облегчаются передача звука и его обработка современными цифровыми средствами, в первую очередь, специализированными компьютерами. Также, цифровой сигнал в линиях передачи более устойчив к помехам, чем аналоговый. Немаловажно также и то, что цифровая техника, в отличие от аналоговой, позволяет добиваться идентичности параметров систем при их массовом производстве и сохраняет эту идентичность при эксплуатации, в то время как характеристики аналоговых изделий обычно разняться на разных экземплярах и ухудшаются со временем.
Исторически цифровой звук был, безусловно, инициативой инженеров компаний, принявших на вооружение разработанные фирмой Philips диски Audio-CD, которые также называются CDDA - Compact Disk Digital Audio. В итоге цифровой носитель звука привел к массовому переходу в студиях звукозаписи на цифровые DAT-магнитофоны и цифровую монтажную аппаратуру с интерфейсами S/PDIF и другими. А потом цифровой звук начал все глубже продвигаться в нашу жизнь с CD-плееров и, передаваясь по S/PDIF, преобразовываться в цифровых коммутаторах, эквалайзерах и системах шумопонижения. На сегодня этот ряд заканчивается цифровыми звуковыми процессорами объемного звука Dolby Digital.
Кому это нужно
Качество звука CDDA устраивает большинство конечных пользователей, то есть слушателей, однако критическим фактором является объем данных, который требуется для представления звука в таком виде. В результате появляются различные сжатые форматы цифрового звука, одним из которых стал старенький MS ADPCM, и в ряду которых находятся вполне приемлемые Sony ATRAC, PASC или Fraunhoffer MP3. Каждый из методов кодирования имеет важнейшую характеристику - скорость битового потока (bitrate), с которой сжатая информация поступает в декодер при восстановлении звукового сигнала.
Например, при разговоре по сотовому телефону звук ваших голосов подвергается цифровому преобразованию и сжатию, из-за чего и ухудшаются его характеристики. Речь сжимается по различным алгоритмам в сотни раз, сохраняя при этом основные характеристики.
Перейдем к конкретным форматам звуковых файлов и форматам сжатия звука. Наиболее распространенным на сегодняшний день форматом, безусловно, является МР3. Однако исторически сложилось так, что для понимания развития форматов звука необходимо начать с другого вида файлов – с расширением .WAV.
Он является основным форматом для многих и многих систем воспроизведения цифрового звука и используется как стандартный формат звуковых файлов в персональных компьютерах. К тому же, он имеет солидный набор спецификаций, изрядно пополнившийся за последнее время. Его полное название - Microsoft RIFF/WAVE - Resource Interchange File Format/Wave - формат файлов передачи ресурсов/волновая форма, и создан он был инженерами Microsoft и Intel. В свою очередь, WAV расшифровывается как Waveform Audio File Format.
Apple AIFF
Этот тип файлов является стандартным для систем Apple Macintosh и систем обработки звука, построенных на его основе. Apple AIFF расшифровывается как Audio Interchange File Format - формат файла обмена звуком, он в чем-то схож с WAV. Его особенностью является то, что он позволяет размещать вместе со звуковой волной дополнительную информацию, в частности, самплы WaveTable (примеры звучания инструментов вместе с параметрами синтезатора), что улучшает качество итогового результата. Хотя в настоящее время компьютеры Apple способны воспроизводить файлы практически любых форматов, в том числе и МР3.
RAW
Да, это не только формат изображения, в котором пишут фотографии некоторые цифровые камеры. На самом деле, RAW является т.н. «чистой оцифровкой», в которой не содержится заголовка и находится лишь последовательность отсчетов звуковой волны. Обычно оцифровка хранится в 16-разрядном формате.
МР3
Самый популярный формат сжатия на сегодняшний день – это МР3. Формат МР3 (MPEG Layer 3) был разработан, после ряда промежуточных форматов, институтом Фраунхофера в Германии. Вообще то, формат .МР3 основан на обмане человеческого уха. После некоторых исследований выяснилось, что человеческому слуху свойственно адаптироваться к появлению новых звуков, что выражается в повышении порога слышимости. Поэтому одни звуки способны маскировать (то есть, делать субъективно неслышимыми) другие. Вот и в этом формате часть звуков, которые, как считает соответствующая теория, делаются неслышимыми, просто убираются из общего звучания. После чего получившийся «полуфабрикат» кодируется по методу Хоффмана. Обязательно следует учитывать то, что в формате МР3 программы, сжимающие звук из оригинального, не являются стандартизированными, то есть каждый грамотный программист может реализовать свою схему сжатия. А стандартам подчиняются только декодеры, что приводит к тому, что качество воспроизведения формата МР3 далеко не всегда зависит от плеера, проигрывающего этот файл. В связи с разными способностями и пристрастиями реализаторов различных кодеров, одни из них лучше справляются с симфонической музыкой, другие - с роком и металлом, третьи - с рэпом и рэйвом и так далее.
JointStereo, являющийся одной из особенностей МР3, означает, что вместо кодирования стерео как двух независимых каналов производится кодирование т.н. центрального канала и разницы, отличающей его от исходных стереоканалов. Довольно много составляющих звука в стереоканалах одинаковы, и их кодирование в общем канале позволяет высвободить дополнительную полосу для более подробного кодирования разницы, что приводит к некоторому улучшению качества.
Обязательно следует упомянуть и о Variable Bit Rate, или VBR. Это означает, что кодер изменяет степень сжатия «на лету», в зависимости от характера звука. Такой подход приводит к уменьшению итогового размера файла или, при увеличении требований к качеству, при том же размере файла позволяет добиться лучшего звучания.
MP3 Pro
Появившийся в 2001 году кодек MP3 Pro был создан компанией Coding Technologies совместно с Thomson Multimedia. В его основе лежит МР3, и в результате он получился полностью совместимым с MP3 назад и лишь частично вперед. В нем используется технология SBR (Spectral Band Replication), за счет чего кодек обеспечивает хорошее качество на низких битрейтах. Однако качество кодирования на средних и высоких скоростях передачи данных уступает качеству почти всех других кодеков. В итоге MP3 Pro применяется больше для трансляций в интернете и демонстраций фрагментов новых музыкальных композиций.
Кодек WMA, или Microsoft Windows Media Audio, является серьезной альтернативой МР3. Файлы этого формата имеют расширения .WMA и .ASF, обладают явным преимуществом перед МР3 на низких скоростях потока данных (битрейтах) и теряют его при увеличении скорости подачи информации на кодек.
На основе WMA разработан стандарт WMA DRM, реализующий близкую сердцу звукозаписывающих компаний защиту от копирования. Файлы, созданные на основе этого формата, можно записывать на устройства воспроизведения, типа МР3-флэш-плееров, однако скопировать их оттуда нельзя.
ATRAC
ATRAC (Adaptive TRansform Acoustic Coding - акустическое кодирование адаптивным преобразованием) базируется на стереофоническом звуковом формате с 16-разрядным квантованием и частотой дискретизации 44.1 кГц. При сжатии каждый кадр делится на 52 частотные полосы, результирующая скорость потока - 292 кбит/с (сжатие 1:5). Применяется в системе MiniDisk.
Ogg Vorbis
Формат Ogg Vorbis - относительно новый универсальный формат записи звука с потерями данных. Он принадлежит к тому же типу форматов аудиосжатия, что и МР3 и WMA, а психоакустическая модель, описывающая особенности человеческого слуха, в соответствии с которыми производится сжатие, по принципам действия близка к МР3. Радикальным же отличием этого формата стала математическая обработка и практическая реализация этой модели. В этом формате пороговая максимальная частота оцифровки не 44 кГц как в MP3, а 48, что теоретически улучшает качество звука. Также следует отметить, что теоретическое число каналов не ограничено двумя, как обычно, а достигает 255. Файлы, закодированные в этом формате, меньше таких же файлов в МР3. Распространение формата сдерживалось недостаточной поддержкой со стороны производителей аппаратуры.