Форматы цифрового звука без потери качества

Форматы без сжатия

Первые форматы цифрового представления звука кодировали информацию, что называется, «как есть». Такой формат, в первую очередь, удобен для самого компьютера: между последовательностью цифровых сигналов и формой звуковой волны есть простое соответствие. Неудивительно, что, несмотря на дальнейшее развитие форматов сжатого звука, форматы без сжатия продолжают активно использоваться в сфере профессиональной работы со звуком (да и любительской тоже). Что это за форматы?

Во-первых, это собственно формат Audio CD. С ним всё просто: это тот формат, в котором записано большинство аудиодисков (если, конечно, на них не записано сразу несколько альбомов — в этом случае речь идёт уже об очевидно сжатом формате). В формате Audio CD для преобразования «цифры» в «аналог» используется импульсно-кодовая модуляция (PCM). Преобразование именно такого типа легло в основание большинства других аудиоформатов.

С компакт-дисками всё ясно, а что же с форматами представления звука на компьютерах? Здесь, как несложно догадаться, первыми подсуетились самые крупные производители компьютеров и ПО, разработав такие форматы, как AIFF (Apple) и WAV (Microsoft и IBM), известные пользователям компьютеров и операционных систем этих разработчиков по сей день. Причём Apple, будучи на тот момент безусловным лидером в сфере компьютерных мультимедиа, представило свой формат ещё в далёком 1988 году, опередив разработчиков формата WAV на три года. Если дать компьютеру считать данные аудиодиска и перевести их в любой из этих форматов, то получится их точная копия, занимающая на жёстком диске компьютера столько же места, сколько занимал на CD оригинал. Вся разница будет состоять лишь в формате, в который будут упакованы эти данные.

Важно отметить, что возможности этих форматов превышают возможности аудиодиска. Они допускают гораздо большую глубину звука (до 32 бит) и частоты дискретизации (AIFF до 196 кГц, а в WAV и вовсе любую). Но даже этими параметрами не удовлетворились разработчики форматов аудио сверхвысокой точности. Эти форматы поначалу нашли применение на Super Audio CD (SACD), разработанных к 1999 году Sony и Philips, а со временем обосновались и на персональных компьютерах любителей качественного звука.

Формат цифрового представления звука, используемый на SACD, получил название DSD (Direct Stream Digital, «непосредственный цифровой поток»). В нём используется принципиально другой способ аналого-цифрового и цифро-аналогового преобразования: форма волны кодируется всего одним битом на каждый момент времени. Иными словами, «глубина» звука составляет всего один бит, но обновляется эта информация гораздо чаще, чем в большинстве других форматах, то есть в разы повышается частота дискретизации. Это позволяет алгоритму воссоздавать форму звуковой волны, оценивая плотность этих импульсов на том или ином временном отрезке.

Такой способ представления сигнала позволил уйти от нелинейных шумов квантования. Правда, чем выше частота звука, тем меньшее число импульсов его кодирует, понижается точность кодирования, а значит, повышается уровень постоянного шума по отношению к сигналу, то есть шипения. Но при высокой частоте дискретизации уровень этого шипения становится критичен уже в области ультразвука, что на слух незаметно. При этом достигнута гораздо более важная задача: нет шумов квантования — своего рода «проклятия» цифрового звука. Они все «ушли» в тот самый неслышный шум. Неудивительно, что этот формат полюбился людям, критически настроенным по отношению к «цифре» — он словно приблизил её к «аналогу», убрав в её звучании следы дискретности.

Однако оказалось, что файлы DSD совершенно не подходят для редактирования: они редактируются лишь через преобразование в PCM (и обратно при сохранении), причём каждое такое преобразование умножает количество шума, которое вскоре становится уже критичным для слуха. Одно дело, когда в DSD записывается уже готовый аналоговый материал, прошедший аналоговый же мастеринг. Но что делать при записи и редактировании нового аудиоматериала? Так появились форматы, вернувшиеся к импульсно-кодовой модуляции с дополнительными ухищрениями, направленными против шумов квантования. Среди них стоит отметить DXD (Digital eXtreme Definition), который нашёл применение не только в мастеринге исходных данных для SACD, но и в области прослушивании высококачественного аудио на компьютере.

Все форматы несжатого звука занимают много места в памяти, поэтому естественно, что встала проблема сжатия звука. Сегодня мы рассмотрим те форматы, которые способны сжимать аудиоданные без потерь.

Форматы сжатия звука без потерь

За форматами сжатого цифрового звука стоят две противоположные идеологии. Первая – это идеология сжатия звука без потерь. Проще говоря, мы создаём своего рода цифровой «архив», из которого при разархивировании можно извлечь всё тот же исходный код, что на диске, и весь вопрос в таком случае – в поиске оптимального алгоритма архивирования. Вторая идеология – сжатие с потерями. Компьютерный алгоритм ищет в звуке в первую очередь самую важную информацию, а прочую информацию, по мере её второстепенности, упрощает или даже совсем убирает. Главный вопрос здесь в том, насколько понятие о «важной» и «второстепенной» информации с точки зрения алгоритма сжатия соответствует понятию о «важности» и «второстепенности» звуковой информации для человеческого слуха.

Таким образом, среди всевозможных форматов сжатого цифрового звука есть как форматы, которые сохраняют информацию о звуке точно и без потерь (по-английски — lossless), так и форматы, которые сохраняют информацию о звуке с потерями и с меньшей точностью (lossy).

Обе идеологии сжатия звука активно разрабатывались начиная с девяностых годов прошлого века. Первые попытки сжать звук без потерь увенчались в 1993 году созданием старейшего аудоформата такого типа Shorten. Первые же форматы сжатого звука, широко используемые по сей день, появились в 1998 году (WavPack, предназначенный для хранения аудиоданных на компьютерах, а также MLP — формат, ставший стандартом для аудиодорожек DVD-дисков с видео высокого качества).

Сжатие звука без потерь: принцип работы (на примере FLAC)

Как работает сжатие без потерь? Как мы уже сказали, оно похоже на архивирование. Но алгоритм создания «звукового архива» может быть очень специфичен. Для примера возьмём самый популярный в этой области кодек FLAC (Free Lossless Audio Codec — «свободный аудиокодек без потерь»).

Звук разбивается на отдельные отрезки (они могут быть разной величины), и каждый из этих отрезков отдельно кодируется по следующей схеме: на основе собранной статистики о звуке алгоритм предсказывает поведение звука на этом участке (подбирая такую предсказательную модель, которая даёт наименьшую разницу с оригиналом), а затем отдельно (уже без приближения) кодируется та незначительная разница, которая остаётся между оригинальным звуком и смоделированным). Сумма обоих этих «слоёв» данных о звуке получаются идентична оригиналу.

Экономия происходит и при сжатии разных каналов в одном стереофайле: каналы преобразуются в «средний», несущий информацию, усреднённую между правым и левым каналом, и «разностный», отвечающий за разницу с «серединой» каждого из них. Проще говоря, та информация, которая встречается и на правом, и на левом канале, не дублируется, что и приводит к экономии места.

FLAC и APE: главные конкуренты

Звук формата FLAC оказывается сжат по сравнению с исходным файлом примерно в два раза (с некоторым разбросом в ту или иную сторону в зависимости от характера самой музыки). Это неплохой результат для формата сжатия без потери качества, хотя бывают и ещё более экономные варианты. Таков, например, формат APE, расширение которого совпадает с английским словом ape — обезьяна, в связи с чем его второе название звучит как Monkey’s Audio (в рунете иногда встречается вольный перевод «Мартышкино аудио»). «Мартышки» сжимают файл усерднее, чем это делает FLAC, и это обеспечило формату APE неплохую популярность, несмотря на плохую защиту файлов от повреждения и большую нагрузку на процессор при чтении файла (такую же, как при его кодировании — кодировщик и раскодировщик полностью симметричны друг другу).

Оба эти формата — и APE и FLAC — появились на свет уже довольно давно (APE в 2000, а FLAC в 2001 году) и успели стать классикой беспотерьного сжатия звука. Лидером в этой «гонке форматов» несомненно следует признать FLAC (важный нюанс: его читает гораздо большее количество программ и устройств, чем APE — вплоть до некоторых цифровых усилителей класса D с функциями магнитолы).

Однако, несмотря на всю серьёзность конкуренции, время от времени появляются и новые форматы lossless-аудио. Конкуренция здесь идёт, разумеется, не в качестве звука (оно идентично качеству исходного несжатого звука), а в том, что касается размеров файлов, быстроты кодирования и чтения, возможностей для передачи звука высокого разрешения (частоты дискретизации и битности), ну и общего удобства использования.

ALAC: lossless от Apple

Собственным lossless-кодеком аудио обзавелась компания Apple (он получил название ALAC — Apple Lossless Audio Codec). Произошло это ещё в 2004 году, а в 2011 компания открыла исходный код и сделала кодек свободным. Кодек оказался хорош не только обеспеченной со стороны корпорации поддержкой на устройствах Apple, но и своей низкой требовательностью к процессору, что позволяет его использовать даже на «слабых» устройствах. Порядок сжатия при этом остаётся примерно таким же, что и у FLAC (40-60 % от объёма оригинального файла).

OptimFROG: ещё больше сжатия!

Есть среди lossless-кодеков и специально заточенные под возможно меньший размер файла (ценой уменьшения скорости кодировки/раскодировки и увеличения требований к процессору). Такая особенность может оказаться полезной при создании архивов аудиоданных большого объёма, когда важен каждый лишний мегабайт. Для таких целей неплохо подойдёт, например, OptimFROG (разработка 2001 года). Этот кодек имеет один из лучших коэффициентов сжатия из современных беспотерьных форматов звука, что достигается оригинальным алгоритмом работы с аудиоданным, позволяющим более эффективно (и по-прежнему без потерь) сжимать стереоданные за счёт их декорреляции.

Многоканальное аудио без потерь

Мы упомянули (и уже неоднократно) стерео, то есть двуканальное аудио. А как дело обстоит с многоканальным звуком? Большинство беспотерьных кодеков позволяют работать и с ними. Среди кодеков, в которых сжатие многоканального звука реализовано особенно хорошо, следует упомянуть TAK (Tom’s verlustfreier Audio Kompressor), к сожалению, имеющий весьма скромную аппаратную поддержку и не получивший поэтому большого распространения, а также более успешный в этом отношении кодек TTA (True Audio).

Вернёмся к началу нашего разговора. Обратим внимание на время появления большинства популярных форматов сжатия аудио без потерь, своего рода их «звёздный час»: в основном это нулевые годы двадцать первого века. А ведь история цифрового звука начинается куда раньше! О чём это говорит?

Во-первых, о сложности задачи эффективного сжатия звука без потерь как таковой. Во-вторых, о непопулярности такого решения проблемы большого объёма звуковых файлов у массового слушателя в девяностых годах. Даже сейчас, чего греха таить, при наличии портативного плеера с объёмом памяти существенно меньшим, чем размер жёсткого диска на компьютере, многие слушатели предпочитают ужать музыку посильнее, ведь хорошей музыки, которую хочется везде иметь с собой, много не бывает. И это с таким объёмом встроенной или расширенной памяти, который ещё лет десять-пятнадцать назад показался бы роскошью!

Тогда схожие желания сжать звук посильнее возникали у владельцев не плееров, а персональных компьютеров. И это желание было сполна удовлетворено форматами очень сильно сжатого звука — сжатого, естественно, уже не без потерь. О них мы и поговорим в следующий раз.