Форматы сжатия аудиоданных с потерями (lossy). Часть II

Сравнение спектров разницы

В прошлый раз мы сравнивали полные спектры файлов разным сжатых форматов со спектром файла-первоисточника. А теперь вычтем из оригинального файла его сжатую «копию», чтобы получить «шум разницы» — то есть той информации, которую кодек отбросил. Самый простой способ сделать это — забросить оба файла в многодорожечный аудиоредактор, инвертировать один из них, добавить на две соседние дорожки, и вычитание произойдёт само собой, хотя…

Тут мы сталкиваемся с ещё одной особенностью сжатого звука: из-за того, что файл разбит на отдельные фреймы, при этом часто фиксированной длительности, его суммарная длительность может отличаться от длительности оригинала за счёт добавленных для заполнения фреймов миллисекунд тишины в начале и/или в конце файла. Это справедливо для многих (хотя и не для всех) форматов сжатого звука. Поэтому почти все наши файлы (кроме OGG) пришлось «подгонять» друг под друга так, чтобы их содержание совместилось с точностью до 1/22050 секунды (для OPUS — с точностью до 1/24000 секунды из-за изменения частоты дискретизации), и заветное вычитание произошло.

Но вот все мытарства пройдены, и мы получаем следующую картину:

Отметим, что мы немного изменили шкалу отрисовки частоты, добавив в неё логарифмическую составляющую. Это позволило более подробно изобразить на спектрограмме ту часть спектра, на которую приходится большая часть тоновой составляющей нашего сигнала.

Что же мы видим? Во-первых, спектр разницы существенно «бледнее» спектра исходного файла. Это говорит о том, что убранная/упрощённая часть звука в разы тише, чем сохранённый от оригинала сигнал. Насколько тише? Это зависит от частоты, но в среднем где-то на 30 dB тише в средней части спектра, а по мере повышения частоты эта разница постепенно уходит в ноль, что говорит о меньшей степени сохранности высоких частот.

Во-вторых, спектры разных форматов очень близки друг другу по интенсивности. Это говорит о том, что в количественном (но не в качественном!) отношении точность передачи звука в файлах разных форматах сопоставима друг с другом и ограничена размерами файла (не случайно мы подбирали сопоставимые коэффициенты сжатия для разных форматов). Все файлы нашей подборки имеют средний коэффициент сжатия, то есть показывают не лучший и не худший для своего формата результат.

Люди, имеющие опыт работы в iZotope RX, возможно, определят визуально, что оранжеватый цвет шума, как правило, говорит о его высоком уровне. Звук такой интенсивности хорошо различим для слуха, следовательно, разница c оригинальным звуком такого уровня также теоретически хорошо различима, однако вся соль заключается в том, что это не постоянный шум, а, преимущественно, шумовая составляющая полезного сигнала, подвергшаяся упрощению и частичной редукции.

Впрочем, только ли шумовая? Мы говорили о том, что на графике спектра шумовой (атональной) составляющей звука соответствует вертикальное направление, а тональной — горизонтальное. Но на многих графиках мы видим немало горизонталей. Это не что иное, как следы солирующего саксофона. Как видим, лучше всего шумовую составляющую отделили от тональной кодеки WMA и OGG Vorbis. Можем сделать очень осторожный предварительный вывод, что и звучать они будут на этом битрейте несколько лучше конкурентов.

Прослушивание шумов разницы. Попытка их описания

Здесь мы подошли к ограничению нашего метода. Дело в том, что разрешение нашего спектра не эквивалентно разрешению звука. Оно существенно ниже, а следовательно, даёт о звуке лишь приблизительное представление, достаточное лишь для самых общих выводов. (Вообще проблема перевода звука в графику и обратно достаточно интересна, и как-нибудь мы обязательно уделим ей внимание).

Значит, нельзя обойтись без прослушивания. Можно оценивать файлы разных форматов, прослушивая непосредственно эти файлы (желательно на хорошем и при этом привычном лично для Вас оборудовании). Музыку тоже желательно взять привычную для себя. Такое прослушивание, для исключения предвзятости, очень желательно сделать «слепым» (когда человек, слушающий файл, не знает заранее его формат и судит о нём только по его звучанию).

Можно прослушать и файлы «шумов разницы». Это несколько менее информативный метод, но и он даёт определённое представление о том, что пострадало при сжатии в первую очередь. Приведём здесь наш опыт их прослушивания (исходный материал всё тот же).

Действительно, самый «атональный» шум разницы оказывается у файлов OGG и WMA. В шуме разницы файлов OGG почти невозможно расслышать никакой тональной составляющей, хотя сам по себе он звучит слегка «рвано», что говорит о том, что тональная составляющая в файле упрощена сильно. Очевидно, что это сделано для того, чтобы по возможности сохранить всю тональную составляющую в целости и сохранности, что и достигнуто. Однако для более качественного звучания атональная составляющая должна быть кодированная точнее (что и достигается на несколько более высоких битрейтах того же формата).

Этой «рваности» в звучании шума разницы меньше в случае WMA, но при этом всё же оказывается (хотя и незначительно) затронута тоновая составляющая. В целом же, за вычетом тоновой составляющей, шум разницы WMA весьма напоминает обычный «белый шум» — в нём ощутимо больше высокочастотной составляющей, чем в шуме разницы OGG.

В файле MP3 отфильтрованная часть тональной составляющей (более значительная, чем в WMA) постоянно пробивается через шипящие, колючие призвуки, которые звучат куда менее аккуратно, чем в случае OGG. Это довольно тревожный признак, который, однако, не означает, что такое же «колючее» звучание мы получим при прослушивании самого файла. Скорее, наоборот (забегая несколько вперёд): в итоговом файле звук оказывается несколько приглажен и даже «размазан». Вся «колючесть» ушла в «разницу», причём с избытком.

Формат M4A оказался едва не полной противоположностью MP3: хотя его психоакустический алгоритм и не пощадил части тонального сигнала, но отделил его от сохранённой части оригинального звука с меньшим числом «швов», и тональная составляющая даже в файле разницы продолжает звучать по большей части довольно чисто — за исключением особо громких мест, где алгоритм может позволить себе работать несколько более грубо. Вообще же гораздо более аккуратная работа алгоритма очевидна.

Что касается формата OPUS, то его «шум разницы» имеет в себе много низкочастотной составляющей. В нём можно расслышать следы не только саксофона, но и баса, и нижнюю тоновую составляющую ударных инструментов. Столь невысокая точность передачи низких частот — пожалуй, не самая сильная сторона формата. Однако на средних частотах тоновая составляющая проработана явно аккуратней, чем у MP3. Мы слышим её как бы с небольшим эффектом хора — кодек определяет основную частоту и удаляет частоты, расположенные в непосредственной близости от неё и, следовательно, замаскированные ею для слушателя. Они-то в совокупности и слышатся в шуме разницы как хор близких друг к другу частот. Сам по себе шум разницы воспринимается как менее «колючий», чем в случае MP3 (это достигается особой технологией работы с фреймами, о чём мы расскажем отдельно в статье, целиком посвящённой этому формату).

Как выбрать подходящий формат?

Сжатие звука с потерями — это всегда компромисс между размером и качеством. Однако форматы сжатия с потерями позволяют сжимать исходный файл в разы, а иногда и на целый порядок, что и подарило им популярность. Как определить, какой формат предпочтителен?

Во-первых, надо исходить из самого звука, выбирая из разных вариантов тот, который звучит лучше.

Во-вторых, надо смотреть на ограничение по размеру.

И, в-третьих (это тоже очень важный момент!), надо обязательно знать, будет ли читать выбранный вами формат то или иное устройство (или программа).

Рассмотрим пример из жизни.

Дано: портативный плеер с объёмом памяти 32 Гб (без возможности расширения с помощью внешней карты памяти) и прошивкой, позволяющей читать файлы форматов WAV, FLAC, MP3, WMA, OGG; усилитель класса D с разъёмом USB, читающий форматы WAV, FLAC, MP3, WMA; магнитола, читающая c флэшки только WAV и MP3.

Возможные решения:

WAV — теоретически универсальный, но плохой на практике вариант, поскольку занимает много места. Он годится только для разовой записи на флэшку для прослушивания на магнитоле с последующим стиранием.

FLAC — подойдёт для усилителя и портативного плеера. Займёт раза в два меньше места, чем WAV, но сильно много музыки в нм по-прежнему не запишешь.

MP3 (желательно в максимально возможном качестве, то есть с битрейтом 320 кбит/с) — самый универсальный вариант. Файлы, сконвертированные однажды, можно будет слушать на всех Ваших устройствах.

OGG — его из перечисленных устройств воспроизведёт лишь плеер. При этом в рамках этого формата можно добиться более качественного звука, чем в рамках MP3, а значит, если нам не лень лишний раз поконвертировать исходники, этот вариант имеет смысл.

WMA — скорее всего, его воспроизведут два устройства: усилитель и портативный плеер. Точнее, файлы, закодированные в стандартном режиме, они воспроизведут гарантированно. Качество при этом будет лучше, чем в MP3. Но если мы хотим большего, то можем воспользоваться «профессиональным» режимом кодирования с повышенным битрейтом (384 кбит/с), при этом имея в виду, что устаревшие прошивки такой формат могут и не «взять». Такой вариант обеспечивает достаточно качественный звук. Формат WMA предусматривает также беспотерьный режим кодирования. К нему относится всё то, что было сказано по поводу несовместимости «профессиональной» модификации WMA со старыми прошивками.

Дополнительные факторы

На самом деле на возможные решения проблемы с оптимальным форматом (а также оптимальных настроек этого формата) могут влиять и другие факторы, такие как:

— качество звуковоспроизводящей аппаратуры. От него зависит уровень детализации звука и уровень его искажений. Если речь идёт о низкокачественном оборудовании (типа переносной колонки), то велика вероятность, что вообще будет «всё равно», какой звук ей скормить: искажения от сжатия полностью поглотятся искажениями самого звучания. И напротив: чем качественнее аппаратура, тем более очевидна на ней разница между качественным и некачественным файлом.

— привычка и опыт. От опыта прослушивания звука на аппаратуре высокого и отчасти даже среднего качества и от вашей привычки к этой аппаратуре зависит, насколько хорошо вы слышите те нюансы звука, которые она может воспроизвести. Соответственно, со временем становятся более очевидными артефакты сжатия. Правда, у привычки есть и обратная сторона: при использовании только одного формата возможно привыкание к специфике именно его звучания. Поэтому форматы (разумеется, с возможно высоким в рамках этого формата качеством) лучше варьировать: включать в своё «музыкальное меню» 2-3 формата звука, сжатого с потерями, и чередовать их с прослушиванием звука без потерь. Так мы убиваем сразу двух зайцев: привыкаем к качественному звуку, а от менее качественного отвыкаем.

Для того чтобы лучше представлять себе возможности и ограничения каждого из форматов, необходимо перейти к их более подробному рассмотрению, чем мы и займёмся в следующей статье. И начнём мы, как вы, возможно, уже догадались, с самого распространённого формата, вызывающего ожесточённые споры с самого момента его появления в далёких девяностых, — с формата MP3.