Аудиоформат MP3, секреты популярности

История формата

Летом 1994 года произошло одно событие, важность которого для музыкальной индустрии, вероятно, не до конца себе представляли даже те, кто был к этому событию причастен. На свет появилась программа L3Enc, занимавшаяся тем, что сжимала звук. Получавшиеся в итоге работы файлы имели расширение mp3.

Разумеется, программа появилась не вдруг. Что предшествовало этому событию?

С начала 1980-х гг. в баварском университете Эрланген-Нюрнберг проблемами сжатия звука и психоакустики занимался Карлхайнц Бранденбург под руководством Дитера Зейтцера. У Зейтцера была идея сделать такой «музыкальный автомат», к которому можно было бы подключаться по телефонной линии. Так как полоса пропускания телефонной линии мала, аудиодорожку в качестве аудиодиска требовалось сжать в 12 раз. Патентное бюро отклонило идею Зейтцера, сочтя её невозможной. И тогда Зейтцер поручил Бранденбургу найти способ обеспечить сжатие аудиоданных в 12 раз. Итогом научных изысканий Бранденбурга стала диссертация, защищённая в 1989 году и ставшая новым словом в психоакустике. Оказалось, что патентный эксперт был неправ: такая степень сжатия звука возможна! Принципы сжатия, сформулированные Бранденбургом, впоследствии не раз были использованы при разработке аудиоформатов.

А незадолго до защиты исторической диссертации, в 1988 году, в столице Канады Оттаве по инициативе Международной организации по стандартизации (ISO) впервые собралась «экспертная группа по видео» (Moving Picture Experts Group, сокращённо MPEG). Эксперты группы занимались вопросами стандартизации цифрового видео и аудио. В декабре 1988 года была поставлена задача разработать формат сжатия аудиоданных, и к июню следующего года было предложено 14 вариантов подобных алгоритмов. Принципы работы многих из них были во многом схожи, поэтому алгоритмы для дальнейшей доработки были распределены по четырём кодекам.

Один из них, объединивший алгоритмы Optimum Coding in the Frequency Domain (OCF) и Perceptual Transform Coding (PXFM), получает название ASPEC. И одним из тех, кто работает в Лабораториях Белла над кодеком ASPEC, становится Карлхайнц Бранденбург. Кодек значительно опережает своих конкурентов по качеству сжатия на низких битрейтах, но в то же время пользуется репутацией медленного и неудобного в работе.

В 1990 Бранденбург становится доцентом в своей Alma Mater и возвращается в Германию. Он продолжает исследования сжатого звука. Помогает ему в этом группа специалистов из Института интегральных схем Общества Фраунгофера.

Однажды, когда Бранденбург занимался настройкой алгоритма сжатия своего формата, он услышал доносившиеся из коридора звуки радио. Передавали песню Сюзанны Веги «Tom’s Dinner». Звучал голос без всякого музыкального сопровождения, но зато в этой записи можно было расслышать все его нюансы. Так у Бранденбурга появилась идея настроить свой алгоритм сжатия таким образом, чтобы голос Сюзанны Веги и в сжатом варианте звучал так же красиво, как в оригинале, а американская певица, сама того не подозревая, стала «мамой MP3».

Кстати об аббревиатуре. Вы, возможно, уже догадались, что первые две буквы достались MP3 от экспертного сообщества MPEG. Стандарты MPEG делятся на несколько разных групп в соответствии с решаемыми ими задачами. MPEG-1 — так называется первая группа стандартов сжатия цифрового видео и сопутствующего ему аудио (с лимитом общего потока до 1,5 мБит/с). Именно к этой первой группе был отнесён MP3. Откуда же тройка в расширении? Она — от порядкового номера этого аудиоформата в соответствующем стандарте. В стандарте MPEG-1 это третий по счёту формат.

Стандарт MPEG-1 описывает форматы, обладающие минимум характеристик, достаточных для решения большинства задач, связанных с бытовым видео и аудио. Позже, с развитием формата MP3 и расширением его возможностей, его включили также в несколько более продвинутый стандарт MPEG-2. Таким образом, полное название формата MP3 — это MPEG-1 Audio Layer III либо MPEG-2 Audio Layer III.

В некотором смысле MP3 удалось стать самым стандартным из всех стандартных форматов. Сегодня трудно найти медиаустройство, которое бы не поддерживало файлы mp3. Для своего времени формат был поистине революционен. И хотя придирчивые эксперты немедленно нашли в сжатом звуке определённые недостатки, никак нельзя сказать, что MP3 — это первый блин, который всегда комом. Да, появившиеся со временем новые форматы сжатого звука достигли гораздо более впечатляющих результатов, но эти результаты были бы невозможны, если бы не было всего этого: Карлхайнца Бранденбурга, его диссертации и, конечно же, самого «третьего формата стандарта MPEG».

И хотя сегодня вся эта история — уже дела давно минувших дней, слушатели не желают изменять своим привычкам, а производители ПО и «железа» вовсе не торопятся снабжать свои разработки поддержкой новомодных форматов. В общем-то, даже срок лицензии у формата уже истёк, и он окончательно перешёл в народное достояние. Но продолжает в таком статусе жить, радуя одних слушателей и огорчая других.

И радовать, и огорчать есть чем.

Достоинства формата

MP3 всё-таки стал довольно шустрым в использовании форматом (чем, как мы помним, не мог похвастаться его предшественник ASPEC). Файлы не сильно нагружают процессор воспроизводящего устройства. В нём можно хранить информацию об исполнителе и об альбоме (вплоть до обложки альбома), и это более чем удобно для слушателя.

Качество звука удовлетворяет запросам массового слушателя, привыкшего в прежние годы к звуку аудиокассет через маленькие динамики дешёвого аудиомагнитофона. Это что касается довольно сложного материала с резкими перепадами громкости, многочисленными одновременно звучащими инструментами и т.п., где, несомненно, проявятся и определённые недостатки формата (о них чуть ниже). А если алгоритму дать более простой звук — например, звучание солирующего музыкального инструмента, — то результат будет ещё лучше. Хорошо MP3 справляется с кодированием человеческого голоса без сопровождения — наверное, недаром Бранденбург столько возился с песней Сюзанны Веги.

Наконец (скажем ещё раз) формат универсален в плане поддержки.

Но есть и существенные ограничения.

Недостатки формата

В MP3 можно писать только моно и стерео, то есть только два канала. (Особенность, устаревшая уже в момент создания самого формата в девяностых годах: эксперименты с многоканальным звучанием вовсю велись. Можно вспомнить хотя бы о том, что классические альбомы Pink Floyd семидесятых годов уже были записаны в квадрофоническом звуке, и в квадрофоническом же варианте группа выступала вживую).

Да и вообще, что касается стерео, то место MP3 расходует очень неэкономно, кодируя каждый канал отдельно, в том числе и информацию, дублирующуюся в другом канале. Появившийся со временем режим Joint Stereo вроде бы решил проблему, но добавил новую: с его использованием начала «плыть» и размываться стереопанорама, положение звучащих инструментов в пространстве стало менее определённым, их звучание начало восприниматься как более грязное… В общем, трудно назвать получившееся хорошим решением проблемы.

Возможные частоты дискретизации жёстко фиксированы и не могут быть больше 48 кГц. Сам алгоритм сжатия «зарубает» частоты, в зависимости от степени сжатия и от частоты дискретизации, на 7, 13 или 16 кГц. Более высокие частоты пробиваются весьма эпизодически.

Формат не всегда справляется с резким, скачкообразным изменением характера звучания — с так называемыми транзиентами. Побочный эффект от кодирования транзиента часто проявляется в виде слабого эха, слегка предшествующего последующему громкому звуку. Надо сказать, что вообще проблема транзиентов долгое время преследовало форматы сжатого звука — очень сложно, подвергнув звук всем преобразованиям, не нажить проблем с транзиентами в виде того же обратного эха. От этой проблемы избавились сравнительно недавно в кодеке OPUS (о котором мы расскажем в своё время).

Вообще сложное, насыщенное, многоинструментальное звучание — не самое сильное место MP3. Поэтому при прочих равных какая-нибудь относительно «лёгкая» в инструментальном плане народная музыка будет звучать относительно неплохо, студийная запись рок-альбома — уже хуже (особенно когда в дело вступают ударные инструменты с их сильными транзиентами), и ещё хуже будет звучать запись рок-концерта (где алгоритм окончательно сбивает с толку шум толпы поклонников и другие особенности «живого» выступления). С развитием формата, правда, все эти артефакты звучания стали гораздо мягче (спасибо независимым разработчикам проекта LAME), но не исчезли совсем.

Наконец, ещё одна проблема, преследующая многие кодеки сжатия аудио, — это изменение длины аудиодорожки из-за фиксированной продолжительности одного музыкального фрейма («кадра», на который алгоритм разбивает звук). Те краткие участки тишины, которые кодек вынужден добавлять в начале и в конце файла для целостности фреймов, прерывают звучание, что нормально для традиционной песенной структуры альбома, но совершенно неприемлемо для произведений с непрерывным звучанием, разбитых для удобства навигации на треки.

Проект LAME

В формате MP3 явно было что усовершенствовать. И неудивительно, что в какой-то момент к усовершенствованию формата подключились совершенно новые люди — независимые разработчики. Так появился проект LAME. Многие из нас даже не подозревают, что пользуются MP3 именно в этой редакции, а не в оригинальной, вышедшей из стен института Фраунгофера…

Начало проекта LAME было положено в 1998 году Майком Ченгом (Mike Cheng). Первоначально это была лишь небольшая модификация в исходном коде ISO. Но на этом Майк Чанг и собравшаяся вскоре около него команда не остановились. Они переработали подход исходного кодека к психоакустическому алгоритму, что не замедлило сказаться на звуке (причём в лучшую сторону — по крайней мере, на средних битрейтах).

Самое интересное, что LAME рекурсивно расшифровывается как… «LAME – это не кодировщик MP3» (LAME Ain’t an MP3 Encoder). Это связано с его первоначальной зависимостью от исходного кода ISO – по сути, это был просто патч для этого кода. Но уже в 2000 году LAME стал полностью самостоятельным кодировщиком. Команда LAME впоследствии приложила ещё немало усилий для совершенствования своего детища. А вот сам Майк Ченг однажды покинул проект, переключившись на разработку других.

Популярность LAME создало не только качество кодирования, но и свободный характер его лицензии. Как следствие, многие программы для работы со звуком стали включать в свои пакеты для конвертации аудио именно кодировщик от LAME. И со временем таких программ становилось всё больше. Так постепенно сложилась ситуация, сохраняющаяся, в общем, до сегодняшнего дня: говорим MP3 – подразумеваем LAME. Хотя если покопаться в своей аудиобиблиотеке в поисках особо древних файлов (где-нибудь нулевых годов, если они там есть), можно найти и чисто «фраунгоферовские» MP3-шки… И, вполне возможно, что, включив их, вы услышите те артефакты звучания, от которых нас уже успел отучить MP3 от LAME. Разница действительно есть — особенно это касается транзиентов.

Однако нет пределов совершенству. Как ни отличается LAME MP3 от своего «старшего брата» в лучшую сторону, всех проблем формата не смогла решить даже подобная его пересборка. А это значит, что запрос на альтернативу MP3 остался.

О том, что из этого запроса вышло, мы и расскажем далее.

Аудиоформат MP3, секреты популярности

История формата

Достоинства формата

Недостатки формата

Проект LAME

Рекомендуем к прочтению:

Вас ждет подарок!