30 июля 2021      11165    

Реставрационная обработка голоса в iZotope RX

Голос – это то, что чаще всего звучит в наших записях

Голос – это то, что чаще всего звучит в наших записях, будь то записи лекции учёного мужа или песни популярного (или не очень) исполнителя. Наше ухо особенно чутко именно к этому инструменту передачи информации: музыкальной, эмоциональной, бытовой, философской – да практически какой угодно. И чем естественнее звучит голос в записи – тем легче нам его воспринимать.

Так как звукозаписывающая аппаратура имеет дело не только со звуковыми волнами из нашего голосового аппарата, но и с потоком воздуха, который из этого же аппарата и выходит (ибо если он через голосовой аппарат не проходит, то нет и голоса), то ей свойственно улавливать не только звук голоса, но и звук от столкновения воздушной струи с аппаратурой. Именно этим вызваны основные проблемы записи голоса, и хотя они решаются различного рода фильтрами на этапе записи, всё же часто требуется и дополнительное исправление при обработке звука.

Исправлению типичных дефектов записи голоса и посвящены фильтры программы iZotope RX, о которых мы сегодня поговорим.

Breath Control: контролируем дыхание

Наверняка многим знакома ситуация, когда на дорожке с вокалом или речью записалось слишком много шума от вдыхаемого и выдыхаемого воздуха. Ослабить артефакты подобного рода и призван фильтр Breath Control.

Ослабить артефакты подобного рода и призван фильтр Breath Control
Фильтр Breath Control (рис. 1)

У этого фильтра есть два режима функционирования: «силовой» (gain) и «целевой» (target). Переключаются они выбором соответствующего флажка слева, и соответствующим образом меняется и левый ползунок, показывающий либо уровень (level) силы подавления (в децибелах),  либо целевой уровень дыхания (в децибелах по полной шкале).

Работая в силовом режиме, фильтр ослабляет любой «дыхательный» шум на одно и то же число децибел. Такой режим работы полезен, когда надо быстро ослабить шумное дыхание. Однако у него есть побочный эффект: на то же число децибел ослабляются и совсем слабые вздохи, которые можно было бы и не трогать, и которые, не нарушая целостности восприятия голоса, придают его звучанию большую естественность.

Для предотвращения подобных явлений и предназначен «целевой» режим, который трогает шум дыхания тем меньше, чем он тише.

Правый ползунок – Sensitivity (чувствительность) отвечает за то, что программа посчитает шумом дыхания и в конечном итоге попытается ослабить. Чем выше чувствительность, тем более дотошно работает программа, но тем выше и вероятность ложного срабатывания.

Флажок Output breath only (выводить только дыхание) позволяет проконтролировать чувствительность фильтра и убедиться, что он не уберёт ничего лишнего.

Приводим в порядок согласные звуки: de-ess

Пожалуй, de-ess – один из немногих фильтров, название которого можно не переводить: это фильтр, направленный против избытка звука [с]. И не только его одного: ведь для звукозаписывающего оборудования проблемны все шипящие и свистящие звуки, порождающие мощную струю воздуха.

Фильтры такого типа имеют весьма почтенную историю. Классический фильтр работал по следующему принципу: находил по характерным высоким частотам шипящие и свистящие звуки и ослаблял общую громкость всего звука на момент их звучания. Именно так работают многие «де-эссеры» по сей день, в том числе цифровые.

Однако со временем появились и более сложные алгоритмы, что мы и можем наблюдать в фильтре de-ess iZotope RX (рис. 2).

В интерфейсе фильтра присутствует возможность выбора алгоритма (algorithm): классический (classic) и спектральный (spectral). Как нетрудно догадаться, классический алгоритм работает по принципу, описанному выше, в то время как спектральный, в свою очередь, понижает громкость лишь на определённых частотах, не затрагивая всё, что ниже этих частот, а также не затрагивая фоновые шумы.

Применение более сложного алгоритма расширило возможности фильтра, и если мы заглянем в список шаблонов обработки, предложенных разработчиками (раскрывающийся список в самом верху окна обработки), то мы увидим, что одним голосом дело не ограничивается: фильтр, соответствующим образом настроенный, также предполагается использовать для обработки акустической гитары и барабанов.

Посмотрим, какие настройки доступны в этом фильтре.

Однако со временем появились и более сложные алгоритмы, что мы и можем наблюдать в фильтре de-ess iZotope RX (рис. 2).
Фильтре de-ess (рис. 2)

Порог срабатывания (threshold) определяет уровень сигнала, с которого фильтр начинает компрессию шипяще-свистящих звуков. Уровень сигнала может быть определяем как относительно (relative), так и абсолютно (absolute). В первом случае порог срабатывания будет подстраиваться под общий уровень сигнала в каждый момент времени, во втором – ориентироваться на постоянное значение. Переключениями между этими двумя режимами достигается нажатием или снятием флажка Absolute под ползунком порога срабатывания. По умолчанию флажок снят – действует относительный режим.

Частота среза (Cutoff frequency) определяет нижнюю границу работы фильтра. Всё, что ниже определённой частоты, указанной в герцах, не будет затронуто фильтром. Таким образом мы можем защитить гласные звуки голоса от избыточного редактирования.

Скорость (speed) – высокая (fast) и низкая (slow). Отвечает не за быстроту алгоритма работы фильтра, как можно было бы подумать, а за быстроту атаки и релиза фильтра – то есть за скорость его включения и выключения при реакции на сигнал, нуждающийся в обработке. Эта скорость реакции у фильтров компрессионного типа (в том числе у де-эссера), как правило, не мгновенна.

Выбирается оптимальная скорость на слух. Общее правило тут такое: если фильтр избыточно сглаживает резкие звуки транзиентов, вероятно, он реагирует слишком быстро, и скорость атаки/релиза необходимо снизить. Если же высокие частоты стали звучать слишком тихо, значит, они не успевают восстановиться до нужного уровня после срабатывания фильтра в медленном режиме, и следует увеличить скорость фильтра.

Настройки здесь, как видим, не очень гибкие: есть возможность выбора только между двумя вариантами. Поэтому слушаем, сравниваем и выбираем лучшее для каждого случая звучание.

Ещё два интересных параметра регулируются чуть ниже.

Первый из них – это воссоздание спектра (spectral shaping). При 0 % все шипяще-свистящие звуки остаются такими же, как были, только становятся тише. Но в некоторых случаях само по себе их качество в оригинальной записи оставляет желать лучшего, и тогда можно воссоздать их с помощью этой функции. Наилучшее количество подмешиваемого воссозданного сигнала определяем на слух.

Можно управлять не только количеством воссозданного сигнала, но и его характером. За это отвечает движок «наклон спектра» (spectral tilt). Искусственно сгенерированные шипяще-свистящие звуки создаются на основе шума с определённой амплитудно-частотной характеристикой. Так, белый шум (white) представляет из себя шум, равномерно распределённый по всем частотам, в то время как розовый (pink) и, в ещё большей степени, коричневый (brown) шум убывают к высоким частотам и возрастают к низким. На слух коричневый и розовый шумы воспринимаются как более «тёплые», чем белый.

По умолчанию генерируемый шум близок к розовому, но можно, в зависимости от желаемого характера звучания, делать его звучание как «теплее», так и «холодней».

ога срабатывания. По умолчанию флажок снят – действует относительный режим.
Частота среза (Cutoff frequency) определяет нижнюю границу работы фильтра. Всё, что ниже определённой частоты, указанной в герцах, не будет затронуто фильтром. Таким образом мы можем защитить гласные звуки голоса от избыточного редактирования.

Скорость (speed) – высокая (fast) и низкая (slow). Отвечает не за быстроту алгоритма работы фильтра, как можно было бы подумать, а за быстроту атаки и релиза фильтра – то есть за скорость его включения и выключения при реакции на сигнал, нуждающийся в обработке. Эта скорость реакции у фильтров компрессионного типа (в том числе у де-эссера), как правило, не мгновенна.

Выбирается оптимальная скорость на слух. Общее правило тут такое: если фильтр избыточно сглаживает резкие звуки транзиентов, вероятно, он реагирует слишком быстро, и скорость атаки/релиза необходимо снизить. Если же высокие частоты стали звучать слишком тихо, значит, они не успевают восстановиться до нужного уровня после срабатывания фильтра в медленном режиме, и следует увеличить скорость фильтра.

Настройки здесь, как видим, не очень гибкие: есть возможность выбора только между двумя вариантами. Поэтому слушаем, сравниваем и выбираем лучшее для каждого случая звучание.
Ещё два интересных параметра регулируются чуть ниже.

Первый из них – это воссоздание спектра (spectral shaping). При 0 % все шипяще-свистящие звуки остаются такими же, как были, только становятся тише. Но в некоторых случаях само по себе их качество в оригинальной записи оставляет желать лучшего, и тогда можно воссоздать их с помощью этой функции. Наилучшее количество подмешиваемого воссозданного сигнала определяем на слух.

Можно управлять не только количеством воссозданного сигнала, но и его характером. За это отвечает движок «наклон спектра» (spectral tilt). Искусственно сгенерированные шипяще-свистящие звуки создаются на основе шума с определённой амплитудно-частотной характеристикой. Так, белый шум (white) представляет из себя шум, равномерно распределённый по всем частотам, в то время как розовый (pink) и, в ещё большей степени, коричневый (brown) шум убывают к высоким частотам и возрастают к низким. На слух коричневый и розовый шумы воспринимаются как более «тёплые», чем белый.

По умолчанию генерируемый шум близок к розовому, но можно, в зависимости от желаемого характера звучания, делать его звучание как «теплее», так и «холодней».

Ослабляем «взрывные» звуки речи: de-plosive

«Взрывные» звуки при записи речи или вокала – это, по сути, тот же шум ветра, задувающего в микрофон (см. предыдущую статью), только кратковременный.

Логика работы этого фильтра, соответственно, похожа на логику работы фильтра de-wind. Разница в том, что этот фильтр заточен именно под голос.

Ослабляем «взрывные» звуки речи: de-plosive
Фильтре de-plosive (рис. 3)

Параметров регулировки здесь немного: это чувствительность фильтра к взрывным звукам (Sensitivity), сила их подавления (Strength) и порог частоты (Frequency limit), выше которой фильтр не будет влиять на сигнал.

Важное замечание по работе фильтра от разработчиков: на корректность его работы может влиять эквализация низких частот. Поэтому ослаблять низкие частоты в сигнале рекомендуется уже после применения фильтра de-plosive.

Определить оптимальную пороговую частоту можно по спектрограмме сигнала: яркие вертикальные всплески (более яркие, чем сигнал, на фоне которого они происходят) в нижней части спектра.

Лишние звуки артикуляции: слюни, шлепки губ. Фильтр MouthDe-click

Наконец, среди звуков, не украшающих записи голоса, можно выделить звуки, связанные с артикуляцией самого человека. Эти звуки чувствительная техника также нередко улавливает при записи в избыточном количестве.

Для таких чавкающих, шлёпающих, хлюпающих артефактов есть свой фильтр под названием Mouth De-click (то есть устранение «щелчков» ротового аппарата).  На рисунке 4 мы можем видеть его интерфейс.

Лишние звуки артикуляции: слюни, шлепки губ. Фильтр Mouth De-click
Фильтре Mouth De-click (рис. 4)

Чувствительность фильтра (Sensitivity) отвечает за область его работы: какой сигнал фильтр распознает как нежелательный и требующий ослабления, а какой оставит в покое.

Frequency skew (то есть фильтр по частоте) позволяет сфокусироваться на более низких или, напротив, на более высоких частотах.

Наконец, Click widening (расширение области щелчка) может быть полезно для таких звуков, которые не прекращаются сразу же после «щелчка» в них (например, шлепки губ).

В некоторых случаях, как указывают разработчики, фильтр оптимальным образом срабатывает при двукратном применении: первый раз он удаляет сильные артефакты, второй — более слабые, бывшие ранее замаскированными более сильными.

© 2024 CanoraSound · Копирование материалов сайта без разрешения запрещено
Политика конфиденциальности I Публичная оферта I Sitemap