Что такое dithering и как он устроен?
Для предотвращения возникновения гармонических искажений требуется устранить корреляцию шума квантования с исходным аудиосигналом. Для этого существует метод, называемый dithering. Он заключается в добавлении к исходному сигналу перед округлением специально сгенерированного шума небольшой амплитуды. В зависимости от свойств этого шума, слышимые гармонические искажения могут быть либо совершенно устранены, либо значительно подавлены . Расплата за подавление искажений - немного повышенный (до +6 дБ по сравнению с округлением) уровень шума в фонограмме.
Важно не путать dithering-шум с шумом квантования. Если положить шум dithering'а равным нулю, то мы получим округление в чистом виде, но шум квантования при этом вовсе не будет равен нулю.
Разновидности dithering'a.
Разные виды dithering-шума отличаются по амплитуде, по спектру и по функции распределения вероятности значений шума по амплитуде (PDF - probability distribution function). Для белого шума PDF показывает, как часто встречаются в шуме значения различных амплитуд. Стандартные виды PDF - треугольная, прямоугольная, гауссова. Например, треугольная PDF означает, что в шуме чаще будут встречаться значения с амплитудой вблизи нуля, чем с большими амплитудами. А при прямоугольной PDF все значения амплитуд шума (естественно, в определенных пределах) равновероятны.
Для обозначения максимальной амплитуды dithering-шума будем использовать единицу LSB (least significant bit - наименее значащий бит) - расстояние между двумя соседними (ближайшими возможными) значениями амплитуды в квантованном 16-битном сигнале. Если говорят, что шум имеет амплитуду 1 LSB от пика до пика (1 LSB peak-to-peak), то это значит, что он может принимать значения от -0,5 LSB до +0,5 LSB.
Чаще всего для dithering'а используется белый шум с амплитудой от 1 до 2 LSB. Существуют два стандартных вида dithering-шума. Первый - белый шум с прямоугольной PDF и амплитудой 1 LSB от пика до пика. Такой шум практически полностью устраняет гармонические искажения в квантованном сигнале, однако имеет недостаток: громкость шума квантования меняется со временем, и зависит от исходного сигнала. Это явление называется модуляцией шума.
Второй распространенный вид шума dithering'а - тоже белый шум, но с амплитудой 2 LSB от пика до пика и треугольной PDF. Такой шум наиболее часто используется при снижении разрядности и называется standard TPDF dither (TPDF - triangular PDF). Этот вид dithering'а вносит немного больше шума в фонограмму (-98 дБ (А)), однако практически полностью устраняет гармонические искажения и модуляцию шума.
В некоторых системах снижения разрядности можно выбирать амплитуду dithering-шума, изменяя баланс между количеством шума и количеством искажений. Маленькая амплитуда dithering-шума вносит меньше заметного шума, однако может не полностью устранить гармонические искажения и модуляцию шума. Большая амплитуда dithering-шума вносит больше слышимого шума, но практически полностью подавляет искажения и модуляции. Для большинства приложений оптимальным выбором среди алгоритмов dithering'а является standard TPDF dither.
Существуют и другие виды dithering'а. В некоторых из них шум имеет не белый, а более сложный спектр с целью понизить воспринимаемую громкость шума. Однако, используя только dithering, невозможно сильно изменить спектр шума квантования. Даже если вывести спектр dithering-шума полностью за пределы слышимого диапазона (выше 20 кГц), то шум квантования все равно будет присутствовать и ниже 20 кГц, причем в заметных количествах. Для эффективного формирования спектра шума квантования необходимо генерировать dithering-шум с учетом самого исходного сигнала. Алгоритмы для этого довольно сложны и применяются в таких системах, как Apogee UV22 и POW-R. Иногда таким системам свойственны некоторые побочные артефакты, связанные с коррелированностью dithering-шума и исходного сигнала, или цикличностью dithering-шума.
Насколько полезен dithering? Несмотря на то, что стандартный dithering повышает уровень шума фонограммы до -98 дБ (А), это не значит, что мы не сможем услышать в фонограмме звуки тише -98 дБ. В 16-битной фонограмме, если использовался стандартный dithering, можно отчетливо различить звуки с такими маленькими амплитудами, как -100…-110 дБ - особенно наглядно это демонстрируется на синусоидах со средними частотами. Дело в том, что наше ухо может "слышать сквозь шум", действуя как спектроанализатор. Как на спектрограммах видны пики синусоид, возвышающиеся над шумом квантования, так и наше ухо способно улавливать эти пики сквозь шум, несмотря на то, что суммарная амплитуда шума больше амплитуды полезного сигнала.
При этом в 16-битном сигнале практически отсутствуют гармонические искажения, связанные с квантованием. Синусоида звучит абсолютно неискаженной, без обертонов. Единственный эффект квантования с ditheringом - постоянный шум, который, впрочем, обычно находится ниже порога слышимости.
Dithering применяется во многих системах для мастеринга и в звуковых редакторах при работе со звуком пониженной разрядности. Почти любые преобразования 16-битного звука (например, эквалайзер, реверберация, динамическая обработка, изменение частоты дискретизации) дают в результате звук большей разрядности. Но так как исходный звук был 16-битный, то звуковые редакторы приводят к 16-битному формату и результирующий звук.
Правильный способ такого приведения - это dithering, а "неправильный" - округление. Dithering применяется при каждой операции над 16-битным звуком, добавляя определенное количество шума. Если операций много, то уровень шума может стать заметным, хотя это все же лучше искажений округления. Поэтому при редактировании звука обычно применяются форматы с повышенной разрядностью (например, 24 или 32 бита) - в них нет необходимости применять dithering, поскольку при такой разрядности артефакты квантования слишком малы, чтобы обращать на них внимание. Отметим, что операцию снижения разрядности до 16 бит в этом случае выполняют в последнюю очередь, стремясь всю обработку (в том числе, изменение частоты дискретизации и лимитирование) провести в формате с повышенной разрядностью.
При мастеринге некоторые звукоинженеры предпочитают стандартный dithering другим, более сложным методам снижения разрядности из-за "проверенности" метода и "нейтральности" звучания белого шума.
Noise shaping
Как уже упоминалось, спектр dithering-шума можно варьировать, чтобы уменьшить воспринимаемую громкость шума. Наше ухо неодинаково чувствительно к звукам различных частот. Поэтому можно попытаться переместить dithering-шум в те частотные диапазоны, где наше ухо наименее чувствительно. Тогда воспринимаемая громкость шума понизится. С помощью методов dithering'а этого удавалось достичь лишь отчасти. Метод формирования шума (noise shaping) позволяет придать спектру шума квантования практически любую форму.
Noise shaping - следующий класс алгоритмов снижения разрядности, расширяющий возможности алгоритмов dithering'а. Основная идея заключается во введении обратной связи в процесс снижения разрядности. Ошибка квантования, полученная для текущего временного отсчета, участвует в процессе формирования шума для следующего временного отсчета. В этом процессе используется фильтр, который и определяет форму спектра шума квантования.
Системы noise shaping
Все системы стремятся вытеснить как можно больше шума из области средних частот, где наше ухо наиболее чувствительно. Вытеснять этот шум в область низких частот трудно: там мало "свободного места". Поэтому чаще всего шум вытесняется в область высоких частот. Ясно, что, чем больше мы убираем шума из средних частот, тем больше его становится в области высоких частот. Если принять за условную границу этих областей частоту 15 кГц, то основная часть шума сосредоточится на отрезке 15…22 кГц (более высоких частот в CD-аудио нет). Одно из основных ограничений, которые из-за этого возникают, таково: нельзя допустить слишком большой амплитуды шума в ВЧ-области. Если амплитуда ВЧ-шума будет слишком велика, то это может иметь нежелательные последствия.
Некоторые люди относительно хорошо слышат ВЧ-шумы, и для них чрезмерный шум noise-shaping будет слышен при очень громком прослушивании как неприятный свист.
Слишком сильный ВЧ-шум может повредить ВЧ-динамики громкоговорителей при очень большой громкости воспроизведения.
Слишком сильный ВЧ-шум изменяет амплитудный профиль фонограммы, и это может привести к проблемам при необходимости последующей обработки фонограммы, например, в случае динамической обработки при ремастеринге.
При ошибках чтения с аудио-CD плеер интерполирует неправильно считанные семплы. Высокая амплитуда ВЧ-шума затрудняет процесс интерполяции (снижает точность), и это увеличивает щелчки от интерполяции.
Чтобы минимизировать эти нежелательные последствия, предполагаемая амплитуда ВЧ-шума при noise shaping обычно не превышает -60 дБFS. В некоторых системах можно выбирать один из нескольких режимов работы, регулируя компромисс между маленькой амплитудой ВЧ-шума и более сильным подавлением среднечастотного (слышимого) шума.
Системы noise shaping дают большее преимущество при высоких частотах дискретизации. В этом случае ультразвуковая область до половины частоты дискретизации широка, и в ней "больше места" для вытеснения туда шума из слышимой области. Этот факт успешно используется в АЦП и ЦАП с передискретизацией (oversampling) для повышения динамического диапазона в слышимой области при маленькой реальной разрядности преобразователя.
Основное различие всех систем noise shaping - в фильтре. Именно он определяет форму спектра шума. Во многих системах фильтры имеют не очень гладкую частотную характеристику в слышимой полосе, и это может приводить к окрашенности шума. Из-за этого некоторые звукоинженеры предпочитают использовать стандартный dithering, а не системы noise shaping.
Noise shaping, так же как и dithering, при снижении разрядности практически полностью устраняет гармонические искажения и модуляцию шума. Кроме того, громкость шума квантования обычно становится заметно ниже, чем когда используется стандартный dithering. В результате мы получаем возможность слышать в фонограмме неискаженные звуки с уровнем -120…-110 дБ (особенно наглядно это демонстрируется на синусоидах со средними частотами).
Системы noise shaping - важная составная часть мастеринговых систем. Они расширяют слышимый динамический диапазон на компакт-диске.
Обзор популярных систем снижения разрядности
Здесь кратко рассмотрим наиболее распространенные системы снижения разрядности с комментариями по поводу их звучания.
Основные параметры оценки - субъективная громкость шума квантования и уровень ВЧ-шума (понятно, что при равной громкости шума предпочтение отдается системе с меньшим уровнем ВЧ-шума). Все рассмотренные системы имеют примерно одинаковый уровень подавления гармонических искажений и модуляций шума, поэтому основной оцениваемый параметр - именно громкость шума квантования и его окраска.
Отметим, что субъективная громкость шума является результатом собственных измерений автора, и, чаще всего, значительно отличается от рекламных заявлений производителей.
В сводной таблице в конце статьи приводятся краткие параметры рассмотренных систем снижения разрядности и некоторых других.
Стандартный dithering
Этот метод (standard TPDF dither) уже рассмотрен. Громкость шума квантования этого метода является критерием для оценки громкости шума квантования других методов. Из всех рассмотренных систем этот метод дает максимальную громкость слышимого шума.
Apogee UV22
Это, пожалуй, самая распространенная система снижения разрядности. Алгоритм UV22 и его многочисленные модификации встроены во многие цифровые приборы разных фирм и в некоторые компьютерные звуковые редакторы (например, VST plug-in UV22).
В UV22 использован dithering специальным шумом, содержащим максимум энергии выше 18 кГц. По заявлениям производителя, шум генерируется в зависимости от исходного аудиосигнала и содержит три пика с динамически меняющимися частотами выше 18 кГц.
В слышимой полосе шум квантования имеет ровный белый спектр. Слышимая громкость шума на 5 дБ ниже, чем у стандартного dithering'а. Однако в шуме прослеживаются периодические "поцикивания", которые могут несколько портить общую картину.
Sony Super Bit Mapping
Еще одна распространенная система снижения разрядности - разработка Sony.
В системе SBM используется noise shaping с фильтром 12-го порядка. Форма частотной характеристики была подобрана экспериментально, отталкиваясь от кривых Флетчера-Мэнсона. Она имеет довольно гладкую форму. Слышимая громкость шума на 5 дБ ниже, чем у стандартного dithering'а. Шум больше заметен на высоких частотах, чем на низких.
Waves L1 IDR
Эта система снижения разрядности встроена в известный лимитер L1 фирмы Waves. В разработке алгоритмов L1 принимал участие Майкл Герзон - всемирно известный специалист в области цифрового звука. Система доступна в виде подключаемых модулей разных форматов. Имеется несколько режимов - фильтров noise shaping с различными степенями подавления слышимого шума. Здесь мы рассматриваем режим "Ultra" как наиболее мощный.
Максимум энергии шума приходится на полосу выше 18 кГц. В слышимом диапазоне шум подавляется сильнее на низких частотах и чуть слабее на высоких. Слышимая громкость шума примерно на 8 дБ ниже, чем у стандартного dithering'а, причем слышны, в первую очередь, высокочастотные составляющие в районе 12 кГц.
Waves L2 IDR
Более новая система снижения разрядности из не менее известного лимитера L2. Доступна как в программном варианте, так и в приборах L2. Как и в системе L1 IDR, имеется несколько режимов - фильтров noise shaping. Здесь мы рассматриваем режим "Ultra" как наиболее мощный.
Максимум энергии шума приходится на полосу выше 17 кГц. В слышимом диапазоне шум подавляется сильнее всего в районе 4 кГц - максимума чувствительности уха. Однако недостаточное подавление шума в районе 10...15 кГц приводит к появлению довольно неприятной высокочастотной окраски у шума квантования. Слышимая громкость шума примерно на 7 дБ ниже, чем у стандартного dithering'а.
POW-R
Система POW-R - относительно новая разработка консорциума POW-R (Weiss, Apogee, Z-systems, Millenia). Система встроена во многие цифровые приборы и в некоторые звуковые редакторы. Имеется несколько режимов работы: dithering специальным видом шума и несколько фильтров noise shaping. Здесь мы рассматриваем наиболее мощный режим - POW-R 3, представляющий собой noise shaping с фильтром 9-го порядка.
Максимум энергии шума приходится на полосу выше 17 кГц. В слышимом диапазоне шум подавляется сильнее всего в районах 3,5 и 12,5 кГц - максимумах чувствительности уха. Однако недостаточное подавление шума в районе 8…10 кГц приводит к увеличению общей слышимой громкости шума. Она примерно на 7…8 дБ ниже, чем у стандартного dithering'а.
MegaBitMax
Упомянем еще одну новую систему - собственную разработку автора статьи. В данный момент система MegaBitMax лицензирована TC Works и встраивается в программные продукты этой компании. При разработке системы были проведены новые обширные эксперименты по восприятию шумов, и на их основании были разработаны фильтры noise shaping, которые дают минимальную громкость слышимого шума квантования при каждой заданной величине ВЧ-шума. Кроме того, большое внимание уделялось нейтральности, неокрашенности звучания шума.
В системе MegaBitMax имеется набор фильтров noise shaping и специальная функция уменьшения выбросов ВЧ-шума. Максимум энергии шума приходится на полосу выше 17 кГц. В диапазоне 3…14 кГц спектр шума белый, что согласуется с данными экспериментов автора по нахождению оптимального распределения шума. В наиболее мощных режимах слышимая громкость шума на 12…14 дБ ниже, чем в стандартном dithering'е.
Автор: Алексей Лукин.