| Примеры | Статьи, публикации | Форум | НовостиУслуги   |  Вопросы – ответы |

 

тел. (486 2) 54-40-77,

mailto:illidiy(собака)orel.ru

 

 

Статьи, публикации

 

Исследование распределения весовых отсчётов аудиофайлов.

(из материалов  полного руководства методических рекомендаций)

Введение

Различные типы форматов используют различные виды компрессоров и оставляют свои следы в распределении весовых значений отсчётов. В связи с этим мы можем исследовать эти свойства для выявления как признаков пребывания фонограммы в цифровом виде, так и  признаков компьютерного монтажа или изменений произведённых в процессе записи или после. Появившаяся возможность оценить численные значения статистического анализа плотности распределения весовых отсчётов, позволяет производить вычисления, как мгновенных значений, так и спектральное исследование плотности, по всей фонограмме включая спектральное исследование асимметрии плотности распределения связанное с амплитудной нелинейностью аналоговой части канала записи (микрофон, линейный усилитель, АЦП) и наличие постоянной составляющей в канале записи.  Исследуем для примера широко распространённые форматы компрессии: линейный и логарифмический.

Вспомним, что для нормального функционирования Sound Blastera на его вход должны быть поданы 16 bit отсчёты (2 байта), имеющие диапазон значений амплитуд от -32768 до +32767, итого 65536 значений амплитуд. Этим форматом является Widows PCM 16bit. Это не касается 24 bit и 32 bit Sound Blasterov. На их вход можно подавать и большие значения, чем для стандартных, с разрядностью 16bit. К простейшему компрессорному формату, сжимающему в два раза по длительности аудиофайл, относится 8 bit формат. Т.е. все отсчёты (веса) имеют разрядность 1 байт или автоматически получаем из этого - всего 256 амплитуд которые мы можем хранить в этом одном байте. Как же подать такой формат на вход Sound Blastera. Делается просто, все значения умножаются на 256. Получаем для  минимального отрицательного значения  -128, хранящемся в одном байте  при умножении на 256 = -32768;  для максимального +127*256=32512. Таким образом, при конвертации формата 8bit в формат 16bit все значения амплитуд должны умножиться на 256. При рассмотрении конвертированного формата из 8bit в Widows PCM 16bit, все веса равномерно расположены через 256 отсчётов.

Рассмотрим линейный формат 8bit на практике. Мы видим, что после конвертации файл имеет всего 256 значений амплитуд, распределённые равномерно. Плотность отсчётов приведена на рис. ниже. На рисунке имеются следующие оси: По горизонтали – веса амплитуд присутствующие в файле, по вертикали относительное количество присутствия в выделенном фрагменте весов, видимое в конкретном окне исследования. В связи с этим  при смене диапазона исследования по оси Х, для максимального значения по вертикали будут использованы другие веса т.е. самое большое значение будет масштабировано к 1 по Y.

Рисунок 115

На графике явно просматривается равномерность расстояний между амплитудами отсчётов. Расстояние между отсчётами 65536/256=256. (Пример:\Documentation\Lesson\10\8bit.wav).

 

Широко распространённый формат цифровых диктофонов AMR приведён на рис. ниже.

Рисунок 116

Аналогичная картина при исследовании формата GSM 6.10.

Формат является линейным, все веса амплитуд идут через восемь отсчётов. Таким образом, для всего диапазона амплитуд исходя из 16bit представления, подаваемого на вход Sound blastera, используется 65536/8=8192 отсчёта амплитуд.

 

Исследуем широко распространённый формат (Next/Sun *.AU) использующий нелинейные логарифмические компрессоры µ-Law  или A-Law. Исходный файл не обязательно должен иметь именно такое расширение файла. Он может быть с расширением *.wav или с другим расширением, позволяющим сохранять компрессированные блоки данных. Формат (Next/Sun *.AU) является 8bit логарифмическим форматом: т.е. каждый отсчёт может иметь всего лишь 256 значений амплитуд. Для того, что бы минимизировать нелинейные искажения и снизить шумы, по сравнению с 8bit линейным преобразованием, веса всех 256 значений кодируются по логарифмическому закону, который апроксимируется несколькими прямыми см. рис ниже.

Рисунок 117

Таким образом, после декомпрессии, например, в линейный формат 16bit, в плотности распределения отсчётов мы должны видеть 256 декомпрессированных значений амплитуд рис. ниже. (Пример:\Documentation\Lesson\10\Logarifm.au).

Рисунок 118

На рисунке хорошо просматривается именно линейная аппроксимация логарифмического формата.

 

Цифровые диктофоны хранят в памяти компрессированные данные и используют при этом множество разновидностей компрессоров. При этом, каким образом производиться сжатие может являться секретом фирмы-производителя. Как правило, компрессирование и декомпрессия происходит программным путём и в программах могут находиться ошибки программиста, в связи с чем, иногда мы наблюдаем определённые признаки конкретных моделей цифровых диктофонов с явными программными или аппаратными ошибками. Возможно, это и не является программной ошибкой а  умышленно заложенными потерями связанными с компрессией-декомпрессией звукового сигнала. Для примера можно привести профессиональный цифровой репортёрский диктофон, в выходных данных которого имеются пропуски определённых весовых значений амплитуд рис. ниже.

 

Рисунок 119

Эти пропуски весовых значений практически незаметны на аудитивном уровне восприятия. (Пример:\Documentation\Lesson\10\Profes_report_dictofon.wav). Такие пропуски вероятнее всего связаны именно с особенностями  компрессора и декомпрессора или программной ошибкой.

 

По другому объяснить причину того что все нечётные номера амплитуд имеют в два раза меньше вероятность появления в сигнале как своеобразность АЦП цифрового диктофона или заложенной программистом ошибки, невозможно. рис. ниже. (Пример:\Documentation\Lesson\10\Defect.wav).

Рисунок 120

Исследование дисперсии цифрового диктофона ZEN NANO PLUS выявило, (по мнению автора) явные дефекты аппаратной части диктофона (по этому он такой дешёвый) связанные с амплитудной нелинейностью канала записи (асимметрия относительно среднего значения = -0.6919, которая связана с наличием на левом склоне графика небольшого подъёма) и присутствием  постоянной составляющей на входе АЦП (среднее значение постоянной составляющей = -564 отсчёта). (Пример: \Demo\Диктофоны и программы\Zen_Nano_Plus.wav). четыре подряд рисунка ниже.

Рисунок 121 (мгновенный спектр)

Рисунок 122 (спектр плотности)

Рисунок 123 (постоянная составляющая)

 

Рисунок 124 (асимметрия)

При отображении на графике все значения асимметрии умножены на коэффициент 100 для удобства визуального исследования и оценки значений.

 

Особое внимание следует уделить очень широко распространённому в правоохранительных органах цифровому диктофону EDIC MINI. С одной стороны он оставляет в фонограммах хорошие следы в виде множества не кратных кварцованных и нескольких плавно изменяющихся по частоте гармоник, в добавок, программист ошибся в программном обеспечении и оставил следы в заголовке файла, с другой стороны, если исследовать плотность распределения отсчётов то см. рисунки ниже.

.

Рисунок 125

Рисунок 126

Рисунок 127

Наблюдается парадоксальная плотность распределения. Ни одно устройство с ним сравниться не может.

1.      Имеется сильнейшая разрежённость плотности в области малых отсчётов с шагом 8 (см. первый рис). (Создаётся впечатление что используется антилогарифмическое кодирование отсчётов.)

2.       Затем наблюдается групповая сосредоточённость амплитуд с большими пропусками отсчётов, хотя в группах шаг становиться равным 4.

3.      При частоте 16кГц выходного файла на аудитивном уровне воспринимается как отличная запись голоса и речи и всей фоновой обстановки.

Направления выявление признаков изменений произведённых после записи.

Обратимся к нескольким примерам из реальной практики. Исходная фонограмма поступила на магнитной ленте. После её оцифровке наблюдаем плотность распределения отсчётов рис. ниже.

Рисунок 128

Однозначно выявляется пребывание фонограммы в цифровом виде, с использованием компрессора (А-µ)-Law. В исследуемом окне (рис. выше) видно наложение шумов ленты и детонации ЛПМ во время записи и воспроизведения, в связи с этим произошло размывание отсчётов шумами. Сравните это с логарифмическим форматом  (рис. ниже).

Рисунок 129

В следующем примере наблюдаем место склейки фонограммы. Для того, что бы шумы до места склейки и после неё остались одинаковыми по уровню и "размазать" место склейки, при помощи CoolEdit или Adobe Audition была применена операция FADE с перекрытием участков. На аудитивном уровне анализа место склейки практически незаметно. В дальнейшем, при детальном исследовании выявлено, что фонограмма пребывала в другом формате, с использованием логарифмического компрессора  µ-Law. На рис. ниже наблюдается место склейки и операция FADE.

Рисунок 130

Следующая фонограмма имеет изменения, произведённые после записи, связанные с увеличением программными средствами амплитуды примерно в 3.5 раза (рис. ниже).

Рисунок 131

Для уничтожения части фонограммы использовалось зашумление отдельных фраз. На аудитивном уровне разборчивость в этих местах равна нулю. С учётом того, что запись производилась через радиомикрофон, эти участки по шумовым характеристикам практически не отличаются от суперных шумов радиоканала. Пример рис. ниже. Так же выявлен исходный компрессированный формат AMR используемый во время записи, а на исследование представлен файл Windows PCM 16bit не компрессированный. Наложение шума и его границы по длительности хорошо визуализируются. (рис.ниже).

Рисунок 132

Рисунок 133

Вставка фрагмента одной фонограммы в другую (рис выше.). Участок вставки хорошо визуализируется по постоянной составляющей и асимметрии.

 

Внимание! Запрещается перепечатка данной статьи или ее части без согласования с автором. Если вы хотите разместить эту статью на своем сайте или издать в печатном виде, свяжитесь с автором.

Контакт

e-mail: illidiy(собака)orel.ru

На главную