Диалоговые действия устарели 13 июня 2023 г. Дополнительные сведения см. в разделе Закрытие диалоговых действий .

Эта страница переведена с помощью Cloud Translation API.

Громкость звука (Dialogflow)

LUFS (единицы громкости относительно полной шкалы) — это стандарт, который позволяет нормализовать громкость во многих жанрах и стилях производства. LUFS — это сложный алгоритм, основанный на восприятии громкости человеческого слуха при комфортной громкости прослушивания и позволяющий производителям звука избежать скачков амплитуды, которые потребовали бы от пользователей постоянной регулировки громкости. LUFS также известен как LKFS (громкость, K-взвешенная, относительно полной шкалы)

Примечание. Громкость отличается от громкости. Громкость измеряется в децибелах и представляет собой физическое измерение пикового изменения давления воздуха в данной акустической ситуации. Громкость — это относительная величина, используемая для сравнения цифровых программ на основе максимальной громкости цифрового сигнала (0,0 LUFS). Вот почему все LUFS отрицательны. Пиковый уровень не является хорошим показателем громкости и не должен использоваться для сравнения аудиоматериала с выходным сигналом TTS Google Assistant.

При воспроизведении аудиофайлов с использованием SSML средняя громкость должна составлять -16 LUFS (полная шкала единиц громкости) для стереофонического аудиоконтента, что соответствует средней громкости вывода Google Assistant TTS. Этот уровень обеспечивает хороший баланс между общей регулировкой громкости на голосовом динамике и достаточным запасом для материала с переменным динамическим диапазоном по сравнению с Google Assistant.

Для монофонического аудиоконтента средняя громкость должна составлять -19 LUFS, а не -16 LUFS. Целевая громкость для монофонического аудиоконтента отличается от стереофонического аудиоконтента, поскольку при преобразовании монофонического аудиоконтента в стерео путем дублирования монофонической аудиодорожки на обоих каналах стереосигнала энергия сигнала удваивается, что соответствует увеличение измерения LUFS на 3,01 единицы громкости (LU). И наоборот, когда стереосигнал преобразуется в моно для воспроизведения на одном динамике, моносигнал обычно создается путем усреднения сигнала каждого канала, и это преобразование уменьшает измерение LUFS точно на ту же величину, 3,01 LU. Таким образом, измерения громкости моно- и стереоконтента не могут быть напрямую сопоставлены, но их необходимо компенсировать на 3,01 LUFS.

Некоторые измерители громкости имеют возможность корректировать это несоответствие; например, если вы используете ffmpeg (см. ниже), вы можете использовать опцию dual_mono (или dualmono ), как рекомендуется ниже. Если вы используете измеритель громкости с такой опцией и включили эту опцию, то целевая громкость должна составлять -16 LUFS независимо от того, является ли контент стерео или моно.

Мы рекомендуем два варианта измерения и регулировки громкости звука:

Используйте цифровую аудио рабочую станцию (DAW) и измеритель LUFS .
Используйте FFmpeg , утилиту командной строки.

Использование измерителя DAW и LUFS

Следующие шаги описывают, как обеспечить соответствие вашего звука рекомендации -16 LUFS:

Создавайте весь звук на постоянно громких и сбалансированных (выравниваемых) уровнях на протяжении всего звука, чтобы не было скачков или провалов громкости.
Настройте рабочую станцию цифрового звука (DAW) и измеритель LUFS для измерения громкости звука по сравнению с эталоном громкости Google TTS .
Измерьте и отрегулируйте громкость вашего звука так, чтобы его интегрированная средняя громкость составляла около -16 LUFS (или -19 LUFS, если контент монофонический).
Проверьте свой звук на слух , сравнив его громкость с эталоном громкости Google TTS.

Настройка счетчика DAW и LUFS

Существует множество измерителей DAW и LUFS, доступных в виде бесплатных и коммерческих продуктов. Если у вас уже есть предпочтительный измеритель DAW и LUFS, вы можете использовать его. В противном случае мы рекомендуем Audacity для Windows и Linux или Reaper для Mac для DAW и TBProAudio dpMeter II для измерителя LUFS. В следующих разделах предполагается, что вы используете эти инструменты.

Получить файлы

Загрузите и установите DAW:
- Для Windows или Linux: Audacity
- Для Mac: Жнец
Загрузите и установите dpMeter II для вашей ОС. Этот инструмент работает как с Audacity, так и с Reaper как плагин VST (Virtual Studio Technology).
Загрузите аудиофайл Google TTS Loudness Reference . Звук TTS гласит: «Комплексная громкость этого предложения составляет около -16 LUFS». Этот файл служит тестовым звуком для глюкометра, а также справочным материалом для проверки слуха.

Настройте dpMeter II для Audacity (Windows/Linux)

Откройте аудиофайл Google TTS Loudness Reference в Audacity.
Откройте плагин dpMeter II, щелкнув вкладку « Эффект» и выбрав «Добавить/удалить плагины» .
Найдите в списке dpMeter2 , нажмите «Включить» , затем «ОК» . Плагин dpMeter II теперь отображается в раскрывающемся меню «Эффект» .
Нажмите dpMeter2 в раскрывающемся меню «Эффект» , чтобы открыть плагин. По умолчанию dpMeter II работает в режиме RMS (оранжевая цветовая схема). Измените режим на EBU r128 (синяя цветовая схема) для измерения LUFS.

Настройте dpMeter II для Reaper (Mac)

Откройте звуковой справочник Google TTS Loudness Reference, нажав «Вставить» > «Медиа-файл....» .
Откройте плагин dpMeter II, нажав зеленую кнопку FX (цифра 1 на рисунке) на левой панели аудиослоя. Появится окно эффектов .
Нажмите dpMeter2 в списке. По умолчанию dpMeter II работает в режиме RMS (оранжевая цветовая схема). Измените режим на EBU r128 (синяя цветовая схема) для измерения LUFS.

Измерение и регулировка громкости

Разные счетчики в разных DAW дают немного разные показания. Audacity имеет тенденцию измерять эталонную громкость Google TTS немного громче, чем другие DAW, на уровне -15,1 LUFS, в то время как Reaper дает значение -16,0 LUFS. Пока ваша DAW измеряет громкость эталона громкости Google TTS в пределах +/-2 LUFS от -16, она должна нормально работать для настройки громкости вашего звука.

Основные этапы измерения и регулировки громкости:

Используйте dpMeter II для измерения громкости эталона громкости Google TTS, чтобы установить базовые показания LUFS. Если ваша DAW измеряет выше или ниже -16 LUFS по эталону громкости Google TTS, сопоставьте свой звук с базовой линией вашей DAW. Например, в Audacity dpMeter II измеряет интегрированную громкость -15,1 LUFS, поэтому новая целевая громкость для вашей программы должна составлять -15,1 LUFS.
После установления базового уровня настройте звук так, чтобы он соответствовал показаниям базового уровня.

Измерение эталонной громкости Google TTS

Нажмите зеленую кнопку воспроизведения в dpMeter II или нажмите кнопку воспроизведения (пробел) в вашей DAW (цифра 4 ниже), чтобы измерить громкость файла.

В следующем списке описаны основные функции, которые вы можете использовать в dpMeter II:

Режим : установите EBU (вместо RMS) для измерения громкости в LUFS.
Gain Control : убедитесь, что для этого параметра установлено значение 0,0, пока вы не будете готовы изменить громкость вашей программы.
Интегрированная громкость : это показатель средней громкости всего звука, проанализированного плагином с момента нажатия кнопки сброса (5). Нажимайте кнопку сброса (5) перед каждым измерением громкости, чтобы убедиться, что вы измеряете только громкость текущего выбора.
Воспроизведение : начинается анализ громкости аудиофайла. (Эта кнопка отображается не во всех DAW. Нажатие основной кнопки воспроизведения (пробела) в вашей DAW должно иметь тот же эффект.)
Сброс : нажимайте эту кнопку после каждого измерения громкости.
Применить : когда вы готовы изменить громкость программного материала в соответствии с эталоном громкости Google TTS, эта кнопка применяет изменение громкости, установленное регулятором усиления (2).

Сопоставление громкости со справочником громкости Google TTS.

Теперь, когда вы измерили громкость эталона громкости Google TTS, вы можете измерить и настроить громкость звука:

Откройте аудиофайл и нажмите «Выбрать dpMeter2» в меню «Эффект» .
Нажмите кнопку «Воспроизвести» и дайте встроенному значению громкости установиться на среднее значение для вашего аудиофайла.
Если встроенная громкость отличается от эталонной громкости Google TTS, отрегулируйте усиление звука в соответствии с эталоном. Например, если ваш звук измеряется при интегрированной громкости -12, он слишком громкий, поэтому уменьшите усиление, установив для параметра усиления значение -4 дБ и нажав «Применить» , чтобы привести его к целевому диапазону эталонной громкости Google TTS (-16 LUFS). ). Возможно, вам придется измерить и отрегулировать усиление, чтобы достичь целевой громкости, поскольку усиление приблизительно соответствует LUFS.

Использование ffmpeg

FFmpeg — это медиа-фреймворк с инструментом командной строки для преобразования мультимедиа. Инструмент включает в себя фильтр, называемый громкостью, для нормализации громкости. Вы можете использовать громкость для вывода версии вашего аудиофайла с соответствующей громкостью -16 LUFS в двухпроходном режиме.

Загрузите и установите FFmpeg .
Перейдите в каталог установки и запустите FFmpeg с фильтром громкости во входном файле. Обязательно включите опцию dual_mono .
```
./ffmpeg -i /path/to/input.wav \
    -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
    -f null -
```
Это указывает FFmpeg измерить аудиозначения вашего медиафайла без создания выходного файла. Вы получите ряд значений, представленных следующим образом:
```
Input Integrated:    -27.2 LUFS
Input True Peak:     -14.4 dBTP
Input LRA:             0.1 LU
Input Threshold:     -37.7 LUFS

Output Integrated:   -15.5 LUFS
Output True Peak:     -2.7 dBTP
Output LRA:            0.0 LU
Output Threshold:    -26.2 LUFS

Normalization Type:   Dynamic
Target Offset:        -0.5 LU
```
Приведенные выше примеры значений указывают важную информацию о входящих носителях. Например, отображаемое значение Input Integrated указывает на слишком громкий звук. Значение Output Integrated намного ближе к -16,0. Значения Input True Peak и Input LRA , или диапазона громкости, превышают предоставленные нами потолки и будут уменьшены в нормализованной версии. Наконец, Target Offset представляет собой усиление смещения, используемое в выходных данных.
Запустите второй проход фильтра нормы громкости, предоставив значения из шага 1 как «измеренные» значения в параметрах нормы громкости.
```
./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
```
Создается файл output.wav , содержащий нормализованную по громкости версию вашего входного файла.

Прослушайте следующие примеры аудиофайла до и после нормализации громкости ffmpeg, чтобы услышать, как работает этот инструмент.

До

После

Ухо, проверьте свой звук

Проверьте слух, чтобы убедиться, что ваш звук звучит хорошо по сравнению с эталоном громкости Google TTS. Для этого переключайтесь между прослушиванием файлов и замечайте любые скачки громкости или баланса и при необходимости отрегулируйте усиление на слух.

Громкость произнесенных слов должна звучать одинаково на уровне -16 LUFS (стерео) или -19 LUFS (моно). Однако если частотный диапазон вашего звука слишком высок (например, крики птиц) или слишком низок (например, гром), установка уровней на -16 LUFS (стерео) или -19 LUFS (моно) может привести к тому, что звук будет несовместим с звуком Google. Справочник по громкости TTS. В этом случае проверка слуха особенно полезна для балансировки всего звука в вашей программе.