音量 (Dialogflow)

LUFS(相对于完整刻度的音量单位)是一种标准,可实现跨多个类型和制作风格的音量标准化。LUFS 是一种基于人耳听觉音量(在舒适的聆听音量下)的复杂算法,可让音频制作者避免振幅突增,而振幅会要求用户不断调整音量。LUFS 也称为 LKFS(响度,K 加权,相对于全刻度)

使用 SSML 播放音频文件时,立体声音频内容的平均音量应为 -16 LUFS(音量单位全标度),与 Google 助理 TTS 输出的平均音量一致。与 Google 助理相比,这个级别能够很好地平衡声控音响设备的整体音量控制,以及具有可变动态范围的材料的充足余量。

对于单声道音频内容,平均音量应为 -19 LUFS,而不是 -16 LUFS。单声道音频内容的音量目标不同于立体声音频内容的音量目标,因为当单声道音频内容转换为立体声时,通过在立体声信号的两个声道上复制单声道音轨,信号的能量翻倍,这对应于 LUFS 测量结果的 3.01 音量单位 (LU) 的增加。相反,当立体声信号转换为单声道以便在单个音响上播放时,单声道信号通常是通过将来自每个声道的信号求平均值来构造的,并且这种转换会将 LUFS 测量值减少完全相同的量,即 3.01 LU。因此,单声道和立体声内容的音量测量不能直接进行比较,但需要通过 3.01 LUFS 进行偏移。

某些音量计提供了用于校正这种差异的选项;例如,如果您使用 ffmpeg(见下文),则可以使用 dual_mono(或 dualmono)选项,如下所示。 如果您使用的是具有此类选项的音量计,并且已启用该选项,则无论内容是立体声还是单声道,音量目标都应为 -16 LUFS。

我们建议您通过以下两种方式测量和调整音量:

使用 DAW 和 LUFS 计量器

以下步骤介绍了如何确保音频符合 -16 LUFS 建议:

  1. 在整个音频播放期间,以始终如一的高音量和均衡(均衡)音量创建所有音频,以免音量出现高峰或低谷。
  2. 设置数字音频工作站 (DAW) 和 LUFS 计量器,以测量音量,并与 Google TTS 音量参考工具进行比较。
  3. 测量并调整音频的音量,使整体平均音量为约 -16 LUFS(如果内容为单声道,则为 -19 LUFS)。
  4. 通过将音量与 Google TTS 音量参考进行比较来检查音频

设置 DAW 和 LUFS 计量器

市面上有许多以免费软件和商业产品的形式提供的 DAW 和 LUFS 计量器。如果您已经有首选的 DAW 和 LUFS 计量器,可以使用它。否则,我们建议使用 Audacity(适用于 Windows 和 Linux)或 Reaper for Mac(适用于 DAW)和 TBProAudio dpMeter II(适用于 LUFS 计量器)。以下部分假定您正在使用这些工具。

获取文件

  1. 下载并安装 DAW:
  2. 下载并安装适用于您的操作系统的 dpMeter II。此工具作为 VST(虚拟工作室技术)插件可与 Audacity 和 Reaper 配合使用。
  3. 下载 Google TTS 音量参考音频文件。TTS 音频显示:“此句子的集成音量约为 -16 LUFS”。此文件将用作电表的测试音频和听力检查参考。

为 Audacity 配置 dpMeter II (Windows/Linux)

  1. 在 Audacity 中打开 Google TTS 音量参考音频文件。
  2. 点击 Effect(效果)标签页,然后选择 Add/Remove plug-ins(添加/移除插件),打开 dpMeter II 插件。
  3. 在列表中找到 dpMeter2,点击启用,然后点击确定。dpMeter II 插件现在会显示在 Effect 下拉菜单中。
  4. 点击 Effect 下拉菜单中的 dpMeter2 以打开该插件。dpMeter II 默认为 RMS 模式(橙色配色方案)。将模式更改为 EBU r128(蓝色配色方案)以测量 LUFS。

为死者配置 dpMeter II (Mac)

  1. 依次点击 Insert > Media file...,打开 Google TTS 音量参考音频。
  2. 点击音频层左侧窗格中的绿色 FX 按钮(图中的数字 1),打开 dpMeter II 插件。此时将显示 FX 窗口。

  3. 点击列表中的 dpMeter2。dpMeter II 默认为 RMS 模式(橙色配色方案)。将模式更改为 EBU r128(蓝色配色方案)以测量 LUFS。

测量和调整音量

不同 DAW 中的不同电表会产生略有不同的读数。Audacity 测量 Google TTS 音量参考的音量往往比其他 DAW 略高一点,即 -15.1 LUFS,而 Reaper 提供的读数为 -16.0 LUFS。只要您的 DAW 测量的是 Google TTS 音量参考在 -16 的 +/-2 LUFS 范围内的音量,就应该可以正常设置音频的音量。

测量和调整音量的基本步骤如下:

  1. 使用 dpMeter II 测量 Google TTS 音量参考的音量,以确定基准 LUFS 读数。对于 Google TTS 音量参考,如果 DAW 测量的 LUFS 高于或低于 -16,请将音频与 DAW 的基线进行匹配。例如,在 Audacity 中,dpMeter II 测量的集成音量为 -15.1 LUFS,因此您的程序的新目标音量应为 -15.1 LUFS。
  2. 建立基准后,调整音频以与基准读数匹配。

测量 Google TTS 音量参考

点击 dpMeter II 中的绿色播放按钮或按下 DAW 中的播放(空格键)(下文中的数字 4)即可测量文件的音量。

以下列表介绍了您可以在 dpMeter II 中使用的主要功能:

  1. Mode:设置为 EBU(而不是 RMS),以测量 LUFS 中的音量
  2. 增益控制:在您准备好更改节目的音量之前,确保将其设置为 0.0。
  3. 集成音量:这用于衡量插件自点击重置按钮 (5) 以来分析的所有音频的平均音量。在每次测量音量之前点击重置按钮 (5),以确保您测量的仅是当前所选音量的音量。
  4. 播放:此选项会开始音频文件的音量分析。(此按钮不会显示在所有 DAW 中。点击 DAW 中的主播放按钮(空格键)应具有相同的效果。)
  5. 重置:在每次音量测量之间点击此按钮。
  6. Apply:当您准备好更改节目内容的音量以与 Google TTS 音量参考相符时,此按钮会应用增益控制 (2) 所设置的音量变化。

将音量与 Google TTS 音量参考相匹配

现在,您已经测量了 Google TTS 音量参考的音量,接下来可以测量和调整音频的音量了:

  1. 打开您的音频文件,然后从效果菜单中选择 dpMeter2
  2. 点击 Play 按钮,将集成的音量值设为音频文件的平均值。
  3. 如果综合音量不同于 Google TTS 音量参考,请调整音频的增益以匹配参考。例如,如果您的音频测量时采用 -12 的集成音量,那么声音就会过大,因此请将增益控制设置为 -4db,然后点击 Apply 将其调至 Google TTS 音量参考 (-16 LUFS) 的目标范围,从而降低增益。 您可能需要测量并调整增益以获得目标音量,因为增益只能近似于 LUFS。

使用 ffmpeg

FFmpeg 是一个媒体框架,带有用于媒体转换的命令行工具。该工具包含一个名为 loudnorm 的过滤器,用于音量归一化。您可以使用双通模式,使用 loudnorm,以适当的 -16 LUFS 音量输出音频文件版本。

  1. 下载并安装 FFmpeg
  2. 转到安装目录,然后在输入文件中使用 loudnorm 过滤器运行 FFmpeg。请务必启用 dual_mono 选项。

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    此参数指示 FFmpeg 在不创建输出文件的情况下测量媒体文件的音频值。您将获得一系列值,如下所示:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    上面的示例值表示有关传入媒体的重要信息。例如,显示的 Input Integrated 值表示音频过大。Output Integrated 值更接近 -16.0。Input True PeakInput LRA(即音量范围)的值都高于我们提供的上限,在标准化版本中会降低。最后,Target Offset 表示输出中使用的偏移增益。

  3. 运行第二轮 loudnorm 过滤器,将第 1 步中的值作为 loudnorm 选项中的“测量”值提供。

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    会创建一个文件 output.wav,其中包含输入文件的音量标准化版本。

您可以听以下 ffmpeg 音量标准化前后的音频文件示例,了解该工具的工作原理。

之前

之后

检查音频

检查听力,确保与 Google TTS 音量参考相比,音频听起来不错。为此,请在监听文件之间切换,并注意音量或平衡是否有任何跳跃,并根据需要通过耳朵调整增益。

音量为 -16 LUFS(立体声)或 -19 LUFS(单声道)时声音应一致。但是,如果音频的频率范围过高(比如鸟鸣声)或过低(比如雷声),将级别设为 -16 LUFS(立体声)或 -19 LUFS(单声道)可能会使此音频的声音与 Google TTS 音量参考资料不一致。在这种情况下,耳朵检查功能在平衡节目中的所有音频方面特别有用。