音频最佳实践

本页包含有关如何向 Google Assistant API 提供语音数据的建议。这些准则旨在提高操作效率和准确性,同时保证服务的合理响应时间。

音频预处理

最好使用品质良好的麦克风并将其放置在适当位置,以便提供尽可能纯净的音频。但是,在将音频发送到服务之前对其应用降噪信号处理通常会降低识别准确性。该服务旨在处理嘈杂音频。

为了达到最佳效果,请注意以下事项:

  • 将麦克风放置在尽可能靠近用户的位置,尤其是当存在背景噪声时。
  • 避免音频剪辑。
  • 不要使用自动增益控制 (AGC)。
  • 应停用所有降噪处理。

理想情况下:

  • 应校准音频电平,以使输入信号不会裁剪,并且峰值语音音频电平达到大约 -20 到 -10 dBFS。
  • 设备应表现出大致“平坦”的幅频特性(+-3 dB,100 Hz 到 8000 Hz)。
  • 当输入等级为 90 dB SPL 时,从 100 Hz 到 8000 Hz 时,总谐波畸变率应小于 1%。