Best Practices für Audioanzeigen

Diese Seite enthält Empfehlungen zur Bereitstellung von Sprachdaten für die Google Assistant API. Diese Richtlinien sorgen für mehr Effizienz und Genauigkeit sowie angemessene Antwortzeiten des Dienstes.

Vorverarbeitung von Audios

Es empfiehlt sich, Audios bereitzustellen, die so sauber wie möglich sind und eine gute Qualität haben. Außerdem sollten Sie für ein gut positioniertes Mikrofon sorgen. Wenn Sie eine das Rauschen reduzierende Signalverarbeitung auf das Audio anwenden, bevor Sie dieses an den Dienst senden, wird dadurch in den meisten Fällen die Erkennungsgenauigkeit reduziert. Der Dienst wurde so entwickelt, dass Rauschen im Audio automatisch behandelt wird.

Für optimale Ergebnisse:

  • Positionieren Sie das Mikrofon so nah wie möglich am Nutzer, besonders wenn Hintergrundgeräusche vorhanden sind.
  • Vermeiden Sie das Übersteuern von Audiosignalen.
  • Verwenden Sie keine automatische Verstärkungsregelung (automatic gain control = AGC).
  • Alle Verarbeitungsmethoden zur Rauschunterdrückung sollten deaktiviert werden.

Idealerweise:

  • Der Audiopegel sollte so kalibriert sein, dass das Eingabesignal nicht überschneidet wird und die Spitzenpegel von Sprachaudio etwa -20 bis -10 dBFS erreichen.
  • Das Gerät sollte eine ungefähr "flache" Amplitude gegenüber den Frequenzeigenschaften (+-3 dB, 100 Hz bis 8.000 Hz) aufweisen.
  • Die gesamte harmonische Verzerrung sollte bei einem Eingangspegel von 90 dB SPL bei 100 Hz bis 8.000 Hz unter 1% liegen.

Abtastrate

Stellen Sie nach Möglichkeit die Abtastrate der Audioquelle auf 16.000 Hz ein. Andernfalls sollten Sie sample_rate_hertz so einstellen, dass sie der nativen Abtastrate der Audioquelle entspricht (statt Resampling).

Framegröße

Google Assistant erkennt Live-Audio direkt bei der Aufnahme eines Mikrofons. Der Audiostream muss in sogenannte Frames aufgeteilt und in aufeinanderfolgenden AssistRequest-Nachrichten gesendet werden. Jede beliebige Framegröße ist zulässig. Größere Frames sind effizienter, erhöhen aber die Latenz. Eine Framegröße von 100 Millisekunden wird als guter Kompromiss zwischen Latenz und Effizienz empfohlen.