Praktik Terbaik untuk Audio

Halaman ini berisi rekomendasi tentang cara memberikan data ucapan ke Google Assistant API. Pedoman ini dirancang untuk meningkatkan efisiensi dan akurasi serta waktu respons yang wajar dari layanan.

Pra-pemrosesan audio

Sebaiknya sediakan audio yang sebersih mungkin dengan menggunakan mikrofon yang berkualitas baik dan diposisikan dengan tepat. Namun, menerapkan pemrosesan sinyal pengurang bising ke audio sebelum mengirimkannya ke layanan biasanya akan mengurangi akurasi pengenalan. Layanan ini dirancang untuk menangani audio yang bising.

Untuk mendapatkan hasil terbaik:

  • Posisikan mikrofon sedekat mungkin dengan pengguna, terutama ketika ada suara bising di latar belakang.
  • Hindari pemangkasan audio.
  • Jangan gunakan kontrol penguatan otomatis (AGC).
  • Semua pemrosesan pengurangan bising harus dinonaktifkan.

Idealnya:

  • Level audio harus dikalibrasi sehingga sinyal input tidak terpotong, dan level audio ucapan puncak mencapai sekitar -20 hingga -10 dBFS.
  • Perangkat harus menunjukkan amplitudo "datar" dibandingkan karakteristik frekuensi (+- 3 dB 100 Hz hingga 8.000 Hz).
  • Total distorsi harmonik harus kurang dari 1% dari 100 Hz hingga 8.000 Hz pada level input SPL 90 dB.