แนวทางปฏิบัติแนะนำสำหรับเสียง

หน้านี้มีคำแนะนำเกี่ยวกับวิธีการส่งข้อมูลเสียงพูดให้กับ Google Assistant API หลักเกณฑ์เหล่านี้ออกแบบมาเพื่อประสิทธิภาพและความถูกต้องมากขึ้น รวมถึงเวลาในการตอบสนองที่สมเหตุสมผลจากบริการ

การประมวลผลเสียงล่วงหน้า

วิธีที่ดีที่สุดคือการนำเสนอเสียงที่สะอาดที่สุดโดยใช้ไมโครโฟนที่มีคุณภาพดีและอยู่ในตำแหน่งที่เหมาะสม อย่างไรก็ตาม การใช้การประมวลผลสัญญาณการลดเสียงรบกวนกับเสียงก่อนที่จะส่งไปยังบริการมักจะลดความแม่นยำในการจดจำ บริการนี้ออกแบบมาให้รองรับเสียงที่มีเสียงดัง

เพื่อให้ได้ภาพที่ดีที่สุด ให้ทำดังนี้

  • วางไมโครโฟนให้ใกล้กับผู้ใช้มากที่สุดเท่าที่จะทำได้ โดยเฉพาะเมื่อมีเสียงรบกวนรอบข้าง
  • หลีกเลี่ยงการคลิปเสียง
  • อย่าใช้การควบคุมค่าเกนอัตโนมัติ (AGC)
  • ควรปิดใช้การประมวลผลการลดเสียงรบกวนทั้งหมด

หากเป็นไปได้

  • คุณควรปรับเทียบระดับเสียงเพื่อให้สัญญาณอินพุตไม่ตัดออก และระดับเสียงพูดสูงสุดจะอยู่ที่ประมาณ -20 ถึง -10 dBFS
  • อุปกรณ์ควรแสดงลักษณะของแอมพลิจูด "แฟลต" เทียบกับความถี่โดยประมาณ (+- 3 dB 100 Hz ถึง 8000 Hz)
  • ความผิดเพี้ยนของฮาร์มอนิกทั้งหมดควรน้อยกว่า 1% ตั้งแต่ 100 Hz ถึง 8000 Hz ที่ระดับอินพุต SPL 90 dB