หน้านี้มีคำแนะนำเกี่ยวกับวิธีการส่งข้อมูลเสียงพูดให้กับ Google Assistant API หลักเกณฑ์เหล่านี้ออกแบบมาเพื่อประสิทธิภาพและความถูกต้องมากขึ้น รวมถึงเวลาในการตอบสนองที่สมเหตุสมผลจากบริการ
การประมวลผลเสียงล่วงหน้า
วิธีที่ดีที่สุดคือการนำเสนอเสียงที่สะอาดที่สุดโดยใช้ไมโครโฟนที่มีคุณภาพดีและอยู่ในตำแหน่งที่เหมาะสม อย่างไรก็ตาม การใช้การประมวลผลสัญญาณการลดเสียงรบกวนกับเสียงก่อนที่จะส่งไปยังบริการมักจะลดความแม่นยำในการจดจำ บริการนี้ออกแบบมาให้รองรับเสียงที่มีเสียงดัง
เพื่อให้ได้ภาพที่ดีที่สุด ให้ทำดังนี้
- วางไมโครโฟนให้ใกล้กับผู้ใช้มากที่สุดเท่าที่จะทำได้ โดยเฉพาะเมื่อมีเสียงรบกวนรอบข้าง
- หลีกเลี่ยงการคลิปเสียง
- อย่าใช้การควบคุมค่าเกนอัตโนมัติ (AGC)
- ควรปิดใช้การประมวลผลการลดเสียงรบกวนทั้งหมด
หากเป็นไปได้
- คุณควรปรับเทียบระดับเสียงเพื่อให้สัญญาณอินพุตไม่ตัดออก และระดับเสียงพูดสูงสุดจะอยู่ที่ประมาณ -20 ถึง -10 dBFS
- อุปกรณ์ควรแสดงลักษณะของแอมพลิจูด "แฟลต" เทียบกับความถี่โดยประมาณ (+- 3 dB 100 Hz ถึง 8000 Hz)
- ความผิดเพี้ยนของฮาร์มอนิกทั้งหมดควรน้อยกว่า 1% ตั้งแต่ 100 Hz ถึง 8000 Hz ที่ระดับอินพุต SPL 90 dB