แนวทางปฏิบัติแนะนำสำหรับเสียง

หน้านี้มีคำแนะนำเกี่ยวกับวิธีการส่งข้อมูลเสียงพูดให้กับ Google Assistant API หลักเกณฑ์เหล่านี้ออกแบบมาเพื่อประสิทธิภาพและความถูกต้องมากขึ้น รวมถึงเวลาในการตอบสนองที่สมเหตุสมผลจากบริการ

การประมวลผลเสียงล่วงหน้า

วิธีที่ดีที่สุดคือการนำเสนอเสียงที่สะอาดที่สุดโดยใช้ไมโครโฟนที่มีคุณภาพดีและอยู่ในตำแหน่งที่เหมาะสม อย่างไรก็ตาม การใช้การประมวลผลสัญญาณการลดเสียงรบกวนกับเสียงก่อนที่จะส่งไปยังบริการมักจะลดความแม่นยำในการจดจำ บริการนี้ออกแบบมาให้รองรับเสียงที่มีเสียงดัง

เพื่อให้ได้ภาพที่ดีที่สุด ให้ทำดังนี้

วางไมโครโฟนให้ใกล้กับผู้ใช้มากที่สุดเท่าที่จะทำได้ โดยเฉพาะเมื่อมีเสียงรบกวนรอบข้าง
หลีกเลี่ยงการคลิปเสียง
อย่าใช้การควบคุมค่าเกนอัตโนมัติ (AGC)
ควรปิดใช้การประมวลผลการลดเสียงรบกวนทั้งหมด

หากเป็นไปได้

คุณควรปรับเทียบระดับเสียงเพื่อให้สัญญาณอินพุตไม่ตัดออก และระดับเสียงพูดสูงสุดจะอยู่ที่ประมาณ -20 ถึง -10 dBFS
อุปกรณ์ควรแสดงลักษณะของแอมพลิจูด "แฟลต" เทียบกับความถี่โดยประมาณ (+- 3 dB 100 Hz ถึง 8000 Hz)
ความผิดเพี้ยนของฮาร์มอนิกทั้งหมดควรน้อยกว่า 1% ตั้งแต่ 100 Hz ถึง 8000 Hz ที่ระดับอินพุต SPL 90 dB

อัตราการสุ่มตัวอย่าง

หากเป็นไปได้ ให้ตั้งค่าอัตราการสุ่มตัวอย่างของแหล่งที่มาของเสียงเป็น 16000 Hz มิเช่นนั้นให้ตั้งค่า sample_rate_hertz ให้ตรงกับอัตราการสุ่มตัวอย่างแบบดั้งเดิมของแหล่งที่มาของเสียง (แทนการสุ่มตัวอย่างซ้ำ)

ขนาดเฟรม

Google Assistant จะจดจำเสียงแบบสดเมื่อบันทึกจากไมโครโฟน สตรีมเสียงต้องแยกเป็นเฟรมและส่งเป็นข้อความ AssistRequest ข้อความติดต่อกัน เฟรมทุกขนาดยอมรับได้ เฟรมขนาดใหญ่จะมีประสิทธิภาพมากกว่า แต่เพิ่มเวลาในการตอบสนอง แนะนำให้ใช้เฟรมขนาด 100 มิลลิวินาทีเพื่อแลกกับความคุ้มค่าระหว่างเวลาในการตอบสนองและประสิทธิภาพได้เป็นอย่างดี