בדף הזה מוסבר איך לספק נתוני דיבור ל-Google Assistant API. ההנחיות האלה נועדו לשפר את היעילות והדיוק, וכן לספק זמני תגובה סבירים מהשירות.
עיבוד מראש של האודיו
עדיף לספק אודיו נקי ככל האפשר על ידי שימוש במיקרופון באיכות טובה ובמיקום טוב. עם זאת, הפעלת עיבוד אותות של הפחתת רעש על האודיו לפני שליחתו לשירות בדרך כלל מפחיתה את רמת הדיוק של הזיהוי. השירות מיועד לטפל באודיו עם רעש.
לקבלת התוצאות הטובות ביותר:
- מקם את המיקרופון קרוב ככל האפשר למשתמש, במיוחד כשיש רעשי רקע.
- יש להימנע מחיתוך אודיו.
- אין להשתמש בבקרה אוטומטית על השגת יעדים (AGC).
- צריך להשבית את כל עיבודי הפחתת הרעש.
באופן אידאלי:
- צריך לכייל את עוצמת הקול כך שאות הקלט לא ייחתך, ושרמות האודיו בדיבור בשיא של האודיו מגיעות בערך ל- -20dBFS -10dBFS.
- המכשיר צריך להציג בערך משרעת "שטוחה" לעומת מאפייני תדירות (+- 3 dB 100 Hz עד 8,000 Hz).
- העיוות הרמוני הכולל צריך להיות קטן מ-1% מ-100Hz עד 8,000Hz ברמת קלט של 90dB SPL.
תדירות הדגימה
במידת האפשר, הגדירו את קצב הדגימה של מקור האודיו ל-16,000Hz. אחרת, הגדירו את sample_rate_hertz
כך שיתאים לקצב הדגימה המקורי של מקור האודיו (במקום לדגום מחדש).
גודל הפריים
Google Assistant מזהה אודיו בשידור חי שמצולם במיקרופון.
שידור האודיו צריך להתפצל לפריימים, ולשלוח את השידור בהודעות AssistRequest
עוקבות. כל גודל מסגרת מותר. פריימים גדולים יותר יעילים יותר, אבל מוסיפים זמן אחזור. גודל פריים של 100 אלפיות השנייה מומלץ כדי לאזן בין זמן האחזור ליעילות.