התכונה 'פעולות שיחה' הוצאה משימוש ב-13 ביוני 2023.
כאן תוכלו לקרוא מידע נוסף על ההוצאה משימוש של 'פעולות שיחה'.
שיטות מומלצות לשימוש באודיו
קל לארגן דפים בעזרת אוספים
אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.
בדף הזה מוסבר איך לספק נתוני דיבור ל-Google Assistant API. ההנחיות האלה נועדו לשפר את היעילות והדיוק, וכן לספק זמני תגובה סבירים מהשירות.
עיבוד מראש של האודיו
עדיף לספק אודיו נקי ככל האפשר על ידי שימוש במיקרופון באיכות טובה ובמיקום טוב. עם זאת, הפעלת עיבוד אותות של הפחתת רעש על האודיו לפני שליחתו לשירות בדרך כלל מפחיתה את רמת הדיוק של הזיהוי. השירות מיועד לטפל באודיו עם רעש.
לקבלת התוצאות הטובות ביותר:
- מקם את המיקרופון קרוב ככל האפשר למשתמש, במיוחד כשיש רעשי רקע.
- יש להימנע מחיתוך אודיו.
- אין להשתמש בבקרה אוטומטית על השגת יעדים (AGC).
- צריך להשבית את כל עיבודי הפחתת הרעש.
באופן אידאלי:
- צריך לכייל את עוצמת הקול כך שאות הקלט לא ייחתך, ושרמות האודיו בדיבור בשיא של האודיו מגיעות בערך ל- -20dBFS -10dBFS.
- המכשיר צריך להציג בערך משרעת "שטוחה" לעומת מאפייני תדירות (+- 3 dB 100 Hz עד 8,000 Hz).
- העיוות הרמוני הכולל צריך להיות קטן מ-1% מ-100Hz עד 8,000Hz
ברמת קלט של 90dB SPL.
תדירות הדגימה
במידת האפשר, הגדירו את קצב הדגימה של מקור האודיו ל-16,000Hz. אחרת, הגדירו את sample_rate_hertz
כך שיתאים לקצב הדגימה המקורי של מקור האודיו (במקום לדגום מחדש).
גודל הפריים
Google Assistant מזהה אודיו בשידור חי שמצולם במיקרופון.
שידור האודיו צריך להתפצל לפריימים, ולשלוח את השידור בהודעות AssistRequest
עוקבות. כל גודל מסגרת מותר. פריימים גדולים יותר יעילים יותר, אבל מוסיפים זמן אחזור. גודל פריים של 100 אלפיות השנייה מומלץ כדי לאזן בין זמן האחזור ליעילות.
אלא אם צוין אחרת, התוכן של דף זה הוא ברישיון Creative Commons Attribution 4.0 ודוגמאות הקוד הן ברישיון Apache 2.0. לפרטים, ניתן לעיין במדיניות האתר Google Developers. Java הוא סימן מסחרי רשום של חברת Oracle ו/או של השותפים העצמאיים שלה.
עדכון אחרון: 2025-07-26 (שעון UTC).
[null,null,["עדכון אחרון: 2025-07-26 (שעון UTC)."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]