بهترین روش ها برای صدا
با مجموعهها، منظم بمانید
ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
این صفحه حاوی توصیههایی درباره نحوه ارائه دادههای گفتاری به Google Assistant API است. این دستورالعمل ها برای کارایی و دقت بیشتر و همچنین زمان پاسخگویی معقول از سرویس طراحی شده اند.
پیش پردازش صدا
بهتر است با استفاده از یک میکروفون با کیفیت و دارای موقعیت مناسب، صدایی را ارائه دهید که تا حد امکان تمیز باشد. با این حال، اعمال پردازش سیگنال کاهش نویز روی صدا قبل از ارسال آن به سرویس، معمولاً دقت تشخیص را کاهش میدهد. این سرویس برای کنترل صدای پر سر و صدا طراحی شده است.
برای بهترین نتایج:
- میکروفون را تا حد امکان نزدیک به کاربر قرار دهید، به خصوص زمانی که نویز پس زمینه وجود دارد.
- از کلیپ صوتی خودداری کنید.
- از کنترل بهره خودکار (AGC) استفاده نکنید.
- تمام پردازش های کاهش نویز باید غیرفعال شود.
در حالت ایده آل:
- سطح صدا باید طوری کالیبره شود که سیگنال ورودی قطع نشود و حداکثر سطوح صوتی گفتاری تقریباً به -20 تا -10 dBFS برسد.
- دستگاه باید دامنه تقریباً «مسطح» نسبت به ویژگیهای فرکانس (+- 3 دسیبل 100 هرتز تا 8000 هرتز) را نشان دهد.
- اعوجاج هارمونیک کل باید کمتر از 1% از 100 هرتز تا 8000 هرتز در سطح ورودی SPL 90 دسی بل باشد.
نرخ نمونهبرداری
در صورت امکان، نرخ نمونه برداری از منبع صوتی را روی 16000 هرتز تنظیم کنید. در غیر این صورت، sample_rate_hertz
را طوری تنظیم کنید که با نرخ نمونه بومی منبع صوتی مطابقت داشته باشد (به جای نمونه برداری مجدد).
اندازه قاب
Google Assistant صدای زنده را همانطور که از میکروفون گرفته می شود، تشخیص می دهد. جریان صوتی باید به فریم ها تقسیم شود و در پیام های AssistRequest
متوالی ارسال شود. هر اندازه قاب قابل قبول است. فریم های بزرگتر کارآمدتر هستند، اما تأخیر را اضافه می کنند. اندازه فریم 100 میلیثانیهای به عنوان یک مبادله خوب بین تأخیر و کارایی توصیه میشود.
جز در مواردی که غیر از این ذکر شده باشد،محتوای این صفحه تحت مجوز Creative Commons Attribution 4.0 License است. نمونه کدها نیز دارای مجوز Apache 2.0 License است. برای اطلاع از جزئیات، به خطمشیهای سایت Google Developers مراجعه کنید. جاوا علامت تجاری ثبتشده Oracle و/یا شرکتهای وابسته به آن است.
تاریخ آخرین بهروزرسانی 2025-07-24 بهوقت ساعت هماهنگ جهانی.
[null,null,["تاریخ آخرین بهروزرسانی 2025-07-24 بهوقت ساعت هماهنگ جهانی."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]