این صفحه حاوی توصیههایی درباره نحوه ارائه دادههای گفتاری به Google Assistant API است. این دستورالعمل ها برای کارایی و دقت بیشتر و همچنین زمان پاسخگویی معقول از سرویس طراحی شده اند.
پیش پردازش صدا
بهتر است با استفاده از یک میکروفون با کیفیت و دارای موقعیت مناسب، صدایی را ارائه دهید که تا حد امکان تمیز باشد. با این حال، اعمال پردازش سیگنال کاهش نویز روی صدا قبل از ارسال آن به سرویس، معمولاً دقت تشخیص را کاهش میدهد. این سرویس برای کنترل صدای پر سر و صدا طراحی شده است.
برای بهترین نتایج:
- میکروفون را تا حد امکان نزدیک به کاربر قرار دهید، به خصوص زمانی که نویز پس زمینه وجود دارد.
- از کلیپ صوتی خودداری کنید.
- از کنترل بهره خودکار (AGC) استفاده نکنید.
- تمام پردازش های کاهش نویز باید غیرفعال شود.
در حالت ایده آل:
- سطح صدا باید طوری کالیبره شود که سیگنال ورودی قطع نشود و حداکثر سطوح صوتی گفتاری تقریباً به -20 تا -10 dBFS برسد.
- دستگاه باید دامنه تقریباً «مسطح» نسبت به ویژگیهای فرکانس (+- 3 دسیبل 100 هرتز تا 8000 هرتز) را نشان دهد.
- اعوجاج هارمونیک کل باید کمتر از 1% از 100 هرتز تا 8000 هرتز در سطح ورودی SPL 90 دسی بل باشد.
نرخ نمونهبرداری
در صورت امکان، نرخ نمونه برداری از منبع صوتی را روی 16000 هرتز تنظیم کنید. در غیر این صورت، sample_rate_hertz
را طوری تنظیم کنید که با نرخ نمونه بومی منبع صوتی مطابقت داشته باشد (به جای نمونه برداری مجدد).
اندازه قاب
Google Assistant صدای زنده را همانطور که از میکروفون گرفته می شود، تشخیص می دهد. جریان صوتی باید به فریم ها تقسیم شود و در پیام های AssistRequest
متوالی ارسال شود. هر اندازه قاب قابل قبول است. فریم های بزرگتر کارآمدتر هستند، اما تأخیر را اضافه می کنند. اندازه فریم 100 میلیثانیهای به عنوان یک مبادله خوب بین تأخیر و کارایی توصیه میشود.