Лучшие практики для аудио
Оптимизируйте свои подборки
Сохраняйте и классифицируйте контент в соответствии со своими настройками.
На этой странице содержатся рекомендации по предоставлению речевых данных в API Google Assistant. Эти рекомендации разработаны для повышения эффективности и точности, а также разумного времени ответа службы.
Предварительная обработка звука
Лучше всего обеспечить максимально чистый звук, используя качественный и правильно расположенный микрофон. Однако применение обработки сигнала с шумоподавлением к аудио перед его отправкой в службу обычно снижает точность распознавания. Служба предназначена для обработки шумного звука.
Для лучших результатов:
- Расположите микрофон как можно ближе к пользователю, особенно при наличии фонового шума.
- Избегайте обрезки звука.
- Не используйте автоматическую регулировку усиления (АРУ).
- Вся обработка шумоподавления должна быть отключена.
В идеале:
- Уровень звука следует откалибровать так, чтобы входной сигнал не ограничивался, а пиковые уровни звука речи достигали примерно от -20 до -10 дБFS.
- Устройство должно иметь примерно «ровные» амплитудно-частотные характеристики (+-3 дБ в диапазоне от 100 до 8000 Гц).
- Общие гармонические искажения должны составлять менее 1% в диапазоне от 100 Гц до 8000 Гц при входном уровне звукового давления 90 дБ.
Частота выборки
Если возможно, установите частоту дискретизации источника звука на 16000 Гц. В противном случае установите sample_rate_hertz
так, чтобы он соответствовал собственной частоте дискретизации источника звука (вместо повторной выборки).
Размер кадра
Google Ассистент распознает живой звук, записанный с микрофона. Аудиопоток должен быть разбит на кадры и отправлен в последовательных сообщениях AssistRequest
. Любой размер рамки приемлем. Кадры большего размера более эффективны, но увеличивают задержку. Размер кадра 100 миллисекунд рекомендуется как хороший компромисс между задержкой и эффективностью.
Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons "С указанием авторства 4.0", а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.
Последнее обновление: 2025-07-24 UTC.
[null,null,["Последнее обновление: 2025-07-24 UTC."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]