Các phương pháp hay nhất về âm thanh
Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Trang này chứa các đề xuất về cách cung cấp dữ liệu lời nói cho API Trợ lý Google. Những nguyên tắc này được thiết kế để mang lại hiệu quả và độ chính xác cao hơn cũng như thời gian phản hồi hợp lý từ dịch vụ.
Xử lý trước âm thanh
Tốt nhất là bạn nên cung cấp âm thanh rõ nhất có thể bằng cách sử dụng micrô có chất lượng tốt và được đặt ở vị trí hợp lý. Tuy nhiên, việc áp dụng cách xử lý tín hiệu giảm tiếng ồn cho âm thanh trước khi gửi đến dịch vụ thường làm giảm độ chính xác của quá trình nhận dạng. Dịch vụ này được thiết kế để xử lý âm thanh ồn.
Để có bức ảnh đẹp nhất, hãy làm như sau:
- Đặt micrô càng gần người dùng càng tốt, đặc biệt khi có tạp âm.
- Tránh sử dụng đoạn âm thanh.
- Không sử dụng chế độ kiểm soát khuếch đại tự động (AGC).
- Bạn nên tắt mọi tính năng xử lý giảm tiếng ồn.
Lý tưởng nhất là:
- Bạn phải hiệu chỉnh mức âm thanh để tín hiệu đầu vào không bị cắt bớt, và mức âm thanh cao nhất của tiếng nói đạt khoảng -20 đến -10 dBFS.
- Thiết bị phải có biên độ gần đúng so với đặc điểm tần số (+- 3 dB 100 Hz đến 8000 Hz).
- Tổng độ biến dạng sóng hài phải nhỏ hơn 1% từ 100 Hz đến 8000 Hz ở mức đầu vào 90 dB SPL.
Tốc độ lấy mẫu
Nếu có thể, hãy đặt tốc độ lấy mẫu của nguồn âm thanh thành 16000 Hz. Nếu không, hãy đặt sample_rate_hertz
cho khớp với tốc độ lấy mẫu gốc của nguồn âm thanh (thay vì lấy mẫu lại).
Kích thước khung
Trợ lý Google nhận ra âm thanh trực tiếp khi ghi âm bằng micrô.
Luồng âm thanh phải được chia thành nhiều khung và gửi trong các thông báo AssistRequest
liên tiếp. Mọi kích thước khung hình đều được chấp nhận. Khung hình lớn hơn mang lại hiệu quả cao hơn, nhưng độ trễ sẽ tăng lên. Bạn nên sử dụng kích thước khung hình 100 mili giây để cân bằng giữa độ trễ và tính hiệu quả.
Trừ phi có lưu ý khác, nội dung của trang này được cấp phép theo Giấy phép ghi nhận tác giả 4.0 của Creative Commons và các mẫu mã lập trình được cấp phép theo Giấy phép Apache 2.0. Để biết thông tin chi tiết, vui lòng tham khảo Chính sách trang web của Google Developers. Java là nhãn hiệu đã đăng ký của Oracle và/hoặc các đơn vị liên kết với Oracle.
Cập nhật lần gần đây nhất: 2025-07-26 UTC.
[null,null,["Cập nhật lần gần đây nhất: 2025-07-26 UTC."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]