Trang này chứa các đề xuất về cách cung cấp dữ liệu lời nói cho API Trợ lý Google. Những nguyên tắc này được thiết kế để mang lại hiệu quả và độ chính xác cao hơn cũng như thời gian phản hồi hợp lý từ dịch vụ.
Xử lý trước âm thanh
Tốt nhất là bạn nên cung cấp âm thanh rõ nhất có thể bằng cách sử dụng micrô có chất lượng tốt và được đặt ở vị trí hợp lý. Tuy nhiên, việc áp dụng cách xử lý tín hiệu giảm tiếng ồn cho âm thanh trước khi gửi đến dịch vụ thường làm giảm độ chính xác của quá trình nhận dạng. Dịch vụ này được thiết kế để xử lý âm thanh ồn.
Để có bức ảnh đẹp nhất, hãy làm như sau:
- Đặt micrô càng gần người dùng càng tốt, đặc biệt khi có tạp âm.
- Tránh sử dụng đoạn âm thanh.
- Không sử dụng chế độ kiểm soát khuếch đại tự động (AGC).
- Bạn nên tắt mọi tính năng xử lý giảm tiếng ồn.
Lý tưởng nhất là:
- Bạn phải hiệu chỉnh mức âm thanh để tín hiệu đầu vào không bị cắt bớt, và mức âm thanh cao nhất của tiếng nói đạt khoảng -20 đến -10 dBFS.
- Thiết bị phải có biên độ gần đúng so với đặc điểm tần số (+- 3 dB 100 Hz đến 8000 Hz).
- Tổng độ biến dạng sóng hài phải nhỏ hơn 1% từ 100 Hz đến 8000 Hz ở mức đầu vào 90 dB SPL.