Sprawdzone metody dotyczące dźwięku
Na tej stronie znajdziesz zalecenia dotyczące przekazywania danych o mowie do interfejsu Google Assistant API. Opracowaliśmy te wskazówki z myślą o większej skuteczności i dokładności, a także z rozsądnym czasem odpowiedzi.
Wstępne przetwarzanie dźwięku
Najlepiej jest, gdy dźwięk jest jak najczystszy, a używany do tego mikrofon wysokiej jakości. Jednak zastosowanie przetwarzania sygnału redukcji szumów przed przesłaniem dźwięku do usługi zazwyczaj zmniejsza dokładność rozpoznawania. Usługa została zaprojektowana w celu obsługi hałaśliwych dźwięków.
Aby uzyskać najlepsze rezultaty:
- Ustaw mikrofon jak najbliżej użytkownika, szczególnie wtedy, gdy w tle występuje szum.
- Unikaj tworzenia klipów audio.
- Nie używaj automatycznej kontroli wzmocnienia (AGC).
- Całe przetwarzanie redukcji szumów powinno być wyłączone.
Idealnie:
- Poziom dźwięku należy skalibrować tak, aby sygnał wejściowy nie był zacinany, a szczytowe poziomy głośności mowy wynoszą około -20–10 dBFS.
- Urządzenie powinno wykazywać w przybliżeniu „płaską” amplitudę w porównaniu z częstotliwością (+-3 dB w zakresie 100–8000 Hz).
- Całkowite zniekształcenie harmoniczne powinno być mniejsze niż 1% w zakresie od 100 Hz do 8000 Hz przy poziomie wejściowego 90 dB SPL.
O ile nie stwierdzono inaczej, treść tej strony jest objęta licencją Creative Commons – uznanie autorstwa 4.0, a fragmenty kodu są dostępne na licencji Apache 2.0. Szczegółowe informacje na ten temat zawierają zasady dotyczące witryny Google Developers. Java jest zastrzeżonym znakiem towarowym firmy Oracle i jej podmiotów stowarzyszonych.
Ostatnia aktualizacja: 2023-12-02 UTC.
[null,null,["Ostatnia aktualizacja: 2023-12-02 UTC."],[[["The Google Assistant API is designed to handle noisy audio, so noise reduction processing should be disabled prior to sending audio."],["For optimal performance, position the microphone near the user, avoid audio clipping and automatic gain control, and calibrate audio levels to peak between -20 to -10 dBFS."],["Devices used for audio input should ideally have a flat frequency response and minimal harmonic distortion."],["**Warning:** The Google Assistant Library for Python is deprecated; use the Google Assistant Service instead."]]],["The Google Assistant Library for Python is deprecated; use the Google Assistant Service instead. For optimal audio input, provide clean audio from a high-quality, well-positioned microphone. Disable noise reduction and automatic gain control. Position the microphone close to the user and avoid audio clipping. Calibrate audio levels to avoid clipping, with peak levels around -20 to -10 dBFS. Aim for a flat amplitude response (+- 3 dB from 100 Hz to 8000 Hz) and total harmonic distortion under 1%.\n"]]