Sesle İlgili En İyi Uygulamalar
Koleksiyonlar ile düzeninizi koruyun
İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.
Bu sayfada, Google Assistant API'ye konuşma verilerinin nasıl sağlanacağıyla ilgili öneriler bulunmaktadır. Bu yönergeler, daha yüksek verimlilik ve doğrulukla birlikte hizmetten makul yanıt süreleri sağlamak için tasarlanmıştır.
Ses ön işleme
İyi kalite ve iyi konumlanmış bir mikrofon kullanarak sesi mümkün olduğunca temiz
sağlamak en iyisidir. Ancak, sese gürültü azaltma sinyal işlemesi uygulanması, sesi hizmete göndermeden önce genellikle tanıma doğruluğunu azaltır. Hizmet gürültülü sesleri işleyecek şekilde tasarlanmıştır.
En iyi sonuçlar için:
- Özellikle arka plan gürültüsü varsa mikrofonu kullanıcıya olabildiğince yakın tutun.
- Ses kırpmadan kaçının.
- Otomatik kazanç kontrolü (AGC) kullanmayın.
- Tüm gürültü azaltma işlemleri devre dışı bırakılmalıdır.
İdeal olarak:
- Ses düzeyi, giriş sinyalinin kırpılmaması ve en yüksek konuşma ses düzeyleri yaklaşık -20 ila -10 dBFS'ye ulaşacak şekilde kalibre edilmelidir.
- Cihaz yaklaşık olarak "düz" genlik ve frekans karşılaştırması özelliklerini göstermelidir (+- 3 dB 100 Hz - 8.000 Hz).
- Toplam harmonik bozulma, 90 dB SPL giriş seviyesinde 100 Hz ile 8.000 Hz arasında% 1'den az olmalıdır.
Örnekleme hızı
Mümkünse ses kaynağının örnekleme hızını 16.000 Hz olarak ayarlayın. Aksi takdirde sample_rate_hertz
, yeniden örnekleme yerine ses kaynağının yerel örnek hızıyla eşleşecek şekilde ayarlayın.
Kare boyutu
Google Asistan, mikrofondan yakalanan canlı sesleri tanır.
Ses akışı karelere bölünmeli ve ardışık AssistRequest
mesajlarıyla gönderilmelidir. Tüm çerçeve boyutları kabul edilir. Büyük kareler daha verimlidir ancak
gecikme de artar. Gecikme ile verimlilik arasında iyi bir denge sağlamak için 100 milisaniyelik bir kare boyutu önerilir.
Aksi belirtilmediği sürece bu sayfanın içeriği Creative Commons Atıf 4.0 Lisansı altında ve kod örnekleri Apache 2.0 Lisansı altında lisanslanmıştır. Ayrıntılı bilgi için Google Developers Site Politikaları'na göz atın. Java, Oracle ve/veya satış ortaklarının tescilli ticari markasıdır.
Son güncelleme tarihi: 2025-07-26 UTC.
[null,null,["Son güncelleme tarihi: 2025-07-26 UTC."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]