Best practice per l'audio
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Questa pagina contiene consigli su come fornire dati vocali all'API Assistente Google. Queste linee guida sono state concepite per garantire maggiore efficienza e precisione, nonché tempi di risposta ragionevoli da parte del servizio.
Pre-elaborazione dell'audio
È preferibile fornire un audio il più pulito possibile utilizzando un microfono di buona qualità e ben posizionato. Tuttavia, l'applicazione dell'elaborazione del segnale di riduzione del rumore
all'audio prima di inviarlo al servizio in genere riduce
la precisione del riconoscimento. Il servizio è progettato per gestire audio rumorosi.
Per ottenere risultati ottimali:
- Posiziona il microfono il più vicino possibile all'utente, in particolare quando è presente rumore di fondo.
- Evita di tagliare l'audio.
- Non utilizzare il controllo automatico del guadagno (AGC).
- L'elaborazione della riduzione del rumore deve essere disattivata.
Idealmente:
- Il livello audio deve essere calibrato in modo che il segnale di ingresso non venga tagliato e i livelli audio di picco della voce raggiungano circa -20-10 dBFS.
- Il dispositivo deve presentare un'ampiezza approssimativamente "piatta" rispetto
alle caratteristiche di frequenza (+- 3 dB da 100 Hz a 8000 Hz).
- La distorsione armonica totale dovrebbe essere inferiore all'1% da 100 Hz a 8000 Hz a livello di ingresso SPL di 90 dB.
Frequenza di campionamento
Se possibile, imposta la frequenza di campionamento della sorgente audio su 16.000 Hz. Altrimenti, imposta sample_rate_hertz
in modo che corrisponda alla frequenza di campionamento nativa della sorgente audio (anziché ricampionamento).
Dimensioni frame
L'Assistente Google riconosce l'audio in diretta quando viene acquisito da un microfono.
Lo stream audio deve essere suddiviso in frame e inviato in messaggi AssistRequest
consecutivi. Sono accettate le dimensioni di qualsiasi fotogramma. I frame più grandi sono più
efficienti, ma aumentano la latenza. Si consiglia una dimensione di fotogramma di 100 millisecondi come buon compromesso tra latenza ed efficienza.
Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.
Ultimo aggiornamento 2025-07-26 UTC.
[null,null,["Ultimo aggiornamento 2025-07-26 UTC."],[[["\u003cp\u003eThis page provides recommendations for submitting speech data to the Google Assistant API for optimal performance.\u003c/p\u003e\n"],["\u003cp\u003eFor best results, use a high-quality microphone, position it close to the user, avoid audio clipping and noise reduction processing, and disable automatic gain control.\u003c/p\u003e\n"],["\u003cp\u003eIdeally, calibrate audio levels to prevent clipping, maintain a flat frequency response, and minimize harmonic distortion.\u003c/p\u003e\n"],["\u003cp\u003eSet the audio source sampling rate to 16000 Hz if possible, or match the native rate, and use a frame size of around 100 milliseconds for a balance between latency and efficiency.\u003c/p\u003e\n"]]],[],null,["# Best Practices for Audio\n\nThis page contains recommendations on how to provide speech data to the\nGoogle Assistant API. These guidelines are designed for greater efficiency\nand accuracy as well as reasonable response times from the service.\n\nAudio pre-processing\n--------------------\n\nIt's best to provide audio that is as clean as possible by using a good quality\nand well-positioned microphone. However, applying noise-reduction signal\nprocessing to the audio before sending it to the service typically reduces\nrecognition accuracy. The service is designed to handle noisy audio.\n\nFor best results:\n\n- Position the microphone as close to the user as possible, particularly when background noise is present.\n- Avoid audio clipping.\n- Do not use automatic gain control (AGC).\n- All noise reduction processing should be disabled.\n\nIdeally:\n\n- The audio level should be calibrated so that the input signal does not clip, and peak speech audio levels reach approximately -20 to -10 dBFS.\n- The device should exhibit approximately \"flat\" amplitude versus frequency characteristics (+- 3 dB 100 Hz to 8000 Hz).\n- Total harmonic distortion should be less than 1% from 100 Hz to 8000 Hz at 90 dB SPL input level.\n\nSampling rate\n-------------\n\nIf possible, set the sampling rate of the audio source to 16000 Hz. Otherwise,\nset the [`sample_rate_hertz`](/assistant/sdk/reference/rpc/google.assistant.embedded.v1alpha2#google.assistant.embedded.v1alpha2.AudioInConfig) to match the native sample rate of the audio source (instead\nof re-sampling).\n\nFrame size\n----------\n\nThe Google Assistant recognizes live audio as it is captured from a microphone.\nThe audio stream must be split into frames and sent in consecutive\n`AssistRequest` messages. Any frame size is acceptable. Larger frames are more\nefficient, but add latency. A 100-millisecond frame size is recommended as a\ngood tradeoff between latency and efficiency."]]