Best practice per l'audio

Questa pagina contiene consigli su come fornire dati vocali all'API Assistente Google. Queste linee guida sono state concepite per garantire maggiore efficienza e precisione, nonché tempi di risposta ragionevoli da parte del servizio.

Pre-elaborazione dell'audio

È preferibile fornire un audio il più pulito possibile utilizzando un microfono di buona qualità e ben posizionato. Tuttavia, l'applicazione dell'elaborazione del segnale di riduzione del rumore all'audio prima di inviarlo al servizio in genere riduce la precisione del riconoscimento. Il servizio è progettato per gestire audio rumorosi.

Per ottenere risultati ottimali:

  • Posiziona il microfono il più vicino possibile all'utente, in particolare quando è presente rumore di fondo.
  • Evita di tagliare l'audio.
  • Non utilizzare il controllo automatico del guadagno (AGC).
  • L'elaborazione della riduzione del rumore deve essere disattivata.

Idealmente:

  • Il livello audio deve essere calibrato in modo che il segnale di ingresso non venga tagliato e i livelli audio di picco della voce raggiungano circa -20-10 dBFS.
  • Il dispositivo deve presentare un'ampiezza approssimativamente "piatta" rispetto alle caratteristiche di frequenza (+- 3 dB da 100 Hz a 8000 Hz).
  • La distorsione armonica totale dovrebbe essere inferiore all'1% da 100 Hz a 8000 Hz a livello di ingresso SPL di 90 dB.