Las acciones de conversación dejaron de estar disponibles el 13 de junio de 2023. Para obtener más información, consulta Eliminación de acciones en conversaciones.

Se usó la API de Cloud Translation para traducir esta página.

Volumen del audio (Dialogflow)

LUFS (unidades de volumen en relación con la escala completa) es un estándar que habilita el volumen y la normalización de muchos géneros y estilos de producción. LUFS es una función complicada algoritmo basado en la percepción del volumen de la audición humana a un nivel cómodo volumen de escucha y permite que los productores de audio Evitar los saltos de amplitud que requerirían que los usuarios ajusten el volumen constantemente. La LUFS también se conoce como LKFS (volumen, ponderado K, en relación con la escala completa)

Cuando se reproducen archivos de audio con SSML, el volumen promedio debe El valor debe ser de -16 LUFS (unidades de volumen total) para el contenido de audio estéreo, coincide con el volumen promedio de la salida de TTS del Asistente de Google. Esta proporciona un buen equilibrio entre el control de volumen general bocina activada por voz y amplio margen para el material con funciones rango dinámico en comparación con el Asistente de Google.

Para el contenido de audio mono, el volumen promedio debe ser de -19 LUFS. en lugar de -16 LUFS. El objetivo de volumen para el contenido de audio mono es es diferente al contenido de audio estéreo, ya que cuando el contenido de audio mono se convierte a estéreo duplicando la pista de audio mono en ambos de una señal estéreo, duplica la energía de la señal, lo que corresponde a un aumento en la medición de LUFS de 3.01 Volumen unidades (LU) Por el contrario, cuando una señal estéreo se convierte en mono para que se reproduce en una sola bocina, por lo general, la señal mono se construye promediando la señal de cada canal, y que la transformación disminuye la medición de LUFS por la misma cantidad: 3.01 LU. Volumen las mediciones del contenido mono y estereoscópico no son directamente comparables pero debe compensarse con LUFS 3.01.

Algunos medidores de volumen tienen opciones para corregir esta disparidad; Por ejemplo, si usas ffmpeg (consulta a continuación), puedes usar la opción dual_mono (o dualmono), como se recomienda a continuación. Si usas un medidor de volumen con esa opción y habilitaste esa opción, el objetivo de volumen debe ser -16 LUFS, independientemente de ya sea que el contenido sea estéreo o mono.

Recomendamos dos opciones para medir y ajustar el volumen del audio:

Usa una estación de trabajo de audio digital (DAW) y un medidor LUFS.
Usa FFmpeg, una utilidad de línea de comandos.

Cómo usar un medidor DAW y LUFS

En los siguientes pasos, se describe cómo asegurarte de que tu audio cumpla con los -16 LUFS recomendación:

Crea todo el audio a niveles altos y equilibrados (ecualizados) de manera coherente para toda la duración del audio, para que no haya picos ni caídas en volumen.
Cómo configurar una estación de trabajo de audio digital (DAW) y un medidor LUFS para medir el volumen del audio en comparación con el Referencia de volumen de TTS de Google.
Mide y ajusta el volumen de tu audio para que tenga un volumen promedio integrado de aproximadamente -16 LUFS (o -19 LUFS si el contenido es mono).
Revisa el audio comparando su volumen con la Referencia de volumen de TTS de Google.

Cómo configurar un medidor DAW y LUFS

Existen muchos medidores DAW y LUFS disponibles como software gratuito y comercial. productos. Si ya tienes un medidor preferido de DAW y LUFS, puedes usarlo. De lo contrario, te recomendamos Audacity para Windows y Linux o Reaper para Mac para DAW y TBProAudio dpMeter II para un medidor LUFS. En las siguientes secciones, se supone que estás usando estas herramientas.

Obtén los archivos

Descarga e instala un DAW:
- Para Windows o Linux: Audacity
- Para Mac: Reaper
Descargar e instalar dpMeter II para tu SO. Esta herramienta funciona con Audacity y Reaper como VST (Tecnología de estudio virtual).
Descarga la referencia de volumen de TTS de Google. archivo de audio. El audio con TTS dice: "El volumen integrado de esta oración es aproximadamente -16 LUFS". Este archivo sirve como audio de prueba para el medidor, así como Referencia de verificación de oído.

Cómo configurar dpMeter II para Audacity (Windows/Linux)

Abre el archivo de audio de referencia de volumen de TTS de Google en Audacity.
Abre el complemento dpMeter II. Para ello, haz clic en la pestaña Effect y Elige Agregar/quitar complementos.
Busca dpMeter2 en la lista, haz clic en Habilitar y, luego, en Aceptar. El dpMeter II complemento ahora aparece en el menú desplegable Efecto.
Haz clic en dpMeter2 en el menú desplegable Efecto para abrir el complemento. El valor predeterminado de dpMeter II es el modo RMS (esquema de colores naranja). Cambiar el modo a EBU r128 (esquema de color azul) para medir LUFS.

Cómo configurar dpMeter II para Reaper (Mac)

Para abrir el audio de referencia de volumen de TTS de Google, haz clic en Insertar > Archivo multimedia...
Para abrir el complemento dpMeter II, haz clic en el botón verde FX (número 1 en la figura) en el panel izquierdo de la capa de audio. Una ventana FX .
Haz clic en dpMeter2 en la lista. El valor predeterminado de dpMeter II es el modo RMS (color naranja) ). Cambia el modo a EBU r128 (esquema de colores azul) para medir LUFS.

Cómo medir y ajustar el volumen

Los medidores en diferentes DAW proporcionan lecturas ligeramente diferentes. Audacity tiende a medir la referencia de volumen de Google TTS un poco más alto que otros DAW, a -15.1 LUFS, mientras que Reaper proporciona una lectura de -16.0 LUFS. Siempre y cuando tu DAW mida el volumen de la referencia de volumen de Google TTS, dentro de +/-2 LUFS de -16, debería funcionar bien para configurar el volumen de tu audio.

Los pasos básicos para medir y ajustar el volumen son los siguientes:

Cómo usar el dpMeter II para medir el volumen del volumen de TTS de Google Referencia para establecer una lectura de referencia de LUFS. Si la DAW mide más alto, o menos de -16 LUFS para la Referencia de volumen de TTS de Google, coincidencia tu audio a la línea de base de tu DAW. Por ejemplo, en Audacity, dpMeter II mide un volumen integrado de -15.1 LUFS, por lo que el volumen nuevo para tu programa debería ser -15.1 LUFS.
Después de establecer un modelo de referencia, ajusta el audio para que coincida con este lectura.

Medición de la referencia de volumen de TTS de Google

Haz clic en el botón verde de reproducción en el dpMeter II o presiona la tecla de reproducción (barra espaciadora) en la DAW. (número 4 a continuación) para medir el volumen del archivo.

En la siguiente lista, se describen las funciones principales que puedes usar en dpMeter II:

Mode: Se establece en EBU (en lugar de RMS) para medir el volumen en LUFS.
Obtener control: Asegúrate de que el valor de este campo esté establecido en 0.0 hasta que decidas cambiarlo el volumen de tu programa.
Volumen integrado: Es una medida del volumen promedio de todos se ha analizado el audio que el complemento ha analizado desde el botón de restablecimiento (5). se hizo clic. Haz clic en el botón de restablecimiento (5) antes de cada medición de volumen para asegurarte solo mides el volumen de la selección actual.
Reproducir: Inicia el análisis de volumen del archivo de audio. (Este botón no aparece en todos los DAW. Haz clic en el botón principal de reproducción (barra espaciadora) en La DAW debería tener el mismo efecto).
Restablecer: Haz clic en este botón entre cada medición de volumen.
Aplicar: Cuando esté todo listo para cambiar el volumen del material de tu programa. para que coincida con la referencia de volumen de TTS de Google, este botón aplica el volumen al cambio establecido por el control de ganancia (2).

Coincidencia del volumen con la referencia de volumen de Google TTS

Ahora que mediste el volumen de la referencia de volumen de TTS de Google, puedes medir y ajustar el volumen del audio:

Abre el archivo de audio y haz clic en la opción para elegir dpMeter2 en el menú Efectos.
Haz clic en el botón Reproducir y deja que el valor del volumen integrado se asiente en un valor promedio para tu archivo de audio.
Si el volumen integrado es diferente del volumen de TTS de Google Referencia: ajusta la ganancia de tu audio para que coincida con la referencia. Por ejemplo, tu audio mide a un volumen integrado de -12, es demasiado alto, así que disminuye la ganancia configurando Gain Control en -4db y haciendo clic en Apply para activarlo. según el rango objetivo de la Referencia de volumen de TTS de Google (-16 LUFS). Tal vez debas medir y ajustar la ganancia para llegar al volumen objetivo, solo se aproxima a LUFS.

Con ffmpeg

FFmpeg es un framework de medios con una línea de comandos de Google Cloud para la conversión de medios. La herramienta incluye un filtro llamado loudnorm para la normalización del volumen. Puedes usar voicenorm para generar una versión de tu audio con el volumen LUFS adecuado de -16 con el modo de paso doble.

Descarga FFmpeg y, luego, instálalo.
Dirígete al directorio de instalación y ejecuta FFmpeg con Stackdriver en tu archivo de entrada. Asegúrate de habilitar la opción dual_mono.
```
./ffmpeg -i /path/to/input.wav \
    -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
    -f null -
```
Esto le indica a FFmpeg que mida los valores de audio de tu archivo multimedia sin creando un archivo de salida. Obtendrás una serie de valores que se presentan como sigue:
```
Input Integrated:    -27.2 LUFS
Input True Peak:     -14.4 dBTP
Input LRA:             0.1 LU
Input Threshold:     -37.7 LUFS

Output Integrated:   -15.5 LUFS
Output True Peak:     -2.7 dBTP
Output LRA:            0.0 LU
Output Threshold:    -26.2 LUFS

Normalization Type:   Dynamic
Target Offset:        -0.5 LU
```
Los valores de muestra anteriores indican información importante medios de comunicación. Por ejemplo, el valor Input Integrated que se muestra indica un audio que es demasiado alto. El valor Output Integrated está mucho más cerca de -16.0. Tanto el Input True Peak y Input LRA, o rango de volumen, los valores son superiores a los techos proporcionados y se reducirán en la versión normalizada. Finalmente, Target Offset representa la ganancia de desplazamiento que se usa en el resultado.
Ejecuta un segundo pase del filtro de la norma ruidosa y proporciona los valores del paso 1. como "medido" valores en las opciones de bignorm.
```
./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
```
Se crea un archivo, output.wav, que contiene una configuración de volumen normalizada del archivo de entrada.

Escucha los siguientes ejemplos de archivos de audio antes y después de ffmpeg la normalización del volumen para escuchar cómo funciona la herramienta.

Antes

Después

Revisión del audio

Verifica los oídos para asegurarte de que tu audio suene bien en comparación con el TTS de Google Referencia de volumen. Para ello, alterna entre escuchar los archivos y observar cualquier salto en el volumen o el equilibrio, y ajusta la ganancia de oído si es necesario.

El volumen debe sonar coherente para las palabras habladas a -16 LUFS (estéreo). o -19 LUFS (mono). Sin embargo, si el rango de frecuencia de tu audio es excesivamente alto (como el canto de los pájaros) o demasiado bajo (como truenos) establecer los niveles en -16 LUFS (estéreo) o -19 LUFS (mono) podría hacer que sonido de audio inconsistente con la Referencia de volumen de TTS de Google. En este En este caso, un control de oído es útil para equilibrar todo el audio en tu programa.