Volumen del audio

LUFS (Unidades de volumen relativas a la escala completa) es un estándar que permite la normalización del volumen en muchos géneros y estilos de producción. LUFS es un algoritmo complicado basado en el volumen percibido de la audición humana a un volumen de escucha cómodo y permite que los productores de audio eviten saltos de amplitud que requerirían que los usuarios ajustaran el volumen de forma constante. LUFS también se conoce como LKFS (volumen, ponderación K, en relación con la escala completa)

Cuando se reproducen archivos de audio con SSML, el volumen promedio debe ser de -16 LUFS (escala completa de unidades de volumen) para el contenido de audio estéreo, que coincide con el volumen promedio de la salida de TTS de Asistente de Google. Este nivel ofrece un buen equilibrio entre el control de volumen general en la bocina activada por voz y un amplio margen para el material con rango dinámico variable en comparación con Asistente de Google.

Para el contenido de audio mono, el volumen promedio debe ser de -19 LUFS, en lugar de -16 LUFS. El objetivo de volumen para el contenido de audio mono es diferente del contenido de audio estéreo porque, cuando el contenido de audio mono se convierte en estéreo, cuando se duplica la pista de audio mono en ambos canales de una señal estéreo, se duplica la energía de la señal, lo que corresponde a un aumento en la medición de LUFS de 3.01 unidades de volumen (LU). Por el contrario, cuando una señal estéreo se convierte en mono para reproducirse en una sola bocina, la señal mono se construye normalmente promediando la señal de cada canal, y esa transformación disminuye la medición de LUFS exactamente en la misma cantidad, 3.01 LU. Por lo tanto, las mediciones de volumen para contenido mono y estéreo no son directamente comparables, pero deben compensarse con 3.01 LUFS.

Algunos medidores de volumen tienen opciones para corregir esta disparidad. Por ejemplo, si usas ffmpeg (consulta a continuación), puedes usar la opción dual_mono (o dualmono), como se recomienda a continuación. Si usas un medidor de volumen con esa opción y habilitaste esa opción, el objetivo de volumen debe ser -16 LUFS, independientemente de si el contenido es estéreo o mono.

Te recomendamos dos opciones para medir y ajustar el volumen del audio:

Cómo usar un medidor de DAW y LUFS

En los siguientes pasos, se describe cómo asegurarte de que tu audio cumpla con la recomendación de -16 LUFS:

  1. Crea todo el audio a niveles coherentes y equilibrados (ecualizados) durante todo el audio, de modo que no haya aumentos ni disminuciones repentinas en el volumen.
  2. Configura una estación de trabajo de audio digital (DAW) y un medidor LUFS para medir la volumen del audio en comparación con la Referencia de volumen de TTS de Google.
  3. Mide y ajusta el volumen de tu audio para que tenga un volumen promedio integrado de alrededor de -16 LUFS (o -19 LUFS si el contenido es mono).
  4. Revisa el audio comparando su volumen con la referencia de volumen de TTS de Google.

Cómo configurar un medidor de DAW y LUFS

Hay muchos medidores DAW y LUFS disponibles como productos comerciales y de software gratuito. Si ya tienes un medidor de DAW y LUFS preferido, puedes usarlo. De lo contrario, recomendamos Audacity para Windows y Linux o Reaper para Mac para DAW y TBProAudio dpMeter II para un medidor LUFS. En las siguientes secciones, se supone que usas estas herramientas.

Obtén los archivos

  1. Descarga e instala una DAW:
  2. Descarga e instala dpMeter II para tu SO. Esta herramienta funciona con Audacity y Reaper como complemento de VST (Virtual Studio Technology).
  3. Descarga el archivo de audio de Referencia de volumen de TTS de Google. El audio de TTS dice: "El volumen integrado de esta oración es alrededor de -16 LUFS". Este archivo sirve como audio de prueba para el medidor, así como como referencia de comprobación de los oídos.

Cómo configurar dpMeter II para Audacity (Windows/Linux)

  1. Abre el archivo de audio de referencia de volumen de Google TTS en Audacity.
  2. Para abrir el complemento dpMeter II, haz clic en la pestaña Effect y selecciona Add/Remove Plug-ins.
  3. Busca dpMeter2 en la lista, haz clic en Habilitar y, luego, en Aceptar. El complemento dpMeter II ahora aparece en el menú desplegable Effect.
  4. En el menú desplegable Effect, haz clic en dpMeter2 para abrir el complemento. dpMeter II usa el modo RMS (esquema de colores naranja) de forma predeterminada. Cambia el modo a EBU r128 (esquema de colores azul) para medir LUFS.

Cómo configurar dpMeter II para Reaper (Mac)

  1. Para abrir el audio de referencia de volumen de Google TTS, haz clic en Insert > Media file.....
  2. Para abrir el complemento dpMeter II, haz clic en el botón verde de FX (el número 1 en la figura) que se encuentra en el panel izquierdo de la capa de audio. Aparecerá una ventana de FX.

  3. Haz clic en dpMeter2 en la lista. dpMeter II usa el modo RMS (esquema de color naranja) de forma predeterminada. Cambia el modo a EBU r128 (esquema de colores azul) para medir LUFS.

Medición y ajuste del volumen

Los medidores en diferentes archivos DAW producen lecturas ligeramente distintas. Audacity tiende a medir la referencia de volumen de TTS de Google con un volumen más alto que otras DAW, con un valor de -15.1 LUFS, mientras que Reaper proporciona una lectura de -16.0 LUFS. Siempre que la DAW mida el volumen de la referencia de volumen de TTS de Google dentro de +/-2 LUFS de -16, debería funcionar bien para configurar el volumen del audio.

Los pasos básicos para medir y ajustar el volumen son los siguientes:

  1. Usa dpMeter II para medir el volumen de la referencia de volumen de TTS de Google para establecer una lectura de referencia de LUFS. Si la DAW es más alta o inferior a -16 LUFS para la referencia de volumen de TTS de Google, haz coincidir el audio con el modelo de referencia de la DAW. Por ejemplo, en Audacity, dpMeter II mide un volumen integrado de -15.1 LUFS, por lo que el volumen objetivo nuevo para tu programa debería ser de -15.1 LUFS.
  2. Después de establecer un modelo de referencia, ajusta tu audio para que coincida con la lectura del modelo de referencia.

Medición de la referencia del volumen de TTS de Google

Haz clic en el botón verde de reproducción en dpMeter II o presiona reproducir (barra espaciadora) en tu DAW (número 4 a continuación) para medir el volumen del archivo.

En la siguiente lista, se describen las funciones principales que puedes usar en dpMeter II:

  1. Modo: Configúralo en EBU (en lugar de RMS) para medir el volumen en LUFS.
  2. Control de ganancia: Asegúrate de que esté configurado en 0.0 hasta que estés listo para cambiar el volumen del programa.
  3. Volumen integrado: Mide el volumen promedio de todo el audio que el complemento analizó desde que se hizo clic en el botón de restablecimiento (5). Haz clic en el botón de restablecimiento (5) antes de cada medición de volumen para asegurarte de medir solo el volumen de la selección actual.
  4. Play: Inicia el análisis de volumen del archivo de audio. Este botón no aparece en todos los DAW. Si haces clic en el botón principal de reproducción (barra espaciadora) en la DAW, deberías hacer el mismo efecto).
  5. Reset: Haz clic en este botón entre cada medición de volumen.
  6. Apply: Cuando estés listo para cambiar el volumen del material de tu programa a fin de que coincida con la referencia de volumen del TTS de Google, este botón aplica el cambio de volumen que estableció el control de ganancia (2).

Adapta el volumen con la referencia de volumen de TTS de Google

Ahora que ya mediste el volumen de la referencia de volumen de TTS de Google, puedes medir y ajustar el volumen del audio:

  1. Abre el archivo de audio y haz clic en la opción dpMeter2 del menú Effect.
  2. Haz clic en el botón Play y permite que el valor de volumen integrado se establezca en un valor promedio para tu archivo de audio.
  3. Si el volumen integrado es diferente de la referencia de volumen del TTS de Google, ajusta la ganancia del audio para que coincida con la referencia. Por ejemplo, si tu audio mide a un volumen integrado de -12, es demasiado alto, así que disminuye la ganancia. Para ello, establece el Control de ganancia en -4 dB y haz clic en Apply para llevarlo al rango objetivo de la referencia de volumen de TTS de Google (-16 LUFS). Es posible que debas medir y ajustar la ganancia para obtener el volumen objetivo, ya que la ganancia solo se aproxima a LUFS.

Usa ffmpeg

FFmpeg es un marco de trabajo de medios con una herramienta de línea de comandos para la conversión de contenido multimedia. La herramienta incluye un filtro llamado loudnorm para la normalización de la intensidad de volumen. Puedes usar Soundnorm para generar una versión de tu archivo de audio con el volumen de -16 LUFS adecuado a través del modo de doble pase.

  1. Descarga y, luego, instala FFmpeg.
  2. Dirígete al directorio de instalación y ejecuta FFmpeg con el filtro de norma en tu archivo de entrada. Asegúrate de habilitar la opción dual_mono.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    Esto le indica a FFmpeg que mida los valores de audio de tu archivo multimedia sin crear un archivo de salida. Obtendrás una serie de valores presentados de la siguiente manera:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    Los valores de muestra anteriores indican información importante sobre el contenido multimedia entrante. Por ejemplo, el valor Input Integrated que se muestra indica un audio demasiado alto. El valor de Output Integrated es mucho más cercano a -16.0. Los valores de Input True Peak y Input LRA, o rango de volumen, son más altos que nuestros techos proporcionados y se reducirán en la versión normalizada. Por último, Target Offset representa la ganancia de compensación que se usa en el resultado.

  3. Ejecuta un segundo pase del filtro de volumen alto, y proporciona los valores del paso 1 como valores "medidos" en las opciones de lo alto.

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    Se crea un archivo, output.wav, que contiene una versión normalizada de volumen del archivo de entrada.

Escucha los siguientes ejemplos de un archivo de audio antes y después de la normalización de volumen ffmpeg para escuchar cómo funciona la herramienta.

Antes

Después

Revisión de audio

Realiza una revisión de oído para asegurarte de que el audio suene bien en comparación con la referencia de volumen de Google TTS. Para ello, alterna entre escuchar los archivos y observa cualquier salto en el volumen o el balance, y ajusta la ganancia de oído si es necesario.

El volumen debe sonar coherente para las palabras habladas con -16 LUFS (estéreo) o -19 LUFS (mono). Sin embargo, si el rango de frecuencia de tu audio es demasiado alto (como el canto de los pájaros) o demasiado bajo (como los truenos), establecer los niveles en -16 LUFS (estéreo) o -19 LUFS (mono) podría hacer que el audio no coincida con la referencia de volumen de TTS de Google. En este caso, un control de oído es muy útil para equilibrar todo el audio de tu programa.