Volume do áudio

O LUFS (unidades de volume relativo à escala total) é um padrão que permite a normalização do volume em muitos gêneros e estilos de produção. O LUFS é um algoritmo complexo baseado na percepção do volume da audição humana em um volume de escuta confortável e permite que os produtores de áudio evitem saltos de amplitude que exigiriam que os usuários ajustem o volume constantemente. O LUFS também é conhecido como LKFS (loudez, ponderado por K, relativo à escala total)

Ao reproduzir arquivos de áudio usando SSML, o volume médio precisa ser -16 LUFS (Loudness Units Full Scale) para conteúdo de áudio estéreo, que corresponde ao volume médio da saída de TTS do Google Assistente. Esse nível oferece um bom equilíbrio entre o controle de volume geral no alto-falante ativado por voz e amplo espaço para material com intervalo dinâmico variável em comparação com o Google Assistente.

Para conteúdo de áudio mono, o volume médio precisa ser de -19 LUFS, em vez de -16 LUFS. A meta de volume para conteúdo de áudio mono é diferente do conteúdo de áudio estéreo porque, quando o conteúdo de áudio mono é convertido para estéreo, duplicando a faixa de áudio mono em ambos os canais de um sinal estéreo, isso dobra a energia do sinal, o que corresponde a um aumento na medição de LUFS de 3,01 unidades de volume (LU). Por outro lado, quando um sinal estéreo é convertido em mono para tocar em um único alto-falante, o sinal mono é normalmente criado pela média do sinal de cada canal, e essa transformação diminui a medição de LUFS exatamente na mesma quantidade, 3,01 LU. Portanto, as medições de volume para conteúdo mono e estéreo não são diretamente comparáveis, mas precisam ser deslocadas em LUFS 3,01.

Alguns medidores de volume têm opções para corrigir essa disparidade. Por exemplo, se você estiver usando ffmpeg (veja abaixo), será possível usar a opção dual_mono (ou dualmono), conforme recomendado abaixo. Se você estiver usando um medidor de volume com essa opção e tiver ativado essa opção, a meta de volume precisará ser -16 LUFS, independentemente do conteúdo ser estéreo ou mono.

Recomendamos duas opções para medir e ajustar o volume do áudio:

Como usar um medidor de DAW e LUFS

As etapas a seguir descrevem como garantir que o áudio atenda à recomendação de LUFS -16:

  1. Crie todo o áudio em níveis consistentemente alto e equilibrado (igualdades) durante toda a duração do áudio, para que não haja picos ou quedas no volume.
  2. Configure uma estação de trabalho de áudio digital (DAW) e um medidor LUFS para medir o volume do áudio em comparação com a Referência de volume do TTS do Google.
  3. Meça e ajuste o volume do áudio para que ele tenha um volume médio integrado de cerca de -16 LUFS (ou -19 LUFS, se o conteúdo for mono).
  4. Confira seu áudio, comparando o volume dele com a Referência de volume do TTS do Google.

Configurar um medidor de DAW e LUFS

Há muitas DAWs e medidores LUFS disponíveis como produtos sem custo financeiro e comerciais. Se você já tiver um medidor DAW e LUFS preferencial, poderá usá-lo. Caso contrário, recomendamos o Audacity para Windows e Linux ou o Reaper para Mac para DAWs e o TBProAudio dpMeter II para um medidor LUFS. As seções a seguir pressupõem que você está usando essas ferramentas.

Buscar os arquivos

  1. Faça o download e instale uma DAW:
  2. Faça o download e a instalação do dpMeter II para seu SO. Essa ferramenta funciona com o Audacity e o Reaper como um plug-in VST (Virtual Studio Technology).
  3. Faça o download do arquivo de áudio Referência de volume do TTS do Google. O áudio do TTS diz: "O volume integrado dessa frase é de cerca de -16 LUFS". Esse arquivo serve como o áudio de teste para o medidor e como referência para verificação de ouvido.

Configurar o dpMeter II para Audacity (Windows/Linux)

  1. Abra o arquivo de áudio de referência de volume de TTS do Google no Audacity.
  2. Abra o plug-in dpMeter II clicando na guia Effect e escolhendo Add/Remove Plug-ins.
  3. Encontre dpMeter2 na lista, clique em Enable e depois em OK. O plug-in dpMeter II agora aparece no menu suspenso Effect.
  4. Clique em dpMeter2 no menu suspenso Effect para abrir o plug-in. O dpMeter II usa o modo RMS por padrão (esquema de cores laranja). Mude o modo para EBU r128 (esquema de cores azul) para medir o LUFS.

Configurar o dpMeter II para Reaper (Mac)

  1. Abra o áudio de referência de volume do TTS do Google clicando em Insert > Media file.......
  2. Abra o plug-in dpMeter II clicando no botão verde FX (número 1 na figura) no painel esquerdo da camada de áudio. Uma janela FX vai aparecer.

  3. Clique em dpMeter2 na lista. O dpMeter II usa o modo RMS por padrão (esquema de cores laranja). Mude o modo para EBU r128 (esquema de cores azul) para medir o LUFS.

Medir e ajustar o volume

Metros diferentes em diferentes DAWs fornecem leituras ligeiramente diferentes. O Audacity tende a medir a referência de volume do TTS do Google um pouco mais alto que outros DAWs, a -15,1 LUFS, enquanto o Reaper fornece uma leitura de -16,0 LUFS. Contanto que a DAW meça o volume da referência de volume do TTS do Google em +/-2 LUFS de -16, ela vai funcionar bem para definir o volume do áudio.

As etapas básicas para medir e ajustar o volume são:

  1. Use o dpMeter II para medir o volume da Referência de volume do TTS do Google para estabelecer uma leitura de LUFS de referência. Se a DAW estiver medindo mais ou menos que -16 LUFS para a referência de volume do TTS do Google, combine seu áudio com o valor de referência da DAW. Por exemplo, no Audacity, o dpMeter II mede um volume integrado de -15,1 LUFS. Portanto, o novo volume desejado para seu programa precisa ser -15,1 LUFS.
  2. Depois de estabelecer um valor de referência, ajuste o áudio para que ele corresponda à leitura de referência.

Medir a referência de volume da TTS do Google

Clique no botão verde de reprodução no dpMeter II ou no botão de reprodução (barra de espaço) do DAW (número 4 abaixo) para medir o volume do arquivo.

A lista a seguir descreve os principais recursos que podem ser usados no dpMeter II:

  1. Modo: defina como EBU (em vez de RMS) para medir o volume em LUFS.
  2. Gain controle: defina esse valor como 0,0 até que você esteja pronto para alterar o volume do programa.
  3. Intensidade integrada: é uma medida do volume médio de todo o áudio que o plug-in analisou desde que o botão de redefinição (5) foi clicado. Clique no botão de redefinição (5) antes de cada medição de volume para ter certeza de que você está medindo apenas o volume da seleção atual.
  4. Reproduzir: inicia a análise de volume do arquivo de áudio. Esse botão não aparece em todas as DAWs. Clicar no botão principal de reprodução (barra de espaço) na DAW terá o mesmo efeito.
  5. Reset: clique nesse botão entre cada medição de volume.
  6. Apply: quando estiver tudo pronto para você mudar o volume do material do programa para corresponder à referência de volume do TTS do Google, esse botão vai aplicar a mudança definida pelo controle de ganho (2).

Como fazer a correspondência entre o volume e a referência de volume do TTS do Google

Agora que você mediu o volume da referência de volume do TTS do Google, é possível medir e ajustar o volume do áudio:

  1. Abra o arquivo de áudio e clique em dpMeter2 no menu Effect.
  2. Clique no botão Play e deixe o valor de volume integrado atingir um valor médio para o arquivo de áudio.
  3. Se o volume integrado for diferente da referência, ajuste o ganho do áudio para corresponder à referência. Por exemplo, se o áudio for medido em um volume integrado de -12, está muito alto. Portanto, diminua o ganho definindo Gain Control como -4 db e clicando em Apply para levá-lo ao intervalo de destino da Referência de volume do TTS do Google (-16 LUFS). Pode ser necessário medir e ajustar o ganho para chegar ao volume desejado, porque o ganho se aproxima apenas do LUFS.

Como usar o ffmpeg

O FFmpeg é um framework de mídia com uma ferramenta de linha de comando para conversão de mídia. A ferramenta inclui um filtro chamado loudnorm para normalização de volume. É possível usar o loudnorm para gerar uma versão do arquivo de áudio no volume LUFS apropriado de -16 usando o modo de passagem dupla.

  1. Faça o download e instale o FFmpeg.
  2. Navegue até o diretório de instalação e execute o FFmpeg com o filtro loudnorm no seu arquivo de entrada. Ative a opção dual_mono.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    Isso instrui o FFmpeg a medir os valores de áudio do seu arquivo de mídia sem criar um arquivo de saída. Você vai receber uma série de valores apresentados da seguinte maneira:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    Os valores de amostra acima indicam informações importantes sobre a mídia recebida. Por exemplo, o valor Input Integrated mostrado indica áudio muito alto. O valor de Output Integrated está muito mais próximo de -16,0. Tanto o Input True Peak quanto o Input LRA, ou o intervalo de volume, são maiores do que nossos limites fornecidos e serão reduzidos na versão normalizada. Por fim, Target Offset representa o ganho de deslocamento usado na saída.

  3. Execute uma segunda passagem do filtro loudnorm, fornecendo os valores da etapa 1 como valores "medidos" nas opções de loudnorm.

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    Um arquivo, output.wav, é criado contendo uma versão normalizada de volume do seu arquivo de entrada.

Ouça os exemplos a seguir de um arquivo de áudio antes e depois da normalização de volume do ffmpeg para ouvir como a ferramenta funciona.

Antes

Depois

Teste o áudio

Faça um teste auditivo para garantir que seu áudio tenha um bom som em comparação com a Referência de volume do TTS do Google. Para fazer isso, alterne entre ouvir os arquivos e observe aumentos no volume ou no balanço e ajuste o ganho por ouvido, se necessário.

O volume precisa ser consistente para palavras faladas a -16 LUFS (estéreo) ou -19 LUFS (mono). No entanto, se a faixa de frequência do áudio for excessivamente alta (como cantos de pássaros) ou muito baixa (como trovão), definir níveis como -16 LUFS (estéreo) ou -19 LUFS (mono) pode tornar o som inconsistente com a Referência de volume do TTS do Google. Nesse caso, uma verificação auditiva é particularmente útil para equilibrar todo o áudio do programa.