Volume do áudio (Dialogflow)

LUFS (unidades de intensidade, em relação à escala completa) é um padrão que permite definir normalização em muitos gêneros e estilos de produção. A LUFS é um processo complicado algoritmo com base na percepção do volume da audição humana em uma o volume de áudio e permite que os produtores de áudio evitar saltos de amplitude que exigiriam que os usuários ajustassem o volume constantemente. LUFS também é conhecida como LKFS (Loudness, K ponderado em relação à escala completa)

Ao reproduzir arquivos de áudio usando SSML, a intensidade média deve ter 16 unidades de volume total (LUFS, na sigla em inglês) para conteúdo de áudio estéreo, que corresponde ao volume médio da saída de TTS do Google Assistente. Isso oferece um bom equilíbrio entre o controle de volume geral alto-falante ativado por voz e espaço amplo para materiais com variáveis intervalo dinâmico em comparação com o Google Assistente.

Para conteúdo de áudio mono, o volume médio precisa ser de -19 LUFS. em vez de -16 LUFS. A meta de volume para conteúdo de áudio mono é diferente do áudio estéreo, porque quando o conteúdo de áudio mono é convertido para estéreo, duplicando a faixa de áudio mono em ambos canais de um sinal estéreo, isso dobra a energia do sinal, o que corresponde a um aumento na medição de LUFS de 3,01 de volume. Unidades (LU, na sigla em inglês). Por outro lado, quando um sinal estéreo é convertido em mono para sendo reproduzido em um único alto-falante, o sinal mono normalmente é construído média do sinal de cada canal, e essa transformação diminui a medida de LUFS exatamente pelo mesmo valor, 3,01 LU. Então, volume as medidas de conteúdos mono e estéreo não são diretamente comparáveis, mas precisam ser compensados pela LUFS 3.01.

Alguns medidores de volume têm opções para corrigir essa disparidade. Por exemplo, se estiver usando o ffmpeg (confira abaixo), será possível usar a opção dual_mono (ou dualmono), conforme recomendado abaixo. Se você estiver usando um medidor de volume com essa opção e tiver ativado essa opção, a meta de volume deve ser -16 LUFS, independentemente se o conteúdo é estéreo ou mono.

Recomendamos duas opções para medir e ajustar o volume do áudio:

Como usar um medidor de DAW e LUFS

As etapas a seguir descrevem como garantir que o áudio atenda aos -16 LUFS recomendação:

  1. Criar todo o áudio em níveis consistentemente altos e equilibrados (equilibrados) para toda a duração do áudio, para que não haja picos ou quedas volume.
  2. Configurar uma estação de trabalho de áudio digital (DAW) e um medidor LUFS para medir o volume do áudio em comparação Referência de volume de TTS do Google.
  3. Medir e ajustar o volume de seu áudio para que ele tenha um volume médio integrado de cerca de -16 LUFS (ou -19 LUFS se o conteúdo for mono).
  4. Confira seu áudio comparando o volume dele a referência de volume de TTS do Google.

Configurar um medidor de DAW e LUFS

Há muitos medidores de LUFS e DAWs disponíveis como freeware e produtos. Se você já tiver um medidor de DAW e LUFS preferido, use-o. Caso contrário, recomendamos o Audacity para Windows e Linux ou Reaper para Mac DAWs e TBProAudio dpMeter II para um medidor de LUFS. As seções a seguir consideram você está usando essas ferramentas.

Acessar os arquivos

  1. Faça o download e instale uma DAW:
  2. Fazer o download e instalar dpMeter II para seu SO. Essa ferramenta funciona com o Audacity e Reaper como um VST (Virtual Studio Technology).
  3. Faça o download da referência de volume de TTS do Google arquivo de áudio. O áudio de TTS diz: "O volume integrado dessa frase é cerca de -16 LUFS". Esse arquivo serve como áudio de teste do medidor e também referência de verificação auditiva.

Configurar o dpMeter II para Audacity (Windows/Linux)

  1. Abra o arquivo de áudio "Referência de volume do TTS" do Google no Audacity.
  2. Abra o plug-in dpMeter II clicando na guia Effect e escolha Adicionar/Remover plug-ins.
  3. Encontre dpMeter2 na lista, clique em Ativar e em OK. O dpMeter II plug-in aparece no menu suspenso Effect.
  4. Clique em dpMeter2 no menu suspenso Effect para abrir o plug-in. O dpMeter II usa o modo RMS por padrão (esquema de cores laranja). Alterar o modo para EBU r128 (esquema de cores azul) para medir a LUFS.

Configurar o dpMeter II para Reaper (Mac)

  1. Abra o áudio de referência de volume do TTS do Google clicando Inserir > Arquivo de mídia....
  2. Abra o plug-in dpMeter II clicando no botão verde "FX" (número 1 na figura) no painel esquerdo da camada de áudio. Uma janela FX aparece.

  3. Clique em dpMeter2 na lista. O dpMeter II assume o padrão do modo RMS (cor laranja) esquema). Mude o modo para EBU r128 (esquema de cores azul) para medir a LUFS.

Medir e ajustar o volume

Medidores diferentes em diferentes DAWs geram leituras um pouco diferentes. O Audacity tende a medir a referência de volume do TTS do Google um pouco mais alto do que em outras DAWs, com -15,1 LUFS, enquanto o Reaper fornece uma leitura de -16,0 LUFS. Desde que a DAW meça o volume da referência de volume do TTS do Google em +/-2 LUFS de -16, deve funcionar bem para definir o volume do seu áudio.

As etapas básicas para medir e ajustar o volume são:

  1. Usar o dpMeter II para medir o volume do TTS do Google Referência para estabelecer uma leitura de LUFS de referência. Se a DAW estiver medindo mais ou menor que -16 LUFS para a referência de volume do TTS do Google, correspondência áudio para a linha de base da DAW. Por exemplo, no Audacity, dpMeter II mede um volume integrado de -15,1 LUFS, portanto, o novo volume desejado para o programa precisa ter uma taxa de -15,1 LUFS.
  2. Depois de estabelecer uma linha de base, ajuste o áudio para que corresponda à linha de base leitura.

Como medir a referência de volume do TTS do Google

Clique no botão verde de reprodução no dpMeter II ou pressione a barra de espaço na DAW (número 4 abaixo) para medir o volume do arquivo.

A lista a seguir descreve os principais recursos que você pode usar no dpMeter II:

  1. Modo: defina como EBU (em vez de RMS) para medir o volume no LUFS
  2. Controle de ganho: defina como 0,0 até que esteja pronto para alterar o volume do programa.
  3. Volume integrado: medida do volume médio de todos os o áudio que o plug-in analisou desde que o botão de redefinição (5) foi clicado. Clique no botão de redefinição (5) antes de cada medição de volume para ter certeza se estiver medindo apenas o volume da seleção atual.
  4. Reproduzir: inicia a análise de volume do arquivo de áudio. (Este botão não aparece em todas as DAWs. Clicar no botão de reprodução principal (barra de espaço) em seu A DAW deve ter o mesmo efeito.
  5. Redefinir: clique neste botão entre cada medição de volume.
  6. Aplicar: quando estiver tudo pronto para mudar o volume do material do programa para corresponder à referência de volume do TTS do Google, esse botão aplica o volume definida pelo Controle de ganho (2).

Correspondência de volume com a referência de volume do TTS do Google

Agora que você mediu o volume da referência de volume do TTS do Google, você pode medir e ajustar o volume do áudio:

  1. Abra o arquivo de áudio e clique em dpMeter2 no menu Efeito.
  2. Clique no botão Play e deixe o valor de volume integrado ser definido como um o valor médio do seu arquivo de áudio.
  3. Se o volume integrado for diferente do volume do TTS do Google Referência, ajuste o ganho do áudio de acordo com a referência. Por exemplo, se suas medidas de áudio com um volume integrado de -12, é muito alto, então diminua o ganho definindo Gain Control como -4db e clicando em Apply para que ele para o intervalo desejado da Referência de volume do TTS do Google (-16 LUFS). Pode ser necessário medir e ajustar o ganho para chegar ao volume desejado, porque ganho se aproxima da LUFS.
.

Como usar o ffmpeg

O FFmpeg é um framework de mídia com uma linha de comando ferramenta para conversão de mídia. A ferramenta inclui um filtro chamado loudnorm para e normalização do volume. Você pode usar a norma loud para gerar uma versão do seu áudio com o volume LUFS -16 apropriado usando o modo de passagem dupla.

  1. Faça o download e instale o FFmpeg.
  2. Navegue até o diretório de instalação e execute o FFmpeg com o loudnorm filtro em seu arquivo de entrada. Ative a opção dual_mono.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    Isso instrui o FFmpeg a medir os valores de áudio do seu arquivo de mídia sem criar um arquivo de saída. Você vai receber uma série de valores apresentados da seguinte forma:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    Os valores de amostra acima indicam informações importantes sobre a entrada mídia. Por exemplo, o valor Input Integrated mostrado indica áudio que está muito alto. O valor Output Integrated está muito mais próximo de -16,0. Tanto o Os valores de Input True Peak e Input LRA (ou o intervalo de volume) são maiores que os limites fornecidos e será reduzido na versão normalizada. Por fim, Target Offset representa o ganho de deslocamento usado na saída.

  3. Execute uma segunda passagem do filtro "loudnorm", fornecendo os valores da etapa 1. como "medido" nas opções de "loudnorm".

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    Um arquivo, output.wav, é criado contendo uma classe de volume do arquivo de entrada.

Ouça os seguintes exemplos de um arquivo de áudio antes e depois do ffmpeg com a normalização de volume para saber como a ferramenta funciona.

Antes

Depois

Verifique seu áudio

Faça uma verificação no ouvido para conferir se o áudio está bom em comparação com o TTS do Google Referência de volume. Para fazer isso, alterne entre ouvir os arquivos e observe aumentos de volume ou equilíbrio e ajuste o ganho por ouvido, se necessário.

O volume deve soar consistente para as palavras faladas a -16 LUFS (estéreo) ou -19 LUFS (mono). No entanto, se a faixa de frequência do áudio for excessivamente alto (como cantos de pássaros) ou excessivamente baixo (como trovão) definir níveis como -16 LUFS (estéreo) ou -19 LUFS (mono) pode tornar isso som inconsistente com a referência de volume do TTS do Google. Neste um teste no ouvido é especialmente útil para equilibrar todo o áudio em seu programa.