Volume audio (Dialogflow)

LUFS (Loudness Unit relative a Full Scale) è uno standard che consente il in molti generi e stili di produzione. LUFS è un processo complicato basato sul volume percepito dell'udito umano a un ambiente volume di ascolto e consente ai produttori di audio evitare salti di ampiezza che richiederebbero agli utenti di regolare costantemente il volume. La LUFS è nota anche come LKFS (Loudness, ponderata in K, relativa alla scala completa)

Durante la riproduzione di file audio utilizzando SSML, il volume medio dovrebbe Deve essere pari a -16 LUFS (Loudness Units Full Scale) per i contenuti audio stereo, che corrisponde al volume medio dell'output della sintesi vocale dell'Assistente Google. Questo offre un buon equilibrio tra il controllo del volume complessivo altoparlante ad attivazione vocale e ampio spazio per materiali con spazio intervallo dinamico rispetto all'Assistente Google.

Per i contenuti audio mono, il volume medio dovrebbe essere -19 LUFS, anziché -16 LUFS. Il target del volume per i contenuti audio in formato mono è diverso rispetto ai contenuti audio in stereo perché quando i contenuti audio in formato mono viene convertito in stereo duplicando la traccia audio mono su canali di un segnale stereo, questo raddoppia l'energia del segnale, che corrisponde a un aumento della misurazione LUFS di 3,01 Loudness Unità (LU). Al contrario, quando un segnale stereo viene convertito in mono per su un singolo altoparlante, il segnale mono è in genere costruito calcolare la media del segnale da ciascun canale, e la trasformazione diminuisce la misurazione LUFS esattamente per la stessa quantità, ovvero 3,01 LU. Così volume le misurazioni per i contenuti in formato mono e stereo non sono direttamente confrontabili, ma devono essere compensati con 3.01 LUFS.

Alcuni strumenti di misurazione del volume hanno opzioni per correggere questa disparità; Ad esempio, se usi ffmpeg (vedi sotto), puoi usare l'opzione dual_mono (o dualmono), come consigliato di seguito. Se utilizzi un misuratore del volume con questa opzione e hai attivato tale opzione, il target per il volume dovrebbe essere -16 LUFS indipendentemente indipendentemente dal fatto che i contenuti siano in formato stereo o mono.

Consigliamo due opzioni per misurare e regolare il volume dell'audio:

Utilizzo di uno strumento di misurazione DAW e LUFS

I passaggi seguenti spiegano come assicurarti che l'audio sia conforme ai requisiti -16 LUFS consiglio:

  1. Crea tutto l'audio a un livello sempre forte e bilanciato (equalizzato) per l'intera durata dell'audio, in modo che non ci siano picchi o cali volume.
  2. Configurare una workstation audio digitale (DAW) e uno strumento di misurazione LUFS per misurare il volume audio rispetto Riferimento al volume della sintesi vocale di Google.
  3. Misura e regola il volume di l'audio in modo che abbia un volume medio integrato di circa -16 LUFS (o -19 LUFS se i contenuti sono in formato mono).
  4. Controlla l'audio confrontando il volume con il riferimento al volume della sintesi vocale di Google.

Configura uno strumento di misurazione DAW e LUFS

Esistono molti strumenti di misurazione DAW e LUFS disponibili come freeware e commerciali prodotti di big data e machine learning. Se hai già uno strumento di misurazione DAW e LUFS preferito, puoi utilizzarlo. Altrimenti, consigliamo Audacity per Windows e Linux o Reaper per Mac per DAW e dpMeter II TBProAudio per uno strumento LUFS. Le seguenti sezioni presuppongono stai utilizzando questi strumenti.

Scarica i file

  1. Scarica e installa una DAW:
  2. Scaricare e installare dpMeter II per il tuo sistema operativo. Questo strumento funziona sia con Audacity che con Reaper come VST (Virtual Studio Technology).
  3. Scarica Google TTS Loudness Reference file audio. L'audio della sintesi vocale dice: "Il volume integrato di questa frase è circa -16 LUFS". Questo file funge da audio di prova per lo strumento di misurazione e da riferimento al controllo delle orecchie.

Configurare dpMeter II per Audacity (Windows/Linux)

  1. Apri il file audio di riferimento per il volume della sintesi vocale di Google in Audacity.
  2. Apri il plug-in dpMeter II facendo clic sulla scheda Effetto e scegliendo Aggiungi/Rimuovi plug-in.
  3. Individua dpMeter2 nell'elenco, fai clic su Abilita, quindi su OK. dpMeter II appare ora nel menu a discesa Effetto.
  4. Fai clic su dpMeter2 nel menu a discesa Effetto per aprire il plug-in. dpMeter II imposta per impostazione predefinita la modalità RMS (combinazione di colori arancione). Cambia la modalità in EBU r128 (combinazione di colori blu) per misurare la LUFS.

Configurare dpMeter II per Reaper (Mac)

  1. Apri l'audio di riferimento del volume della sintesi vocale di Google facendo clic su Inserisci > File multimediale....
  2. Apri il plug-in dpMeter II facendo clic sul pulsante verde FX. (numero 1 in figura) nel riquadro sinistro del livello audio. Una finestra FX .

  3. Fai clic su dpMeter2 nell'elenco. dpMeter II imposta per impostazione predefinita la modalità RMS (colore arancione ). Cambia la modalità in EBU r128 (combinazione di colori blu) per misurare la LUFS.

Misurazione e regolazione del volume

Metri diversi in DAW diverse forniscono letture leggermente diverse. L'audacia tende a misurare il riferimento al volume della sintesi vocale di Google un po' più forte rispetto altre DAW, a -15.1 LUFS, mentre Reaper dà una lettura di -16.0 LUFS. purché la tua DAW misuri il volume del riferimento al volume della sintesi vocale di Google entro +/-2 LUFS di -16, dovrebbe funzionare correttamente per impostare il volume del audio.

Ecco i passaggi di base per misurare e regolare il volume:

  1. Utilizza dpMeter II per misurare il volume del volume della sintesi vocale di Google Riferimento per stabilire una lettura LUFS di base. Se la tua DAW registra misurazioni più alte o inferiore a -16 LUFS per il riferimento al volume della sintesi vocale di Google, l'audio alle dimensioni di base della tua DAW. Ad esempio, in Audacity, dpMeter II misura un volume integrato di -15.1 LUFS, quindi il nuovo volume target il tuo programma dovrebbe essere -15.1 LUFS.
  2. Dopo aver stabilito una base di riferimento, regola l'audio in modo che corrisponda alla base per la lettura.

Misurazione del riferimento al volume della sintesi vocale di Google

Fai clic sul pulsante di riproduzione verde in dpMeter II o premi il pulsante di riproduzione (barra spaziatrice) nel dispositivo DAW (numero 4 sotto) per misurare il volume del file.

Nell'elenco che segue vengono descritte le funzioni principali che potresti utilizzare in dpMeter II:

  1. Modalità: imposta su EBU (anziché RMS) per misurare il volume nelle LUFS
  2. Controllo guadagno: assicurati che sia impostato su 0,0 fino a quando non sei pronto per la modifica. il volume del tuo programma.
  3. Volume integrato: si tratta di una misura del volume medio di tutti i l'audio analizzato dal plug-in dopo che il pulsante di reset (5) è stato selezionato. Fai clic sul pulsante di ripristino (5) prima di ogni misurazione del volume per assicurarti stai misurando solo il volume della selezione corrente.
  4. Riproduci: avvia l'analisi del volume del file audio. (questo pulsante non viene visualizzato in tutte le DAW. Fai clic sul pulsante di riproduzione principale (barra spaziatrice) La DAW dovrebbe avere lo stesso effetto.)
  5. Reimposta: fai clic su questo pulsante tra una misurazione del volume e l'altra.
  6. Applica: quando è tutto pronto per modificare il volume del materiale del programma. per corrispondere al riferimento al volume della sintesi vocale di Google, questo pulsante applica il volume variazione impostata dal controllo guadagno (2).

Corrispondenza del volume con il riferimento al volume della sintesi vocale di Google

Ora che hai misurato il volume di riferimento del volume della sintesi vocale di Google, puoi misurare e regolare il volume dell'audio:

  1. Apri il file audio e fai clic su dpMeter2 dal menu Effetto.
  2. Fai clic sul pulsante Riproduci e lascia che il valore del volume integrato si assesti su un valore medio per il tuo file audio.
  3. Se il volume integrato è diverso da quello della sintesi vocale di Google Riferimento: regola il guadagno dell'audio in modo che corrisponda al riferimento. Ad esempio, se l'audio misura a un volume integrato di -12, è troppo forte, quindi riduci il guadagno impostando Gain Control su -4db e facendo clic su Applica nell'intervallo target del riferimento per il volume della sintesi vocale di Google (-16 LUFS). Potrebbe essere necessario misurare e regolare il guadagno per raggiungere il volume prefissato, perché approssima solo LUFS.
di Gemini Advanced.

Utilizzo di ffmpeg

FFmpeg è un framework multimediale con una riga di comando per la conversione dei contenuti multimediali. Lo strumento include un filtro chiamato loudnorm per la normalizzazione del volume. Puoi usare lo standard volume per l'output di una versione dell'audio al volume appropriato di -16 LUFS utilizzando la modalità dual-pass.

  1. Scarica e installa FFmpeg.
  2. Vai alla directory di installazione ed esegui FFmpeg con lo standard filtro sul file di input. Assicurati di attivare l'opzione dual_mono.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    Questa impostazione indica a FFmpeg di misurare i valori audio del file multimediale senza creando un file di output. Otterrai una serie di valori presentati che segue:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    I valori di esempio sopra riportati indicano informazioni importanti sull'input contenuti multimediali. Ad esempio, il valore Input Integrated mostrato indica l'audio che è troppo forte. Il valore Output Integrated è molto più vicino a -16,0. Entrambi i campi I valori di Input True Peak e Input LRA o intervallo di volume sono superiori a ai soffitti forniti e sarà ridotto nella versione normalizzata. Infine, Target Offset rappresenta il guadagno dell'offset utilizzato nell'output.

  3. Esegui un secondo passaggio del filtro dello standard forte, fornendo i valori del passaggio 1 come "misurato" i valori nelle opzioni dello standard.

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    Viene creato un file, output.wav, contenente un volume normalizzato del file di input.

Ascolta i seguenti esempi di file audio prima e dopo ffmpeg normalizzazione del volume per sentire come funziona lo strumento.

Prima

Dopo

Controllo dell'audio

Fai un controllo uditivo per assicurarti che l'audio sia di buona qualità rispetto alla sintesi vocale di Google Riferimento volume. A questo scopo, passa dall'ascolto dei file all'avviso Eventuali sbalzi di volume o di bilanciamento e, se necessario, regolare il guadagno tramite l'orecchio.

Il volume deve essere coerente per il parlato a -16 LUFS (stereo) o -19 LUFS (mono). Tuttavia, se la gamma di frequenza del tuo audio è eccessivamente alta (come i richiami degli uccelli) o troppo bassa (come un tuono), l'impostazione di livelli a -16 LUFS (stereo) o -19 LUFS (mono) potrebbe audio non coerente con il riferimento al volume della sintesi vocale di Google. In questo caso, un controllo uditivo è particolarmente utile per bilanciare tutto l'audio nel tuo programma.