Volume de l'audio (Dialogflow)

LUFS (Loudness Units relative to Full Scale) est une norme qui permet de contrôler le volume la normalisation dans de nombreux genres et styles de production. LUFS est un modèle complexe basé sur le volume sonore perçu de l'audition humaine à un niveau confortable et permet aux producteurs audio éviter les sauts d’amplitude qui obligeraient les utilisateurs à ajuster constamment le volume. LUFS est également connu sous le nom de LKFS (bruit, pondéré en K, par rapport à la pleine échelle)

Lors de la lecture de fichiers audio en SSML, le volume moyen doit être de -16 LUFS (Loudness Units Full Scale) pour le contenu audio stéréo, ce qui correspond au volume moyen de la sortie vocale de l'Assistant Google. Ce offre un bon équilibre entre le contrôle général du volume sur le haut-parleur à commande vocale et grande marge de manœuvre pour les supports dynamique par rapport à l'Assistant Google.

Pour un contenu audio mono, le volume moyen doit être de -19 LUFS. au lieu de -16 LUFS. Le volume cible pour un contenu audio mono est différente de celle du contenu audio stéréo, car lorsque du contenu audio mono est convertie en stéréo en dupliquant la piste audio mono sur les deux canaux d'un signal stéréo, ce qui double l'énergie du signal, ce qui correspond à une augmentation de la mesure LUFS de 3,01 du volume Unités (LU). À l'inverse, lorsqu'un signal stéréo est converti en mono pour diffusé sur une seule enceinte, le signal mono est généralement créé par en établissant la moyenne du signal de chaque canal, et que la transformation diminue la mesure LUFS avec exactement la même quantité, 3,01 LU. Ça sonne les mesures du contenu mono et stéréo ne sont pas directement comparables, mais doivent être décalées de 3,01 LUFS.

Certains outils de mesure du volume permettent de corriger cette disparité. Par exemple, si vous utilisez ffmpeg (voir ci-dessous), vous pouvez utiliser l'option dual_mono (ou dualmono), comme recommandé ci-dessous. Si vous utilisez un outil de mesure du volume avec cette option et que vous avez activé cette option, l'objectif de volume doit être de -16 LUFS, que le contenu soit stéréo ou mono.

Nous vous recommandons deux options pour mesurer et ajuster le volume sonore:

Utiliser un outil de mesure DAW et LUFS

Les étapes suivantes décrivent comment vérifier que le contenu audio respecte la valeur LUFS -16 recommandation:

  1. Créez tous les contenus audio à des niveaux élevés et équilibrés (égal à) : pendant toute la durée de l'audio, afin qu'il n'y ait pas de hausses ni de baisses volume sonore.
  2. Configurer une station de travail audio numérique (DAW) et un outil de mesure LUFS pour mesurer le volume sonore Référence Google pour le volume de la synthèse vocale.
  3. Mesurez et réglez le volume de le volume sonore moyen intégré d'environ -16 LUFS. (ou -19 LUFS si le contenu est mono).
  4. Contrôlez le son en comparant son volume à la documentation de référence sur le volume de la synthèse vocale Google.

Configurer un outil de mesure DAW et LUFS

De nombreux outils de mesure DAW et LUFS sont disponibles sous forme de logiciels sans frais et commerciaux produits. Si vous avez déjà un outil de mesure DAW et LUFS préféré, vous pouvez l'utiliser. Sinon, nous recommandons Audacity pour Windows et Linux ou Reaper pour Mac Des DAW et un dpMeter IITBProAudio II pour un outil de mesure LUFS. Les sections suivantes supposent vous utilisez ces outils.

Obtenir les fichiers

  1. Téléchargez et installez un fichier DAW: <ph type="x-smartling-placeholder">
  2. Télécharger et installer dpMeter II pour votre système d'exploitation. Cet outil fonctionne avec Audacity et Reaper en tant que TVP (Virtual Studio Technology).
  3. Téléchargez la documentation de référence sur le volume de la synthèse vocale Google fichier audio. La synthèse vocale indique : "Le volume intégré de cette phrase est environ -16 LUFS". Ce fichier sert d'audio de test pour l'outil de mesure, de la vérification audio.

Configurer dpMeter II pour Audacity (Windows/Linux)

  1. Ouvrez le fichier audio de référence du volume de la synthèse vocale Google dans Audacity.
  2. Ouvrez le plug-in dpMeter II en cliquant sur l'onglet Effet. sélectionnez Ajouter/Supprimer des plug-ins.
  3. Recherchez dpMeter2 dans la liste, cliquez sur Activer, puis sur OK. Le dpMeter II Le plug-in apparaît désormais dans le menu déroulant Effect (Effet).
  4. Cliquez sur dpMeter2 dans le menu déroulant Effet pour ouvrir le plug-in. Le dpMeter II utilise par défaut le mode RMS (jeu de couleurs orange). Changez le mode sur EBU r128 (jeu de couleurs bleu) pour mesurer la fonction LUFS.

Configurer le dpMeter II pour Reaper (Mac)

  1. Ouvrez l'audio de référence de la synthèse vocale Google en cliquant sur Insertion > Fichier multimédia...
  2. Ouvrez le plug-in dpMeter II en cliquant sur le bouton vert FX. (le numéro 1 sur la figure) dans le volet gauche de la couche audio. Une fenêtre FX (FX) s'affiche.

  3. Cliquez sur dpMeter2 dans la liste. Le dpMeter II utilise par défaut le mode RMS (orange). du schéma). Changez le mode en EBU r128 (jeu de couleurs bleu) pour mesurer la LUFS.

Mesure et réglage du volume

Les outils de mesure diffèrent selon les DAW. Audacity a tendance à mesurer la référence de volume de la synthèse vocale Google un peu plus pour les autres DAW, avec une valeur LUFS -15,1, tandis que Reaper donne une lecture de -16,0. Tant que votre DAW mesure le volume de la référence de volume de la synthèse vocale Google à +/-2 LUFS de -16, cela devrait vous permettre de régler le volume audio.

Voici les étapes de base pour mesurer et ajuster le volume sonore:

  1. Utilisez le dpMeter II pour mesurer le volume du volume de la synthèse vocale Google. Référence permettant d'établir une lecture LUFS de référence. Si votre DAW mesure plus ou inférieure à -16 pour la valeur LUFS de Google pour la synthèse vocale, la correspondance la référence de votre DAW. Par exemple, dans Audacity, dpMeter II. mesure un volume sonore intégré de -15,1 LUFS, donc le nouveau volume cible pour votre programme doit être -15,1 LUFS.
  2. Une fois que vous avez établi une référence, ajustez votre audio pour qu'elle corresponde en lecture seule.

Mesurer la référence du volume de la synthèse vocale Google

Cliquez sur le bouton de lecture vert dans le dpMeter II ou appuyez sur la barre de lecture (barre d'espace) dans votre DAW (chiffre 4 ci-dessous) pour mesurer le volume sonore du fichier.

La liste suivante décrit les principales fonctionnalités que vous pouvez utiliser dans le dpMeter II:

  1. Mode: définissez le volume sur EBU (au lieu de RMS) pour mesurer le volume dans LUFS.
  2. Contrôle du gain: assurez-vous qu'il est défini sur 0.0 jusqu'à ce que vous soyez prêt à effectuer des modifications. le volume de votre programme.
  3. bruit intégré: il s'agit d'une mesure du volume moyen de toutes les l'audio analysé par le plug-in depuis que le bouton de réinitialisation (5) a été sur lesquels l'utilisateur a cliqué. Cliquez sur le bouton de réinitialisation (5) avant chaque mesure du volume pour vous assurer vous ne mesurez que le volume sonore de la sélection actuelle.
  4. Lecture: lance l'analyse du volume du fichier audio. (Ce bouton n'apparaît pas dans toutes les DAW. Cliquez sur le bouton de lecture principal (barre d'espace) dans votre DAW devrait avoir le même effet.)
  5. Réinitialiser: cliquez sur ce bouton entre chaque mesure du volume.
  6. Candidature: lorsque vous êtes prêt à modifier le volume du contenu de votre programme pour correspondre à la référence de volume de la synthèse vocale Google, ce bouton applique le volume modifié par le Contrôle de gain (2).

Adaptation du volume à la référence de volume de la synthèse vocale Google

Maintenant que vous avez mesuré le volume sonore de référence Google TTS, vous pouvez mesurer et ajuster le volume sonore:

  1. Ouvrez votre fichier audio et cliquez sur dpMeter2 dans le menu Effet.
  2. Cliquez sur le bouton Play (Lecture) et laissez la valeur de volume intégrée s'ajuster la valeur moyenne de votre fichier audio.
  3. Si le volume intégré est différent de celui de la synthèse vocale Google Référence : ajustez le gain de votre audio pour qu'il corresponde à la référence. Par exemple, si le volume des mesures audio intégré est de -12, mais c'est trop fort : réduisez en définissant Gain Control (Contrôle du gain) sur -4 db, puis en cliquant sur Apply (Appliquer). sur la plage cible de la référence Google pour le volume de la synthèse vocale (-16 LUFS). Vous devrez peut-être mesurer et ajuster le gain pour atteindre le volume cible, car le gain n'atteint que la valeur LUFS.

Utiliser ffmpeg

FFmpeg est un framework multimédia doté d'une ligne de commande pour la conversion des médias. Cet outil inclut un appelé loudnorm pour normalisation du volume. Vous pouvez utiliser la norme du volume pour produire une version de votre contenu audio avec le volume sonore LUFS approprié de -16 en mode double pass.

  1. Téléchargez et installez FFmpeg.
  2. Accédez au répertoire d'installation et exécutez FFmpeg avec le volume fortenorm. sur votre fichier d'entrée. Veillez à activer l'option dual_mono.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    Cela indique à FFmpeg de mesurer les valeurs audio de votre fichier multimédia sans pour créer un fichier de sortie. Vous obtenez une série de valeurs sous la forme ce qui suit:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    Les exemples de valeurs ci-dessus fournissent des informations importantes sur les médias. Par exemple, la valeur Input Integrated affichée indique un contenu audio est trop fort. La valeur Output Integrated est beaucoup plus proche de -16,0. Les Les valeurs Input True Peak et Input LRA, ou plage de volume, sont supérieures à nos plafonds fournis et seront réduits dans la version normalisée. Enfin, Target Offset représente le gain de décalage utilisé dans la sortie.

  3. Exécutez une seconde fois le filtre "volumenorm" en indiquant les valeurs de l'étape 1. comme "mesurée" les valeurs des options "volume-rm".

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    Un fichier, output.wav, est créé et contient un volume de votre fichier d'entrée.

Écoutez les exemples suivants d'un fichier audio avant et après FFmpeg normalisation du volume pour entendre comment l'outil fonctionne.

Avant

Après

Contrôle de l'oreille

Effectuez un contrôle audio afin de vous assurer que le son est de bonne qualité par rapport à la synthèse vocale Google. Référence de volume. Pour ce faire, basculez entre l'écoute des fichiers et les variations de volume ou d'équilibre, et ajuster le gain à l'oreille si nécessaire.

Le volume doit être cohérent pour les mots prononcés à -16 LUFS (stéréo). ou -19 LUFS (mono). Cependant, si la plage de fréquences de votre audio est trop élevé (comme le cri d'un oiseau) ou trop faible (comme le tonnerre) la définition des niveaux sur -16 LUFS (stéréo) ou -19 LUFS (mono) peut rendre Le son de l'audio ne correspond pas à la référence Google pour le volume de la synthèse vocale. Dans ce un contrôle des oreilles est particulièrement utile pour équilibrer le son dans votre programme.