音声の音量(Dialogflow)

LUFS(Loudness Units relative to Full Scale)は音量の正規化に使用される規格の一つで、さまざまなジャンルや制作現場で使用されています。LUFS は複雑 人間が聞き取るときに認識される音量に基づくアルゴリズムを、 音量を調整し、オーディオ プロデューサーが ユーザーが絶えず音量を調節することが必要となるような振幅の変化を避けてください。 LUFS は、LKFS(Loudness、K-weighted、Full Scale を基準とする)とも呼ばれます。

SSML を使用してオーディオ ファイルを再生する場合、ステレオ オーディオ コンテンツの平均ラウドネスは -16 LUFS(Loudness Units Full Scale)とするのが適当です。これは、Google アシスタントの TTS 出力の平均ラウドネスと一致します。さまざまなダイナミック レンジの素材で Google アシスタントと比較すると、このレベルは音声認識スピーカーの全体的な音量制御とヘッドルームとバランスが良くなります。

モノラル音声コンテンツの場合、平均ラウドネスは -19 LUFS です。 値を設定します。モノラル音声コンテンツの音量目標は次のとおりです。 ステレオ音声コンテンツの場合とは異なります。モノラル音声コンテンツの場合、 モノラル音声トラックがステレオに変換され、 信号のエネルギーが 2 倍になり、 これは、LUFS 測定値 3.01 の増加に対応します。 単位(LU)。逆に、音声をモノラルに変換して、 1 台のスピーカーで再生する場合、モノラル信号は通常、 各チャネルからのシグナルを平均すると 3.01 LU というまったく同じ量の LUFS 測定値が得られます。ラウドネス モノラルとステレオのコンテンツの測定値は直接比較できません。 3.01 LUFS のオフセットが必要です。

一部のラウドネス メーターには、この差を補正するオプションがあります。 たとえば、ffmpeg(下記参照)を使用している場合、 下記の推奨の dual_mono(または dualmono)オプション。 このようなオプションがあるラウドネス メーターを使用していて、 その場合、ラウドネスの目標は -16 LUFS にする必要があります。 出力するかを選択します

音声のラウドネスを測定して調整するには、次の 2 つの方法があります。

DAW と LUFS メーターを使用する

オーディオが -16 LUFS の推奨を満たすようにするには、次の操作を行います。

  1. オーディオの再生時間全体にわたってラウドネスを一定にし(平準化)、急激な変化を避けます。
  2. デジタル オーディオ ワークステーション(DAW)と LUFS メーターをセットアップする オーディオ ラウドネスを測定するために、 Google TTS Loudness Reference をご覧ください。
  3. 平均ラウドネスが -16 LUFS(モノラル コンテンツの場合は -19 LUFS)になるように、オーディオのラウドネスを測定し、調整します
  4. ラウドネスを Google TTS Loudness Reference と比較しながら、オーディオを耳で確認します

DAW と LUFS メーターを設定する

フリーウェアまたは有償プロダクトとして多くの DAW や LUFS メーターが公開されています。お好みの DAW メーターと LUFS メーターがすでにある場合は、それを使用できます。 それ以外の場合は、Audacity(Windows/Linux)または Reaper(Mac)を LUFS メーター用の DAW と TBProAudio dpMeter II。以下では、これらのツールを前提に説明をしていきます。

ファイルを入手する

  1. DAW をダウンロードしてインストールします。 <ph type="x-smartling-placeholder">
      </ph>
    • Windows または Linux の場合: Audacity
    • Mac の場合: Reaper
  2. ダウンロードとインストール お使いの OS 用の dpMeter II。このツールは Audacity と Reaper の両方で VST として動作します (Virtual Studio Technology)プラグイン。
  3. Google TTS Loudness Reference オーディオ ファイルをダウンロードします。この TTS オーディオを再生すると、「The integrated loudness of this sentence is about -16 LUFS」という音声が流れます。このファイルは、メーターのテスト音声として使用します。また、耳で確認する際にも使用します。

Audacity 用に dpMeter II を構成する(Windows / Linux)

  1. Audacity で Google TTS Loudness Reference オーディオ ファイルを開きます。
  2. [Effect] タブをクリックして [Add/Remove Plug-ins] を選択し、dpMeter II プラグインを開きます。
  3. リストで [dpMeter2] を探し、[有効にする]、[OK] の順にクリックします。dpMeter II プラグインが [Effect] プルダウン メニューに表示されるようになりました。
  4. [Effect] プルダウン メニューから [dpMeter2] をクリックして、プラグインを開きます。 dpMeter II はデフォルトで RMS モード(オレンジ色のカラーパターン)になっています。LUFS を測定するため、モードを EBU r128(青色の配色)に変更します。

Reaper 用に dpMeter II を構成する(Mac)

  1. [Insert] > [Media file] の順にクリックして、Google TTS Loudness Reference オーディオ ファイルを開きます。
  2. オーディオ レイヤーの左ペインにある緑色の FX ボタン(図の 1)をクリックして、dpMeter II プラグインを開きます。FX ウィンドウ 表示されます。

  3. リストの [dpMeter2] をクリックします。dpMeter II はデフォルトで RMS モード(オレンジ色の配色)になっています。LUFS を測定するため、モードを EBU r128(青色の配色)に変更します。

ラウドネスの測定と調整

DAW が異なるメーターによって、測定値が若干異なります。 Audacity が Google TTS Loudness Reference よりも少し大きい音で測定する傾向があります その他の DAW の測定値は -15.1 LUFS で、Reaper の測定値は -16.0 LUFS です。 DAW が Google TTS Loudness Reference のラウドネスを測定する限り -16 の +/-2 LUFS 以内であれば、 生成できます。

ラウドネスを測定して調整する基本的な手順は次のとおりです。

  1. dpMeter II を使用して Google TTS Loudness Reference のラウドネスを測定し、ベースラインとする LUFS 測定値を決めます。DAW の測定値が Google TTS Loudness Reference の場合は -16 LUFS 未満、 DAW のベースラインに調整しますたとえば Audacity では、dpMeter II が は -15.1 LUFS の統合ラウドネスを測定しているため、 プログラムは -15.1 LUFS である必要があります。
  2. ベースラインを設定したら、ベースラインに合わせてオーディオを調整します。

Google TTS Loudness Reference の測定

dpMeter II の緑色の再生ボタンをクリックするか、DAW(下の番号 4)の再生(スペースバー)を押して、ファイルの音量を測定します。

dpMeter II で使用できる主な機能は次のとおりです。

  1. モード: ラウドネスを LUFS で測定する場合は、RMS ではなく、EBU に設定します。
  2. ゲイン コントロール: プログラムのラウドネスを変更する準備ができるまで、0.0 に設定します。
  3. 統合ラウドネス: リセットボタン(5)がクリックされた後にプラグインが解析したすべてのオーディオの平均ラウドネスの測定値です。ラウドネスの測定を行う前にリセットボタン(5)をクリックして、現在選択されている対象のラウドネスだけが測定されるようにします。
  4. 再生: オーディオ ファイルのラウドネス解析を開始します。このボタンがない DAW もあります。DAW のメインの再生ボタン(スペースバー)をクリックしても、同じ結果になります。
  5. リセット: 次のラウドネス測定を行う前に、このボタンをクリックします。
  6. 適用: Google TTS Loudness Reference に合わせてプログラム素材のラウドネスを変更する準備ができたら、このボタンを使用して、ゲイン コントロール(2)で設定したラウドネスの変更を適用します。

ラウドネスを Google TTS Loudness Reference に合わせる

Google TTS Loudness Reference のラウドネスを測定したので、オーディオのラウドネスを測定して調整します。

  1. オーディオ ファイルを開き、[Effect] メニューから [dpMeter2] をクリックします。
  2. [Play] ボタンをクリックして、統合ラウドネスの値にオーディオ ファイルの平均的なラウドネス値が反映されるようにします。
  3. 統合ラウドネスが Google TTS Loudness Reference と異なる場合は、この基準に合わせてオーディオのゲインを調整します。たとえば 統合ラウドネスが -12 で測定されている場合、音量が大きすぎるため、音量を下げます [ゲイン コントロール] を -4db に設定し、[適用] をクリックしてゲインを設定します。 Google TTS Loudness Reference の目標範囲(-16 LUFS)に設定します。 次のような理由で、目標とする音量にするには、ゲインの測定と調整が必要になることがあります。 ゲインは LUFS の近似値に過ぎません。
で確認できます。

FFmpeg を使用する

FFmpeg は、コマンドラインを使用できるメディア フレームワークです。 ツールを使用します。このツールには、 loudnorm という名前のフィルタを ラウドネスの正規化を行います。loudnorm でデュアル パスモードを使用すると、オーディオ ファイルのラウドネスを適切な -16 LUFS としたバージョンを出力できます。

  1. FFmpeg をダウンロードしてインストールします。
  2. インストール ディレクトリに移動し、loudnorm フィルタを指定して、入力ファイルに FFmpeg を実行します。必ず dual_mono オプションを有効にしてください。

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    これにより、FFmpeg は出力ファイルを生成せずに、メディア ファイルのオーディオ値を測定します。次のような値が表示されます。

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    このサンプル値は、入力メディアについて重要な情報を示しています。たとえば、Input Integrated の値は、 音量が大きすぎます。Output Integrated 値は -16.0 に非常に近くなります。また、 Input True PeakInput LRA、またはラウドネスの範囲の値が次の値より大きくなっています 正規化バージョンでは減少します最後に、 Target Offset は、出力で使用されるオフセット ゲインを表します。

  3. loudnorm オプションでステップ 1 の値を測定済みの値として指定し、loudnorm フィルタを再度実行します。

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    ラウドネスが正規化されたファイル output.wav が作成されます。 バージョンを指定します。

ffmpeg でラウドネスを正規化する前と後のオーディオ ファイルを聞き比べてみましょう。

変更前

変更後

オーディオを耳で確認する

オーディオの音声を耳で聞いて、Google TTS Loudness Reference と比較して適切かどうか確認しましょう。ファイルを聞きながら、音量やバランスを変えてみてください。また、必要であればゲインを調整してください。

オーディオが人間の話す音声である場合、ラウドネスが -16 LUFS(ステレオ)または -19 LUFS(モノラル)であれば適切に聞こえるはずです。ただし、オーディオの周波数範囲が高すぎる場合(鳥の鳴き声など)や低すぎる場合(雷など)に、レベルを -16 LUFS(ステレオ)または -19 LUFS(モノラル)に設定すると、Google TTS Loudness Reference とは聞こえ方が異なることがあります。その場合、オーディオを耳で確認することで、プログラム全体でオーディオのバランスを調整できます。