会話型アクションのサポートは 2023 年 6 月 13 日に終了しました。詳細については、会話型アクションの廃止をご覧ください。

このページは Cloud Translation API によって翻訳されました。

音声の音量（Dialogflow）

LUFS（Loudness Units relative to Full Scale）は音量の正規化に使用される規格の一つで、さまざまなジャンルや制作現場で使用されています。LUFS は複雑人間が聞き取るときに認識される音量に基づくアルゴリズムを、音量を調整し、オーディオプロデューサーがユーザーが絶えず音量を調節することが必要となるような振幅の変化を避けてください。 LUFS は、LKFS（Loudness、K-weighted、Full Scale を基準とする）とも呼ばれます。

SSML を使用してオーディオファイルを再生する場合、ステレオオーディオコンテンツの平均ラウドネスは -16 LUFS（Loudness Units Full Scale）とするのが適当です。これは、Google アシスタントの TTS 出力の平均ラウドネスと一致します。さまざまなダイナミックレンジの素材で Google アシスタントと比較すると、このレベルは音声認識スピーカーの全体的な音量制御とヘッドルームとバランスが良くなります。

モノラル音声コンテンツの場合、平均ラウドネスは -19 LUFS です。値を設定します。モノラル音声コンテンツの音量目標は次のとおりです。ステレオ音声コンテンツの場合とは異なります。モノラル音声コンテンツの場合、モノラル音声トラックがステレオに変換され、信号のエネルギーが 2 倍になり、これは、LUFS 測定値 3.01 の増加に対応します。単位（LU）。逆に、音声をモノラルに変換して、 1 台のスピーカーで再生する場合、モノラル信号は通常、各チャネルからのシグナルを平均すると 3.01 LU というまったく同じ量の LUFS 測定値が得られます。ラウドネスモノラルとステレオのコンテンツの測定値は直接比較できません。 3.01 LUFS のオフセットが必要です。

一部のラウドネスメーターには、この差を補正するオプションがあります。たとえば、ffmpeg（下記参照）を使用している場合、下記の推奨の dual_mono（または dualmono）オプション。このようなオプションがあるラウドネスメーターを使用していて、その場合、ラウドネスの目標は -16 LUFS にする必要があります。出力するかを選択します

音声のラウドネスを測定して調整するには、次の 2 つの方法があります。

デジタルオーディオワークステーション（DAW）と LUFS メーターを使用する。
コマンドラインユーティリティの FFmpeg を使用する。

DAW と LUFS メーターを使用する

オーディオが -16 LUFS の推奨を満たすようにするには、次の操作を行います。

オーディオの再生時間全体にわたってラウドネスを一定にし（平準化）、急激な変化を避けます。
デジタルオーディオワークステーション（DAW）と LUFS メーターをセットアップするオーディオラウドネスを測定するために、 Google TTS Loudness Reference をご覧ください。
平均ラウドネスが -16 LUFS（モノラルコンテンツの場合は -19 LUFS）になるように、オーディオのラウドネスを測定し、調整します。
ラウドネスを Google TTS Loudness Reference と比較しながら、オーディオを耳で確認します。

DAW と LUFS メーターを設定する

フリーウェアまたは有償プロダクトとして多くの DAW や LUFS メーターが公開されています。お好みの DAW メーターと LUFS メーターがすでにある場合は、それを使用できます。それ以外の場合は、Audacity（Windows/Linux）または Reaper（Mac）を LUFS メーター用の DAW と TBProAudio dpMeter II。以下では、これらのツールを前提に説明をしていきます。

ファイルを入手する

DAW をダウンロードしてインストールします。 <ph type="x-smartling-placeholder">
- Windows または Linux の場合: Audacity
- Mac の場合: Reaper
ダウンロードとインストールお使いの OS 用の dpMeter II。このツールは Audacity と Reaper の両方で VST として動作します（Virtual Studio Technology）プラグイン。
Google TTS Loudness Reference オーディオファイルをダウンロードします。この TTS オーディオを再生すると、「The integrated loudness of this sentence is about -16 LUFS」という音声が流れます。このファイルは、メーターのテスト音声として使用します。また、耳で確認する際にも使用します。

Audacity 用に dpMeter II を構成する（Windows / Linux）

Audacity で Google TTS Loudness Reference オーディオファイルを開きます。
[Effect] タブをクリックして [Add/Remove Plug-ins] を選択し、dpMeter II プラグインを開きます。
リストで [dpMeter2] を探し、[有効にする]、[OK] の順にクリックします。dpMeter II プラグインが [Effect] プルダウンメニューに表示されるようになりました。
[Effect] プルダウンメニューから [dpMeter2] をクリックして、プラグインを開きます。 dpMeter II はデフォルトで RMS モード（オレンジ色のカラーパターン）になっています。LUFS を測定するため、モードを EBU r128（青色の配色）に変更します。

Reaper 用に dpMeter II を構成する（Mac）

[Insert] > [Media file] の順にクリックして、Google TTS Loudness Reference オーディオファイルを開きます。
オーディオレイヤーの左ペインにある緑色の FX ボタン（図の 1）をクリックして、dpMeter II プラグインを開きます。FX ウィンドウ表示されます。
リストの [dpMeter2] をクリックします。dpMeter II はデフォルトで RMS モード（オレンジ色の配色）になっています。LUFS を測定するため、モードを EBU r128（青色の配色）に変更します。

ラウドネスの測定と調整

DAW が異なるメーターによって、測定値が若干異なります。 Audacity が Google TTS Loudness Reference よりも少し大きい音で測定する傾向がありますその他の DAW の測定値は -15.1 LUFS で、Reaper の測定値は -16.0 LUFS です。 DAW が Google TTS Loudness Reference のラウドネスを測定する限り -16 の +/-2 LUFS 以内であれば、生成できます。

ラウドネスを測定して調整する基本的な手順は次のとおりです。

dpMeter II を使用して Google TTS Loudness Reference のラウドネスを測定し、ベースラインとする LUFS 測定値を決めます。DAW の測定値が Google TTS Loudness Reference の場合は -16 LUFS 未満、 DAW のベースラインに調整しますたとえば Audacity では、dpMeter II がは -15.1 LUFS の統合ラウドネスを測定しているため、プログラムは -15.1 LUFS である必要があります。
ベースラインを設定したら、ベースラインに合わせてオーディオを調整します。

Google TTS Loudness Reference の測定

dpMeter II の緑色の再生ボタンをクリックするか、DAW（下の番号 4）の再生（スペースバー）を押して、ファイルの音量を測定します。

dpMeter II で使用できる主な機能は次のとおりです。

モード: ラウドネスを LUFS で測定する場合は、RMS ではなく、EBU に設定します。
ゲインコントロール: プログラムのラウドネスを変更する準備ができるまで、0.0 に設定します。
統合ラウドネス: リセットボタン（5）がクリックされた後にプラグインが解析したすべてのオーディオの平均ラウドネスの測定値です。ラウドネスの測定を行う前にリセットボタン（5）をクリックして、現在選択されている対象のラウドネスだけが測定されるようにします。
再生: オーディオファイルのラウドネス解析を開始します。このボタンがない DAW もあります。DAW のメインの再生ボタン（スペースバー）をクリックしても、同じ結果になります。
リセット: 次のラウドネス測定を行う前に、このボタンをクリックします。
適用: Google TTS Loudness Reference に合わせてプログラム素材のラウドネスを変更する準備ができたら、このボタンを使用して、ゲインコントロール（2）で設定したラウドネスの変更を適用します。

ラウドネスを Google TTS Loudness Reference に合わせる

Google TTS Loudness Reference のラウドネスを測定したので、オーディオのラウドネスを測定して調整します。

オーディオファイルを開き、[Effect] メニューから [dpMeter2] をクリックします。
[Play] ボタンをクリックして、統合ラウドネスの値にオーディオファイルの平均的なラウドネス値が反映されるようにします。
統合ラウドネスが Google TTS Loudness Reference と異なる場合は、この基準に合わせてオーディオのゲインを調整します。たとえば統合ラウドネスが -12 で測定されている場合、音量が大きすぎるため、音量を下げます [ゲインコントロール] を -4db に設定し、[適用] をクリックしてゲインを設定します。 Google TTS Loudness Reference の目標範囲（-16 LUFS）に設定します。次のような理由で、目標とする音量にするには、ゲインの測定と調整が必要になることがあります。ゲインは LUFS の近似値に過ぎません。

で確認できます。

FFmpeg を使用する

FFmpeg は、コマンドラインを使用できるメディアフレームワークです。ツールを使用します。このツールには、 loudnorm という名前のフィルタをラウドネスの正規化を行います。loudnorm でデュアルパスモードを使用すると、オーディオファイルのラウドネスを適切な -16 LUFS としたバージョンを出力できます。

FFmpeg をダウンロードしてインストールします。
インストールディレクトリに移動し、loudnorm フィルタを指定して、入力ファイルに FFmpeg を実行します。必ず dual_mono オプションを有効にしてください。
```
./ffmpeg -i /path/to/input.wav \
    -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
    -f null -
```
これにより、FFmpeg は出力ファイルを生成せずに、メディアファイルのオーディオ値を測定します。次のような値が表示されます。
```
Input Integrated:    -27.2 LUFS
Input True Peak:     -14.4 dBTP
Input LRA:             0.1 LU
Input Threshold:     -37.7 LUFS

Output Integrated:   -15.5 LUFS
Output True Peak:     -2.7 dBTP
Output LRA:            0.0 LU
Output Threshold:    -26.2 LUFS

Normalization Type:   Dynamic
Target Offset:        -0.5 LU
```
このサンプル値は、入力メディアについて重要な情報を示しています。たとえば、Input Integrated の値は、音量が大きすぎます。Output Integrated 値は -16.0 に非常に近くなります。また、 Input True Peak と Input LRA、またはラウドネスの範囲の値が次の値より大きくなっています正規化バージョンでは減少します最後に、 Target Offset は、出力で使用されるオフセットゲインを表します。
loudnorm オプションでステップ 1 の値を測定済みの値として指定し、loudnorm フィルタを再度実行します。
```
./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
```
ラウドネスが正規化されたファイル output.wav が作成されます。バージョンを指定します。

ffmpeg でラウドネスを正規化する前と後のオーディオファイルを聞き比べてみましょう。

変更前

変更後

オーディオを耳で確認する

オーディオの音声を耳で聞いて、Google TTS Loudness Reference と比較して適切かどうか確認しましょう。ファイルを聞きながら、音量やバランスを変えてみてください。また、必要であればゲインを調整してください。

オーディオが人間の話す音声である場合、ラウドネスが -16 LUFS（ステレオ）または -19 LUFS（モノラル）であれば適切に聞こえるはずです。ただし、オーディオの周波数範囲が高すぎる場合（鳥の鳴き声など）や低すぎる場合（雷など）に、レベルを -16 LUFS（ステレオ）または -19 LUFS（モノラル）に設定すると、Google TTS Loudness Reference とは聞こえ方が異なることがあります。その場合、オーディオを耳で確認することで、プログラム全体でオーディオのバランスを調整できます。