Czynności dotyczące rozmów zostały wycofane 13 czerwca 2023 r. Więcej informacji znajdziesz w artykule Wycofanie czynności konwersacyjnych.

Ta strona została przetłumaczona przez Cloud Translation API.

Poziom głośności dźwięku (Dialogflow)

LUFS (Loudness Units (Loudness units) w stosunku do Full Scale) to standard, który umożliwia zwiększenie głośności z normalizacją różnych gatunków i stylów produkcji. LUFS jest skomplikowany, algorytm oparty na postrzeganej głośności człowieka słuchanie i pozwala producentom uniknąć skoków amplitudy, które wymagałyby od użytkownika ciągłego dostosowywania głośności. LUFS jest też określany jako LKFS (głośność, waga K, w stosunku do pełnej skali).

Podczas odtwarzania plików audio przy użyciu SSML średnia głośność powinna be -16 LUFS (Loudness units Full Scale) w przypadku stereo treści audio, dopasowuje się do średniej głośności wypowiedzi na głos przez Asystenta Google. Ten zapewnia dobrą równowagę między ogólną regulacją głośności głośnik sterowany głosem i duża przestrzeń nadgarstka dla materiału o zmiennej w porównaniu z Asystentem Google.

W przypadku treści audio mono średnia głośność powinna wynosić -19 LUFS, a nie -16 LUFS. Docelowa głośność treści audio mono to niż w przypadku materiałów stereo, ponieważ gdy treść audio mono w dźwiękach stereo, duplikując ścieżkę dźwiękową mono w obu kanałów stereo, podwaja to jego energię, co odpowiada wzrostowi głośności LUFS o 3,01. Jednostki (LU). I odwrotnie, gdy sygnał stereo zostanie zmieniony na mono dla na jednym głośniku, sygnał mono jest zwykle zbudowany uśrednianie sygnału z każdego kanału, co powoduje zmniejszenie transformacji pomiar LUFS o dokładnie tę samą wartość, czyli 3,01 LU. A więc głośność wyniki pomiarów dla treści mono i stereo nie są bezpośrednio porównywalne, ale muszą zostać przesunięte o 3,01 LUFS.

Niektóre mierniki głośności mają opcje korygowania tej rozbieżności. na przykład jeśli używasz ffmpeg (patrz poniżej), możesz użyć opcję dual_mono (lub dualmono) zgodnie z zaleceniami poniżej. Jeśli używasz miernika głośności z taką opcją i masz włączony wybierz tę opcję, docelowy poziom głośności powinien wynosić -16 LUFS, niezależnie od niezależnie od tego, czy materiał jest stereo, czy mono.

Zalecamy 2 opcje pomiaru i dostosowywania głośności dźwięku:

Użyj cyfrowej stacji roboczej (DAW) i miernika LUFS.
Użyj FFmpeg, narzędzia wiersza poleceń.

Korzystanie z miernika DAW i LUFS

Wykonaj poniższe czynności, aby uzyskać pewność, że dźwięk jest zgodny z ostrością -16 LUFS. rekomendacja:

Odtwarzaj dźwięk na stabilnie głośnym i wyważonym (wyrównanym) poziomie: przez cały czas trwania ścieżki dźwiękowej, tak aby nie pojawiły się jej wzrosty ani spadki i głośności.
Konfigurowanie cyfrowej stacji roboczej i miernika LUFS do pomiaru głośności dźwięku w porównaniu Informacje o głośności na potrzeby zamiany tekstu na mowę.
Zmierz i dostosuj głośność w taki sposób, aby zintegrowana średnia głośność wynosiła około -16 LUFS (lub -19 LUFS w przypadku treści mono).
Sprawdź dźwięk, porównując jego głośność z odniesienie do głosu głosu przez Google TTS.

Skonfiguruj miernik DAW i LUFS.

Dostępnych jest wiele wskaźników DAW i LUFS, które są dostępne usług. Jeśli masz już preferowany miernik DAW i LUFS, możesz go użyć. Jeśli nie, zalecamy korzystanie z Audacity na systemy Windows i Linux lub Reaper na Maca. DAWs i TBProAudio dpMeter II dla miernika LUFS. W sekcjach poniżej przyjęto założenie, jeśli używasz tych narzędzi.

Pobierz pliki

Pobierz i zainstaluj DAW:
- Windows i Linux: Audacity
- Mac: Reaper.
Pobieranie i instalowanie dpMeter II w systemie operacyjnym. To narzędzie działa z VST zarówno w Audacity, jak i Reaper (Virtual Studio Technology).
Pobierz dokumentację Google TTS Loudness pliku audio. Głoska TTS brzmi: „Zintegrowana głośność tego zdania jest około -16 LUFS”. Służy on jako dźwięk testowy dla miernika oraz odbiór słuchu.

Konfigurowanie dpMeter II dla Audacity (Windows/Linux)

Otwórz plik audio Google TTS Loudness Reference w Audacity.
Otwórz wtyczkę dpMeter II, klikając kartę Effect, a następnie wybierając Dodaj/usuń wtyczki.
Znajdź na liście dpMeter2, kliknij Włącz, a następnie OK. dpMeter II w menu Efekt.
Kliknij dpMeter2 w menu Effect, aby otworzyć wtyczkę. dpMeter II domyślnie używa trybu RMS (schemat kolorów pomarańczowy). Zmień tryb na EBU r128 (schemat kolorów niebieskich) do pomiaru LUFS.

Konfigurowanie dpMeter II dla aplikacji Reaper (Mac)

Kliknij plik referencyjny Google TTS Loudness Loudness Reference Wstaw > Plik multimedialny....
Otwórz wtyczkę dpMeter II, klikając zielony przycisk FX. (numer 1 na ilustracji) w lewym panelu warstwy audio. Okno FX
Kliknij dpMeter2 na liście. dpMeter II domyślnie używa trybu RMS (kolor pomarańczowy) schemat). Aby dokonać pomiaru LUFS, zmień tryb na EBU r128 (schemat niebieskiego koloru).

Mierzę i dostosowuję głośność

Różne metryki w różnych DAW-ach podają nieco inne odczyty. Audacity mierzy wartość referencji Google TTS nieco głośniej niż a inni DAW to -15,1 LUFS, a Reaper – -16,0 LUFS. Dopóki Twoje DAW mierzy głośność odniesień do dźwięku TTS Google w zakresie +/-2 LUFS wynoszącego -16, powinno to wystarczyć do ustawienia głośności Twojego audio.

Podstawowe kroki pomiaru i dostosowywania głośności:

Zmierz głośność Google TTS Loudness za pomocą narzędzia dpMeter II Odniesienie do uzyskania bazowego odczytu LUFS. Jeśli Twoje DAW mierzy wyższe wyniki lub niższy niż -16 LUFS dla Google TTS Loudness Reference, dopasowanie dźwięk do wartości bazowej Twojego DAW. Na przykład w Audacity dpMeter II mierzy zintegrowaną głośność -15,1 LUFS, więc nowa głośność docelowa Twój program powinien mieć -15,1 LUFS.
Po ustaleniu wartości bazowej dostosuj dźwięk do wartości bazowej czytanie.

Pomiar odniesień do nagłośnienia tekstu na mowę Google

Kliknij zielony przycisk odtwarzania w narzędziu dpMeter II lub naciśnij przycisk odtwarzania (spację) w DAW. (numer 4 poniżej) do pomiaru głośności pliku.

Poniższa lista zawiera opis głównych funkcji, których można używać w narzędziu dpMeter II:

Tryb: ustaw EBU (zamiast RMS), aby mierzyć głośność w LUFS.
Kontrola wzmocnienia: sprawdź, czy ustawiona jest wartość 0,0, dopóki nie nadejdzie pora na zmianę. jaka jest głośność Twojego programu.
Zintegrowana głośność: jest to miara średniej głośności wszystkich dźwięk przeanalizowany przez wtyczkę od czasu ponownego użycia przycisku resetowania (5) kliknięto. Przed każdym pomiarem głośności kliknij przycisk resetowania (5), aby mieć pewność, mierzysz tylko głośność aktualnie zaznaczonego tekstu.
Odtwórz: rozpoczyna analizę głośności pliku audio. (Ten przycisk nie występuje w niektórych aplikacjach DAW. Klikając główny przycisk odtwarzania (spację) DAW powinien dać taki sam efekt.
Resetuj: kliknij ten przycisk po każdym pomiarze głośności.
Zastosuj: gdy chcesz zmienić głośność materiału programu. Aby dopasować odniesienie do głośności TTS Google, ten przycisk stosuje głośność. zmiana ustawienia wzmocnienia (2).

Dopasowuję poziom głośności do odniesienia dla dźwięku TTS

Po zmierzeniu głośności referencyjnej dla dźwięku TTS Google, możesz mierzyć i dostosowywać głośność dźwięku:

Otwórz plik audio i z menu Efekt kliknij dpMeter2.
Kliknij przycisk Odtwórz i poczekaj, aż zintegrowana wartość głośności osiągnie średnią wartość pliku audio.
Jeśli zintegrowana głośność różni się od funkcji Loudness Google TTS Plik referencyjny – dostosuj wzmocnienie dźwięku do pliku referencyjnego. Na przykład, jeśli dźwięk mierzy zintegrowaną głośność -12, czyli za głośno, więc zmniejsz głośność Wzmocnienie uzyskasz, ustawiając Kontrolę wzmocnienia na -4db i klikając Zastosuj. do zakresu docelowego parametru Google TTS Loudness Reference (-16 LUFS). Aby osiągnąć docelową głośność, trzeba zmierzyć i dostosować wzmocnienie, zyskuje tylko przybliżone LUFS.

Korzystanie z pliku FFmpeg

FFmpeg to platforma multimedialna z wierszem poleceń za pomocą narzędzia do konwersji mediów. Narzędzie zawiera filtr loudnorm dla: z normalizacją głośności. Możesz użyć głośnika soundnorm, aby wyświetlić wersję Twojego dźwięku z odpowiednią głośnością LUFS -16 przy użyciu trybu dwuprzebiegowego.

Pobierz i zainstaluj FFmpeg.
Przejdź do katalogu instalacji i uruchom FFmpeg z głośnikiem filtr w pliku wejściowym. Pamiętaj, aby włączyć opcję dual_mono.
```
./ffmpeg -i /path/to/input.wav \
    -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
    -f null -
```
Oznacza to, że program FFmpeg mierzy wartości audio w pliku multimedialnym bez który tworzy plik wyjściowy. Zobaczysz serię wartości przedstawianych jako następujące:
```
Input Integrated:    -27.2 LUFS
Input True Peak:     -14.4 dBTP
Input LRA:             0.1 LU
Input Threshold:     -37.7 LUFS

Output Integrated:   -15.5 LUFS
Output True Peak:     -2.7 dBTP
Output LRA:            0.0 LU
Output Threshold:    -26.2 LUFS

Normalization Type:   Dynamic
Target Offset:        -0.5 LU
```
Przykładowe wartości powyżej wskazują ważne informacje o przychodzących multimediów. Na przykład wyświetlana wartość Input Integrated oznacza dźwięk, który jest za głośne. Wartość Output Integrated jest znacznie zbliżona do –16,0. Zarówno Input True Peak i Input LRA lub zakres głośności, wartości są wyższe niż określony pułap i zostanie zmniejszony do znormalizowanej wersji. I na koniec, Target Offset reprezentuje wzmocnienie przesunięcia w danych wyjściowych.
Uruchom drugie przejście filtra Lononorm, podając wartości z kroku 1 jako „mierzone” w opcjach głośnika.
```
./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
```
Utworzony zostanie plik output.wav zawierający znormalizowaną głośność wersji pliku wejściowego.

Posłuchaj tych przykładów pliku audio przed plikiem FFmpeg i po nim normalizację głośności, aby usłyszeć, jak działa narzędzie.

Przed

Sprawdź dźwięk

Sprawdź ucho, aby mieć pewność, że dźwięk brzmi dobrze w porównaniu z odpowiedzią na zamianę tekstu na mowę Google Odniesienie do głośności. Aby to zrobić, przełącz się między odsłuchiwaniem plików i zwróć uwagę wszelkie skoki głośności lub balansu, a w razie potrzeby wyregulować wzmocnienie za pomocą ucha.

Poziom głośności powinien być spójny w przypadku wypowiadanych słów przy -16 LUFS (stereo) lub -19 LUFS (mono). Jeśli jednak zakres częstotliwości dźwięku jest nadmiernie wysokie (np. ptaszki) lub nadmiernie niskie (np. grzmot), lub -16 LUFS (stereo) lub -19 LUFS (mono). dźwięk jest niespójny z wartością referencyjną dla dźwięku TTS Google. W tym sprawdzenie uszu jest szczególnie pomocne przy równoważeniu dźwięku do Twojego programu.