Kể từ ngày 13 tháng 6 năm 2023, Hành động trò chuyện không còn được dùng nữa. Để biết thêm thông tin, hãy xem phần Hành động trò chuyện ngừng hoạt động.

Trang này được dịch bởi Cloud Translation API.

Âm lượng âm thanh (Luồng hội thoại)

LUFS (Đơn vị độ lớn so với Tỷ lệ đầy đủ) là tiêu chuẩn cho phép âm lượng chuẩn hoá nhiều thể loại và phong cách sản xuất. LUFS là một giải pháp phức tạp thuật toán dựa trên âm lượng cảm nhận được của thính giác của con người ở mức độ thoải mái âm lượng nghe và cho phép nhà sản xuất âm thanh tránh tăng biên độ khiến người dùng phải liên tục điều chỉnh âm lượng. LUFS còn được gọi là LKFS (Độ lớn, có trọng số K, so với Tỷ lệ đầy đủ)

Khi phát lại tệp âm thanh bằng SSML, độ lớn trung bình phải là -16 LUFS (Đơn vị âm thanh lớn trên toàn bộ tỷ lệ) đối với nội dung âm thanh âm thanh nổi mà khớp với âm lượng trung bình của đầu ra TTS của Trợ lý Google. Chiến dịch này sẽ tạo ra sự cân bằng tốt giữa việc kiểm soát âm lượng tổng thể trên loa được kích hoạt bằng giọng nói và khoảng trống rộng rãi cho chất liệu có thể điều chỉnh dải động khi so sánh với Trợ lý Google.

Đối với nội dung âm thanh đơn âm, âm lượng trung bình phải là -19 LUFS, thay vì -16 LUFS. Mục tiêu về độ lớn cho nội dung đơn âm là khác với nội dung âm thanh nổi vì khi nội dung âm thanh đơn âm được chuyển đổi sang âm thanh nổi bằng cách sao chép bản âm thanh đơn âm trên cả các kênh của tín hiệu âm thanh nổi, điều này làm tăng gấp đôi năng lượng của tín hiệu, tương ứng với sự gia tăng trong phép đo LUFS về Độ ồn 3.01 Đơn vị (LU). Ngược lại, khi tín hiệu âm thanh nổi được chuyển đổi sang đơn âm trong phát trên một loa, tín hiệu đơn âm thường được tạo bởi trung bình tín hiệu từ mỗi kênh, và sự biến đổi đó sẽ giảm phép đo LUFS bằng chính xác cùng một lượng, 3,01 LU. Quá ồn không thể so sánh trực tiếp các phép đo nội dung đơn âm và âm thanh nổi, nhưng cần được bù trừ bằng 3.01 LUFS.

Một số máy đo độ ồn có các lựa chọn để khắc phục sự chênh lệch này; ví dụ: nếu bạn đang sử dụng ffmpeg (xem bên dưới), bạn có thể sử dụng tuỳ chọn dual_mono (hoặc dualmono), như đề xuất dưới đây. Nếu bạn đang sử dụng thiết bị đo độ ồn với tuỳ chọn như vậy và bạn đã bật tuỳ chọn đó, thì mục tiêu độ lớn sẽ là -16 LUFS bất kể cho dù nội dung là âm thanh nổi hay đơn âm.

Chúng tôi đề xuất hai tùy chọn để đo và điều chỉnh âm lượng âm thanh:

Sử dụng máy trạm âm thanh kỹ thuật số (DAW) và đồng hồ LUFS.
Sử dụng FFmpeg, một tiện ích dòng lệnh.

Sử dụng đồng hồ DAW và LUFS

Các bước sau đây mô tả cách đảm bảo âm thanh của bạn đáp ứng tiêu chuẩn -16 LUFS đề xuất:

Tạo tất cả âm thanh ở mức âm thanh to và cân bằng (cân bằng) một cách nhất quán cho toàn bộ thời lượng của âm thanh để không có mốc tăng hay giảm đột ngột âm lượng lớn.
Thiết lập máy trạm âm thanh kỹ thuật số (DAW) và đồng hồ LUFS để đo độ lớn âm thanh so với Tài liệu tham khảo về độ âm lượng TTS của Google.
Đo và điều chỉnh độ to của để âm thanh có độ to trung bình tích hợp vào khoảng -16 LUFS (hoặc -19 LUFS nếu nội dung là đơn âm).
Kiểm tra âm thanh bằng cách so sánh độ to của âm thanh với Tham khảo độ âm lượng TTS của Google.

Thiết lập đồng hồ DAW và LUFS

Hiện có nhiều máy đo DAW và LUFS dưới dạng phần mềm miễn phí và thương mại của Google dành cho doanh nghiệp. Nếu đã có đồng hồ DAW và LUFS thì bạn có thể sử dụng đồng hồ đó. Nếu không, bạn nên dùng Audacity cho Windows và Linux hoặc Reaper cho Mac cho DAW và TBProAudio dpMeter II cho đồng hồ đo LUFS. Các phần sau đây giả định bạn đang sử dụng các công cụ này.

Lấy tệp

Tải xuống và cài đặt DAW:
- Đối với Windows hoặc Linux: Audacity
- Đối với máy Mac: Reaper
Tải xuống và cài đặt dpMeter II cho hệ điều hành của bạn. Công cụ này hoạt động với cả Audacity và Reaper dưới dạng VST Trình bổ trợ (Công nghệ Studio ảo).
Tải Tài liệu tham khảo về độ âm lượng cho TTS của Google xuống tệp âm thanh. Âm thanh TTS cho biết: "Độ to tích hợp của câu này là khoảng -16 LUFS". Tệp này đóng vai trò là âm thanh kiểm tra cho đồng hồ đo cũng như kiểm tra tai.

Định cấu hình dpMeter II cho Audacity (Windows/Linux)

Mở tệp âm thanh Tham chiếu độ lớn tiếng TTS của Google trong Audacity.
Mở trình bổ trợ dpMeter II bằng cách nhấp vào thẻ Effect (Hiệu ứng) và chọn Add/Remove Plugin (Thêm/Xoá plugin).
Tìm dpMeter2 trong danh sách, nhấp vào Enable (Bật), sau đó nhấp vào OK. dpMeter II plugin giờ đây sẽ xuất hiện trong trình đơn thả xuống Effect (Hiệu ứng).
Nhấp vào dpMeter2 từ trình đơn thả xuống Hiệu ứng để mở trình bổ trợ. dpMeter II mặc định ở chế độ RMS (bảng phối màu cam). Thay đổi chế độ thành EBU r128 (bảng phối màu xanh dương) để đo LUFS.

Định cấu hình dpMeter II cho Reaper (Mac)

Mở âm thanh Tham chiếu độ lớn tiếng TTS của Google bằng cách nhấp vào Chèn > Tệp nội dung nghe nhìn.....
Mở trình bổ trợ dpMeter II bằng cách nhấp vào nút FX màu xanh lục (số 1 trong hình) trên ngăn bên trái của lớp âm thanh. Cửa sổ FX sẽ xuất hiện.
Nhấp vào dpMeter2 trong danh sách. dpMeter II mặc định ở chế độ RMS (màu cam chương trình). Thay đổi chế độ thành EBU r128 (bảng phối màu xanh dương) để đo LUFS.

Đo và điều chỉnh âm lượng

Số mét khác nhau trong các DAW khác nhau sẽ cho kết quả chỉ số hơi khác nhau. Độ táo bạo có xu hướng đo Tham chiếu độ lớn âm thanh TTS của Google cao hơn một chút các DAW khác, ở mức -15,1 LUFS, trong khi Reaper cho số đọc là -16,0 LUFS. Miễn là DAW của bạn đo âm lượng theo Tham chiếu độ lớn âm thanh TTS của Google trong khoảng +/- 2 LUFS từ -16, nó sẽ hoạt động tốt để thiết lập độ lớn của âm thanh âm thanh.

Các bước cơ bản để đo và điều chỉnh độ to là:

Sử dụng dpMeter II để đo độ to của Độ to của Google TTS Tài liệu tham khảo để thiết lập chỉ số LUFS cơ sở. Nếu DAW của bạn đang đo lường cao hơn hoặc thấp hơn -16 LUFS đối với nội dung Tham khảo về độ âm thanh của Google TTS, trùng khớp âm thanh đến đường cơ sở của DAW. Ví dụ: trong Độ táo bạo, dpMeter II đo độ ồn tích hợp là -15,1 LUFS, do đó, độ ồn mục tiêu mới cho chương trình của bạn phải là -15.1 LUFS.
Sau khi thiết lập đường cơ sở, hãy điều chỉnh âm thanh của bạn cho khớp với đường cơ sở đó đọc tin tức.

Đo tham chiếu độ lớn âm thanh của Google TTS

Nhấp vào nút phát màu xanh lục trong dpMeter II hoặc nhấn phím phát (phím cách) trong DAW (số 4 bên dưới) để đo âm lượng của tệp.

Danh sách sau đây mô tả các tính năng chính mà bạn có thể sử dụng trong dpMeter II:

Chế độ: Đặt thành EBU (thay vì RMS) để đo âm lượng trong LUFS
Điều khiển khuếch đại: Hãy nhớ đặt giá trị này thành 0.0 cho đến khi bạn sẵn sàng thay đổi độ ồn của chương trình.
Âm lượng âm thanh tích hợp: Đây là thước đo độ to trung bình của tất cả âm thanh mà trình cắm đã phân tích kể từ khi nút đặt lại (5) được đã nhấp vào. Nhấp vào nút đặt lại (5) trước mỗi lần đo âm lượng để đảm bảo bạn chỉ đang đo độ lớn của vùng chọn hiện tại.
Phát: Thao tác này sẽ bắt đầu quá trình phân tích âm lượng của tệp âm thanh. (Nút này không xuất hiện trong tất cả các DAW. Nhấp vào nút phát chính (thanh dấu cách) trong DAW sẽ có tác dụng tương tự.)
Đặt lại: Nhấp vào nút này giữa mỗi lần đo âm lượng.
Áp dụng: Khi bạn đã sẵn sàng thay đổi độ lớn của tài liệu chương trình để khớp với Tham chiếu độ to của Google TTS, nút này sẽ áp dụng độ to thay đổi do Điều khiển khuếch đại (2).

Điều chỉnh độ to sao cho phù hợp với Tham chiếu độ lớn âm thanh TTS của Google

Bây giờ, bạn đã đo được độ lớn Tham chiếu âm lượng TTS của Google, bạn có thể đo và điều chỉnh độ to của âm thanh:

Mở tệp âm thanh rồi nhấp vào chọn dpMeter2 trong trình đơn Hiệu ứng.
Nhấp vào nút Phát và để giá trị âm lượng tích hợp tương ứng với giá trị trung bình cho tệp âm thanh của bạn.
Nếu độ to được tích hợp khác với Độ to của Google TTS Tham chiếu, điều chỉnh độ khuếch đại âm thanh cho khớp với tham chiếu. Ví dụ: nếu đo âm thanh của bạn ở mức âm lượng tích hợp là -12. Âm thanh này quá to, vì vậy hãy giảm âm lượng mức tăng bằng cách đặt Điều khiển khuếch đại thành -4db và nhấp vào Áp dụng để đặt mức này ở phạm vi mục tiêu của Tham chiếu độ lớn âm thanh TTS của Google (-16 LUFS). Có thể bạn cần phải đo và điều chỉnh mức tăng âm lượng để đạt được âm lượng mục tiêu, vì chỉ thu được xấp xỉ LUFS.

Sử dụng ffmpeg

FFmpeg là một khung nội dung đa phương tiện có dòng lệnh để chuyển đổi nội dung nghe nhìn. Công cụ này bao gồm bộ lọc có tên loudnorm cho chuẩn hoá âm lượng. Bạn có thể sử dụng bộ chỉ số tonorm để phát ra một phiên bản âm thanh có độ lớn -16 LUFS thích hợp bằng cách sử dụng chế độ thông kép.

Tải xuống và cài đặt FFmpeg.
Chuyển đến thư mục cài đặt rồi chạy FFmpeg với Aloudnorm trên tệp nhập. Nhớ bật tuỳ chọn dual_mono.
```
./ffmpeg -i /path/to/input.wav \
    -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
    -f null -
```
Thao tác này hướng dẫn FFmpeg đo giá trị âm thanh của tệp đa phương tiện mà không cần để tạo một tệp đầu ra. Bạn sẽ thấy một chuỗi giá trị được biểu thị như sau:
```
Input Integrated:    -27.2 LUFS
Input True Peak:     -14.4 dBTP
Input LRA:             0.1 LU
Input Threshold:     -37.7 LUFS

Output Integrated:   -15.5 LUFS
Output True Peak:     -2.7 dBTP
Output LRA:            0.0 LU
Output Threshold:    -26.2 LUFS

Normalization Type:   Dynamic
Target Offset:        -0.5 LU
```
Các giá trị mẫu ở trên cho biết thông tin quan trọng về nội dung đa phương tiện. Ví dụ: giá trị Input Integrated xuất hiện cho biết âm thanh quá to. Giá trị Output Integrated gần với -16.0 hơn nhiều. Cả hai thuộc tính Input True Peak và Input LRA hoặc phạm vi độ to, các giá trị lớn hơn mức trần mà chúng tôi cung cấp và sẽ giảm xuống ở phiên bản chuẩn. Cuối cùng, Target Offset thể hiện mức tăng độ lệch dùng trong đầu ra.
Chạy lần truyền bộ lọc âm thanh thứ hai, cung cấp các giá trị từ bước 1 là "được đo lường" trong các tuỳ chọn âm thanh lớn.
```
./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
```
Một tệp output.wav được tạo chứa một tệp được chuẩn hoá độ lớn phiên bản của tệp nhập.

Nghe các ví dụ sau đây về tệp âm thanh trước và sau ffmpeg chuẩn hoá độ lớn để nghe cách hoạt động của công cụ này.

Trước

Sau

Kiểm tra âm thanh qua tai

Kiểm tra tai để đảm bảo âm thanh của bạn nghe tốt hơn so với tính năng TTS của Google Tham chiếu về độ lớn. Để thực hiện việc này, hãy chuyển đổi giữa chế độ nghe tệp và thông báo bất kỳ sự tăng vọt về âm lượng hoặc độ cân bằng nào và điều chỉnh mức tăng âm lượng qua tai nếu cần.

Độ to phải nghe nhất quán khi nói ở -16 LUFS (âm thanh nổi) hoặc -19 LUFS (đơn âm). Tuy nhiên, nếu dải tần số âm thanh của bạn là quá cao (như tiếng chim hót) hoặc quá thấp (như tiếng sấm), đặt mức thành -16 LUFS (âm thanh nổi) hoặc -19 LUFS (mono) có thể khiến điều này xảy ra âm thanh không nhất quán với Tham chiếu độ lớn âm thanh TTS của Google. Trong phần này kiểm tra tai sẽ đặc biệt hữu ích trong việc cân bằng tất cả âm thanh trong chương trình của bạn.