ความดังของเสียง (Dialogflow)

LUFS (Loudness Units ที่เกี่ยวข้องกับ Full Scale) เป็นมาตรฐานที่ทำให้ระดับเสียงใช้งานได้ ในคอนเทนต์แนวต่างๆ และรูปแบบการผลิตให้เป็นมาตรฐานเดียวกัน LUFS เป็นโซลูชันที่ซับซ้อน อัลกอริทึมที่อิงตามความดังของการได้ยินของมนุษย์ในระดับที่ฟังสบาย ระดับเสียงในการฟัง และช่วยให้ผู้ผลิตเสียง หลีกเลี่ยงการข้ามช่วงแอมพลิจูดที่ผู้ใช้ต้องปรับระดับเสียงอยู่ตลอดเวลา LUFS หรือเรียกอีกอย่างว่า LKFS (ความดัง น้ำหนักตาม K เมื่อเทียบกับเวอร์ชันเต็ม)

หมายเหตุ: ระดับเสียงแตกต่างจากความดัง ระดับเสียงจะวัดเป็นหน่วยเดซิเบลและเป็น การวัดการเปลี่ยนแปลงของความกดอากาศสูงสุดในสถานการณ์อะคูสติกที่ระบุ ความดังเป็นค่าสัมพัทธ์ที่ใช้เปรียบเทียบรายการดิจิทัลตาม ความดังสูงสุดของรูปแบบคลื่นดิจิทัล (0.0 LUFS) ด้วยเหตุนี้ LUFS ทั้งหมดจึง เชิงลบ ระดับเสียงสูงสุดไม่ใช่การวัดความดังที่ดีและไม่ควรใช้ เพื่อเปรียบเทียบเนื้อหาเสียงกับเอาต์พุต Google Assistant TTS

เมื่อเล่นไฟล์เสียงโดยใช้ SSML ความดังโดยเฉลี่ยควร เป็น -16 LUFS (Loudness Units Full Scale) สำหรับเนื้อหาเสียงสเตอริโอซึ่ง ตรงกับความดังเฉลี่ยของเอาต์พุต Google Assistant TTS ช่วงเวลานี้ ให้ความสมดุลที่ดีระหว่างการควบคุมระดับเสียงโดยรวมใน ลำโพงที่สั่งงานด้วยเสียงและมีพื้นที่กว้างพอสำหรับวัสดุที่สามารถเปลี่ยนแปลงได้ ช่วงไดนามิกเมื่อเปรียบเทียบกับ Google Assistant

สำหรับเนื้อหาเสียงโมโน ความดังโดยเฉลี่ยควรอยู่ที่ -19 LUFS แทนที่จะเป็น -16 LUFS เป้าหมายความดังสำหรับเนื้อหาเสียงแบบโมโนคือ ต่างจากเนื้อหาเสียงสเตอริโอ เพราะเมื่อเนื้อหาเสียงแบบโมโน ถูกแปลงเป็นสเตอริโอ ด้วยการทำซ้ำแทร็กเสียงโมโนทั้งสองแทร็ก ของสัญญาณสเตอริโอ ซึ่งจะเพิ่มพลังงานของสัญญาณเป็น 2 เท่า ซึ่งสอดคล้องกับการเพิ่มขึ้นของการวัด LUFS ที่ 3.01 หน่วย (LU) ในทางกลับกัน เมื่อแปลงสัญญาณสเตอริโอเป็นโมโนสำหรับ เล่นจากลำโพงตัวเดียว สัญญาณโมโนมักจะสร้างขึ้นจาก หาค่าเฉลี่ยของสัญญาณจากแต่ละแชแนล และการเปลี่ยนรูปแบบนั้นลดลง การวัด LUFS ในจำนวนที่เท่ากันทุกประการ ซึ่งก็คือ 3.01 LU ความดังมาก การวัดเนื้อหาโมโนและสเตอริโอจะเปรียบเทียบกันโดยตรงไม่ได้ แต่ต้องได้รับการหักลบด้วย 3.01 LUFS

เครื่องวัดความดังบางรุ่นมีตัวเลือกสำหรับแก้ไขความไม่เท่ากันนี้ ตัวอย่างเช่น หากคุณใช้ ffmpeg (ดูด้านล่าง) คุณสามารถใช้ ตัวเลือก dual_mono (หรือ dualmono) ตามที่แนะนำด้านล่าง หากคุณใช้เครื่องวัดความดังที่มีตัวเลือกดังกล่าวและได้เปิดใช้ เป้าหมายความดังควรเป็น -16 LUFS ไม่ว่า ว่าเป็นเนื้อหา แบบสเตอริโอหรือโมโน

เราขอแนะนำตัวเลือก 2 แบบในการวัดและปรับความดังของเสียง ดังนี้

ใช้ Digital Audio Workstation (DAW) และ LUFS Meter
ใช้ FFmpeg ซึ่งเป็นยูทิลิตีบรรทัดคำสั่ง

การใช้มิเตอร์ DAW และ LUFS

ขั้นตอนต่อไปนี้อธิบายวิธีตรวจสอบว่าเสียงเป็นไปตาม -16 LUFS คำแนะนำ:

สร้างเสียงทั้งหมดในระดับที่ดังและสมดุล (เท่ากับ) สม่ำเสมอสำหรับ เพื่อป้องกันไม่ให้ช่วงที่มีเสียงเพิ่มขึ้นหรือลดลง ความดัง
ตั้งค่าเวิร์กสเตชันสำหรับเสียงดิจิทัล (DAW) และเครื่องวัด LUFS เพื่อวัดความดังของเสียงเมื่อเทียบกับ ข้อมูลอ้างอิงความดังของ Google TTS
วัดและปรับความดังของ เสียงของคุณได้รวมความดังเฉลี่ยที่ -16 LUFS โดยประมาณ (หรือ -19 LUFS หากเนื้อหาเป็นโมโน)
ตรวจสอบเสียงจากหูโดยเปรียบเทียบความดังกับ ข้อมูลอ้างอิงด้านความดังของ Google TTS

ตั้งค่ามิเตอร์ DAW และ LUFS

มีมิเตอร์ DAW และ LUFS จำนวนมากที่มีให้บริการในรูปแบบฟรีแวร์และโฆษณาเชิงพาณิชย์ Google อีกด้วย หากคุณมีเครื่องวัด DAW และ LUFS ที่ต้องการอยู่แล้ว คุณจะใช้เครื่องวัดดังกล่าวได้ มิฉะนั้น เราขอแนะนำให้ใช้ Audacity สำหรับ Windows และ Linux หรือ Reaper สำหรับ Mac สำหรับ DAW และ TBProAudio dpMeter II สำหรับเครื่องวัด LUFS ส่วนต่อไปนี้จะถือว่า คุณกำลังใช้เครื่องมือเหล่านี้

ดาวน์โหลดไฟล์

ดาวน์โหลดและติดตั้ง DAW ดังนี้
- สำหรับ Windows หรือ Linux: Audacity
- สำหรับ Mac: Reaper
ดาวน์โหลดและติดตั้ง dpMeter II สำหรับระบบปฏิบัติการของคุณ เครื่องมือนี้ทำงานได้กับทั้ง Audacity และ Reaper ในฐานะ VST (เทคโนโลยีสตูดิโอเสมือน)
ดาวน์โหลด Google TTS Loudness Reference ไฟล์เสียง เสียง TTS อ่านว่า "ความดังของประโยคนี้คือ ประมาณ -16 LUFS" ไฟล์นี้ทำหน้าที่เป็นเสียงทดสอบสำหรับมิเตอร์ รวมถึง ข้อมูลอ้างอิงการตรวจหู

กำหนดค่า dpMeter II สำหรับ Audacity (Windows/Linux)

เปิดไฟล์เสียง Google TTS Loudness Reference ใน Audacity
เปิดปลั๊กอิน dpMeter II โดยคลิกแท็บเอฟเฟกต์ และ เลือก Add/Remove Plug-ins
ค้นหา dpMeter2 ในรายการ คลิกเปิดใช้ แล้วคลิกตกลง dpMeter II ปลั๊กอินจะปรากฏในเมนูแบบเลื่อนลงเอฟเฟกต์
คลิก dpMeter2 จากเมนูแบบเลื่อนลงเอฟเฟกต์เพื่อเปิดปลั๊กอิน dpMeter II จะมีค่าเริ่มต้นเป็นโหมด RMS (รูปแบบสีสีส้ม) เปลี่ยนโหมดเป็น EBU r128 (รูปแบบสีน้ำเงิน) เพื่อวัด LUFS

กำหนดค่า dpMeter II สำหรับ Reaper (Mac)

เปิดเสียงอ้างอิงความดังของ Google TTS โดยคลิก แทรก > ไฟล์สื่อ....
เปิดปลั๊กอิน dpMeter II โดยคลิกปุ่ม FX สีเขียว (หมายเลข 1 ในรูป) ในแผงด้านซ้ายของเลเยอร์เสียง กรอบเวลา FX จะปรากฏขึ้น
คลิก dpMeter2 ในรายการ dpMeter II มีค่าเริ่มต้นเป็นโหมด RMS (สีส้ม) สคีม) เปลี่ยนโหมดเป็น EBU r128 (รูปแบบสีน้ำเงิน) เพื่อวัด LUFS

การวัดและปรับความดัง

มิเตอร์ที่ต่างกันใน DAW ที่ต่างกันจะให้ค่าที่อ่านต่างกันเล็กน้อย Audacity มักจะวัดการอ้างอิงความดังของ Google TTS ได้ดังกว่าเล็กน้อย DAW อื่นๆ ที่ -15.1 LUFS ขณะที่ Reaper มีค่า LUFS เป็น -16.0 ตราบใดที่ DAW วัดความดังของ Google TTS Loudness Reference ภายในช่วง +/-2 LUFS ที่ -16 การตั้งค่าความดังของ เสียง

ขั้นตอนพื้นฐานในการวัดและปรับความดังมีดังนี้

ใช้ dpMeter II เพื่อวัดความดังของความดังของ Google TTS การอ้างอิงเพื่อสร้างการอ่าน LUFS พื้นฐาน หาก DAW วัดได้สูงกว่า หรือต่ำกว่า -16 LUFS สำหรับการอ้างอิงความดังของ Google TTS การจับคู่ เสียงของคุณ กับเกณฑ์พื้นฐานของ DAW ตัวอย่างเช่น ใน Audacity, dpMeter II วัดความดังแบบรวมที่ -15.1 LUFS ดังนั้นความดังเป้าหมายใหม่สำหรับ โปรแกรมของคุณควรเป็น -15.1 LUFS
หลังจากสร้างเกณฑ์พื้นฐานแล้ว ให้ปรับเสียงให้ตรงกับเกณฑ์พื้นฐาน การอ่าน

การวัดการอ้างอิงความดังของ Google TTS

คลิกปุ่มเล่นสีเขียวใน dpMeter II หรือกดเล่น (แป้นเว้นวรรค) ใน DAW (หมายเลข 4 ด้านล่าง) เพื่อวัดระดับความดังของไฟล์

รายการต่อไปนี้อธิบายคุณลักษณะหลักที่คุณอาจใช้ใน dpMeter II

โหมด: ตั้งค่าเป็น EBU (แทน RMS) เพื่อวัดความดังใน LUFS
การควบคุมค่าเกน: ตรวจสอบว่าค่านี้เป็น 0.0 จนกว่าคุณจะพร้อมเปลี่ยน ระดับความดังของโปรแกรม
ความดังที่ผสานรวม: นี่คือการวัดความดังโดยเฉลี่ยของ เสียงที่ปลั๊กอินได้วิเคราะห์ตั้งแต่ปุ่มรีเซ็ต (5) คลิกแล้ว คลิกปุ่มรีเซ็ต (5) ก่อนการวัดความดังแต่ละครั้ง เพื่อให้มั่นใจว่า คุณกำลังวัดเฉพาะความดังของรายการที่เลือกในปัจจุบัน
เล่น: ตัวเลือกนี้จะเริ่มวิเคราะห์ความดังของไฟล์เสียง (ปุ่มนี้ ไม่ได้ปรากฏใน DAW ทั้งหมด คลิกปุ่มเล่นหลัก (แป้นเว้นวรรค) ใน DAW ก็น่าจะให้ผลเช่นเดียวกัน)
รีเซ็ต: คลิกปุ่มนี้ระหว่างการวัดความดังแต่ละครั้ง
ใช้: เมื่อพร้อมเปลี่ยนระดับความดังของเนื้อหาโปรแกรมแล้ว ปุ่มนี้จะใช้ระดับความดังของเสียงเพื่อจับคู่กับการอ้างอิงระดับเสียงของ Google TTS เปลี่ยนที่กำหนดโดยการควบคุมค่าเกน (2)

ความดังที่ตรงกันกับการอ้างอิงความดังของ Google TTS

เมื่อวัดระดับความดังของการอ้างอิงความดังของ Google TTS แล้ว คุณสามารถวัดและปรับความดังของเสียงได้ดังนี้

เปิดไฟล์เสียงแล้วคลิกเลือก dpMeter2 จากเมนูเอฟเฟกต์
คลิกปุ่มเล่นแล้วปล่อยให้ค่าความดังที่ผสานรวมเป็น ค่าเฉลี่ยสำหรับไฟล์เสียงของคุณ
หากความดังที่รวมอยู่แตกต่างจากความดังของ Google TTS ข้อมูลอ้างอิง ปรับการเพิ่มเสียงให้ตรงกับข้อมูลอ้างอิง ตัวอย่างเช่น หาก เสียงจะวัดความดังรวมที่ -12 นั่นคือเสียงดังเกินไป ดังนั้นให้ลดเสียงลง ค่าเกนโดยการตั้งค่าการควบคุมค่าเกนเป็น -4db แล้วคลิกใช้เพื่อให้ปรับ จนถึงช่วงเป้าหมายของ Google TTS Loudness Reference (-16 LUFS) คุณอาจต้องวัดและปรับเกนเพื่อให้ได้ความดังที่ต้องการ เนื่องจาก ได้รับเฉพาะ LUFS โดยประมาณเท่านั้น

การใช้ ffmpeg

FFmpeg เป็นเฟรมเวิร์กสื่อที่มีบรรทัดคำสั่ง เครื่องมือสำหรับ Conversion สื่อ เครื่องมือนี้ประกอบด้วย ตัวกรองที่ชื่อ loudnorm สำหรับ การปรับความดังมาตรฐาน คุณใช้ loudnorm เพื่อเอาต์พุตเสียงเวอร์ชันหนึ่งๆ ได้ ที่ความดัง -16 LUFS ที่เหมาะสมโดยใช้โหมด Dual-Pass

ดาวน์โหลดและติดตั้ง FFmpeg
ไปที่ไดเรกทอรีการติดตั้งแล้วเรียกใช้ FFmpeg ด้วย loudnorm ตัวกรองในไฟล์อินพุต โปรดตรวจสอบว่าได้เปิดใช้ตัวเลือก dual_mono แล้ว
```
./ffmpeg -i /path/to/input.wav \
    -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
    -f null -
```
วิธีนี้จะทำให้ FFmpeg วัดค่าเสียงของไฟล์สื่อ สร้างไฟล์เอาต์พุต คุณจะเห็นชุดค่าที่แสดงเป็น ดังต่อไปนี้:
```
Input Integrated:    -27.2 LUFS
Input True Peak:     -14.4 dBTP
Input LRA:             0.1 LU
Input Threshold:     -37.7 LUFS

Output Integrated:   -15.5 LUFS
Output True Peak:     -2.7 dBTP
Output LRA:            0.0 LU
Output Threshold:    -26.2 LUFS

Normalization Type:   Dynamic
Target Offset:        -0.5 LU
```
ค่าตัวอย่างด้านบนระบุข้อมูลสำคัญเกี่ยวกับข้อมูลขาเข้า สื่อ เช่น ค่า Input Integrated ที่แสดงแสดงถึงเสียงที่ ดังเกินไป ซึ่งค่า Output Integrated นั้นใกล้เคียงกับ -16.0 มาก ทั้ง Input True Peak และ Input LRA หรือช่วงความดัง ค่าสูงกว่า เพดานที่เราจัดเตรียมไว้ให้และจะลดลงในเวอร์ชันมาตรฐาน สุดท้าย Target Offset แสดงถึงค่าชดเชยออฟเซ็ตที่ใช้ในเอาต์พุต
เรียกใช้การกรองเสียงที่ 2 โดยใส่ค่าจากขั้นตอนที่ 1 ว่า "วัดแล้ว" ในตัวเลือก loudnorm
```
./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
```
ไฟล์ output.wav สร้างขึ้นโดยมีการปรับความดังให้เป็นค่ามาตรฐาน ของไฟล์อินพุตเวอร์ชันเดิม

ฟังตัวอย่างต่อไปนี้ของไฟล์เสียงก่อนและหลัง ffmpeg การปรับความดังให้เป็นมาตรฐานเพื่อฟังวิธีการทำงานของเครื่องมือ

ก่อน

หลัง

ตรวจสอบเสียงจากหู

ตรวจหูเพื่อดูว่าเสียงดีเมื่อเทียบกับ Google TTS การอ้างอิงความดัง ในการทำเช่นนั้น ให้สลับระหว่างฟังเสียงไฟล์และสังเกต เพิ่มความดังหรือความสมดุลและปรับค่าเกนของหูหากจำเป็น

ความดังควรฟังดูสม่ำเสมอสำหรับคำพูดที่ -16 LUFS (สเตอริโอ) หรือ -19 LUFS (โมโน) แต่ถ้าช่วงความถี่ของเสียงคือ สูงเกินไป (เช่น เสียงนกร้อง) หรือต่ำเกินไป (เช่น ฟ้าร้อง) การตั้งระดับเป็น -16 LUFS (สเตอริโอ) หรือ -19 LUFS (โมโน) อาจทำให้ เสียงไม่สอดคล้องกับการอ้างอิงความดังของ Google TTS ด้วยวิธีนี้ การตรวจสอบหูจะมีประโยชน์เป็นพิเศษในการปรับสมดุลเสียงทั้งหมด ในโปรแกรมของคุณ