עוצמת אודיו (Dialogflow)

LUFS (יחידות עוצמת קול ביחס לסולם מלא) הוא תקן שמאפשר להפעיל נפח גדול יותר נירמול בז'אנרים רבים ובסגנונות הפקה רבים. LUFS הוא מורכב מבוסס על עוצמת קול נתפסת של שמיעה אנושית בטמפרטורה את עוצמת הקול של ההאזנה ומאפשר למפיקי אודיו להימנע מקפיצות במשרעת המחייבות את המשתמשים לכוונן כל הזמן את עוצמת הקול. LUFS נקרא גם LKFS (עוצמת קול, שקלול לפי K, ביחס להיקף מלא)

כשמפעילים קובצי אודיו באמצעות SSML, עוצמת הקול הממוצעת אמורה להיות -16 LUFS (Loudness Units Full Scale) לתוכן אודיו סטריאו, תואם לעוצמת הקול הממוצעת של פלט TTS ב-Google Assistant. הזה נותנת איזון טוב בין בקרת עוצמת הקול הכוללת רמקול המופעל באמצעות קול ושפע של מקום לחומרים משתנים טווח דינמי בהשוואה ל-Google Assistant.

בתוכן אודיו מונו, עוצמת הקול הממוצעת צריכה להיות -19 LUFS. במקום -16 LUFS. יעד עוצמת הקול לתוכן אודיו במונו הוא שונה מאשר בתוכן של אודיו בסטריאו, כי כאשר תוכן של אודיו במונו עובר המרה לסטריאו על ידי שכפול של טראק האודיו במונו של אותות סטריאו, מכפילים את אנרגיית האות, שתואם לעלייה במדידת ה-LUFS לגבי עוצמת הקול: 3.01 יחידות (LU). לעומת זאת, כשאות סטריאו מומר למונו עבור ברמקול יחיד, אות המונו בדרך כלל מורכב חישוב הממוצע של האות מכל ערוץ, והטרנספורמציה הזו פוחתת את מדד ה-LUFS בדיוק באותו סכום, 3.01 LU. כל כך עוצמתית לא ניתן להשוות באופן ישיר בין מדידות של תוכן מונו וסטריאו, אבל צריך לקזז אותו מ-3.01 LUFS.

לחלק ממדים של עוצמת הקול יש אפשרויות לתיקון הפער הזה; לדוגמה, אם אתם משתמשים ב-ffmpeg (ראו בהמשך), תוכלו להשתמש dual_mono (או dualmono), כמו שמתואר בהמשך. אם אתם משתמשים במד עוצמת קול עם אפשרות כזו, והפעלתם את באפשרות הזו, יעד עוצמת הקול צריך להיות -16 LUFS, אם התוכן הוא סטריאו או מונו.

מומלץ להשתמש בשתי אפשרויות למדידה ולהתאמה של עוצמת האודיו:

שימוש במד DAW ו-LUFS

בשלבים הבאים מוסבר איך לוודא שהאודיו עומד בדרישות של -16 LUFS. המלצה:

  1. יצירת כל האודיו בעוצמה חזקה ומאוזנת באופן עקבי (באיזון) את כל משך האודיו, כך שלא יהיו קפיצות או ירידות חדות עוצמת קול.
  2. הגדרת תחנת עבודה של אודיו דיגיטלי (DAW) ומד LUFS כדי למדוד את עוצמת האודיו בהשוואה חומר עזר בנושא עוצמת הקול ב-Google TTS.
  3. למדוד ולהתאים את עוצמת הקול של את האודיו, כך שתהיה לו עוצמת קול ממוצעת משולבת של כ-16 LUFS. (או -19 LUFS אם התוכן הוא מונו).
  4. לבדוק את האוזן שלך על ידי השוואה של עוצמת הקול ל: חומר העזר של עוצמת הקול ב-Google TTS.

הגדרת מד DAW ו-LUFS

יש הרבה מכשירי DAW ו-LUFS שזמינים כתוכנות חינמיות וכאמצעים מסחריים מוצרים. אם כבר יש לכם מד DAW ו-LUFS מועדף, תוכלו להשתמש בו. אחרת, אנחנו ממליצים על Audacity ל-Windows ול-Linux או ל-Reaper ל-Mac DAWs ו-TBProAudio dpMeter II למד LUFS. ההנחה של הקטעים הבאים שאתם משתמשים בכלים האלה.

להורדת הקבצים

  1. מורידים ומתקינים את ה-DAW:
  2. הורדה והתקנה dpMeter II למערכת ההפעלה שלך. הכלי הזה פועל גם עם Audacity וגם עם Reaper בתור VST (פלאגין של טכנולוגיית סטודיו וירטואלי).
  3. להורדת חומר העזר בנושא עוצמת הקול של Google TTS קובץ אודיו. באודיו של TTS כתוב: "העוצמה המשולבת של המשפט הזה היא -16 LUFS". הקובץ הזה משמש כאודיו לבדיקה של מכסת המאמרים, וגם סימוכין לבדיקת אוזניים.

הגדרת dpMeter II ל-Audacity (Windows/Linux)

  1. פותחים את קובץ האודיו של Google TTS על עוצמת הקול ב-Audacity.
  2. פותחים את הפלאגין dpMeter II על ידי לחיצה על הכרטיסייה Impact (אפקט) ואז בחירה באפשרות הוספה/הסרה של יישומי פלאגין.
  3. מחפשים את dpMeter2 ברשימה, לוחצים על הפעלה ואז על אישור. ה-dpMeter II הפלאגין מופיע עכשיו בתפריט הנפתח אפקט.
  4. לוחצים על dpMeter2 בתפריט הנפתח Impact כדי לפתוח את הפלאגין. ברירת המחדל של dpMeter II היא מצב RMS (ערכת צבעים כתומה). שינוי המצב ל-EBU r128 (ערכת צבעים כחולה) כדי למדוד LUFS.

הגדרת dpMeter II ל-Reaper (Mac)

  1. כדי לפתוח את האודיו של קובץ העזר לעוצמת הקול של Google TTS על ידי לחיצה הוספה > קובץ מדיה...
  2. פותחים את הפלאגין dpMeter II על ידי לחיצה על לחצן ה-FX הירוק (מספר 1 באיור) בחלונית השמאלית של שכבת האודיו. חלון FX מופיעה.

  3. לוחצים על dpMeter2 ברשימה. ברירת המחדל של dpMeter II היא למצב RMS (צבע כתום ). כדי למדוד את ה-LUFS, צריך לשנות את המצב ל-EBU r128 (ערכת צבעים כחולה).

מדידה והתאמה של עוצמת הקול

במטרים שונים בערכי DAW שונים מציינים קריאות שונות במקצת. מידת הבהירות נוטה למדוד את עוצמת הקול בעוצמה של Google TTS ב-DAW אחרים, עם -15.1 LUFS, ואילו Reaper נותן ערך של -16.0 LUFS. כל עוד הDAW שלך מודד את עוצמת הקול של קובץ העזר לעוצמה של Google TTS בטווח של +/-2 LUFS בטווח 16-, הוא אמור לפעול כראוי להגדרת עוצמת הקול אודיו.

השלבים הבסיסיים למדידה ולהתאמה של עוצמת הקול הם:

  1. השתמשו ב-dpMeter II כדי למדוד את העוצמה של עוצמת הקול ב-Google TTS הפניה לקביעת קריאה בסיסית של LUFS. אם מדד ה-DAW שלכם גבוה יותר או נמוך מ- -16 LUFS עבור קובץ העזר של עוצמת הקול של Google TTS, התאמה של האודיו שלכם עד הבסיס של הDAW. לדוגמה, ב-Audacity, dpMeter II נמדדת עוצמת קול משולבת של -15.1 LUFS, כך שעוצמת היעד החדשה של ערך התוכנה צריך להיות -15.1 LUFS.
  2. אחרי שקובעים את ערך הבסיס, מכווננים את האודיו כך שיתאים לערך הבסיס קריאה.

מדידת חומר העזר של עוצמת הקול של Google TTS

לוחצים על לחצן ההפעלה הירוק ב-dpMeter II או לוחצים על סמל ההפעלה (מקש הרווח) ב-DAW (מספר 4 למטה) כדי למדוד את עוצמת הקובץ.

הרשימה הבאה מתארת את התכונות העיקריות שאפשר להשתמש בהן ב-dpMeter II:

  1. מצב: יש להגדיר ל-EBU (במקום RMS) כדי למדוד את עוצמת הקול ב-LUFS
  2. השגת שליטה: הקפידו להגדיר את הערך 0.0 עד שמוכנים לשינוי עוצמת הקול של התוכנית.
  3. עוצמת קול משולבת: מדד של העוצמה הממוצעת של כל האודיו שהפלאגין ניתח מאז שלחצן האיפוס (5) נותב בוצעה לחיצה. צריך ללחוץ על לחצן האיפוס (5) לפני כל מדידה של עוצמת הקול כדי לוודא. אתם מודדים רק את עוצמת הקול של הבחירה הנוכחית.
  4. הפעלה: פעולה זו תתחיל את ניתוח עוצמת הקול של קובץ האודיו. (הלחצן הזה לא מופיע בכל הפורמטים. לחיצה על לחצן ההפעלה הראשי (מקש הרווח) ל-DAW אמורה להיות אותה השפעה.)
  5. איפוס: לוחצים על הלחצן הזה בין כל מדידה של עוצמת הקול.
  6. החלה: כשמוכנים לשנות את עוצמת הקול של חומר התוכנית כדי להתאים את ההפניה לעוצמת הקול של Google TTS, לחצן זה מפעיל את עוצמת הקול השינוי שהוגדר על ידי בקרת העוצמה (2).

התאמת עוצמת הקול לחומר העזר של Google TTS

עכשיו, אחרי שמדדתם את עוצמת הקול ב-Google TTS אתם יכולים למדוד ולהתאים את עוצמת הקול:

  1. פותחים את קובץ האודיו ולוחצים על dpMeter2 בתפריט אפקט.
  2. לוחצים על הלחצן הפעלה ונותנים לערך המשולב של עוצמת הקול ערך ממוצע של קובץ האודיו.
  3. אם עוצמת הקול המשולבת שונה מעוצמת הקול של Google TTS הפניה, מכווננים את עוצמת הקול של האודיו בהתאם לקובץ העזר. לדוגמה, אם נמדד בעוצמת קול משולבת של -12. הוא חזק מדי, לכן צריך להפחית את הרווח באמצעות הגדרה של -4db בקטע קבלת שליטה ולחיצה על אישור לטווח היעד של ההפניה לעוצמת קול של Google TTS (-16 LUFS). יכול להיות שתצטרכו למדוד את ההגברה ולהתאים אותה לעוצמת היעד, כי רווח משוער של LUFS בלבד.

שימוש ב-ffmpeg

FFmpeg היא framework של מדיה עם שורת פקודה להמרת מדיה. הכלי כולל מסנן שנקרא loudnorm בשביל נירמול של עוצמת הקול. אפשר להשתמש ב-Loudnorm כדי ליצור פלט של גרסה של האודיו בעוצמת הקול המתאימה של -16 LUFS באמצעות מצב מעבר כפול.

  1. מורידים ומתקינים את FFmpeg.
  2. עוברים לספריית ההתקנה ומריצים את FFmpeg עם עוצמת הקולגם לסנן לפי קובץ הקלט. חשוב להפעיל את האפשרות dual_mono.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    הפקודה מורה ל-FFmpeg למדוד את ערכי האודיו של קובץ המדיה ללא יצירת קובץ פלט. תקבלו סדרה של ערכים שמוצגים בתור ככה:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    הערכים לדוגמה שלמעלה מציינים מידע חשוב על מדיה. לדוגמה, הערך Input Integrated המוצג מציין אודיו חזק מדי. הערך של Output Integrated קרוב יותר ל- -16.0. גם הערכים Input True Peak ו-Input LRA, או טווח עוצמת הקול, גבוהים מ- התקרות שצוינו יופחתו בגרסה המנורמלת. לבסוף, Target Offset מייצג את רווח ההיסט שנעשה בו שימוש בפלט.

  3. מריצים אישור נוסף של מסנן volumenorm ומציינים את הערכים משלב 1 כ'נמדד' באפשרויות של Soundnorm.

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    נוצר קובץ, output.wav, שמכיל ערך המנורמל לעוצמת הקול של קובץ הקלט.

אפשר להאזין לדוגמאות הבאות של קובץ אודיו לפני ואחרי ffmpeg נירמול של עוצמת הקול כדי לשמוע איך הכלי פועל.

לפני

אחרי

בדיקת האוזניים שלך

ביצוע בדיקת אוזניים כדי לוודא שהאודיו נשמע טוב בהשוואה ל-Google TTS סימוכין לעוצמת קול. כדי לעשות את זה, עוברים בין האזנה לקבצים והתראה. כל קפיצה בעוצמת הקול או באיזון ושנו את ההגברה לפי אוזן לפי הצורך.

עוצמת הקול צריכה להישמע עקבית כשהמילים נאמרות בקול בגודל -16 LUFS (סטריאו) או -19 LUFS (מונו). עם זאת, אם טווח התדרים של האודיו הוא גבוה מדי (כמו קריאות ציפורים) או נמוך מדי (כמו רעמים), הגדרת רמות -16 LUFS (סטריאו) או -19 LUFS (מונו) עלולה לגרום צליל האודיו לא תואם לחומר העזר בנושא עוצמת הקול של Google TTS. כאן בדיקת אוזניים עוזרת במיוחד באיזון של כל סוגי האודיו בתוכנית שלכם.