आवाज़ की तेज़ आवाज़ (Dialogflow)

एलयूएफ़एस (फ़ुल स्केल की तुलना में तेज़ आवाज़ वाली इकाइयां) एक स्टैंडर्ड है, जो वॉल्यूम को चालू करता है कई शैलियों और प्रोडक्शन स्टाइल में नॉर्मलाइज़ेशन की जा सकती है. एलयूएफ़एस एक मुश्किल काम है व्यक्ति की सुनने की क्षमता पर आधारित एल्गोरिदम आवाज़ सुनने की सुविधा से, ऑडियो बनाने वालों को में होने वाली बढ़ोतरी से बचें, जिसमें उपयोगकर्ताओं को लगातार वॉल्यूम अडजस्ट करने की ज़रूरत पड़ सकती है. एलयूएफ़एस को एलकेएफ़एस भी कहा जाता है.

एसएसएमएल का इस्तेमाल करके ऑडियो फ़ाइलें चलाते समय, औसत आवाज़ को स्टीरियो ऑडियो कॉन्टेंट के लिए -16 एलयूएफ़एस (लूडनेस यूनिट फ़ुल स्केल) होगा, जिसमें Google Assistant टीटीएस आउटपुट की औसत आवाज़ से मेल खाती है. यह एक लेवल, आपके सभी वॉल्यूम कंट्रोल के बीच अच्छा संतुलन बनाता है. आवाज़ से चलने वाला स्पीकर और अलग-अलग मटीरियल के लिए काफ़ी हेडरूम डाइनैमिक रेंज दिख सकती है.

मोनो ऑडियो कॉन्टेंट के लिए, औसत आवाज़ -19 एलयूएफ़एस होनी चाहिए, -16 एलयूएफ़एस के बजाय. मोनो ऑडियो कॉन्टेंट के लिए, तेज़ आवाज़ का टारगेट यह है यह स्टीरियो ऑडियो कॉन्टेंट से अलग होता है, क्योंकि मोनो ऑडियो कॉन्टेंट होने पर दोनों तरफ़ मोनो ऑडियो ट्रैक की डुप्लीकेट कॉपी बनाकर, स्टीरियो में बदल जाता है इससे सिग्नल की ऊर्जा दोगुनी हो जाती है, इसका मतलब है कि 3.01 आवाज़ के एलयूएफ़एस मेज़रमेंट में बढ़ोतरी हुई है यूनिट (LU). इसके उलट, जब स्टीरियो सिग्नल को किसी एक स्पीकर पर चलने से, मोनो सिग्नल आम तौर पर ऐसे बनता है और हर चैनल के सिग्नल का औसत निकाल लेते हैं और रूपांतरण घटता है एलयूएफ़एस मेज़रमेंट, 3.01 LU. आवाज़ बहुत तेज़ है मोनो और स्टीरियो कॉन्टेंट के लिए, मेज़रमेंट की सीधे तौर पर तुलना नहीं की जा सकती, इसे 3.01 एलयूएफ़एस से ऑफ़सेट करना होगा.

कुछ तेज़ आवाज़ मीटर में इस असमानता को ठीक करने के विकल्प होते हैं; उदाहरण के लिए, अगर ffmpeg (नीचे देखें) का इस्तेमाल किया जा रहा है, तो dual_mono (या dualmono) विकल्प इस्तेमाल करें, जैसा कि नीचे सुझाया गया है. अगर आपके पास ऐसे विकल्प के साथ, आवाज़ की पहचान करने वाला मीटर इस्तेमाल करने का विकल्प है और आपने उस विकल्प की मदद से, तेज़ आवाज़ का टारगेट -16 एलयूएफ़एस होना चाहिए. फिर चाहे वह स्टीरियो या मोनो हो.

ऑडियो की आवाज़ को मापने और उसे अडजस्ट करने के लिए, हम दो विकल्पों का सुझाव देते हैं:

DAW और LUFS मीटर का इस्तेमाल करना

आपका ऑडियो, -16 एलयूएफ़एस के हिसाब से है या नहीं, यह पक्का करने का तरीका यहां बताया गया है सुझाव:

  1. सभी ऑडियो, लगातार तेज़ और संतुलित (समानता वाले) लेवल पर बनाएं ऑडियो की पूरी अवधि के लिए, ताकि ऑडियो में कोई बढ़ोतरी या गिरावट न हो तेज़ आवाज़.
  2. डिजिटल ऑडियो वर्कस्टेशन (डीएडब्ल्यू) और एलयूएफ़एस मीटर सेटअप करें ताकि ऑडियो की तेज़ आवाज़ को मापा जा सके Google टीटीएस तेज़ आवाज़ का रेफ़रंस.
  3. स्पीडनेस को मापें और अडजस्ट करें इससे आपको -16 LUFS की एक साथ औसत आवाज़ मिल जाएगी (या अगर कॉन्टेंट मोनो है, तो एलयूएफ़एस -19).
  4. ऑडियो की क्वालिटी की तुलना बेहतर तरीके से करें Google TTS लाउडनेस रेफ़रंस.

DAW और LUFS मीटर सेटअप करें

यहां कई डीएडब्ल्यू और एलयूएफ़एस मीटर उपलब्ध हैं, जो फ़्रीवेयर और कमर्शियल तौर पर उपलब्ध होते हैं प्रॉडक्ट. अगर आपके पास पहले से ही कोई पसंदीदा DAW और LUFS मीटर है, तो उसका इस्तेमाल किया जा सकता है. अगर ऐसा नहीं है, तो हम Windows और Linux के लिए Audacity या Mac के लिए Reaper इस्तेमाल करने का सुझाव देते हैं एक LUFS मीटर के लिए DAWs और TBProAudio dpMeter II. यहां दिए गए सेक्शन में शामिल तो इन टूल का इस्तेमाल किया जा रहा है.

फ़ाइलें इंस्टॉल करें

  1. डीएडब्ल्यू को डाउनलोड और इंस्टॉल करना:
    • Windows या Linux के लिए: Audacity
    • Mac के लिए: Reaper
  2. डाउनलोड और इंस्टॉल करना आपके OS के लिए dpMeter II. यह टूल, VST के तौर पर Audacity और Reaper, दोनों के साथ काम करता है (वर्चुअल स्टूडियो टेक्नोलॉजी) प्लगिन.
  3. Google टीटीएस लाउडनेस रेफ़रंस को डाउनलोड करें ऑडियो फ़ाइल. टीटीएस के ऑडियो में लिखा है: "इस वाक्य को एक साथ जोड़कर करीब -16 एलयूएफ़एस". यह फ़ाइल मीटर के लिए परीक्षण ऑडियो के साथ-साथ कान की जांच के बारे में जानकारी.

Audacity (Windows/Linux) के लिए dpMeter II को कॉन्फ़िगर करें

  1. Audacity में Google टीटीएस की आवाज़ की पहचान फ़ाइल खोलें.
  2. इफ़ेक्ट टैब पर क्लिक करके dpMeter II प्लगिन खोलें और प्लग-इन जोड़ें/हटाएं को चुनें.
  3. सूची में dpMeter2 खोजें, चालू करें पर क्लिक करें, फिर OK पर क्लिक करें. डीपीमीटर II प्लग इन अब इफ़ेक्ट ड्रॉप-डाउन मेन्यू में दिखता है.
  4. प्लग इन खोलने के लिए, Effect ड्रॉप-डाउन मेन्यू से dpMeter2 पर क्लिक करें. dpMeter II डिफ़ॉल्ट रूप से, आरएमएस मोड (नारंगी रंग स्कीम) पर सेट होता है. मोड को EBU में बदलें r128 (नीले रंग की स्कीम), ताकि एलयूएफ़एस को मापा जा सके.

रीपर के लिए dpMeter II कॉन्फ़िगर करें (Mac)

  1. शामिल करें > मीडिया फ़ाइल.....
  2. हरे FX बटन पर क्लिक करके, dpMeter II प्लगिन खोलें ऑडियो लेयर के बाएं पैनल पर (इमेज में नंबर 1). एक FX विंडो दिखाई देता है.

  3. सूची में dpMeter2 पर क्लिक करें. dpMeter II डिफ़ॉल्ट रूप से आरएमएस मोड (नारंगी रंग) पर सेट होता है स्कीम). एलयूएफ़एस को मापने के लिए, मोड को EBU r128 (नीले रंग की स्कीम) पर सेट करें.

आवाज़ को मापना और उसे अडजस्ट करना

अलग-अलग डीएडब्ल्यू में अलग-अलग मीटर से, डेटा में थोड़ा अंतर होता है. ऑडसिटी, Google TTS की आवाज़ के संदर्भ को उससे थोड़ा तेज़ मापती है अन्य डीएडब्ल्यू, -15.1 एलयूएफ़एस पर होते हैं, जबकि रीपर -16.0 एलयूएफ़एस की रीडिंग देता है. जब तक आपका डीएडब्ल्यू, Google टीटीएस लाउडनेस रेफ़रंस की आवाज़ को मापता है -16 के +/-2 एलयूएफ़एस के अंदर, यह आपके विज्ञापन की आवाज़ को सेट करने में सही काम करेगा ऑडियो.

आवाज़ को मापने और अडजस्ट करने के बुनियादी तरीके ये हैं:

  1. Google TTS की आवाज़ की तीव्रता मापने के लिए dpMeter II का इस्तेमाल करें बेसलाइन एलयूएफ़एस रीडिंग बनाने के बारे में जानकारी. अगर आपके डीएडब्ल्यू का आकलन ज़्यादा हो रहा है, तो या Google टीटीएस तेज़ आवाज़ संदर्भ के लिए -16 एलयूएफ़एस, मैच अपने ऑडियो को DAW की बेसलाइन तक ट्रैक करने का तरीका जानें. उदाहरण के लिए, Audacity में dpMeter II -15.1 एलयूएफ़एस की तेज़ आवाज़ को मापता है. इसलिए, नया टारगेट आपका प्रोग्राम -15.1 एलयूएफ़एस होना चाहिए.
  2. बेसलाइन तय करने के बाद, अपने ऑडियो को बेसलाइन से मेल खाने के लिए अडजस्ट करें पढ़ना.

Google टीटीएस की आवाज़ के संदर्भ को मापना

dpMeter II में हरे रंग के प्ले बटन पर क्लिक करें या अपने DAW में प्ले (स्पेसबार) को दबाएं (संख्या 4 नीचे दी गई है).

नीचे दी गई सूची में उन मुख्य सुविधाओं के बारे में बताया गया है जिनका इस्तेमाल dpMeter II में किया जा सकता है:

  1. मोड: LUFS में आवाज़ को मापने के लिए, आरएमएस के बजाय EBU पर सेट करें
  2. कंट्रोल बढ़ाएं: पक्का करें कि यह 0.0 पर सेट हो, जब तक कि आप इसे बदलने के लिए तैयार न हों को और ज़्यादा बढ़ाने का मौका मिलता है.
  3. इंटिग्रेट की गई आवाज़: यह आवाज़ की औसत आवाज़ को मापता है वह ऑडियो जिसका विश्लेषण, रीसेट बटन (5) के बाद से प्लग-इन ने किया है क्लिक किया गया. पक्का करने के लिए, हर तेज़ आवाज़ को मापने से पहले, रीसेट बटन (5) पर क्लिक करें फ़िलहाल, चुने गए मौजूदा टेक्स्ट की आवाज़ को ही मापा जा रहा है.
  4. चलाएं: इससे ऑडियो फ़ाइल की तेज़ आवाज़ का विश्लेषण शुरू हो जाता है. (यह बटन सभी डीएडब्ल्यू में नहीं दिखता. मुख्य चलाएँ बटन (स्पेस बार) पर क्लिक करके DAW का प्रभाव भी समान होना चाहिए.)
  5. रीसेट करें: हर तेज़ आवाज़ को मापने के बीच में मौजूद इस बटन पर क्लिक करें.
  6. आवेदन करें: जब आप प्रोग्राम मटीरियल की आवाज़ को कम या ज़्यादा करने के लिए तैयार हों Google TTS की आवाज़ के संदर्भ से मिलान करने के लिए, यह बटन गेन कंट्रोल (2) से सेट किया गया बदलाव.

Google TTS की आवाज़ के संदर्भ के साथ आवाज़ का मिलान करना

अब आपने Google टीटीएस की आवाज़ के रेफ़रंस की आवाज़ को माप लिया है, ऑडियो की तेज़ आवाज़ को मापा और अडजस्ट किया जा सकता है:

  1. ऑडियो फ़ाइल खोलें और इफ़ेक्ट मेन्यू से dpMeter2 चुनें.
  2. चलाएं बटन पर क्लिक करें और इंटिग्रेट की गई तेज़ आवाज़ की वैल्यू को औसत वैल्यू है.
  3. इंटिग्रेट की गई तेज़ आवाज़ और Google टीटीएस की आवाज़ में फ़र्क़ होने पर रेफ़रंस, रेफ़रंस से मैच करने के लिए अपने ऑडियो के गेन को अडजस्ट करें. उदाहरण के लिए, अगर आपका ऑडियो -12 की एक एकीकृत आवाज़ पर मापा जाता है, यह बहुत तेज़ है, इसलिए कम करें कंट्रोल बढ़ाएं को -4db पर सेट करें और इसे पाने के लिए, लागू करें पर क्लिक करें की टारगेट रेंज तक पहुंच होनी चाहिए. आपको तापमान के टारगेट को बढ़ाने के लिए, फ़ायदे को मापना और अडजस्ट करना पड़ सकता है. ऐसा इसलिए, क्योंकि गेन LUFS का अनुमान ही लगाता है.

ffmpeg का इस्तेमाल करना

FFmpeg कमांड लाइन वाला एक मीडिया फ़्रेमवर्क है टूल का इस्तेमाल करें. इस टूल में शामिल है इसके लिए, loudnorm नाम का फ़िल्टर तेज़ आवाज़ को नॉर्मलाइज़ेशन. अपने ऑडियो का वर्शन तैयार करने के लिए, Loudnorm का इस्तेमाल किया जा सकता है ड्यूअल-पास मोड का इस्तेमाल करके, सही -16 एलयूएफ़एस तेज़ होने पर फ़ाइल को ट्रांसफ़र करेगा.

  1. FFmpeg को डाउनलोड और इंस्टॉल करें.
  2. इंस्टॉलेशन डायरेक्ट्री पर जाएं और Loudnorm के साथ FFmpeg चलाएं फ़िल्टर का इस्तेमाल करें. पक्का करें कि आपने dual_mono विकल्प चालू किया हो.

    ./ffmpeg -i /path/to/input.wav \
        -af loudnorm=I=-16:dual_mono=true:TP=-1.5:LRA=11:print_format=summary \
        -f null -
    

    यह FFmpeg को बिना बताए आपकी मीडिया फ़ाइल की ऑडियो वैल्यू को मेज़र करने का निर्देश देता है कोई आउटपुट फ़ाइल बनाकर. आपको कई वैल्यू दिखेंगी, जो इस तरह से दिखेंगी अनुसरण करता है:

    Input Integrated:    -27.2 LUFS
    Input True Peak:     -14.4 dBTP
    Input LRA:             0.1 LU
    Input Threshold:     -37.7 LUFS
    
    Output Integrated:   -15.5 LUFS
    Output True Peak:     -2.7 dBTP
    Output LRA:            0.0 LU
    Output Threshold:    -26.2 LUFS
    
    Normalization Type:   Dynamic
    Target Offset:        -0.5 LU
    

    ऊपर दिए गए सैंपल वैल्यू, आने वाले डेटा के बारे में अहम जानकारी देती हैं मीडिया. उदाहरण के लिए, Input Integrated की वैल्यू से पता चलता है कि की आवाज़ बहुत तेज़ है. Output Integrated की वैल्यू, -16.0 के काफ़ी करीब है. दोनों Input True Peak और Input LRA या तेज़ आवाज़ की रेंज, इनसे ज़्यादा हैं साथ ही, इसे सामान्य वर्शन में कम कर दिया जाएगा. आख़िर में, Target Offset, आउटपुट में इस्तेमाल हुए ऑफ़सेट गेन को दिखाता है.

  3. पहले चरण में दी गई वैल्यू उपलब्ध कराते हुए, लाउडनोर्म फ़िल्टर का दूसरा पास चलाएं के रूप में "मेज़र किया गया" में वैल्यू सेट करने की सुविधा मिलती है.

    ./ffmpeg -i /path/to/input.wav -af loudnorm=I=-16:TP=-1.5:LRA=11:measured_I=-27.2:measured_TP=-14.4:measured_LRA=0.1:measured_thresh=-37.7:offset=-0.5:linear=true:print_format=summary output.wav
    

    output.wav नाम की फ़ाइल बनाई गई है, जिसमें तेज़ आवाज़ को सामान्य बनाया गया है आपकी इनपुट फ़ाइल का वर्शन होना चाहिए.

ffmpeg से पहले और बाद में ऑडियो फ़ाइल के नीचे दिए गए उदाहरण सुनें तेज़ आवाज़ नॉर्मलाइज़ेशन की सुविधा का इस्तेमाल करके, टूल के काम करने के तरीके के बारे में जानें.

पहले

बाद में

ऑडियो की जाँच करें

कान की जांच करके पक्का करें कि Google टीटीएस के मुकाबले आपके ऑडियो की क्वालिटी अच्छी है तेज़ आवाज़ का रेफ़रंस. ऐसा करने के लिए, फ़ाइलें सुनें और नोटिस भेजें के बीच टॉगल करें आवाज़ या बैलेंस को तेज़ करें और ज़रूरत पड़ने पर कान की आवाज़ में बदलाव करें.

-16 एलयूएफ़एस (स्टीरियो) पर, बोले गए शब्दों के लिए आवाज़ की आवाज़ एक जैसी होनी चाहिए या -19 एलयूएफ़एस (मोनो). हालांकि, अगर आपके ऑडियो की फ़्रीक्वेंसी की रेंज बहुत ज़्यादा (जैसे, चिड़ियों की आवाज़) या बहुत कम (जैसे कि बिजली कड़कना), लेवल को -16 एलयूएफ़एस (स्टीरियो) या -19 एलयूएफ़एस (मोनो) पर सेट करने से ऐसी ऑडियो आवाज़ जो Google TTS की आवाज़ के संदर्भ से मेल नहीं खाती. इसमें हालाँकि, कान की जांच से ऑडियो को बैलेंस करने में ख़ास तौर पर मदद मिलती है शामिल हैं.