इस अपेंडिक्स में सीखने की दर के बारे में ज़्यादा जानकारी दी गई है.
लर्निंग रेट का नुकसान मॉडल
सबसे खराब लर्निंग डिके शेड्यूल फ़ैमिली, एक खुली समस्या है. इस समस्या को हल करने के लिए, मुश्किल प्रयोगों का सेट बनाना मुश्किल है. हालांकि, हम सबसे अच्छे शेड्यूल वाले परिवार के बारे में नहीं जानते, लेकिन हमें यकीन है कि:
- शेड्यूल तय करना ज़रूरी है (लगातार नहीं).
- यह शेड्यूल करना ज़रूरी है.
ऑप्टिमाइज़ेशन प्रोसेस के दौरान, अलग-अलग लर्निंग रेट अलग-अलग समय पर सबसे अच्छा काम करते हैं. किसी तरह का शेड्यूल बनाने से, मॉडल के अच्छे लर्निंग रेट पर पहुंचने की संभावना बढ़ जाती है.
डिफ़ॉल्ट तौर पर दिखाए जाने वाले लर्निंग रेट का सबसे ज़्यादा नुकसान
हम सुझाव देते हैं कि डिफ़ॉल्ट रूप से, इनमें से कोई एक लर्निंग रेट डिके फ़ैमिली इस्तेमाल करें.
- लीनियर मॉडल का नुकसान
- कोसाइन का नुकसान
शेड्यूल के कई दूसरे परिवार भी अच्छे हैं.
कुछ पेपर में पढ़ने की दर का जटिल शेड्यूल क्यों है?
कई अकादमिक पेपर, अलग-अलग हिस्सों के हिसाब से लर्निंग रेट (एलआर) में नुकसान पहुंचाने वाले शेड्यूल का इस्तेमाल करते हैं. पाठक अक्सर यह जानना चाहते हैं कि लेखक इतने जटिल शेड्यूल में कैसे आते हैं. एलआर में नुकसान के कई शेड्यूल, शेड्यूल को ट्यून करने से होते हैं. यह पुष्टि करने वाले सेट की परफ़ॉर्मेंस को ऐड-हॉक तरीके से करने का होता है. यानी:
- कुछ आसान एलआर डिके के साथ एक ट्रेनिंग चलाना शुरू करें (या लगातार लर्निंग रेट का इस्तेमाल करके).
- परफ़ॉर्मेंस के रुक जाने तक, ट्रेनिंग जारी रखें. अगर ऐसा होता है, तो ट्रेनिंग रोकें. इसके बाद, इस नतीजे को फिर से दिखने के लिए, शायद एलपी से हुए नुकसान के शेड्यूल (या लगातार स्थिर लर्निंग रेट) से फिर से शुरू करें. इस प्रोसेस को तब तक दोहराएं, जब तक कि कॉन्फ़्रेंस या लॉन्च की समयसीमा खत्म न हो जाए.
आम तौर पर, इस शेड्यूल को धीरे-धीरे कॉपी करना अच्छा नहीं माना जाता, क्योंकि सबसे ज़्यादा खास शेड्यूल, हाइपरपैरामीटर के कई विकल्पों के लिए संवेदनशील होता है. हमारा सुझाव है कि ऐसा शेड्यूल कॉपी करें जो शेड्यूल जनरेट करता है. हालांकि, ऐसा कभी-कभी ही होता है जब मनमाने ढंग से लिए गए किसी फ़ैसले की वजह से ऐसा हुआ हो. अगर पुष्टि करने में किसी तरह की गड़बड़ी होती है, तो इस तरह के शेड्यूल का इस्तेमाल किया जा सकता है. ऐसा तब किया जाता है, जब पुष्टि करने की प्रोसेस पूरी हो गई हो और ह्यूमन-इन-लूप वाले शेड्यूल, आसानी से फिर से जनरेट न हों. साथ ही, ऐसे शेड्यूल को अनदेखा करने का सुझाव भी दिया जाता है. इस तरह के शेड्यूल का इस्तेमाल करने वाले नतीजों को पब्लिश करने से पहले, कृपया इसे फिर से पूरी तरह जनरेट करने की कोशिश करें.
एडम के हाइपरपैरामीटर कैसे ट्यून किए जाने चाहिए?
ऐडम के सभी हाइपरपैरामीटर एक जैसे अहम नहीं हैं. स्टडी के मामलों की संख्या के लिए, थंब के ये नियम अलग-अलग "बजट" से मेल खाते हैं.
- अगर किसी स्टडी में 10 से ज़्यादा ट्रायल नहीं हैं, तो सिर्फ़ (बेस) लर्निंग रेट को ट्यून करें.
- अगर किसी स्टडी में 10 से 25 महीने शामिल हैं, तो लर्निंग रेट और
beta_1
पर ट्यून करें. - अगर मुफ़्त में आज़माने की 25 से ज़्यादा सुविधाएं हैं, तो सीखने की दर को बेहतर बनाएं. इसके लिए,
beta_1
औरepsilon
का इस्तेमाल करें. - 25 से ज़्यादा ट्रायल के लिए, ट्यून करें
beta_2
.
इस बात को ध्यान में रखते हुए कि खोज स्पेस के बारे में सामान्य नियम और