يتضمّن هذا الملحق بعض التفاصيل الإضافية حول معدّل التعلّم.
الجدول الزمني لتناقص معدّل التعلّم
يشكّل أفضل جدول زمني لتناقص معدّل التعلّم مشكلة مفتوحة، لأنّه من غير الواضح كيفية إنشاء مجموعة من التجارب الصارمة للإجابة عن هذا السؤال بثقة. على الرغم من أننا لا نعرف أفضل جدول زمني للعائلة، نحن على ثقة في ما يلي:
- من المهم أن يكون لديك بعض الجدول الزمني (غير ثابت).
- من المهم ضبط هذا الجدول الزمني.
تعمل معدلات التعلّم المختلفة على أفضل نحو في أوقات مختلفة أثناء عملية التحسين. إنّ إضافة نوع من الجداول الزمنية يُسهّل على النموذج تحقيق معدّل تعلّم جيد.
أفضل نموذج لتناقص معدّل التعلّم التلقائي
وننصح أيًّا من عوامل انخفاض معدل التعلُّم التالية كإعداد تلقائي:
- تناقص خطي
- تناقص جيب التمام
ويمكن أن تكون العائلات في جدول زمني أخرى مناسبة أيضًا.
لماذا تفرض بعض الأبحاث مزيدًا من الجداول الزمنية لمعدّلات التعلّم؟
تستخدم العديد من الأبحاث الأكاديمية جداول التعلّم المعقّدة على مستوى المعرفة. يتساءل القرّاء عادةً عن كيفية وصول المؤلفين إلى هذا الجدول الزمني المعقد. العديد من الجداول الزمنية لتناقص مستوى الخدمة (LR) معقّدة هي نتيجة ضبط الجدول الزمني كدالة لأداء مجموعة التحقق بطريقة محددة. والمقصود:
- ابدأ تمرينًا واحدًا مع انحدار بسيط يستند إلى تقنية LR (أو معدل تعلُّم مستمر).
- يمكنك مواصلة التدريب حتى يصبح الأداء بطيئًا. وفي حال حدوث ذلك، عليك إيقاف التدريب مؤقتًا. بعد ذلك، استأنفها من خلال جدول زمني أكثر انحدارًا لانخفاض معدلات التعلّم (أو معدّل تعلّم مستمر أقل) من هذه النقطة. كرِّر هذه العملية (حتى موعد المؤتمر أو الموعد النهائي).
ولا يُعدّ نسخ الجدول الزمني بدقّة فكرة جيدة بشكل عام، لأنّ أفضل جدول زمني محدّد يكون حسّاسًا لمجموعة من خيارات المعلمات الفائقة الأخرى. وننصح بنسخ الخوارزمية التي أدت إلى إنشاء الجدول الزمني، علمًا أنّ هذا نادرًا ما يمكن أن يحدث عندما يصدر الحكم البشري الجدول الزمني. يمكن استخدام هذا النوع من الجداول الزمنية الحساسة للأخطاء والتصحيح إذا كان من الممكن تنفيذها بشكل مبرمَج، ولكن الجداول البشرية التي تتضمّن خطأً في عملية التحقق والتي تُعد هزيمة وتتعذّر إعادة إظهارها، لذا ننصح بتجنّبها. قبل نشر النتائج التي استخدمت جدولاً زمنيًا هذا، يُرجى محاولة جعله قابل للتكرار بشكل كامل.
كيف يجب ضبط مَعلمات Hyperآدم؟
لا تكون كل المعلمات الفائقة في "آدم" مهمة بالدرجة نفسها. تتوافق القواعد العامة التالية مع "الميزانيات" المختلفة لعدد الفترات التجريبية في إحدى الدراسات.
- إذا توفّرت 10 تجارب في إحدى الدراسات، عليك ضبط معدّل التعلّم (الأساسي) فقط.
- إذا كانت هناك 10 أو 25 تجربة في دراسة، يُرجى ضبط معدل التعلُّم و
beta_1
. - إذا كان أكثر من 25 فترة تجريبية، يمكنك ضبط معدّل التعلُّم
beta_1
وepsilon
. - وإذا كان هناك أكثر من 25 تجربة، يمكنك توليف
beta_2
.
نظرًا لصعوبة تقديم قواعد عامة حول مساحات البحث وعدد النقاط التي يجب الحصول عليها في مساحة البحث، يُرجى الاطّلاع على قواعد ثورية مذكورة في هذا القسم على أنها إرشادات تقريبية".