معدّل التعلّم
تنظيم صفحاتك في مجموعات
يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.
يحتوي هذا الملحق على بعض التفاصيل الإضافية حول معدّل التعلّم.
الجدول الزمني لتناقص معدّل التعلّم
تُعد أفضل مجموعة من جداول انخفاض معدل التعلّم مشكلة مفتوحة، إذ ليس من الواضح كيفية إنشاء مجموعة من التجارب الدقيقة للإجابة عن هذا السؤال بثقة.
على الرغم من أنّنا لا نعرف أفضل جدول زمني للعائلة، إلا أنّنا واثقون مما يلي:
- من المهم أن يكون لديك بعض الجدول الزمني (غير الثابت).
- لذلك، من المهم تعديل هذا الجدول الزمني.
تعمل معدّلات التعلّم المختلفة بشكل أفضل في أوقات مختلفة خلال عملية التحسين. يساعد توفّر جدول زمني في زيادة احتمال أن يحقّق النموذج معدّل تعلّم جيدًا.
أفضل انخفاض تلقائي في معدّل التعلّم
ننصحك باستخدام إحدى مجموعتَي معدّل التعلّم المتناقص التاليتَين كإعداد تلقائي:
- التضاؤل الخطي
- تضاؤل جيب التمام
من المحتمل أنّ العديد من عائلات الجداول الزمنية الأخرى مناسبة أيضًا.
لماذا تتضمّن بعض الأوراق العلمية جداول معقّدة لمعدّل التعلّم؟
تستخدم العديد من الأوراق الأكاديمية جداول معقّدة لتناقص معدّل التعلّم (LR) على مراحل. يتساءل القرّاء غالبًا عن كيفية وضع المؤلفين لجدول زمني معقّد كهذا. تنتج العديد من جداول معدّل التعلّم المعقّدة عن ضبط الجدول كدالة لأداء مجموعة التحقّق بطريقة مخصّصة. والمقصود:
- ابدأ عملية تدريب واحدة مع بعض الانخفاض البسيط في معدّل التعلّم
(أو معدّل تعلّم ثابت).
- استمر في التدريب إلى أن يبدو الأداء ثابتًا.
في حال حدوث ذلك، أوقِف التدريب مؤقتًا. بعد ذلك، استأنِف التدريب باستخدام جدول زمني أسرع لانخفاض معدل التعلّم (أو معدل تعلّم ثابت أصغر) من هذه النقطة. كرِّر هذه العملية (حتى موعد انتهاء المؤتمر أو الإطلاق).
بشكل عام، لا يُنصح بنسخ الجدول الزمني الناتج بشكل عشوائي، لأنّ أفضل جدول زمني معيّن يتأثر بمجموعة من خيارات المعلَمات الفائقة الأخرى. ننصحك بنسخ الخوارزمية التي أنتجت الجدول الزمني، مع أنّ ذلك نادرًا ما يكون ممكنًا عندما يكون الجدول الزمني ناتجًا عن حكم بشري عشوائي. يمكن استخدام هذا النوع من الجداول الحساسة لأخطاء التحقّق من الصحة إذا كان يمكن تشغيلها آليًا بالكامل، ولكن الجداول التي تتضمّن تدخّل بشري والتي تعتمد على أخطاء التحقّق من الصحة تكون هشة ولا يمكن إعادة إنتاجها بسهولة، لذا ننصح بتجنُّبها.
قبل نشر نتائج تم الحصول عليها باستخدام جدول زمني كهذا، يُرجى محاولة جعلها قابلة للتكرار بشكل كامل.
كيف يجب ضبط المعلمات الفائقة في خوارزمية Adam؟
ليست كل المَعلمات الفائقة في خوارزمية Adam مهمة بالقدر نفسه.
تتطابق القواعد التجريبية التالية مع "ميزانيات" مختلفة لعدد المحاولات في إحدى الدراسات.
- إذا كان عدد المحاولات في الدراسة أقل من 10، اضبط معدّل التعلّم (الأساسي) فقط.
- إذا كانت هناك من 10 إلى 25 محاولة في إحدى الدراسات، اضبط معدّل التعلّم و
beta_1
.
- إذا كان عدد المحاولات 25 أو أكثر، اضبط معدّل التعلّم
beta_1
وepsilon
.
- إذا كان عدد المحاولات أكبر بكثير من 25 محاولة، اضبط
beta_2
أيضًا.
نظرًا لصعوبة تقديم قواعد عامة بشأن مساحات البحث وعدد النقاط التي يجب أخذ عيّنات منها من مساحة البحث، يجب اعتبار القواعد العامة المذكورة في هذا القسم إرشادات تقريبية".
إنّ محتوى هذه الصفحة مرخّص بموجب ترخيص Creative Commons Attribution 4.0 ما لم يُنصّ على خلاف ذلك، ونماذج الرموز مرخّصة بموجب ترخيص Apache 2.0. للاطّلاع على التفاصيل، يُرجى مراجعة سياسات موقع Google Developers. إنّ Java هي علامة تجارية مسجَّلة لشركة Oracle و/أو شركائها التابعين.
تاريخ التعديل الأخير: 2025-07-27 (حسب التوقيت العالمي المتفَّق عليه)
[null,null,["تاريخ التعديل الأخير: 2025-07-27 (حسب التوقيت العالمي المتفَّق عليه)"],[[["\u003cp\u003eEmploying a non-constant learning rate decay schedule, such as linear or cosine decay, is crucial for optimal model performance.\u003c/p\u003e\n"],["\u003cp\u003eComplicated, piece-wise learning rate schedules often arise from ad hoc tuning based on validation set performance and should be approached with caution due to reproducibility concerns.\u003c/p\u003e\n"],["\u003cp\u003ePrioritize tuning Adam's hyperparameters strategically: focus on the base learning rate for limited trials, gradually incorporating \u003ccode\u003ebeta_1\u003c/code\u003e, \u003ccode\u003eepsilon\u003c/code\u003e, and \u003ccode\u003ebeta_2\u003c/code\u003e with increasing trial budgets.\u003c/p\u003e\n"],["\u003cp\u003eWhile specific learning rate decay schedules are dataset and model dependent, having a schedule is more important than the specific type.\u003c/p\u003e\n"]]],[],null,["# Learning rate\n\nThis appendix contains a few additional details about learning rate.\n\nLearning rate decay schedule\n----------------------------\n\nThe best learning rate decay schedule family is an open problem;\nit's not clear how to construct a set of rigorous experiments to\nconfidently answer this question.\nAlthough we don't know the best schedule family, we're confident\nof the following:\n\n- It's important to have some (non-constant) schedule.\n- Tuning that schedule is important.\n\nDifferent learning rates work best at different times during the\noptimization process. Having some sort of schedule makes it more\nlikely for the model to hit a good learning rate.\n\n### Best default learning rate decay\n\nWe recommend either of the following learning rate decay families\nas a default:\n\n- Linear decay\n- Cosine decay\n\nMany other schedule families are probably good, too.\n\n### Why do some papers have complicated learning rate schedules?\n\nMany academic papers use complicated piece-wise learning rate (LR)\ndecay schedules. Readers often wonder how the authors arrived at\nsuch a complicated schedule. Many complicated LR decay schedules are\nthe result of tuning the schedule as a function of the validation set\nperformance in an ad hoc way. That is:\n\n1. Start a single training run with some simple LR decay (or a constant learning rate).\n2. Keep training running until the performance seems to stagnate. If this happens, pause training. Then, resume it with a perhaps steeper LR decay schedule (or smaller constant learning rate) from this point. Repeat this process (until the conference or launch deadline).\n\nBlithely copying the resulting schedule is generally not a good idea\nsince the best particular schedule is sensitive to a host of other\nhyperparameter choices. We recommend copying the algorithm that produced\nthe schedule, although this is rarely possible when arbitrary human\njudgment produced the schedule. This type of validation-error-sensitive\nschedule is fine to use if it can be fully automated, but\nhuman-in-the-loop schedules that are a function of validation error are\nbrittle and not easily reproducible, so we recommend avoiding them.\nBefore publishing results that used such a schedule, please try to make\nit fully reproducible.\n\n### How should Adam's hyperparameters be tuned?\n\nNot all the hyperparameters in Adam are equally important.\nThe following rules of thumb correspond to different \"budgets\" for the number\nof trials in a study.\n\n- If \\\u003c 10 trials in a study, only tune the (base) learning rate.\n- If 10-25 trials in a study, tune the learning rate and `beta_1`.\n- If 25+ trials, tune the learning rate, `beta_1`, and `epsilon`.\n- If substantially more than 25 trials, additionally tune tune `beta_2`.\n\nGiven how difficult it is to provide general rules about search spaces and\nhow many points you should sample from the search space, view the rules of\nthumb stated in this section as rough guidelines.\""]]