هناك نوعان من أعباء العمل التدريبية:
- مرتبط بالحوسبة
- غير مقيَّد
تدريب الحوسبة الحدية مقيَّد بالوقت الذي يمكنك قضاؤه في التدريب، وليس على مقدار بيانات التدريب المتوفرة لديك أو عامل آخر. بمعنى آخر، يكون وقت التدريب "الأفضل" هو "طالما أنه يمكنك تحمّل التكاليف". وإذا نجحت في التدريب لمدة أطول أو بشكل أكثر كفاءة، سينخفض التدريب وفقًا لخسارة التدريب. (من خلال التوليف السليم، يجب أن تنخفض أيضًا حالة التحقّق).
إنّ تسريع التدريب على الحوسبة يعادل تحسين التدريب. ومع ذلك، لا يعني مجرد أنّ عبء العمل محدود الحوسبة إنّ التدريب لمدة أطول أو أسرع هو الطريقة الوحيدة لتحسين النتائج.
عندما يكون التدريب غير مرتبط بحوسبة الحوسبة، يمكنك تحمّل تكلفة التدريب طالما أردت ذلك. إلا أن تدريب نموذج لمدة أطول قد لا يكون مفيدًا أو قد يكون مفرطًا في توفيره. عندما يكون التدريب غير مرتبط بالحوسبة:
- يمكنك التدريب على فقدان التدريب بشكل كبير، إلى الحد الذي يؤدي فيه التدريب الإضافي إلى الحد من فقدان التدريب ولكن لا يقلل من فقدان التحقق.
- يمكنك التوليف بسهولة أكبر، خاصةً عند تحديد الجداول الزمنية لانخفاض معدّل التعلّم، لأنّها تتفاعل بشكل خاص مع ميزانية التدريب. في المقابل، إنّ فقدان التدريب المنخفض على تدريب الحوسبة قد يتطلب جدولاً زمنيًا لتناقص معدّل التعلّم.
بغض النظر عمّا إذا كان حِمل العمل معيّنًا مرتبطًا بالحوسبة أم لا، فإنّ الطرق التي تزيد من تباين التدرجات (على مستوى المجموعات) عادةً ما تؤدي إلى إبطاء تقدّم التدريب، وبالتالي قد تزيد من عدد خطوات التدريب المطلوبة للوصول إلى نسبة فقدان محددة للتحقّق. قد يؤدي أي من الحالات التالية إلى تباين مرتفع في التدرّج:
- استخدام حجم مجموعة أصغر.
- إضافة زيادة البيانات
- إضافة بعض أنواع التسويات (على سبيل المثال، تنظيم الإزالة).
حدِّد مدة التدريب عند عدم الوصول إلى حدود الحوسبة.
هدفك: تدرّب لمدة طويلة بما يكفي لكي يصل النموذج إلى أفضل نتيجة ممكنة بدون إهدار خطوات التدريب.
يتمثّل هدفك الرئيسي في ضمان تدريبك لفترة كافية حتى يتمكّن النموذج من الوصول إلى أفضل نتيجة ممكنة بدون إهدار خطوات التدريب غير الضرورية. إذا لم تكن متأكدًا، ننصحك بممارسة تدريب لمدة أطول. يجب ألّا تنخفض مقاييس التقييم (على سبيل المثال، أو الدقة، أو التذكُّر، أو AUC، أو F1) عند التدريب لمدة أطول، مع افتراض أنّك تستخدم اختيار نقطة التراجم الرجعي بشكلٍ صحيح وأنّك تشير إلى نقطة تفتيش بشكلٍ متكرّر.
عدم ضبط رقم max_train_steps
في الدراسة مطلقًا وبدلاً من ذلك، اختَر قيمة واستخدِم
القيمة نفسها في كل التجارب. وبناءً على هذه التجارب، يمكنك تحديد خطوة التدريب
التي اطّلعت عليها بأثر رجعي من أجل تحسين اختيار
max_train_steps
.
على سبيل المثال، إذا كانت أفضل خطوة هي خلال أول 10% من التدريب، يكون الحد الأقصى لعدد الخطوات مرتفعًا جدًا.
وبدلاً من ذلك، إذا كانت أفضل خطوة هي في آخر 25% من التدريب،
يمكنك الاستفادة من التدريب لمدة أطول وإعادة ضبط الجدول الزمني للتناقص.
يمكن أن يتغيّر العدد المثالي من خطوات التدريب عند حدوث تغيّر في البنية أو البيانات (مثل إضافة زيادة للبيانات).
يوضّح القسم التالي كيفية اختيار قيمة العنصر المحفّز الأولي للسمة max_train_steps
استنادًا إلى عدد الخطوات اللازمة "لمناسب تمامًا"
لمجموعة التدريب باستخدام معدل التعلّم الثابت.
وقد يكون من الممكن خفض max_train_steps
إذا تحسّنت عملية التدريب
بطريقة ما، على سبيل المثال، من خلال مُحسّن محسّن بالكامل أو
جدول زمني محسّن لمعدّل التعلّم.
خوارزمية اختيار مرشّح أوّلي لخطوات max_train_step المستخدَمة في تحسين معدّل التعلّم
يمكنك اختيار مرشح أولي لـ max_train_steps
باستخدام خوارزمية محو البيانات الخاصة بتعليم. تفترض الخوارزمية التالية أنه من الممكن ألا يكون محتوى التدريب مناسبًا تمامًا، بل أيضًا من خلال استخدام جدول زمني ثابت لمعدّل التعلّم.
- إن أمكن تطبيق مجموعة التدريب بالكامل،
ويجب أن يكون هناك إعداد (مع قيمة
max_train_steps
) يناسب مجموعة التدريب تمامًا. ابحث عن أي إعداد من هذا النوع واستخدِم قيمتهmax_train_steps
كنقطة بدايةN
. - نفِّذ معدّل تعلُّم مستمرًا (أي البحث في الشبكة على معدّل التعلُّم)
بدون زيادة البيانات وبدون أي تنظيم، حيث يتم تدريب كل
تجربة للحصول على
N
خطوة. إنّ عدد الخطوات المطلوبة للحصول على أسرع فترة تجريبية في معدل التعلُّم لتحقيق الأداء الأمثل للتدريب يجب أن يكون تخمينًا أوليًا للنطاقmax_train_steps
.
ملاحظة: يمكن أن تؤدي مساحات البحث غير الصالحة إلى الخداع.
على سبيل المثال، إذا كانت جميع معدّلات التعلُّم في إحدى الدراسات صغيرة جدًا، قد تستنتج
بشكل غير صحيح أنّ قيمة max_train_steps
الكبيرة جدًا ضرورية.
تحقّق على الأقل من أنّ معدّل التعلّم الأمثل في الدراسة
ليس ضمن حدود مساحة البحث.
اختَر مدة التدريب أثناء الالتزام بالتدريب على الحوسبة.
في بعض الحالات، يتحسّن مستوى التدريب باستمرار إلى أجل غير مسمى، لذا تصبح صبرتك ومواردك الحاسوبية هي العاملَين المؤثرَين في تقليل النتائج. ولكن هل عليك أن تقدم تدريبًا مجديًا قدر الإمكان؟ ليس بالضرورة. فكِّر في النقاط التالية:
- وقد تتمكّن من تحسين فعالية إعلاناتك من خلال تنفيذ عدد أكبر من التجارب القصيرة، مع إبقاء أطول "مدة إنتاج" في النماذج التي تخطّط لإطلاقها.
- مع اقتراب وقت التدريب على بلوغ الحد الأقصى المسموح به للانتظار، تصبح تجارب توليف التجارب أكثر ملاءمة للمرشّحين المحتملين، ولكن يمكنك إكمال عدد أقل منهم.
- على الأرجح أنّ بإمكانك الإجابة عن العديد من الأسئلة مع التدريب لمدة% 10 تقريبًا من مدة الإنتاج. مع ذلك، قد لا يتم تطبيق الاستنتاجات المتعلّقة بهذا الحد الزمني على التجارب التي تبلغ نسبتها 20% من مدة الإنتاج، مع السماح بنسبة 100%.
إنّ التوليف أثناء جولات متعددة مع زيادة حدود خطوات التدريب لكل تجربة هي منهج معقول. يمكنك الركض بأي عدد تريده من الجولات، ولكن عادةً ما تكون جولة واحدة أو ثلاث جولات هي الأكثر عملية. بشكل أساسي، حاوِل فهم المشكلة قدر الإمكان باستخدام التجارب مع زمن استيفاء الطلب سريعًا، واستبدلها بما يلي:
- ضبط الدقة
- مدى الصلة بأكبر جولة من المباريات
بعد تحديد فترة زمنية محددة لكل تجربة، يمكنك زيادة وقت التدريب ومواصلة التوليف من خلال التحقق جيدًا من النتائج من الاختبارات القصيرة حسب الحاجة. كنقطة بداية، نقترح جولتين للضبط:
- الجولة 1: يتم تشغيل المدة الأقصر للعثور على نماذج جيدة ومحسنات محسّنة.
- الجولة 2: يتم تشغيل عدد قليل جدًا من المدّة الطويلة على نقاط جيدة للمعلَمات للحصول على النموذج النهائي.
أهم سؤال ينتقل من الجولة 1 إلى الجولة 2 هو:
كيفية تعديل الجداول الزمنية لتناقص معدّل التعلُّم
ويقع أحد الأخطاء الشائعة عند تعديل الجداول الزمنية لمعدّل التعلّم بين الجولات التدريبية في استخدام كل خطوات التدريب الإضافية مع معدّل تعلّم صغير جدًا.
الجولة 1: دورات تدريبية قصيرة
للأسف، لا نضمن أن تكون المَعلمات اللطيفة جيدًا التي تم العثور عليها في تدريب قصير وغير مكتمل ما زالت خيارات جيدة عند زيادة مدة التدريب بشكل كبير. ومع ذلك، بالنسبة إلى بعض المعلمات العالية، غالبًا ما ترتبط الخيارات الجيدة كثيرًا للجولة الأولى. ما هي قيم المعلمات العالية التي يتم العثور عليها في عمليات التشغيل القصيرة المدة بنجاح لإجراء عمليات تدريب أطول؟ لا نعلم، نحن بحاجة إلى مزيد من البحث. استنادًا إلى المعلومات التي نعرفها حتى الآن، إليك شكوكنا في ما يتعلّق باحتمالية نقل النطاق:
- من المرجّح جدًا أن تنقل طلبك. يمكن حلّ مشكلة عدم استقرار التدريب المبكر
في الجولة الأولى من عملية الضبط باستخدام عدد أصغر من خطوات التدريب.
ومن المرجّح أن يتم نقل المعلّمات الفائقة التالية:
- مدة التحضير
- الإعداد
- من المرجّح أن يتم النقل. غالبًا ما يتم نقل البنية الناجحة في بنية النموذج، ولكن من المحتمل أن تكون عدة أمثلة مضادة محتملة.
- قد يتم نقل النطاق. قد يتم نقل المعلمات الفائقة التالية:
- سيتم نقل خوارزمية التحسين والمَعلمات الفائقة بشكلٍ "مفقود".
- زيادة البيانات:
- التنظيم وإذا لم يكن من الممكن ملاءمة مجموعة التدريب تمامًا، قد يكون النموذج في نظام لا يُرجح أن يساعد فيه التنظيم بشكل كبير.
- من غير المرجح أن يتم نقلها. من غير المرجّح أن يتم نقل جدول التعلّم بشكل مثالي. تشير تدريبات نماذج اللغات الكبيرة المثالية إلى التدريب على نقل الجدول، ولكن لا نعتقد أن هذا صحيح بشكل عام. على سبيل المثال، يؤدي ضبط التناقص الجبري على عدد صغير من خطوات التدريب ثم التمدّد إلى عدد كبير إلى حدوث معظم التدريب على خطوات صغيرة جدًا. من المحتمل أن تحقّق أداءً "جيدًا بما يكفي" في معظم الجداول الزمنية ضمن حدّ أقصى لميزانية التدريب، ولكن من المحتمل أن تلاحظ تحسّنًا ملحوظًا في الأداء إذا تم تعديله. يوضّح فهم الانحياز القصير على الأفق في التحسين الوصفي العشوائي مخاطر محاولة اختيار معدلات التعلّم بطريقة غامضة.
الجولة 2: عدد أقل من الركض، ولكن لمدة أطول
شغِّل أفضل ضبط للمعلمة الفائقة من الجولة 1.
التوقع: 🤖 يمكنك استخدام الخطوات الإضافية لتمديد فترة التدريب
بمعدل تعلُّم مرتفع. على سبيل المثال، إذا كنت تستخدم جدولاً زمنيًا خطيًا،
احافظ على طول التناقص الثابت من الجولة 1 ووسِّع فترة الثابت lr
في البداية. لتناقص جيب التمام، احتفِظ بالقاعدة lr
من الجولة 1 ووسِّع max_train_steps
على النحو الموضّح في
نماذج النماذج اللغوية الأمثل للحوسبة الحسابية.
قد تكون الجولات التدريبية الإضافية مفيدة للفِرق التي ينطبق عليها كل ما يلي:
- وضع نماذج للبالغين
- أنابيب التوليف
- تدريبات إنتاج طويلة وباهظة الثمن
إلا أنّ التدريبات الإضافية غالبًا ما تكون غير إنتاجية.
سبق أن وضّحنا كيفية نقل القناة من الجولة 1 إلى الجولة 2. إذا لم تكن مهتمًا بوقت التحليل وما إذا كان استخدام موارد الحوسبة بكفاءة هو مشكلةك الرئيسية، نقترح عليك زيادة مدة التدريب بشكل مستمر (وبالتالي وقت الانتهاء لإكمال الدراسة) على العديد من جولات التوليف:
- في كل جولة، تأكَّد بشكل منتظم من أنّ خياراتك تحقّق نتائج جيدة.
- ضَع أفكارًا جديدة من خلال مسار التعلّم الذي يتوقف تدريجيًا عن استخدامها، وذلك باستخدام تجارب طويلة ومستمرة من الخطوة i إلى الخطوة 1+.