فرط التخصيص: تسوية المستوى 2

تسوية 2 هي مقياس تسوية شائع يستخدم الصيغة التالية:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

على سبيل المثال، يعرض الجدول التالي عملية احتساب أسلوب التّنظيم L2 لنموذج يتضمّن ستة أوزان:

القيمة القيمة المربّعة
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 1.2- 1.44
w5 0.3 0.09
‫w6 -0.1 0.01
    26.83 = الإجمالي

يُرجى العِلم أنّ الأوزان القريبة من الصفر لا تؤثّر كثيرًا في عملية تنظيم L2، ولكن يمكن أن يكون للأوزان الكبيرة تأثير كبير. على سبيل المثال، في الحساب السابق:

  • يساهم وزن واحد (w3) في ما يقرب من% 93 من إجمالي التعقيد.
  • لا تساهم الأوزان الخمسة الأخرى مجتمعة إلا بنسبة% 7 تقريبًا من إجمالي التعقيد.

يشجع نموذج L2 التنظيمي على توجيه الأوزان نحو القيمة 0، ولكنّه لا يدفع أبدًا الأوزان إلى القيمة 0.

تمارين: التحقّق من فهمك

إذا كنت تستخدم أسلوب التّنظيم L2 أثناء تدريب نموذج، ما هو أثره عادةً في التعقيد العام للنموذج؟
من المرجّح أن ينخفض مستوى التعقيد العام للنظام.
بما أنّ إعادة التطبيع L2 تشجع على تقليل الأوزان إلى 0، من المرجّح أن ينخفض مستوى التعقيد العام.
من المرجّح أن تظل الصعوبة العامة للنموذج ثابتة.
هذا مُستبعَد تمامًا.
من المرجّح أن يزداد التعقيد العام للنموذج.
هذا غير محتمل. تذكَّر أنّ أسلوب التّنظيم L2 يشجّع على تقليل القيم إلى 0.
في حال استخدام أسلوب التّنظيم L2 أثناء تدريب نموذج، ستتم إزالة بعض الميزات من النموذج.
صحيح
على الرغم من أنّ أسلوب التّنظيم L2 قد يجعل بعض الأوزان صغيرة جدًا، لن يؤدي ذلك أبدًا إلى دفع أيّ أوزان إلى الصفر. نتيجةً لذلك، ستظلّ جميع الميزات تساهم في النموذج.
خطأ
لا تؤدي عملية تنظيم L2 إلى تقليل الأوزان إلى الصفر.

معدّل التسوية (لامبدا)

كما هو موضّح، يحاول التدريب تقليل بعض التركيبات من الخسارة والتعقيد:

$$\text{minimize(loss} + \text{ complexity)}$$

يضبط مطوّرو النماذج التأثير العام للتعقيد في تدريب النموذج من خلال ضرب قيمته في عدد скалري يُعرف باسم معدّل التنظيم. يرمز الحرف اليوناني "لامدا" عادةً إلى معدّل التنظيم.

وهذا يعني أنّ مطوّري النماذج يطمحون إلى تنفيذ ما يلي:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

معدل تسوية مرتفع:

  • يعزّز تأثير التّنظيم، ما يقلّل من فرص التأقلم المفرط.
  • تميل إلى إنشاء مخطّط بياني للترددات لقيَم أوزان النماذج التي تتسم بالخصائص التالية:
    • توزيع طبيعي
    • متوسّط وزن يساوي 0

معدّل تسوية منخفض:

  • يقلّل من تأثير التّنظيم، ما يزيد من فرص التأقلم المفرط.
  • تميل إلى إنشاء مخطّط بياني للقيم المرجّحة للنموذج بتوزيع مستوٍ.

على سبيل المثال، قد يبدو المخطّط البياني للقيم التكرارية لمعلّمات النموذج لمعدّل انتظام مرتفع كما هو موضّح في الشكل 18.

الشكل 18 مخطّط بياني هرمي لأوزان النموذج بمتوسّط صفر
            توزيع طبيعي
الشكل 18. مخطّط بياني متدرّج للوزن لمعدل انتظام مرتفع متوسّط القيمة هو صفر. التوزيع الطبيعي

 

في المقابل، يؤدي معدّل التنظيم المنخفض إلى إنشاء مخطّط بياني تكراري أكثر اتّساعًا، كما هو موضح في الشكل 19.

الشكل 19 مخطّط بياني هرمي لأوزان النموذج التي يكون متوسّطها صفرًا ويقع
            بين التوزيع الثابت والتوزيع العادي
الشكل 19. مخطّط تكراري للوزن لمعدّل انتظام منخفض قد تكون قيمة المتوسط صفرًا أو لا.

 

اختيار معدّل التسوية

ينتج عن معدّل التنظيم المثالي نموذجًا يُعمِّم بشكلٍ جيد على البيانات الجديدة التي لم يسبق رؤيتها. تعتمد هذه القيمة المثالية على البيانات، لذلك يجب إجراء بعض عمليات الضبط

الإيقاف المبكر: بديل للتنظيم المستنِد إلى التعقيد

التوقف المبكر هو أحد أساليب التنظيم التي لا تتضمن احتساب التعقيد. بدلاً من ذلك، يعني الإيقاف المبكر إنهاء التدريب قبل أن ينضم النموذج بشكل كامل. على سبيل المثال، تنتهي من التدريب عندما يبدأ منحنى الخسارة للمجموعة الاختبارية في الزيادة (يصبح المنحدر موجبًا).

على الرغم من أنّ الإيقاف المبكر يزيد عادةً من خسارة التدريب، إلا أنّه يمكن أن يقلل من خسارة الاختبار.

إنّ الإيقاف المبكر هو شكل سريع من أشكال التنظيم، ولكن نادرًا ما يكون مثاليًا. من غير المرجّح أن يكون النموذج الناتج جيدًا مثل النموذج الذي تم تدريبه بدقة على معدّل التنظيم المثالي.

إيجاد التوازن بين معدّل التعلّم ومعدّل التنظيم

معدّل التعلّم ومعدّل التسوية يميلان إلى سحب الأوزان في opposite الاتجاهات. غالبًا ما يؤدي معدّل التعلّم المرتفع إلى سحب الأوزان بعيدًا عن الصفر، بينما يؤدي معدّل التنظيم المرتفع إلى سحب الأوزان نحو الصفر.

إذا كان معدّل التنظيم مرتفعًا مقارنةً بمعدّل التعلّم، تميل الأوزان الضعيفة إلى إنتاج نموذج يقدّم توقّعات سيئة. في المقابل، إذا كان معدّل التعلّم مرتفعًا مقارنةً بمعدّل التّنظيم ، تميل الأوزان القوية إلى إنتاج نموذج يتلاءم بشكلٍ مفرط مع البيانات.

هدفك هو إيجاد التوازن بين معدّل التعلّم ومقدّم التسوية. قد يكون هذا الأمر صعبًا. والأسوأ من ذلك، بعد العثور على هذا التوازن الصعب المنال، قد تضطر في النهاية إلى تغيير معدّل التعلّم. وعند تغيير معدّل التعلّم، عليك مرة أخرى العثور على معدل التسويف المثالي.