فرط التخصيص: تسوية المستوى 2

التسوية2 هي مقياس تسوية شائع يستخدم الصيغة التالية:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

على سبيل المثال، يعرض الجدول التالي عملية حساب التسوية L2 لنموذج يتضمّن ستة أوزان:

القيمة القيمة المربّعة
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 1.2- 1.44
w5 0.3 0.09
w6 -0.1 0.01
    26.83 = الإجمالي

يُرجى العِلم أنّ الأوزان القريبة من الصفر لا تؤثر كثيرًا في تسوية L2، ولكن يمكن أن يكون للأوزان الكبيرة تأثير كبير. على سبيل المثال، في العملية الحسابية السابقة:

  • يساهم وزن واحد (w3) بنسبة% 93 تقريبًا من إجمالي التعقيد.
  • أما الأوزان الخمسة الأخرى، فتساهم بشكل جماعي بنسبة 7% فقط من إجمالي التعقيد.

يشجّع التسوية من النوع L2 على توجيه الأوزان نحو 0، ولكنّه لا يدفع الأوزان إلى الصفر أبدًا.

تمارين: التحقّق من فهمك

في حال استخدام تسوية L2 أثناء تدريب نموذج، ماذا سيحدث عادةً للتعقيد العام للنموذج؟
من المحتمل أن ينخفض مستوى تعقيد النظام بشكل عام.
بما أنّ التسوية L2 تشجّع الأوزان على الاقتراب من 0، من المحتمل أن ينخفض التعقيد العام.
ومن المحتمل أن يظل مستوى التعقيد العام للنموذج ثابتًا.
هذا مُستبعَد تمامًا.
من المحتمل أن تزداد درجة تعقيد النموذج بشكل عام.
هذا غير محتمل. تذكَّر أنّ التسوية من النوع L2 تشجّع على أن تقترب الأوزان من 0.
إذا كنت تستخدم تسوية L2 أثناء تدريب نموذج، ستتم إزالة بعض الميزات من النموذج.
True
على الرغم من أنّ تسوية L2 قد تجعل بعض الأوزان صغيرة جدًا، إلا أنّها لن تدفع أي وزن إلى الصفر. وبالتالي، ستساهم جميع الميزات بشيء ما في النموذج.
خطأ
لا يؤدي التسوية من النوع L2 إلى دفع الأوزان إلى الصفر.

معدّل التسوية (lambda)

كما ذكرنا، تحاول عملية التدريب تقليل بعض مجموعات الفقدان والتعقيد:

$$\text{minimize(loss} + \text{ complexity)}$$

يعدّل مطوّرو النماذج التأثير الإجمالي للتعقيد في تدريب النموذج عن طريق ضرب قيمته في قيمة عددية تُعرف باسم معدّل التسوية. يرمز الحرف اليوناني لامدا عادةً إلى معدّل التسوية.

أي أنّ مطوّري النماذج يهدفون إلى تنفيذ ما يلي:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

معدّل التسوية المرتفع:

  • تعزيز تأثير التسوية، ما يقلّل من فرص المطابقة بشكل مفرط.
  • يميل إلى إنشاء مدرّج تكراري لأوزان النموذج يتضمّن الخصائص التالية:
    • توزيع طبيعي
    • متوسط وزن 0

معدّل تسوية منخفض:

  • يقلّل من تأثير التسوية، ما يزيد من فرص الإفراط في التكيّف.
  • يميل إلى إنشاء مدرج تكراري لأوزان النموذج بتوزيع مسطّح.

على سبيل المثال، قد يبدو المدرّج التكراري لأوزان النموذج لمعدّل تسوية مرتفع كما هو موضّح في الشكل 18.

الشكل 18 مدرّج تكراري لأوزان نموذج بمتوسط صفر وتوزيع عادي
الشكل 18. مدرّج تكراري للأوزان بمعدّل تسوية مرتفع المتوسط هو صفر. التوزيع الطبيعي

 

في المقابل، يؤدي معدل التسوية المنخفض إلى الحصول على مدرج تكراري أكثر تسطحًا، كما هو موضح في الشكل 19.

الشكل 19 مدرّج تكراري لأوزان نموذج بمتوسط صفر يقع في مكان ما بين التوزيع المنتظم والتوزيع الطبيعي.
الشكل 19. مدرّج تكراري للأوزان بمعدّل تسوية منخفض قد يكون المتوسط صفرًا أو لا يكون كذلك.

 

اختيار معدّل التسوية

يؤدي معدّل التسوية المثالي إلى إنشاء نموذج يمكن تعميمه بشكل جيد على البيانات الجديدة التي لم تتم رؤيتها من قبل. لسوء الحظ، تعتمد هذه القيمة المثالية على البيانات، لذا عليك إجراء بعض عمليات الضبط، إما يدويًا أو تلقائيًا. ضبط تلقائي

التوقّف المبكر: بديل للتسوية المستندة إلى التعقيد

التوقّف المبكر هو إحدى طرق التسوية التي لا تتضمّن احتساب التعقيد. بدلاً من ذلك، يعني الإيقاف المبكر ببساطة إنهاء التدريب قبل أن يتقارب النموذج بشكل كامل. على سبيل المثال، يمكنك إنهاء التدريب عندما يبدأ منحنى الخسارة لمجموعة التحقّق في الارتفاع (يصبح الميل موجبًا).

على الرغم من أنّ التوقّف المبكر يزيد عادةً من خسارة التدريب، إلا أنّه يمكن أن يقلّل من خسارة الاختبار.

التوقّف المبكر هو شكل سريع، ولكنّه نادرًا ما يكون مثاليًا، من أشكال التسوية. من غير المرجّح أن يكون النموذج الناتج جيدًا مثل النموذج الذي تم تدريبه بشكل كامل على معدل التسوية المثالي.

إيجاد التوازن بين معدّل التعلّم ومعدّل التسوية

يميل معدّل التعلّم ومعدّل التسوية إلى تحريك الأوزان في اتجاهين متعاكسين. يؤدي معدّل التعلّم المرتفع غالبًا إلى إبعاد الأوزان عن الصفر، بينما يؤدي معدّل التسوية المرتفع إلى تقريب الأوزان من الصفر.

إذا كان معدّل التسوية مرتفعًا مقارنةً بمعدّل التعلّم، تميل الأوزان الضعيفة إلى إنشاء نموذج يقدّم توقّعات غير دقيقة. في المقابل، إذا كان معدّل التعلّم مرتفعًا مقارنةً بمعدّل التسوية، تميل الأوزان القوية إلى إنتاج نموذج مفرط التطابق.

هدفك هو إيجاد التوازن بين معدّل التعلّم ومعدّل التسوية. وقد يكون ذلك صعبًا. والأسوأ من ذلك، أنّه بعد العثور على هذا التوازن المراوغ، قد تضطر في النهاية إلى تغيير معدّل التعلّم. وعند تغيير معدّل التعلّم، عليك مجددًا العثور على معدّل التسوية المثالي.