فرط التخصيص: تسوية المستوى 2

L2 تسوية هو مقياس تسوية شائع يستخدم الصيغة التالية:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

على سبيل المثال، يعرض الجدول التالي طريقة احتساب L2. تسوية نموذج ذي ستة ترجيحات:

القيمة قيمة تربيعية
مع 1 0.2 0.04
مع 2 -0.5 0.25
مع 3 5 25.0
4 1.2- 1.44
مع 5 0.3 0.09
مع 6 -0.1 0.01
    26.83 = الإجمالي

لاحظ أنّ القيم التقديرية القريبة من الصفر لا تؤثر في تسوية L2. الكثير، لكن الأوزان الكبيرة يمكن أن يكون لها تأثير كبير. على سبيل المثال، في العنصر العملية الحسابية السابقة:

  • يساهم الوزن الواحد (w3) بنسبة% 93 تقريبًا من التعقيد الكلي.
  • وتساهم الأوزان الخمسة الأخرى مجتمعة في حوالي 7% من التعقيد الكلي.

يشجِّع تسوية المستوى 2 على الأوزان نحو 0، ولا يرفعها أبدًا. القيم وصولاً إلى الصفر.

تمارين: التحقق من فهمك

إذا استخدمتَ التسوية المستوى 2 أثناء تدريب نموذج، ما مع التعقيد الكلي للنموذج؟
ومن المحتمل أن ينخفض مستوى التعقيد العام للنظام.
بما أنّ تسوية المستوى 2 تشجع على ترجيحات إلى 0، فمن المحتمل أن ينخفض التعقيد العام.
ومن المحتمل أن يبقى التعقيد الكلي للنموذج ثابت.
هذا مُستبعَد تمامًا.
ومن المحتمل أن يزداد التعقيد الكلي للنموذج.
هذا مُستبعَد. تذكَّر أنّ تسوية الترتيب2 يشجع على الأوزان نحو 0.
إذا استخدمت تسوية L2 أثناء تدريب أحد النماذج، ستتم إزالة بعض الميزات من النموذج.
صحيح
على الرغم من أنّ تسوية المستوى 2 قد تجعل بعض التقديرات صغيرًا، فلن تدفع أي ترجيحات إلى الصفر مطلقًا. وبالتالي، ستظل جميع الميزات تساهم بشيءٍ ما النموذج.
خطأ
لا تؤدي تسوية المستوى 2 إلى زيادة التركيز أبدًا حتى صفر.

معدّل التسوية (lambda)

وكما هو موضح، يحاول التدريب تقليل مزيج من الخسارة والتعقيد:

$$\text{minimize(loss} + \text{ complexity)}$$

يضبط مطورو النماذج التأثير الإجمالي للتعقيد على تدريب النموذج بضرب قيمتها في مقياس يسمى معدّل تنظيم المحتوى: يرمز الحرف اليوناني lambda إلى معدل الضبط.

ويعني ذلك أن مطوري النماذج يهدفون إلى تحقيق ما يلي:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

معدّل تسوية مرتفع:

  • يقوي تأثير التسوية، وبالتالي يقلل من فرص فرط التخصيص.
  • ينتج عن إنشاء رسم بياني لأوزان النموذج التي تحتوي على ما يلي: الخصائص التالية:
    • توزيع طبيعي
    • بمتوسط وزن 0.

معدّل التسوية المنخفض:

  • يقلل من تأثير التسوية، وبالتالي يزيد من فرص فرط التخصيص.
  • ينتج عن إنشاء رسم بياني لأوزان النموذج بتوزيع مسطح.

على سبيل المثال، المدرّج التكراري لأوزان النموذج لمعدل تسوية مرتفع كما هو موضح في الشكل 18.

الشكل 18. مدرّج تكراري لأوزان أحد النماذج بمتوسط صفر
            توزيع طبيعي.
الشكل 18. ترجيح المدرّج التكراري للحصول على معدل تسوية مرتفع. المتوسط هو صفر. التوزيع الطبيعي.

 

وفي المقابل، يؤدي معدل التسوية المنخفض إلى الحصول على مدرج تكراري ثابت، حيث كما هو موضح في الشكل 19.

الشكل 19. مدرّج تكراري لأوزان أحد النماذج بمتوسط صفر
            ما بين التوزيع المسطح والمتوسط
            التوزيع.
الشكل 19. زيادة المدرّج التكراري لمعدّل الضبط المنخفض قد يكون أو لا يكون المتوسط صفرًا.

 

اختيار معدل التسوية

ينتج عن معدل التسوية المثالي نموذجًا يتم تعميمه جيدًا البيانات الجديدة غير المرئية سابقًا. للأسف، هذه القيمة المثالية تعتمد على البيانات، لذلك عليك القيام ببعض التوليف.

التوقف المبكر: بديل للتسوية المستندة إلى التعقيد

يُعد الإيقاف المبكر أسلوب تسوية لا يتضمن حساب التعقيد. وإنما يعني التوقف المبكر إنهاء التدريب قبل النموذج تتقارب تمامًا. فعلى سبيل المثال، يتم إنهاء التدريب عندما يُظهر منحنى الخسارة لكي تبدأ مجموعة التحقق من الصحة في الزيادة (يصبح الانحدار موجبًا).

على الرغم من أن التوقف المبكر عادة ما يزيد من خسارة التدريب، إلا أنه يمكن أن يقل فقدان الاختبارات.

يُعد التوقف المبكر شكلاً سريعًا، ولكنه نادرًا ما يكون مثاليًا. من غير المرجح أن يكون النموذج الناتج جيدًا مثل النموذج المدرَّب بدقة على معدل التسوية المثالي.

إيجاد التوازن بين معدل التعلم ومعدّل التسوية

معدّل التعلّم يميل معدل الضبط إلى سحب الأوزان في عكس الاتجاهات. غالبًا ما ينتج عن معدّل التعلّم المرتفع أهمية الترجيح بعيدًا عن الصفر. يؤدي معدل الضبط المرتفع إلى الحصول على ترجيح نحو إلى الصفر.

فإذا كان معدل التسوية مرتفعًا فيما يتعلق بمعدل التعلم، فإن الأوزان الضعيفة تميل إلى إنتاج نموذج يقدم تنبؤات سيئة. وبالعكس، إذا كان معدل التعلم مرتفعًا بالنسبة إلى التسوية فإن الأوزان القوية تميل إلى إنتاج نموذج مفرط في التوافق.

هدفك هو إيجاد التوازن بين معدل التعلم معدل التسوية. قد يكون هذا تحديًا. والأسوأ من ذلك على الإطلاق، بمجرد أن تجد هذا التوازن غير المستحيل، فقد تضطر في النهاية إلى تغيير معدل التعلم. وعندما تقوم بتغيير معدل التعلم، سيتعين عليك مرة أخرى إيجاد المعدل المثالي معدل التسوية.