التسوية من أجل البساطة: L2 التسوية

ضع في الاعتبار منحنى التعميم التالي، الذي يعرض الخسارة لكل من مجموعة التدريب والتحقق من الصحة المحددَين مقابل عدد مرات التكرار للتدريب.

تنخفض دالة الخسارة في مجموعة التدريب تدريجيًا. وعلى النقيض من ذلك، تنخفض دالة الخسارة لمجموعة التحقق من الصحة، ولكنها تبدأ في الارتفاع بعد ذلك.

الشكل 1. الخسارة في مجموعة التدريب ومجموعة التحقق

يوضح الشكل 1 نموذجًا تنخفض فيه خسارة التدريب تدريجيًا، ولكن يرتفع معدل فقدان عملية التحقق في نهاية المطاف. بعبارة أخرى، يوضّح منحنى التعميم هذا أن النموذج يفرط التخصيص في البيانات الواردة في مجموعة التطبيق. من خلال توجيه صفاتنا الداخلية أوكهام، ربما يمكننا منع فرط التخصيص من خلال فرض عقوبات على النماذج المعقدة، وهو مبدأ يسمى الانتظام.

بعبارة أخرى، بدلاً من السعي إلى تقليل الخسارة (تقليل المخاطر التجريبية):

$$\text{minimize(Loss(Data|Model))}$$

سنقوم الآن بتقليل الخسارة والتعقيد، وهو ما يسمى التقليل الهيكلي من المخاطر:

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

تعتمد خوارزمية تحسين التدريب الآن على مصطلحَين: عبارة الخسارة التي تقيس مدى ملاءمة النموذج للبيانات، ومدة التنظيم التي تقيس مدى تعقيد النموذج.

وتركّز الدورة التدريبية المخصصة لتعليم الآلة على طريقتين شائعتين (ومرتبطتين إلى حد ما) للتفكير في تعقيد النموذج:

  • إنّ مستوى تعقيد النموذج هو دالة الأحجام لكل الميزات في النموذج.
  • إنّ درجة تعقيد النموذج هي دالة لإجمالي عدد الميزات ذات القيم التقديرية غير الصفرية. (تتناول وحدة لاحقة هذا النهج).

إذا كان تعقيد النموذج عبارة عن دالة للأوزان، يكون وزن الميزة ذات القيمة المطلقة العالية أكثر تعقيدًا من قيمة وزن ميزة ذات قيمة مطلقة منخفضة.

يمكننا قياس مستوى التعقيد باستخدام صيغة L2 للانتظام، التي تحدد مصطلح التسوية كمجموع المربعات لجميع قيم ترجيح الميزات:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

في هذه المعادلة، يكون للأوزان القريبة من الصفر تأثير بسيط على تعقيد النموذج، بينما يمكن أن يكون للأوزان الخارجية تأثير كبير.

على سبيل المثال، نموذج خطي يتضمّن الأوزان التالية:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

تتضمّن مدة التسوية L2 وهي 26.915:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$ $$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$ $$= 26.915$$

لكن \(w_3\) (بالخط الغامق أعلاه)، مع القيمة التربيعية 25، يساهم في الحصول على كل مستوى التعقيد تقريبًا. يضيف مجموع مربعات جميع قيم الترجيح الخمسة الأخرى 1.915 فقط إلى حد الضبط L2.