تسوية البساطة: Lambda

يضبط مطوّرو النماذج التأثير الإجمالي لعبارة التسوية من خلال ضرب قيمتها في مقياس يُعرف باسم lambda (يسمى أيضًا معدّل التنظيم). وهذا يعني أنّ مطوّرو النماذج يسعون إلى تنفيذ ما يلي:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

يؤدي إجراء التسوية L2 إلى التأثير التالي على النموذج

  • يشجع على قيم الترجيح نحو 0 (ولكن ليس بالضبط 0)
  • لتشجيع متوسط الأوزان بالنسبة إلى 0، من خلال توزيع طبيعي (على شكل جرس أو غاوس).

تؤدي زيادة قيمة lambda إلى تقوية تأثير التسوية. على سبيل المثال، قد يبدو المدرج التكراري للأوزان لقيمة عالية للامدا كما هو موضح في الشكل 2.

المدرج التكراري لأوزان نموذج ما بمتوسّط صفر وتوزيع طبيعي

الشكل 2. المدرّج التكراري للأوزان

يؤدي خفض قيمة لامدا إلى الحصول على مدرج تكراري مستوٍ، كما هو موضح في الشكل 3.

المدرّج التكراري لأوزان نموذج بمتوسط صفر يقع في مكان ما بين توزيع مسطح وتوزيع طبيعي.

الشكل 3. المدرّج التكراري للأوزان الناتجة عن قيمة لامدا أدنى

عند اختيار قيمة lambda، يكون الهدف هو تحقيق التوازن الصحيح بين البساطة والتوافق مع بيانات التدريب:

  • إذا كانت قيمة lambda مرتفعة جدًا، سيكون نموذجك بسيطًا، ولكنك تتعرض لخطر فرط تعميم بياناتك. لن يتعلم نموذجك ما يكفي عن بيانات التدريب لعمل تنبؤات مفيدة.

  • إذا كانت قيمة lambda منخفضة جدًا، سيكون نموذجك أكثر تعقيدًا، وستتعرض لخطر فرط التخصيص لبياناتك. سيتعلم النموذج الكثير عن خصائص بيانات التدريب، ولن يكون قادرًا على التعميم على البيانات الجديدة.

تنتج القيمة المثالية لمداة لامدا نموذجًا يعمم بشكل جيد على البيانات الجديدة التي لم تكن مرئية من قبل. للأسف، تعتمد القيمة المثالية لللامدا على البيانات، لذا ستحتاج إلى إجراء بعض .