الانحدار الخطي: الخسارة

الخسارة هي مقياس رقمي يصف مدى خطأ التوقّعات التي يقدّمها النموذج. تقيس الخسارة المسافة بين توقّعات النموذج والعلامات الفعلية. يهدف تدريب النموذج إلى تقليل الخسارة إلى أدنى قيمة ممكنة.

في الصورة التالية، يمكنك الاطّلاع على الخسارة على شكل سهام مرسومة من نقاط data تشير إلى النموذج. توضِّح الأسهم مدى تباعُد توقّعات النموذج عن القيم الفعلية.

الشكل 9 تربط خطوط الخسارة نقاط البيانات بال
النموذج.

الشكل 9 يتم قياس الخسارة من القيمة الفعلية إلى القيمة المتوقّعة.

مسافة الخسارة

في الإحصاءات والتعلم الآلي، يقيس مقياس الخسارة الفرق بين القيمة المتوقّعة والقيمة الفعلية. تركّز الخسارة على المسافة بين القيم، وليس الاتجاه. على سبيل المثال، إذا توقّع النموذج القيمة 2، ولكن القيمة الفعلية هي 5، لا يهمّنا أنّ الخسارة سالبة ‎-3 $ (‎2-5=-3 $). وبدلاً من ذلك، يهمّنا أن تكون المسافة بين القيم ‎3 $. وبالتالي، تزيل كل methods لحساب الخسارة العلامة.

في ما يلي الطريقتان الأكثر شيوعًا لإزالة العلامة:

  • احسب القيمة المطلقة للفرق بين القيمة الفعلية والقيمة التوقّعة.
  • اضرب الفرق بين القيمة الفعلية والقيمة المتوقّعة في مربعه.

أنواع الخسارة

في الانحدار الخطي، هناك أربعة أنواع رئيسية من الخسارة، وهي موضّحة في الجدول التالي.

نوع الخسارة التعريف معادلة
فقدان1 يشير ذلك المصطلح إلى مجموع القيم المطلقة للفرق بين القيم المتوقَّعة والقيم الفعلية. ‫$ ∑ | القيمة\ الفعلية - القيمة\ المتوقّعة | $
متوسّط الخطأ المطلق (MAE) متوسّط خسائر L1 على مستوى مجموعة من الأمثلة ‫$ \frac{1}{N} ∑ | actual\ value - predicted\ value | $
فقدان L2 يشير ذلك المصطلح إلى مجموع الفرق التربيعي بين القيم المتوقَّعة والقيم الفعلية. $ ∑(القيمة\ الفعلية - القيمة\ المتوقّعة)^2 $
متوسط الخطأ التربيعي (MSE) متوسّط خسائر L2 على مستوى مجموعة من الأمثلة $ \frac{1}{N} ∑ (actual\ value - predicted\ value)^2 $

الفرق الوظيفي بين خسارة L1 وخسارة L2 (أو بين MAE وMSE) هو التربيع. عندما يكون الفرق بين التنبؤ والتصنيف كبيرًا، يؤدي التربيع إلى زيادة الخسارة. عندما يكون الفرق صغيرًا (أقل من 1)، يؤدي تربيعه إلى تقليل الخسارة.

عند معالجة أمثلة متعددة في الوقت نفسه، ننصحك بحساب متوسط الخسائر على مستوى جميع الأمثلة، سواء باستخدام MAE أو MSE.

مثال على احتساب الخسارة

باستخدام خط أفضل الملاءمة السابق، سنحسب خسارة L2 لمثال واحد. من خط أفضل ملاءمة، حصلنا على القيم التالية للوزن والميل:

  • $ \small{Weight: -3.6} $
  • $ \small{Bias: 30} $

إذا توقّع النموذج أنّ سيارة تزن 1,076 كيلوغرامًا تستهلك 10.7 لتر لكل 100 كيلومتر، ولكنّها تستهلك في الواقع 9.8 لتر لكل 100 كيلومتر، سنحسب خسارة L2 على النحو التالي:

.
القيمة معادلة النتيجة
التنبؤ

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
القيمة الفعلية $ \small{ label } $ $ \small{ 24 } $
خسارة L2

$ \small{ (التوقّع - القيمة الفعلية)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

في هذا المثال، يبلغ فقدان L2 لنقطة البيانات هذه 6.25.

اختيار خسارة

يمكن أن يعتمد قرار استخدام MAE أو MSE على مجموعة البيانات والطريقة التي تريد بها التعامل مع توقّعات معيّنة. عادةً ما تقع معظم قيم السمات في مجموعة بيانات ضمن نطاق محدد. على سبيل المثال، تتراوح عادةً أسعار السيارات بين 2,000 و 5,000 جنيه إسترليني، ويكون معدّل استهلاكها للوقود بين 8 و50 ميلًا لكل جالون. إنّ السيارة التي تزن 3,628 كيلوغرام، أو السيارة التي تقطع 160 كيلومترًا لكل 4.5 لتر من الوقود، تكون خارج النطاق المعتاد وخارجة عن القاعدة.

يمكن أن يشير أيضًا إلى مدى انحراف تنبؤات النموذج عن القيم الحالية. على سبيل المثال، تقع القيمة 3,000 رطل ضمن نطاق الوزن المعتاد للسيارات، وتكون قيمة 40 ميلًا لكل جالون ضمن نطاق الكفاءة المعتاد في استهلاك الوقود. ومع ذلك، فإنّ سيارة تزن 3,000 رطل وتستهلك 40 ميلًا لكل جالون ستكون قيمة شاذة من حيث توقّعات النموذج لأنّ النموذج سيتوقّع أن تستهلك سيارة تزن 3,000 رطل ما بين 18 و20 ميلًا لكل جالون.

عند اختيار أفضل دالة خسارة، ضع في الاعتبار كيفية تعامل النموذج مع القيم الشاذة. على سبيل المثال، يوجّه مقياس MSE النموذج أكثر نحو القيم الشاذة، في حين لا يفعل مقياس MAE ذلك. تتسبّب خسارة L2 في فرض عقوبة أعلى بكثير على القيم الشاذة مقارنةً بخسارة L1. على سبيل المثال، تعرض الصور التالية نموذجًا تم تدريبه باستخدام MAE ونموذجًا تم تدريبه باستخدام MSE. يمثّل الخط الأحمر نموذجًا تم تدريبه بالكامل وسيتم استخدامه لوضع التوقّعات. القيم الشاذة أقرب إلى النموذج الذي تم تدريبه باستخدام MSE مقارنةً بالنموذج الذي تم تدريبه باستخدام MAE.

الشكل 10. يميل النموذج أكثر نحو القيم الشاذة.

الشكل 10 إنّ النموذج الذي تم تدريبه باستخدام مقياس MSE ينقل النموذج إلى أقرب نقطة من القيم الشاذة.

الشكل 11 يتم إمالة النموذج بعيدًا عن القيم الشاذة.

الشكل 11 يكون النموذج الذي تم تدريبه باستخدام MAE أبعد من القيم الشاذة.

لاحِظ العلاقة بين النموذج والبيانات:

  • MSE: يكون النموذج أقرب إلى القيم الشاذة ولكنّه أبعد من معظم نقاط البيانات الأخرى.

  • MAE: يكون النموذج أبعد من القيم الشاذة ولكن أقرب إلى معظم نقاط البيانات الأخرى.

التحقّق من الفهم

فكِّر في الرسمَين البيانيَين التاليَين:

رسم بياني يضم 10 نقاط
      يمر خط عبر 6 من النقاط. نقطتان على ارتفاع وحدة واحدة
      فوق الخط، نقطتان أخريان على ارتفاع وحدة واحدة تحت الخط رسم بياني يضم 10 نقاط يمر خط
      عبر 8 من النقاط. تقع نقطة واحدة على بعد وحدتَين
      فوق الخط، وتقع نقطة أخرى على بعد وحدتَين تحت الخط.
أيّ من مجموعتَي البيانات المعروضتَين في الرسمَين السابقَين تحقّق أعلى قيمة لمتوسط الخطأ المربّع (MSE)؟
مجموعة البيانات على يمين الصفحة
تتسبّب الأمثلة الستة في السطر بخسارة إجمالية تبلغ 0. إنّ الأمثلة الأربعة التي لا تقع على الخط ليست بعيدة جدًا عن الخط، لذا حتى تربيع إزاحتها لا يزال ينتج قيمة منخفضة: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
مجموعة البيانات على اليمين
تتسبّب الأمثلة الثمانية في السطر بخسارة إجمالية تبلغ 0. ومع ذلك، على الرغم من أنّ نقطتَين فقط كانتا خارج الخط، فإنّ كلتا النقطتَين كانتا ضعف المسافة بين الخط والنقاط الشاذة في الشكل الأيمن. ويؤدي تربيع الخسارة إلى تضخيم هذه الاختلافات، وبالتالي فإنّ القيمة المُعدَّلة التي تبلغ قيمتها اثنين تتسبّب في خسارة أكبر بأربع مرات من القيمة المُعدَّلة التي تبلغ قيمتها واحدًا: MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$