الانحدار اللوجستي: الخسارة والتسوية

الانحدار اللوجستي باستخدام نفس العملية الانحدار الخطي مع اختلافين رئيسيين:

وتناقش الأقسام التالية هذين الاعتبارين بمزيد من التفصيل.

الخسارة اللوغاريتمية

في وحدة الانحدار الخطي، استخدمت الخسارة التربيعية (تُسمى أيضًا الخسارة L2) باعتبارها دالة الخسارة. تصلح الخسارة التربيعية بشكل جيد للخطي نموذج يكون فيه معدل تغير قيم المخرجات ثابتًا. على سبيل المثال: بمعلومية النموذج الخطي $y' = b + 3x_1$، في كل مرة تزيد فيها الإدخال بقيمة $x_1$ في 1، تزيد قيمة المخرجات $y'$ بمقدار 3.

ومع ذلك، ليس معدّل التغيير في نموذج الانحدار اللوجستي ثابتًا. كما رأيت في مقالة حساب الاحتمالية، المنحنى السيني على شكل حرف S بدلاً من النوع الخطي. عندما تكون قيمة الاحتمالات اللوغاريتمية ($z$) أقرب إلى 0، تكون صغيرة تؤدي الزيادات في $z$ إلى تغييرات أكبر بكثير في $y$ مقارنةً عندما تكون $z$ كبيرة رقم موجب أو سالب. ويوضح الجدول التالي قيم دالة السينية ناتج قيم الإدخال من 5 إلى 10، بالإضافة إلى الدقة المقابلة المطلوبة لتسجيل الاختلافات في النتائج.

مصدر الإدخال الناتج اللوجستي الأرقام المطلوبة من الدقة
5 0.993 3
6 0.997 3
7 0.999 3
8 0.9997 4
9 0.9999 4
10 0.99998 5

إذا استخدمت الخسارة التربيعية لحساب أخطاء الدالة السينية، اقترب الناتج من 0 و1، فستحتاج إلى مزيد من الذاكرة على الدقة اللازمة لتتبع هذه القيم.

وإنما تكون دالة الخسارة للانحدار اللوجستي فقدان السجلّ: تشير رسالة الأشكال البيانية يكون ناتج معادلة انخفاض القصور هو لوغاريتم حجم التغيير، من مجرد المسافة من البيانات إلى التنبؤ. يتم حساب مقياس انخفاض القصور على النحو التالي التالي:

\(\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')\)

حيث:

  • \((x,y)\in D\) هي مجموعة البيانات التي تحتوي على العديد من الأمثلة المصنفة، وهي \((x,y)\) أزواج.
  • \(y\) هي التصنيف في مثال مصنَّف. وحيث إن هذا هو الانحدار اللوجستي، يجب أن تكون كل قيمة \(y\) إما 0 أو 1.
  • \(y'\) هو توقع نموذجك (بين 0 و1)، بمعلومية المجموعة من الميزات في \(x\).

التسوية في الانحدار اللوجستي

التسوية، وهي آلية فإن تحديد تعقيد النموذج أثناء التدريب أمر مهم للغاية في مجال الخدمات اللوجستية نمذجة الانحدار. بدون ضبط، تعتبر الطبيعة غير المقاربة للخدمات اللوجستية أن الانحدار سيؤدي إلى الخسارة نحو 0 في الحالات التي يكون فيها النموذج عدد كبير من الميزات. وبالتالي، فإن معظم نماذج الانحدار اللوجستي تستخدم أسلوبًا الاستراتيجيتَين التاليتَين لتقليل تعقيد النموذج: