الانحدار اللوجستي: حساب الاحتمالية باستخدام الدالة السينية

تتطلّب العديد من المشاكل تقديرًا لاحتمالات حدوثها. الانحدار اللوجستي هو آلية فعّالة للغاية لاحتساب الاحتمالات. من الناحية العملية، يمكنك استخدام الاحتمالية المعروضة بأيٍّ من الطريقتَين التاليتَين:

  • تم تطبيق "كما هو". على سبيل المثال، إذا كان نموذج توقّع الرسائل غير المرغوب فيها يأخذ بريدًا إلكترونيًا كأحد المدخلات ويعرض قيمة 0.932، يعني ذلك أنّ احتمال أن تكون الرسالة الإلكترونية غير مرغوب فيها هو 93.2%.

  • تم التحويل إلى فئة ثنائية. مثل True أو False أو Spam أو Not Spam.

تركّز هذه الوحدة على استخدام ناتج نموذج الانحدار اللوجستي كما هو. في وحدة التصنيف، ستتعرّف على كيفية تحويل هذا الناتج إلى فئة ثنائية.

الدالّة الإسية

قد تتساءل كيف يمكن لنموذج الانحدار اللوجستي التأكّد من أنّ ناتجه يمثّل احتمالية، ويعرض دائمًا قيمة تتراوح بين 0 و1. هناك مجموعة من الدوال تُعرف باسم الدوال اللوجستية التي تتسم مخرجاتها بالخصائص نفسها. الدالة اللوجستية العادية، المعروفة أيضًا باسم الدالة السينية (السينية تعني "على شكل حرف S")، لها الصيغة:

\[f(x) = \frac{1}{1 + e^{-x}}\]

يعرض الشكل 1 الرسم البياني المقابل للدالة السينية.

منحنى المنحنى السيني (على شكل حرف s) الموضح على المستوى الإحداثي الديكارتي،
         في المنشأ.
الشكل 1. رسم بياني للدالة السينية. يقترب المنحنى من 0 عندما تقل قيم x إلى لا نهاية سالبة، و1 على أساس x تزداد القيم باتجاه اللانهاية.

مع زيادة المُدخل x، يقترب ناتج الدالة السينية ولكنها لا تصل إلى 1 أبدًا. وبالمثل، كلما انخفض المدخل، فإن الدالة السينية مناهج ناتج الدالة، إلا أنه لا يصل أبدًا إلى 0.

انقر هنا للاطّلاع على تفاصيل أكثر حول العمليات الحسابية التي تستند إليها الدالة السينية.

يعرض الجدول التالي قيم المخرجات للدالة السينية ل قيم الإدخال في النطاق من -7 إلى 7. لاحظ مدى سرعة اقتراب الدالة السينية من 0 عند انخفاض قيم الإدخال السالبة، ومدى سرعة اقتراب الدالة السينية من 1 عند زيادة قيم الإدخال الموجبة.

ومع ذلك، بغض النظر عن حجم قيمة الإدخال أو صغرها، فإن الناتج دائمًا أكبر من 0 وأقل من 1.

الإدخال الناتج السيني
-7 0.001
-6 0.002
-5 0.007
-4 0.018
-3 0.047
-2 0.119
-1 0.269
0 0.50
1 0.731
2 0.881
3 0.952
4 0.982
5 0.993
6 0.997
7 0.999

تحويل الإخراج الخطي باستخدام الدالة السينية

تمثل المعادلة التالية العنصر الخطي لعلمي لوجستي. نموذج الانحدار:

\[z = b + w_1x_1 + w_2x_2 + \ldots + w_Nx_N\]

حيث:

  • وz هي ناتج المعادلة الخطية، التي تُسمى أيضًا تسجيل احتمالات تسجيل الاحتمالات:
  • b هو الانحياز.
  • قيم w هي معاملات الترجيح التي تم تعلمها في النموذج.
  • قيم س هي قيم السمات لمثال معيّن.

للحصول على توقّعات الانحدار اللوجستي، يتم تمرير القيمة z إلى الدالة السينية، التي يكون ناتجها قيمة (احتمالية) بين 0 و1:

\[y' = \frac{1}{1 + e^{-z}}\]

حيث:

  • y' هو ناتج نموذج الانحدار اللوجستي.
  • z هو الناتج الخطي (كما تم احتسابه في المعادلة السابقة).

انقر هنا للاطّلاع على مزيد من المعلومات حول احتمالات تسجيل نقاط قليلة.

في المعادلة $z = b + w_1x_1 + w_2x_2 + \ldots + w_Nx_N$، يُشار إلى z باسم الاحتمالات اللوغاريتمية لأنّه إذا بدأت بالدالة السينية التالية (حيث يكون y هو ناتج نموذج الانحدار اللوجستي الذي يمثّل احتمالًا):

$$y = \frac{1}{1 + e^{-z}}$$

بعد ذلك، ابحث عن قيمة z:

$$ z = \log\left(\frac{y}{1-y}\right) $$

بعد ذلك، يتم تعريف z على أنّه سجلّ نسبة الاحتمالات. من النتيجتين المحتملتين: ص و1 – ص.

يوضّح الشكل 2 كيفية تحويل الإخراج الخطي إلى ناتج الانحدار اللوجستي باستخدام هذه العمليات الحسابية.

يسار: خط مع النقاط (-7.5، –10)، (-2.5، 0) و (0، 5)
         بارزة. يسار: منحنى سينوسي مع النقاط المحوَّلة المميّزة
         (-10, 0.00004)، و(0, 0.5)، و(5, 0.9933).
الشكل 2. على يمين الشاشة: رسم بياني للدالة الخطية z = 2x + 5، مع تمييز ثلاث نقاط يسار: منحنى خطي مع النقاط الثلاث نفسها التي تم تمييزها بعد تحويلها باستخدام الدالة السينية

في الشكل 2، تصبح معادلة خطية إدخالًا للدالة السينية، التي تنحني الخط المستقيم إلى شكل S. لاحظ أن المعادلة الخطية يمكن أن تنتج قيمًا كبيرة جدًا أو صغيرة للغاية لـ z، لكن ناتج الدالة السينية ، y'، تكون دائمًا بين 0 و1، بشكل حصري. على سبيل المثال، يشير اللون الأصفر على الرسم البياني الأيسر قيمة z تبلغ –10، لكن الدالة السينية في يرسم الرسم البياني الأيمن –10 إلى ص' 0.00004.

تمرين: التحقق من فهمك

ينقسم أي نموذج انحدار لوجستي إلى ثلاث خصائص الأوزان:

\[\begin{align} b &= 1 \\ w_1 &= 2 \\ w_2 &= -1 \\ w_3 &= 5 \end{align} \]

استنادًا إلى قيم الإدخال التالية:

\[\begin{align} x_1 &= 0 \\ x_2 &= 10 \\ x_3 &= 2 \end{align} \]

يُرجى الإجابة عن السؤالين التاليين.

1. ما هي قيمة z لقيم الإدخال هذه؟
-1
0
0.731
1
إجابة صحيحة. المعادلة الخطية المحددة بالأوزان والانحياز هي z = 1 + 2x1 – x2 + 5 ×3. جارٍ توصيل تُنتج قيم المدخلات في المعادلة z = 1 + (2)(0) - (10) + (5)(2) = 1
2. ما هو توقّع الانحدار اللوجستي لقيم الإدخال هذه؟
0.268
0.5
0.731

كما هو موضّح في الخطوة 1 أعلاه، فإنّ اللوغاريتم اللوغاريتمي لقيَم الإدخال هو 1. إدخال هذه القيمة لـ z في الدالة السينية:

\(y = \frac{1}{1 + e^{-z}} = \frac{1}{1 + e^{-1}} = \frac{1}{1 + 0.367} = \frac{1}{1.367} = 0.731\)

1
تذكَّر أنّ ناتج الدالة السينية سيكون دائمًا أكبر من 0 وأصغر من 1.