الانحدار اللوجستي: حساب الاحتمالية باستخدام الدالة السينية

تتطلب العديد من المسائل تقدير الاحتمالية كمخرج. يشير الانحدار اللوجستي إلى آلية فعالة للغاية لحساب الاحتمالات. عمليًا يمكنك استخدام الاحتمالية الناتجة في أي مما يلي بطريقتين:

  • تم تطبيق "كما هو". على سبيل المثال، إذا اعتبر نموذج التنبؤ بالمحتوى غير المرغوب فيه رسالة بريد إلكتروني إدخال وإخراج قيمة 0.932، وهذا يعني أن هناك احتمالية 93.2% بأن الرسالة الإلكترونية هي رسالة غير مرغوب فيها.

  • تم التحويل إلى فئة ثنائية. مثل True أو False أو Spam أو Not Spam.

تركز هذه الوحدة على استخدام ناتج نموذج الانحدار اللوجستي كما هو. في جلسة المعمل، وحدة التصنيف، ستتعلم كيفية تحويل هذا الناتج إلى فئة ثنائية.

الدالّة الإسية

قد تتساءل كيف يمكن لأي نموذج انحدار لوجستي ضمان مخرجات يمثل احتمالية، ينتج دائمًا قيمة بين 0 و1. تمامًا هناك مجموعة من الدوال تُسمى الدوال اللوجستية الذي يتميز مخرجاته على نفس السمات. إن الدالة اللوجستية القياسية، والمعروفة أيضًا باسم الدالة السينية (الحرف السيني يعني "على شكل حرف s")، وله المعادلة:

\[f(x) = \frac{1}{1 + e^{-x}}\]

يوضح الشكل 1 الرسم البياني المقابل للدالة السينية.

منحنى المنحنى السيني (على شكل حرف s) الموضح على المستوى الإحداثي الديكارتي،
         في المنشأ.
الشكل 1. رسم بياني للدالة السينية. يقترب المنحنى من 0 عندما تقل قيم x إلى لا نهاية سالبة، و1 على أساس x تزيد القيم باتجاه اللانهاية.

مع زيادة المُدخل x، يقترب ناتج الدالة السينية ولكنها لا تصل إلى 1 أبدًا. وبالمثل، كلما انخفض المدخل، فإن الدالة السينية مناهج ناتج الدالة، إلا أنه لا يصل أبدًا إلى 0.

انقر هنا للاطّلاع على مزيد من التفاصيل في الرياضيات. خلف الدالة السينية

يوضح الجدول أدناه قيم ناتج الدالة السينية قيم الإدخال في النطاق من 7 إلى 7. لاحظ مدى سرعة اقتراب الدالة السينية 0 لخفض قيم المدخلات السالبة، ومدى سرعة اقتراب الدالة السينية 1 لزيادة قيم الإدخال الموجبة.

ومع ذلك، بغض النظر عن حجم قيمة الإدخال أو صغرها، فإن الناتج دائمًا أكبر من 0 وأقل من 1.

الإدخال الناتج السيني
-7 0.001
-6 0.002
-5 0.007
-4 0.018
-3 0.047
-2 0.119
-1 0.269
0 0.50
1 0.731
2 0.881
3 0.952
4 0.982
5 0.993
6 0.997
7 0.999

تحويل الناتج الخطي باستخدام الدالة السينية

تمثل المعادلة التالية العنصر الخطي لعلمي لوجستي. نموذج الانحدار:

\[z = b + w_1x_1 + w_2x_2 + \ldots + w_Nx_N\]

حيث:

  • وz هي ناتج المعادلة الخطية، التي تُسمى أيضًا تسجيل احتمالات تسجيل الاحتمالات:
  • b هو التحيز.
  • قيم w هي القيم التقديرية التي تم تعلمها للنموذج.
  • قيم x هي قيم الميزات لمثال معين.

للحصول على توقّعات الانحدار اللوجستي، يتم تمرير القيمة z إلى الدالة السينية، التي يكون ناتجها قيمة (احتمالية) بين 0 و1:

\[y' = \frac{1}{1 + e^{-z}}\]

حيث:

  • y' هو ناتج نموذج الانحدار اللوجستي.
  • z هي الناتج الخطي (كما تم حسابه في المعادلة السابقة).

انقر هنا لمعرفة المزيد عن لوغاريتم الاحتمالات

في المعادلة $z = b + w_1x_1 + w_2x_2 + \ldots + w_Nx_N$, z بـ log-odds لأنه إذا بدأت التالية الدالة السينية (حيث $y$ هو ناتج نموذج الانحدار، الذي يمثل الاحتمالية):

$$y = \frac{1}{1 + e^{-z}}$$

ثم حلّ z:

$$ z = \log\left(\frac{y}{1-y}\right) $$

بعد ذلك، يتم تعريف z على أنّه سجلّ نسبة الاحتمالات. من النتيجتين المحتملتين: ص و1 – ص.

يوضح الشكل 2 كيفية تحويل الناتج الخطي إلى انحدار لوجستي إخراجه باستخدام هذه العمليات الحسابية.

يسار: خط مع النقاط (-7.5، –10) و(-2.5، 0) و (0، 5)
         بارزة. يمين: منحنى المنحنى السيني مع المنحنى المقابل
         نقطة (-10، 0.00004)، (0، 0.5)، و (5، 0.9933).
الشكل 2. على اليسار: الرسم البياني للدالة الخطية z = 2x + 5، مكون من ثلاثة النقاط المحددة. على اليمين: منحنى مؤشر سيجاري يتضمَّن النقاط الثلاث نفسها مميزة بعد أن يتم تحويلها باستخدام الدالة السينية.

في الشكل 2، تصبح المعادلة الخطية مدخلاً إلى الدالة السينية، والذي يثني الخط المستقيم إلى شكل s. لاحظ أن المعادلة الخطية يمكن أن تنتج قيمًا كبيرة جدًا أو صغيرة للغاية لـ z، لكن ناتج الدالة السينية ، y'، تكون دائمًا بين 0 و1، بشكل حصري. على سبيل المثال، يمثّل اللون البرتقالي قيمة z في الرسم البياني الأيسر هي -10، لكن الدالة السينية في يرسم الرسم البياني الأيمن -10 في حرف y' 0.00004.

تمرين: التحقق من فهمك

ينقسم نموذج الانحدار اللوجستي إلى ثلاث خصائص، الأوزان:

\[\begin{align} b &= 1 \\ w_1 &= 2 \\ w_2 &= -1 \\ w_3 &= 5 \end{align} \]

بناءً على قيم الإدخال التالية:

\[\begin{align} x_1 &= 0 \\ x_2 &= 10 \\ x_3 &= 2 \end{align} \]

أجب عن السؤالين التاليين.

1. ما هي قيمة z لقيم الإدخال هذه؟
-1
0
0.731
1
إجابة صحيحة. المعادلة الخطية المحددة بالأوزان والانحياز هي z = 1 + 2x1 – x2 + 5 ×3. جارٍ توصيل تُنتج قيم المدخلات في المعادلة z = 1 + (2)(0) - (10) + (5)(2) = 1
2. ما هي تنبؤات الانحدار اللوجستي لقيم المدخلات هذه؟
0.268
0.5
0.731

وفقًا للحساب رقم 1 أعلاه، فإن احتمالات اللوغارتم لقيم الإدخال هي 1. إدخال هذه القيمة لـ z في الدالة السينية:

\(y = \frac{1}{1 + e^{-z}} = \frac{1}{1 + e^{-1}} = \frac{1}{1 + 0.367} = \frac{1}{1.367} = 0.731\)

1
تذكر أن ناتج الدالة السينية سيكون دائمًا أكبر من 0 وأقل من 1.