تتطلّب العديد من المشاكل تقديرًا لاحتمالات حدوثها. الانحدار اللوجستي هو آلية فعّالة للغاية لاحتساب الاحتمالات. من الناحية العملية، يمكنك استخدام الاحتمالية المعروضة بأيٍّ من الطريقتَين التاليتَين:
تم تطبيق "كما هو". على سبيل المثال، إذا كان نموذج توقّع الرسائل غير المرغوب فيها يأخذ بريدًا إلكترونيًا كأحد المدخلات ويعرض قيمة
0.932
، يعني ذلك أنّ احتمال أن تكون الرسالة الإلكترونية غير مرغوب فيها هو93.2%
.تم التحويل إلى فئة ثنائية. مثل
True
أوFalse
أوSpam
أوNot Spam
.
تركّز هذه الوحدة على استخدام ناتج نموذج الانحدار اللوجستي كما هو. في وحدة التصنيف، ستتعرّف على كيفية تحويل هذا الناتج إلى فئة ثنائية.
الدالّة الإسية
قد تتساءل كيف يمكن لنموذج الانحدار اللوجستي التأكّد من أنّ ناتجه يمثّل احتمالية، ويعرض دائمًا قيمة تتراوح بين 0 و1. هناك مجموعة من الدوال تُعرف باسم الدوال اللوجستية التي تتسم مخرجاتها بالخصائص نفسها. الدالة اللوجستية العادية، المعروفة أيضًا باسم الدالة السينية (السينية تعني "على شكل حرف S")، لها الصيغة:
\[f(x) = \frac{1}{1 + e^{-x}}\]
يعرض الشكل 1 الرسم البياني المقابل للدالة السينية.
مع زيادة المُدخل x
، يقترب ناتج الدالة السينية
ولكنها لا تصل إلى 1
أبدًا. وبالمثل، كلما انخفض المدخل، فإن الدالة السينية
مناهج ناتج الدالة، إلا أنه لا يصل أبدًا إلى 0
.
انقر هنا للاطّلاع على تفاصيل أكثر حول العمليات الحسابية التي تستند إليها الدالة السينية.
يعرض الجدول التالي قيم المخرجات للدالة السينية ل قيم الإدخال في النطاق من -7 إلى 7. لاحظ مدى سرعة اقتراب الدالة السينية من 0 عند انخفاض قيم الإدخال السالبة، ومدى سرعة اقتراب الدالة السينية من 1 عند زيادة قيم الإدخال الموجبة.
ومع ذلك، بغض النظر عن حجم قيمة الإدخال أو صغرها، فإن الناتج دائمًا أكبر من 0 وأقل من 1.
الإدخال | الناتج السيني |
---|---|
-7 | 0.001 |
-6 | 0.002 |
-5 | 0.007 |
-4 | 0.018 |
-3 | 0.047 |
-2 | 0.119 |
-1 | 0.269 |
0 | 0.50 |
1 | 0.731 |
2 | 0.881 |
3 | 0.952 |
4 | 0.982 |
5 | 0.993 |
6 | 0.997 |
7 | 0.999 |
تحويل الإخراج الخطي باستخدام الدالة السينية
تمثل المعادلة التالية العنصر الخطي لعلمي لوجستي. نموذج الانحدار:
\[z = b + w_1x_1 + w_2x_2 + \ldots + w_Nx_N\]
حيث:
- وz هي ناتج المعادلة الخطية، التي تُسمى أيضًا تسجيل احتمالات تسجيل الاحتمالات:
- b هو الانحياز.
- قيم w هي معاملات الترجيح التي تم تعلمها في النموذج.
- قيم س هي قيم السمات لمثال معيّن.
للحصول على توقّعات الانحدار اللوجستي، يتم تمرير القيمة z إلى الدالة السينية، التي يكون ناتجها قيمة (احتمالية) بين 0 و1:
\[y' = \frac{1}{1 + e^{-z}}\]
حيث:
- y' هو ناتج نموذج الانحدار اللوجستي.
- z هو الناتج الخطي (كما تم احتسابه في المعادلة السابقة).
انقر هنا للاطّلاع على مزيد من المعلومات حول احتمالات تسجيل نقاط قليلة.
في المعادلة $z = b + w_1x_1 + w_2x_2 + \ldots + w_Nx_N$، يُشار إلى z باسم الاحتمالات اللوغاريتمية لأنّه إذا بدأت بالدالة السينية التالية (حيث يكون y هو ناتج نموذج الانحدار اللوجستي الذي يمثّل احتمالًا):
$$y = \frac{1}{1 + e^{-z}}$$
بعد ذلك، ابحث عن قيمة z:
$$ z = \log\left(\frac{y}{1-y}\right) $$
بعد ذلك، يتم تعريف z على أنّه سجلّ نسبة الاحتمالات. من النتيجتين المحتملتين: ص و1 – ص.
يوضّح الشكل 2 كيفية تحويل الإخراج الخطي إلى ناتج الانحدار اللوجستي باستخدام هذه العمليات الحسابية.
في الشكل 2، تصبح معادلة خطية إدخالًا للدالة السينية، التي تنحني الخط المستقيم إلى شكل S. لاحظ أن المعادلة الخطية يمكن أن تنتج قيمًا كبيرة جدًا أو صغيرة للغاية لـ z، لكن ناتج الدالة السينية ، y'، تكون دائمًا بين 0 و1، بشكل حصري. على سبيل المثال، يشير اللون الأصفر على الرسم البياني الأيسر قيمة z تبلغ –10، لكن الدالة السينية في يرسم الرسم البياني الأيمن –10 إلى ص' 0.00004.
تمرين: التحقق من فهمك
ينقسم أي نموذج انحدار لوجستي إلى ثلاث خصائص الأوزان:
\[\begin{align} b &= 1 \\ w_1 &= 2 \\ w_2 &= -1 \\ w_3 &= 5 \end{align} \]
استنادًا إلى قيم الإدخال التالية:
\[\begin{align} x_1 &= 0 \\ x_2 &= 10 \\ x_3 &= 2 \end{align} \]
يُرجى الإجابة عن السؤالين التاليين.
كما هو موضّح في الخطوة 1 أعلاه، فإنّ اللوغاريتم اللوغاريتمي لقيَم الإدخال هو 1. إدخال هذه القيمة لـ z في الدالة السينية:
\(y = \frac{1}{1 + e^{-z}} = \frac{1}{1 + e^{-1}} = \frac{1}{1 + 0.367} = \frac{1}{1.367} = 0.731\)