لنفترض أنّ لديك نموذج انحدار لوجستي لرصد الرسائل الإلكترونية غير المرغوب فيها يتنبأ بقيمة تتراوح بين 0 و1، ما يمثّل احتمال أن تكون رسالتك الإلكترونية معيّنة غير مرغوب فيها. يشير التوقع 0.50 إلى احتمال بنسبة% 50 أن تكون الرسالة الإلكترونية غير مرغوب فيها، ويشير التوقع 0.75 إلى احتمال بنسبة% 75 أن تكون الرسالة الإلكترونية غير مرغوب فيها، وما إلى ذلك.
تريد نشر هذا النموذج في تطبيق بريد إلكتروني لفلترة الرسائل غير المرغوب فيها في
مجلد بريد منفصل. ولكن للقيام بذلك، يجب عليك تحويل الإخراج
الرقمي الأوّلي للنموذج (على سبيل المثال، 0.75
) إلى إحدى الفئتَين التاليتَين: "محتوى غير مرغوب فيه" أو "محتوى
غير غير مرغوب فيه".
لإجراء هذا التحويل، عليك اختيار حدّ احتمالي يُعرف باسم
حدّ التصنيف.
بعد ذلك، يتمّ إسناد الأمثلة التي تزيد احتماليتها عن الحدّ الأدنى إلى الفئة الموجبة، وهي الفئة التي تختبرها (هنا، spam
). ويتمّ إسناد الأمثلة التي تقلّ احتماليتها إلى الفئة السالبة، وهي الفئة البديلة (هنا، not spam
).
انقر هنا لمزيد من التفاصيل حول حدّ التصنيف
قد تتساءل: ماذا يحدث إذا كانت النتيجة المتوقّعة مساوية لمستوى التصنيف (على سبيل المثال، نتيجة 0.5 حيث يكون مستوى التصنيف هو 0.5 أيضًا)؟ وتعتمد معالجة هذه الحالة على طريقة التنفيذ المحدَّدة التي تم اختيارها لنموذج التصنيف. تتوقّع مكتبة Keras الفئة السلبية إذا كانت النتيجة والحدّ الأدنى متساويين، ولكن قد تتعامل الأدوات/الأطر الأخرى مع هذا الموقف بشكل مختلف.
لنفترض أنّ النموذج يمنح رسالة إلكترونية واحدة درجة 0.99، ما يشير إلى أنّ احتمال أن تكون هذه الرسالة غير مرغوب فيها يبلغ% 99، ويمنح رسالة إلكترونية أخرى درجة 0.51، ما يشير إلى أنّ احتمال أن تكون هذه الرسالة غير مرغوب فيها يبلغ% 51. في حال ضبط حد التصنيف على 0.5، سيصنف النموذج كلتا الرسالتَين على أنّهما رسائل غير مرغوب فيها. وإذا ضبطت الحدّ الأدنى على 0.95، سيتم تصنيف الرسالة الإلكترونية التي سجّلت النتيجة 0.99 فقط كرسائل غير مرغوب فيها.
على الرغم من أنّ القيمة 0.5 قد تبدو كحدّ أدنى بديهي، إلا أنّه ليس من الجيد استخدامها إذا كانت تكلفة نوع واحد من التصنيفات الخاطئة أكبر من النوع الآخر، أو إذا كانت الفئات غير متوازنة. إذا كانت نسبة الرسائل غير المرغوب فيها من الرسائل الإلكترونية لا تتجاوز% 0.01، أو إذا كان وضع الرسائل الإلكترونية الصالحة في مكان غير صحيح يؤدي إلى نتائج أسوأ من السماح بدخول الرسائل غير المرغوب فيها إلى البريد الوارد، يؤدي وضع علامة على أي رسالة يعتقد النموذج أنّ احتمال أن تكون غير مرغوب فيها هو% 50 على الأقل كرسالة غير مرغوب فيها إلى نتائج غير مرغوب فيها.
مصفوفة نجاح التوقّعات
لا تشير نتيجة الاحتمالية إلى الواقع أو الحقيقة الأساسية. هناك أربع نتائج محتملة لكل ناتج من المصنِّف الثنائي. في مثال مصنّف الرسائل غير المرغوب فيها، إذا وضّحت الحقائق الأساسية في شكل أعمدة وتوقّعات النموذج في شكل صفوف، سيكون الجدول التالي، المُسمى مصفوفة الالتباس، هو النتيجة:
النتيجة الإيجابية الفعلية | القيمة السلبية الفعلية | |
---|---|---|
نتيجة إيجابية متوقّعة | إيجابية صحيحة (TP): رسالة إلكترونية غير مرغوب فيها تم تصنيفها بشكل صحيح كرسالة إلكترونية غير مرغوب فيها. هذه هي الرسائل غير المرغوب فيها التي يتم تلقائيًا إرسالها إلى مجلد الرسائل غير المرغوب فيها. | نتيجة إيجابية خاطئة (FP): رسالة إلكترونية ليست غير مرغوب فيها تم تصنيفها خطأً على أنّها غير مرغوب فيها. هذه هي الرسائل الإلكترونية الصالحة التي تنتهي في مجلد الرسائل غير المرغوب فيها. |
نتيجة سلبية متوقعة | نتيجة سالبة خاطئة (FN): رسالة إلكترونية غير مرغوب فيها تم تصنيفها بشكل خاطئ على أنّها ليست رسالة غير مرغوب فيها. هذه هي رسائل البريد الإلكتروني غير المرغوب فيها التي لا يتم اكتشافها بواسطة فلتر الرسائل غير المرغوب فيها وتصل إلى البريد الوارد. | سلبي صحيح (TN): رسالة إلكترونية ليست غير مرغوب فيها تم تصنيفها بشكل صحيح على أنّها ليست غير مرغوب فيها. هذه هي الرسائل الإلكترونية المشروعة التي يتم إرسالها مباشرةً إلى البريد الوارد. |
يُرجى العلم أنّ المجموع في كل صف يعرض جميع القيم الإيجابية المتوقّعة (TP + FP) وجميع القيم السلبية المتوقّعة (FN + TN)، بغض النظر عن مدى صلاحيتها. في المقابل، يعرض المجموع في كل عمود كل القيم الإيجابية الحقيقية (TP + FN) وكل القيم السلبية الحقيقية (FP + TN) بغض النظر عن تصنيف النموذج.
عندما لا يكون إجمالي القيم الموجبة الفعلية قريبًا من إجمالي القيم السلبية الفعلية، تكون مجموعة البيانات غير متوازنة. قد يكون مثالاً على مجموعة بيانات غير متوازنة مجموعة من آلاف صور السحب، حيث يظهر نوع السحب النادر الذي يهمّك، مثل السحب المتصاعدة، بضع مرات فقط.
تأثير الحد على الحالات الموجبة والسالبة الصائبة والخاطئة
تؤدي الحدود الدنيا المختلفة عادةً إلى أعداد مختلفة من حالات الموجب الخاطئ والموجب الصحيح والسالب الخاطئ والسالب الصحيح. يوضّح الفيديو التالي سبب حدوث ذلك.
جرِّب تغيير الحدّ بنفسك.
تتضمن هذه الأداة ثلاث مجموعات بيانات للألعاب:
- مفصَّلة، حيث يتم بشكل عام التمييز جيدًا بين الأمثلة الإيجابية والسلبية، مع حصول معظم الأمثلة الإيجابية على نتائج أعلى من الأمثلة السلبية
- غير مفصولة، حيث يكون للعديد من الأمثلة الإيجابية نتائج أقل من الأمثلة السلبية، والعديد من الأمثلة السلبية تحصل على نتائج أعلى من الأمثلة الإيجابية.
- غير مفهومة، وتحتوي على بعض الأمثلة فقط للفئة الموجبة.