لنفترض أن لديك نموذج انحدار لوجستي للكشف عن الرسائل الإلكترونية غير المرغوب فيها. يتنبأ بقيمة تتراوح بين 0 و1، وهو ما يمثل احتمالية أن تكون يُعد بريدًا إلكترونيًا غير مرغوب فيه. يشير التنبؤ 0.50 إلى احتمال 50٪ أن البريد الإلكتروني الرسائل غير المرغوب فيها، فإن التنبؤ 0.75 يشير إلى احتمال 75٪ أن تكون رسالة البريد الإلكتروني غير مرغوب فيها، وهكذا
تريد نشر هذا النموذج في تطبيق بريد إلكتروني لتصفية الرسائل غير المرغوب فيها
مجلد بريد منفصل. ولكن لإجراء ذلك، عليك تحويل النموذج الأوّلي
ناتج عددي (على سبيل المثال، 0.75
) في إحدى الفئتين: "المحتوى غير المرغوب فيه" أو "لا"
محتوى غير مرغوب فيه".
لإجراء هذه الإحالة الناجحة، عليك اختيار حد أدنى للاحتمال، يُعرف باسم
الحد الأدنى للتصنيف.
يتم بعد ذلك تعيين أمثلة تتضمّن احتمالية أعلى من قيمة الحدّ
للفئة الإيجابية،
للفئة التي تختبرها (هنا، spam
). أمثلة ذات قيمة أقل
الاحتمالية إلى الفئة السالبة،
الفئة البديلة (هنا، not spam
).
انقر هنا لمزيد من التفاصيل حول حدّ التصنيف
وقد تتساءل ماذا يحدث إذا كانت النتيجة المتوقعة تساوي حد التصنيف (على سبيل المثال، الدرجة 0.5 حيث يكون حد التصنيف أيضًا 0.5)؟ التعامل مع هذا الطلب على طريقة التنفيذ المحددة التي تم اختيارها للتصنيف الأمثل. على سبيل المثال، يمتلك Keras تتنبأ المكتبة بالفئة السالبة إذا كانت الدرجة والحدّ الأدنى متساوية، ولكن قد تتعامل الأدوات/الأطر الأخرى مع هذه الحالة بشكل مختلف.
فعلى سبيل المثال، لنفرض أن قيمة النموذج لرسالة إلكترونية واحدة بقيمة 0.99، وهي التنبؤ أن هذا البريد الإلكتروني لديه فرصة 99% أن يكون غير مرغوب فيه، وأن يكون بريدًا إلكترونيًا آخر 0.51، مع الإشارة إلى أن هناك احتمالاً أن يكون غير مرغوب فيه بنسبة 51%. إذا قمت بتعيين إلى 0.5، فسيصنف النموذج كلتا رسالتي البريد الإلكتروني على أنه محتوى غير مرغوب فيه. وإذا ضبطت الحدّ الأدنى على 0.95، لن يكون سوى النتيجة الإلكترونية 0.99 تصنيفه كمحتوى غير مرغوب فيه.
بينما قد يبدو 0.5 حدًّا بديهي، إلا أنه ليس فكرة جيدة إذا تكون تكلفة أحد أنواع التصنيف الخاطئ أكبر من الآخر، أو إذا كانت الفئات غير متوازنة. إذا كانت نسبة 0.01% فقط من الرسائل الإلكترونية عبارة عن رسائل غير مرغوب فيها أو إذا كانت هناك معلومات غير صحيحة الرسائل الإلكترونية الشرعية أكثر من ترك الرسائل غير المرغوب فيها في البريد الوارد، تصنيف أي شيء يعتبره النموذج على الأقل غير مرغوب فيه بنسبة 50% لأنّ المحتوى غير المرغوب فيه يؤدي إلى نتائج غير مرغوب فيها.
مصفوفة نجاح التوقّعات
إذا كانت درجة الاحتمالية ليست واقعًا، أو الحقائق الواقعية: هناك أربع نواتج محتملة لكل ناتج من المصنِّف الثنائي. في ما يتعلق بمثال مصنف الرسائل غير المرغوب فيها، إذا وضعت الحقيقة الأساسية كأعمدة وتنبؤ النموذج على هيئة صفوف، فإن الجدول التالي يُسمى مصفوفة التشويش، هي النتيجة:
الموجب الفعلي | القيمة السلبية الفعلية | |
---|---|---|
القيمة الإيجابية المتوقَّعة | موجب صحيح (TP): محتوى غير مرغوب فيه البريد الإلكتروني مصنفًا بشكل صحيح على أنه بريد إلكتروني غير مرغوب فيه. هذه هي الرسائل غير المرغوب فيها يتم إرسالها تلقائيًا إلى مجلد الرسائل غير المرغوب فيها. | خطأ إيجابي (FP): رسالة إلكترونية ليست من النوع غير المرغوب فيه تم تصنيفها بشكل خاطئ على أنها محتوى غير مرغوب فيه. هذه هي رسائل البريد الإلكتروني الشرعية التي تنتهي في مجلد الرسائل غير المرغوب فيها. |
نتيجة سلبية متوقعة | خطأ سلبي (FN): رسالة إلكترونية غير مرغوب فيها تم تصنيفها عن طريق الخطأ على أنها ليست من الرسائل غير المرغوب فيها. هذه محتوى غير مرغوب فيه رسائل البريد الإلكتروني التي الرسائل التي تم الاستيلاء عليها من خلال فلتر الرسائل غير المرغوب فيها وتصل إلى البريد الوارد. | صحيح سالب (TN): A بريد إلكتروني ليس من الرسائل غير المرغوب فيها مصنفًا بشكل صحيح على أنه ليس من الرسائل غير المرغوب فيها. هذه هي الرسائل الإلكترونية السليمة التي يتم إرسالها مباشرةً إلى البريد الوارد. |
لاحظ أن الإجمالي في كل صف يعطي جميع النتائج الموجبة المتوقعة (TP + FP) جميع السلبيات المتوقعة (FN + TN)، بغض النظر عن الصلاحية. الإجمالي في كل جميع النتائج الموجبة الحقيقية (TP + FN) وجميع النتائج السالبة الحقيقية (FP + TN) بغض النظر عن تصنيف النموذج.
عندما يكون إجمالي النتائج الموجبة الفعلية غير قريب من الإجمالي الفعلي سلبيات، فإن مجموعة البيانات غير متوازن. مثيل إحدى مجموعات البيانات غير المتوازنة عبارة عن مجموعة من آلاف صور السُحب، حيث فإن نوع السحابة الإلكترونية النادر الذي تهتم به، على سبيل المثال، سحابات فولتوسية يظهر فقط بضع مرات.
تأثير الحد على الحالات الموجبة والسالبة الصائبة والخاطئة
عادةً ما ينتج عن الحدود المختلفة أرقام مختلفة للصواب والخطأ النتائج الموجبة والسالبة الصائبة والخاطئة. يوضح الفيديو التالي سبب ذلك الحالة.
جرِّب تغيير الحدّ بنفسك.
تتضمن هذه الأداة ثلاث مجموعات بيانات للألعاب:
- مفصولة، حيث يتم استخدام الأمثلة الإيجابية والأمثلة السلبية بشكل عام بشكل جيد، حيث تحتوي معظم الأمثلة الإيجابية على نتائج أعلى من الأمثلة السلبية.
- غير مفصولة، حيث تحصل العديد من الأمثلة الإيجابية على نتائج أقل من الأمثلة السلبية، والعديد من الأمثلة السلبية لها درجات أعلى من الأمثلة الإيجابية.
- غير مفهومة، وتحتوي على بعض الأمثلة فقط للفئة الموجبة.