التصنيف: الدقة والتذكر والدقة والمقاييس ذات الصلة

تُستخدم النتائج الموجبة والسالبة الصحيحة والخاطئة لحساب عدة عوامل ومقاييس لتقييم النماذج. ما هي مقاييس التقييم الأكثر ذات مغزى يعتمد على النموذج المحدد والمهمة المحددة، التصنيفات الخاطئة المختلفة، وما إذا كانت مجموعة البيانات متوازنة أو وغير متوازن.

يتم احتساب جميع المقاييس في هذا القسم من خلال حد واحد ثابت، وتغييره عند تغيّر الحدّ في كثير من الأحيان، يقوم المستخدم بضبط الحد الأدنى لتحسين أحد هذه المقاييس.

الدقة

الدقة هي نسبة جميع التصنيفات الصحيحة، سواء كانت إيجابية أم سلبية. من المهم رياضيًا على النحو التالي:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة الكسور من جميع تم تصنيف الرسائل الإلكترونية بشكل صحيح.

قد يتضمن النموذج المثالي صفر موجبة خاطئة ونتائج سالبة خاطئة صفر وبالتالي دقة 1.0 أو 100%.

ولأنها تتضمن جميع النتائج الأربع من مصفوفة نجاح التوقّعات (TP، FP، TN، FN)، وفقًا لحساب متوازن بها أعداد متشابهة من الأمثلة في كلتا الفئتين، يمكن للدقة تعمل كمقياس دقيق لجودة النموذج. لهذا السبب، غالبًا ما مقياس التقييم التلقائي المستخدَم للنماذج العامة أو غير المحدّدة تنفيذ مهام عامة أو غير محددة.

ومع ذلك، عندما تكون مجموعة البيانات غير متوازنة، أو عندما يكون أحد أنواع الأخطاء (FN أو FP) أكثر تكلفة من الآخر، وهو كما هو الحال في معظم تطبيقات العالم الحقيقي، فمن الأفضل تحسين أحد المقاييس الأخرى بدلاً من ذلك.

بالنسبة لمجموعات البيانات غير المتوازنة بشكل كبير، حيث تظهر إحدى الفئات نادرًا جدًا، لنفترض أن 1% من الوقت، فإن النموذج الذي يتنبأ بسالب 100% من الوقت سيحصل على 99% على ودقتها، على الرغم من أنها عديمة الفائدة.

التذكر أو المعدل الموجبة الصائبة

المعدل الموجب الصحيح (TPR) أو نسبة جميع النتائج الموجبة الفعلية التي بشكل صحيح على أنها إيجابية، تُعرف أيضًا باسم استدعاء.

يتم تعريف التذكر رياضيًا على النحو التالي:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

الأرقام السالبة الخاطئة هي نتائج موجبة فعلية تم تصنيفها بشكل خاطئ على أنها سلبية، والتي هي سبب ظهورها في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، مقياس التذكر بنسبة جزء من رسائل البريد الإلكتروني غير المرغوب فيها التي تم تصنيفها بشكل صحيح كـ غير مرغوب فيه. وهذا هو السبب وراء وجود اسم آخر لتذكُّر الإعلان هو احتمالية الاكتشاف: وهو يجيب على السؤال "ما النسبة المئوية للرسائل الإلكترونية غير المرغوب فيها التي تم رصدها من خلال هذه نموذج؟"

ولن يكون للنموذج الافتراضي المثالي أي نتائج سالبة خاطئة، وبالتالي الاستدعاء (TPR) بدرجة 1.0، أي معدل اكتشاف 100%.

ففي أي مجموعة بيانات غير متوازنة يكون فيها عدد النتائج الموجبة الفعلية، منخفض، لنفترض 1-2 مثال في المجمل، التذكر أقل فائدة وأقل فائدة كمقياس.

معدل الموجب الخاطئ

معدّل الموجب الخاطئ (FPR) هو نسبة جميع السلبيات الفعلية التي تم تصنيفها بشكل غير صحيح نتائج إيجابية، وتُعرف أيضًا باسم احتمالية إنذار كاذب من المهم رياضيًا على النحو التالي:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

النتائج الموجبة الخاطئة هي نتائج سالبة فعلية تم تصنيفها بشكل خاطئ، ولهذا السبب تظهر في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، تقيس ميزة معدل نقل البيانات (FPR) جزءًا من رسائل البريد الإلكتروني الشرعية التي تم تصنيفها عن طريق الخطأ كرسائل غير مرغوب فيها أو معدلات التنبيهات الخاطئة في النموذج.

قد يكون للنموذج المثالي صفر موجبات خاطئة، وبالتالي فإن معدل الفائدة السنوي 0.0، أي، معدل إنذار خاطئ بنسبة 0%.

في إحدى مجموعات البيانات غير المتوازنة التي يكون فيها عدد السلبيات الفعلية منخفضة، لنفترض 1-2 مثال في المجمل، فمعدّل الفائدة السنوي يكون أقل فائدة وأقل فائدة كمقياس.

الدقة

الدقة هو نسبة جميع التصنيفات الموجبة للنموذج تكون إيجابية في الواقع. يتم تعريفها رياضيًا على النحو التالي:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة نسبة الرسائل الإلكترونية مصنّفة كغير مرغوب فيها إذا كانت في الواقع محتوى غير مرغوب فيه

قد يكون للنموذج الافتراضي المثالي صفر موجبات خاطئة، وبالتالي بدقة 1.0.

ففي أي مجموعة بيانات غير متوازنة يكون فيها عدد النتائج الموجبة الفعلية، منخفضة، لنفترض 1-2 مثال في المجمل، الدقة أقل فائدة وأقل فائدة كمقياس.

تتحسن الدقة كلما انخفضت النتائج الموجبة الخاطئة، بينما تتحسّن دقة التذكُّر عندما انخفاض القيم السالبة الخاطئة. ولكن كما هو موضح في القسم السابق، تؤدي زيادة حد التصنيف إلى خفض عدد النتائج الموجبة الخاطئة تزيد عدد الأرقام السالبة الخاطئة، بينما يؤدي خفض الحد إلى بتأثيرات معاكسة. ونتيجةً لذلك، غالبًا ما تُظهر الدقة والتذكر معكوسًا علاقة، حيث يؤدي تحسين أحدهما إلى تفاقم العلاقة الأخرى.

اختيار المقاييس والمفاضلات

يمكنك تحديد أولوية المقاييس عند تقييم النموذج يعتمد اختيار حد على التكاليف والفوائد والمخاطر مشكلة محددة. وفي مثال تصنيف الرسائل غير المرغوب فيها، غالبًا ما يُظهر المنطقية تحديد أولويات التذكر أو الاستيلاء على جميع رسائل البريد الإلكتروني غير المرغوب فيها أو الدقة التأكد من أن رسائل البريد الإلكتروني المصنفة غير مرغوب فيها هي في الحقيقة رسائل غير مرغوب فيها أو بعض التوازن بين الاثنين أعلى من الحد الأدنى لمستوى الدقة.

المقياس الإرشادات
الدقة

استخدامه كمؤشر تقريبي للنموذج تقدم/تقارب مجموعات البيانات المتوازنة.

بالنسبة إلى أداء النموذج، يجب استخدامه مع مقاييس أخرى فقط.

تجنبه مع مجموعات البيانات غير المتوازنة. ننصحك باستخدام مقياس آخر.

التذكر
(معدل موجب صحيح)
الاستخدام عندما تكون القيم السالبة الخاطئة أكثر باهظة الثمن من النتائج الموجبة الخاطئة.
معدل الموجب الخاطئ الاستخدام عند تغيير النتائج الموجبة الخاطئة أكثر تكلفة من السلبيات الخاطئة.
الدقة استخدم عندما يكون مهمًا جدًا والتنبؤات الإيجابية لتكون دقيقة.

(اختياري، متقدّم) نتيجة F1

درجة F1 هي المتوسط التوافقي ( المتوسط) الدقة والتذكر.

رياضيًا، يتم تقديمه من خلال:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

يوازن هذا المقياس بين أهمية الدقة والتذكر، والأفضل من دقة مجموعات البيانات غير المتوازنة في الفئات. عند ضبط الدقة وتذكر أن كِلاهما حصل على نقاط مثالية 1.0، فسيحصل أيضًا F1 على نتيجة مثالية من 1.0. وعلى نطاق أوسع، عندما تكون الدقة والتذكر متقاربة من حيث القيمة، فإن F1 قريبة من قيمتها. عندما تكون الدقة والتذكر متباعدتين، ستقوم F1 مشابهين لأي مقياس أسوأ.

تمرين: التحقق من فهمك

ينتج عن النموذج 5 TP و6 TN و3 FP و2 FN. حساب الاستدعاء.
0.714
يتم احتساب الاستدعاء على النحو التالي [\frac{TP}{TP+FN}=\frac{5}{7}].
0.455
التذكر يعتبر جميع الإيجابيات الفعلية، وليس كلها صحيحة التصنيفات. صيغة الاستدعاء هي [\frac{TP}{TP+FN}].
0.625
التذكر يعتبر جميع الإيجابيات الفعلية، وليس كلها إيجابية التصنيفات. صيغة الاستدعاء هي [\frac{TP}{TP+FN}]
ينتج عن النموذج 3 TP و4 TN و2 FP و1 FN. احسب الدقة.
0.6
يتم حساب الدقة على النحو التالي [\frac{TP}{TP+FP}=\frac{3}{5}].
0.75
الدقة تضع في الاعتبار جميع التصنيفات الموجبة، وليس جميعها الإيجابية الفعلية. صيغة الدقة هي [\frac{TP}{TP+FP}].
0.429
الدقة تضع في الاعتبار جميع التصنيفات الموجبة، وليس جميعها التصنيفات الصحيحة. معادلة الدقة هي [\frac{TP}{TP+FP}]
أنت تنشئ مصنِّفًا ثنائيًا يفحص صور مصائد الحشرات لمعرفة ما إذا كانت هناك أنواع غازية خطيرة أم لا. إذا اكتشف النموذج النوع، يتم إخطار عالم الحشرات (عالم الحشرات) المناوب. مبكّرة يُعد اكتشاف هذه الحشرات أمرًا ضروريًا لمنع الإصابة. حاسمة المنبه الخاطئ (موجب كاذب) يسهل التعامل معه: يرى عالم الحشرات أن خطأ في تصنيف الصورة ووضع علامة عليه كذاك. بافتراض أن تحليلك فما هو المقياس الذي ينبغي تحسين هذا النموذج من أجله؟
التذكُّر
في هذا السيناريو، تكون المنبّهات الخاطئة (FP) منخفضة التكلفة وكاذبة. الكلمات السلبية مكلفة للغاية، لذا من المنطقي تعظيم التذكر، أو الرصد.
معدّل الموجب الخاطئ (FPR)
في هذا السيناريو، تكون المنبّهات الخاطئة (FP) منخفضة التكلفة. جارٍ المحاولة تضييق نطاقها مع خطر فقدان الإيجابيات الفعلية لا يجعل المعنى.
الدقة
في هذا السيناريو، فإن المنبهات الكاذبة (FP) ليست ضارًا، ولذلك فإن محاولة تحسين صحة التصنيفات الإيجابية لا معنى له.