وتُستخدَم القيم الموجبة والسالبة الصحيحة والخاطئة لاحتساب عدة مقاييس مفيدة لتقييم النماذج. تعتمد مقاييس التقييم الأكثر أهمية على النموذج المحدّد والمهمّة المحدّدة، وتكلفة الأخطاء المختلفة في التصنيف، وما إذا كانت مجموعة البيانات متوازنة أم غير متوازنة.
يتم احتساب جميع المقاييس في هذا القسم وفقًا لحدّ ثابت واحد، ويتغيّر ذلك عند تغيُّر الحدّ. في كثير من الأحيان، يضبط المستخدم الحد لتحسين أحد هذه المقاييس.
الدقة
الدقة هي نسبة جميع التصنيفات الصحيحة، سواء كانت إيجابية أو سلبية. يتم تعريفها رياضيًا على النحو التالي:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة الكسور من جميع الرسائل الإلكترونية المصنَّفة بشكل صحيح.
سيتضمّن النموذج المثالي صفر حالات إيجابية خاطئة وصفر حالات سلبية خاطئة، وبالتالي دقة تبلغ 1.0 أو %100.
ولأنّها تتضمّن جميع النتائج الأربع من مصفوفة التشويش (TP وFP وTN وFN)، بالنظر إلى مجموعة بيانات متوازنة تحتوي على أعداد متشابهة من الأمثلة في كلتا الفئتين، يمكن أن تعمل الدقة كمقياس دقيق لجودة النموذج. لهذا السبب، غالبًا ما يكون مقياس التقييم الافتراضي المستخدم للنماذج العامة أو غير المحددة التي تنفذ مهامًا عامة أو غير محددة.
ومع ذلك، عندما تكون مجموعة البيانات غير متوازنة، أو عندما يكون نوع واحد من الأخطاء (خطأ النوع الثاني أو خطأ النوع الأول) أكثر تكلفة من الآخر، وهو ما هو عليه الحال في معظم التطبيقات في العالم الواقعي، من الأفضل تحسين أحد المقاييس الأخرى بدلاً من ذلك.
بالنسبة إلى مجموعات البيانات غير المتوازنة بشكل كبير، حيث تظهر فئة واحدة نادرًا جدًا، لنفترض أنه 1% من الوقت، فإن النموذج الذي يتوقع سالبًا بنسبة 100% من الوقت سيحصل على 99% في الدقة، على الرغم من كونه عديم الفائدة.
نسبة التذكر أو نسبة الموجب الصحيح
يُعرف معدل الموجب الصحيح (TPR)، أو نسبة جميع النتائج الموجبة الفعلية التي تم تصنيفها بشكل صحيح على أنّها موجبة، أيضًا باسم التذكر.
يتم تعريف دقة التذكر رياضيًا على النحو التالي:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
الحالات السالبة الخاطئة هي حالات إيجابية فعلية تم تصنيفها بشكل خاطئ على أنّها حالات سلبية، وهو سبب ظهورها في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، يقيس الاستدعاء الجزء من الرسائل الإلكترونية غير المرغوب فيها التي تم تصنيفها بشكل صحيح على أنها غير مرغوب فيها. لهذا السبب، يُعرف نموذج الاسترجاع أيضًا باسم احتمالية رصد الرسائل غير المرغوب فيها: فهو يجيب عن السؤال "ما هو الجزء من الرسائل الإلكترونية غير المرغوب فيها الذي يرصده هذا النموذج؟"
لن يتضمّن النموذج المثالي الافتراضي أي نتائج خاطئة سلبية، وبالتالي سيكون لديه قياس تذكر (TPR) يساوي 1.0، أي نسبة رصد تبلغ %100.
في مجموعة بيانات غير متوازنة يكون فيها عدد النتائج الموجبة الفعلية منخفضًا جدًا جدًا، لنفترض مثالًا أو مثالَين إجمالاً، يكون التذكر أقل فائدة وأقل فائدة كمقياس.
معدل الموجب الخاطئ
معدّل الموجب الخاطئ هو نسبة جميع النتائج السالبة الفعلية التي تم تصنيفها على نحو غير صحيح على أنّها موجبة، والمعروفة أيضًا باسم احتمالية إنذار كاذب. يتم تعريفها رياضيًا على النحو التالي:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
الحالات الموجبة الخاطئة هي حالات سلبية فعلية تم تصنيفها بشكل خاطئ، ولهذا السبب تظهر في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، يقيس مقياس FPR النسبة المئوية للرسائل الإلكترونية المشروعة التي تم تصنيفها بشكل غير صحيح على أنّها رسائل غير مرغوب فيها، أو معدل الإنذارات الخاطئة للنموذج.
سيتضمّن النموذج المثالي صفر نتائج إيجابية خاطئة، وبالتالي سيكون معدّل النتائج الإيجابية الخاطئة 0.0، أي أنّ معدّل الإنذارات الخاطئة سيكون 0%.
في مجموعة بيانات غير متوازنة يكون فيها عدد القيم السالبة الفعلية منخفضًا جدًا، أي من مثال إلى مثالَين في المجمل، يكون معدّل الخطأ الموجب أقلّ فائدةً كمقياس.
الدقة
الدقة هي نسبة جميع التصنيفات الموجبة للنموذج التي تكون موجبة فعليًا. ويتم تعريفه رياضيًا على النحو التالي:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة النسبة المئوية للرسائل الإلكترونية التي تم تصنيفها كرسائل غير مرغوب فيها وكانت في الواقع رسائل غير مرغوب فيها.
لن يتضمّن النموذج المثالي الافتراضي أي نتائج إيجابية خاطئة، وبالتالي سيكون قياس دقة النموذج هو 1.0.
في مجموعة بيانات غير متوازنة يكون فيها عدد القيم الموجبة الفعلية منخفضًا جدًا، أي من مثال إلى مثالَين في المجمل، تكون الدقة أقل أهمية وأقل فائدة كمقياس.
تتحسن الدقة مع انخفاض الحالات الموجبة الخاطئة، بينما تتحسن نسبة الاسترجاع مع انخفاض الحالات السالبة الخاطئة. ولكن كما هو موضّح في القسم السابق، تؤدي زيادة حدّ التصنيف إلى تقليل عدد النتائج الموجبة الخاطئة وزيادة عدد النتائج السالبة الخاطئة، في حين يؤدي خفض الحدّ إلى حدوث تأثيرات عكسية. نتيجة لذلك، غالبًا ما تظهر الدقة والتذكر علاقة عكسية، حيث يؤدي تحسين أحدهما إلى سوء الآخر.
جرِّب ذلك بنفسك:
ماذا تعني NaN في المقاييس؟
يظهر NaN أو "ليس رقمًا" عند القسمة على 0، ويمكن أن يحدث ذلك مع أيّ من هذه المقاييس. على سبيل المثال، عندما تكون كلّ من TP وFP مساوية 0، تحتوي صيغة للدّقة على 0 في المقام، ما يؤدي إلى ظهور NaN. في بعض الحالات، يمكن أن يشير القيمة NaN إلى أداء مثالي ويمكن استبدالها بنتيجة 1.0، ولكن يمكن أن يكون مصدرها أيضًا نموذجًا غير مجدي. على سبيل المثال، لن يقدّم نموذج لا يتوقّع أبدًا نتيجة إيجابية أي نتائج إيجابية و0 نتائج خاطئة، وبالتالي سيؤدي احتساب دقته إلى القيمة NaN.
اختيار المقياس والمفاضلات
إنّ المقاييس التي تختارها لتحديد أولوياتها عند تقييم النموذج وتحديد حدّ معيّن تعتمد على التكاليف والمزايا والمخاطر المتعلّقة بالمشكلة المحدّدة. في مثال تصنيف الرسائل غير المرغوب فيها، غالبًا ما يكون من المفيد منح الأولوية لميزة "الاسترجاع"، أي رصد جميع الرسائل الإلكترونية غير المرغوب فيها، أو ميزة "الدقة"، أي محاولة التأكّد من أنّ الرسائل الإلكترونية المصنّفة كغير مرغوب فيها هي في الواقع غير مرغوب فيها، أو تحقيق التوازن بين الاثنين، وذلك فوق الحدّ الأدنى من مستوى الدقة.
المقياس | الإرشادات |
---|---|
الدقة | استخدِم هذا المقياس كمؤشر تقريبي لمدى تقدّم/تقارب عملية تدريب النموذج لمجموعات البيانات المتوازنة. بالنسبة إلى أداء النموذج، لا تستخدِم هذا المقياس إلا مع مقاييس أخرى. تجنَّب استخدامها مع مجموعات البيانات غير المتوازنة. ننصحك باستخدام مقياس آخر. |
نسبة التذكر (معدل الموجب الصحيح) |
استخدِم هذا النموذج عندما تكون الحالات السالبة الخاطئة أكثر تكلفة من الحالات الموجبة الخاطئة. |
معدل الموجب الخاطئ | استخدِم هذا النموذج عندما تكون الحالات الموجبة الخاطئة أكثر تكلفة من الحالات السالبة الخاطئة. |
الدقة | استخدِم هذا الخيار عندما يكون من المهم جدًا أن تكون التوقّعات الإيجابية دقيقة. |
(اختياري ومتقدّم) درجة F1
مقياس دقة الاختبار هو المتوسط التوافقي (أحد أنواع المتوسطات) لدقة واكتمال التوقعات الإيجابية.
من الناحية الرياضية، يتم التعبير عن ذلك من خلال:
يوازن هذا المقياس بين أهمية الدقة والتذكر، ويُفضَّل أن يكون أكثر دقة في مجموعات البيانات غير المتوازنة في الفئات. عندما تحصل كلّ من الدقة والتذكر على علامتَين مثاليتَين تبلغان 1.0، سيحصل مقياس دقة الاختبار أيضًا على علامة مثالية تبلغ 1.0. على نطاق أوسع، عندما تكون القيمة الناتجة عن الدقة والتذكر متقاربة، تكون قيمة مقياس F1 قريبة من قيمتها. عندما تكون الدقة والتذكر بعيدَين عن بعضهما، سيكون مقياس F1 مشابهًا لأي مقياس أسوأ.