تُستخدم النتائج الموجبة والسالبة الصحيحة والخاطئة لحساب عدة مقاييس مفيدة لتقييم النماذج. تعتمد مقاييس التقييم الأكثر أهمية على النموذج المحدّد والمهمّة المحدّدة، وتكلفة الأخطاء المختلفة في التصنيف، وما إذا كانت مجموعة البيانات متوازنة أم غير متوازنة.
يتم احتساب جميع المقاييس في هذا القسم عند حدّ واحد ثابت، ويتم تغييرها عند تغيّر هذا الحدّ. في كثير من الأحيان، يعدّل المستخدِم الحدّ الأدنى لتحسين أحد هذه المقاييس.
الدقة
الدقة هي نسبة جميع التصنيفات الصحيحة، سواء كانت إيجابية أو سلبية. ويتم تعريفه mathemathically على النحو التالي:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة النسبة المئوية لكل رسائل البريد الإلكتروني التي تم تصنيفها بشكل صحيح.
سيتضمّن النموذج المثالي صفر حالات إيجابية خاطئة وصفر حالات سلبية خاطئة، وبالتالي دقة تبلغ 1.0 أو %100.
ولأنّها تدمج جميع النتائج الأربعة من مصفوفة الالتباس (TP وFP وTN وFN)، في حال توفّر مجموعة بيانات متوازنة، مع أعداد مماثلة من الأمثلة في كلا الفئتَين، يمكن أن تُستخدم الدقة كقياس دقيق لجودة النموذج. لهذا السبب، غالبًا ما يكون مقياس التقييم التلقائي المستخدَم للنماذج العامة أو غير المحدّدة التي تُنفّذ مهام عامة أو غير محدّدة.
ومع ذلك، عندما تكون مجموعة البيانات غير متوازنة، أو عندما يكون نوع واحد من الأخطاء (خطأ النوع الثاني أو خطأ النوع الأول) أكثر تكلفة من الآخر، وهو ما هو عليه الحال في معظم التطبيقات في العالم الواقعي، من الأفضل تحسين أحد المقاييس الأخرى بدلاً من ذلك.
بالنسبة إلى مجموعات البيانات غير المتوازنة بشكل كبير، حيث تظهر فئة واحدة نادرًا جدًا، لنفترض أنه 1% من الوقت، فإن النموذج الذي يتوقع سالبًا بنسبة 100% من الوقت سيحصل على 99% في الدقة، على الرغم من كونه عديم الفائدة.
نسبة التذكر أو نسبة الموجب الصحيح
يُعرف معدل الموجب الصحيح (TPR)، أو نسبة جميع النتائج الموجبة الفعلية التي تم تصنيفها بشكل صحيح على أنّها موجبة، أيضًا باسم التذكر.
يتم تعريف التذكر رياضيًا على النحو التالي:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
النتائج السالبة الخاطئة هي نتائج موجبة فعلية تم تصنيفها بشكل خاطئ على أنها سالبة، وهذا هو سبب ظهورها في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، يقيس الاستدعاء الجزء من الرسائل الإلكترونية غير المرغوب فيها التي تم تصنيفها بشكل صحيح على أنها غير مرغوب فيها. لهذا السبب، يُعرف نموذج الاسترجاع أيضًا باسم احتمالية رصد الرسائل غير المرغوب فيها: فهو يجيب عن السؤال "ما هو الجزء من الرسائل الإلكترونية غير المرغوب فيها الذي يرصده هذا النموذج؟"
لن يتضمّن النموذج المثالي الافتراضي أي نتائج خاطئة سلبية، وبالتالي سيكون لديه قياس تذكر (TPR) يساوي 1.0، أي نسبة رصد تبلغ %100.
في مجموعة بيانات غير متوازنة يكون فيها عدد الإيجابيات الفعلية منخفضًا جدًا، أي من مثال إلى مثالَين في المجمل، يكون قياس الاسترجاع أقلّ فائدةً كمقياس.
معدل الموجب الخاطئ
معدل الموجب الخاطئ (FPR) هو نسبة جميع القيم السالبة الفعلية التي تم تصنيفها بشكل غير صحيح على أنّها موجبة، ويُعرف أيضًا باسم احتمالية الإنذار الخاطئ. ويتم تعريفه mathemathically على النحو التالي:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
الحالات الموجبة الخاطئة هي حالات سلبية فعلية تم تصنيفها بشكل خاطئ، ولهذا السبب تظهر في المقام. في مثال تصنيف الرسائل غير المرغوب فيها، يقيس مقياس FPR النسبة المئوية للرسائل الإلكترونية المشروعة التي تم تصنيفها بشكل غير صحيح على أنّها رسائل غير مرغوب فيها، أو معدل الإنذارات الخاطئة للنموذج.
النموذج المثالي سيكون له صفر موجبات خاطئة، وبالتالي معدل فائدة الفائدة 0.0، أي معدل إنذار خاطئ بنسبة 0%.
في مجموعة بيانات غير متوازنة يكون فيها عدد القيم السالبة الفعلية منخفضًا جدًا، أي من مثال إلى مثالَين في المجمل، يكون معدّل الخطأ الموجب أقلّ فائدةً كمقياس.
الدقة
الدقة هي نسبة جميع التصنيفات الموجبة للنموذج التي تكون موجبة فعليًا. ويتم تعريفه رياضيًا على النحو التالي:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
في مثال تصنيف الرسائل غير المرغوب فيها، تقيس الدقة النسبة المئوية للرسائل الإلكترونية التي تم تصنيفها كرسائل غير مرغوب فيها وكانت في الواقع رسائل غير مرغوب فيها.
لن يتضمّن النموذج المثالي الافتراضي أي نتائج إيجابية خاطئة، وبالتالي سيكون قياس دقة النموذج هو 1.0.
في مجموعة بيانات غير متوازنة يكون فيها عدد القيم الموجبة الفعلية منخفضًا جدًا، أي من مثال إلى مثالَين في المجمل، تكون الدقة أقل أهمية وأقل فائدة كمقياس.
وتتحسن الدقة مع انخفاض النتائج الموجبة الخاطئة، بينما تتحسّن الدقة عند انخفاض القيم السالبة الخاطئة. ولكن كما هو موضّح في القسم السابق، يؤدي رفع حدّ التصنيف إلى تقليل عدد النتائج الموجبة الخاطئة وزيادة عدد النتائج السالبة الخاطئة، في حين يؤدي خفض الحدّ إلى عكس ذلك. ونتيجةً لذلك، غالبًا ما تُظهر الدقة ومعدل الاسترجاع علاقة عكسية، حيث يؤدي تحسين أحدهما إلى تفاقم الآخر.
جرِّب بنفسك:
ماذا يعني NaN في المقاييس؟
يظهر NaN أو "ليس رقمًا" عند القسمة على 0، ويمكن أن يحدث ذلك مع أيّ من هذه المقاييس. على سبيل المثال، عندما تكون قيمة TP وFP هي 0، تكون معادلة الدقة هي 0 في المقام، ويكون الناتج NaN. في بعض الحالات، يمكن أن يشير القيمة NaN إلى أداء مثالي ويمكن استبدالها بنتيجة 1.0، ولكن يمكن أن يكون مصدرها أيضًا نموذجًا غير مجدي. على سبيل المثال، قد يحتوي النموذج الذي لا يتنبأ بالموجة بأي شكل من الأشكال على 0 نقاط TP و0 نقطة FP، وبالتالي، قد ينتج عن حساب دقته القيمة NaN.
اختيار المقياس والمفاضلات
تعتمد المقاييس التي تختار تحديد أولوياتها عند تقييم النموذج واختيار حد أدنى على التكاليف والمزايا والمخاطر المرتبطة بمشكلة معيّنة. في مثال تصنيف الرسائل غير المرغوب فيها، غالبًا ما يكون من المفيد منح الأولوية لميزة "الاسترجاع"، أي رصد جميع الرسائل الإلكترونية غير المرغوب فيها، أو ميزة "الدقة"، أي محاولة التأكّد من أنّ الرسائل الإلكترونية المصنّفة كغير مرغوب فيها هي في الواقع غير مرغوب فيها، أو تحقيق التوازن بين الاثنين، وذلك فوق الحدّ الأدنى من مستوى الدقة.
المقياس | الإرشادات |
---|---|
الدقة | استخدِم هذا المقياس كمؤشر تقريبي لمدى تقدّم/تقارب عملية تدريب النموذج لمجموعات البيانات المتوازنة. بالنسبة إلى أداء النموذج، لا تستخدِم هذا المقياس إلا مع مقاييس أخرى. تجنبه مع مجموعات البيانات غير المتوازنة. ننصحك باستخدام مقياس آخر. |
نسبة التذكر (معدل الموجب الصحيح) |
تُستخدَم عندما تكون القيم السالبة الخاطئة أكثر تكلفة من النتائج الموجبة الخاطئة. |
معدل الموجب الخاطئ | استخدِم هذا النموذج عندما تكون الحالات الموجبة الخاطئة أكثر تكلفة من الحالات السالبة الخاطئة. |
الدقة | استخدِم هذا الخيار عندما يكون من المهم جدًا أن تكون التوقّعات الإيجابية دقيقة. |
(اختياري ومتقدّم) درجة F1
ونتيجة دقة الاختبار هي المتوسط التوافقي (نوع من المتوسط) للدقة والتذكر.
من الناحية الرياضية، يتم التعبير عن ذلك من خلال:
يوازن هذا المقياس أهمية الدقة ومعدل الاسترجاع، وهو أفضل من الدقة في مجموعات البيانات غير المتوازنة من حيث الفئات. عندما يكون لكل من الدقة والتذكر 1.0، ستحصل أيضًا على نتيجة مثالية تبلغ 1.0. وعلى نطاق أوسع، عندما تكون الدقة والتذكر قريبتين من حيث القيمة، سيكون مقياس F1 قريبًا من قيمتهما. عندما تكون الدقة والتذكر بعيدَين عن بعضهما، سيكون مقياس F1 مشابهًا لأي مقياس أسوأ.