قدّم القسم السابق مجموعة من مقاييس النماذج، وتم حسابها جميعها قيمة الحد الأدنى للتصنيف الفردي. ولكن إذا أردت تقييم لجودة نموذجك عبر جميع الحدود الممكنة، يتعين عليك استخدام أدوات مختلفة.
منحنى خاصية تشغيل جهاز الاستقبال (ROC)
منحنى RoC هو التمثيل المرئي لأداء النموذج على مستوى جميع الحدود. إن النسخة الطويلة من الاسم، وخصائص تشغيل جهاز الاستقبال، هي عبارة عن تعليق من اكتشاف رادار الحرب العالمية الثانية.
يتم رسم منحنى خاصية تشغيل جهاز الاستقبال بحساب معدل الموجب الصحيح (TPR) ومعدّل الموجب الخاطئ (FPR) عند كل حدّ ممكن (على أرض الواقع، الفواصل الزمنية المحددة)، ثم رسم TPR برسم بياني على معدل فائدة الفائدة المئوية. النموذج المثالي، والذي يكون عند حدّ ما معدّل TPR يبلغ 1.0 ومعدّل فائدة FPR يبلغ 0.0، أن يتم تمثيلها إما بنقطة (0 أو 1) في حال تجاهل جميع الحدود الأخرى أو من خلال اتّباع الخطوات التالية:
![الشكل 1. رسم بياني لـ TPR (المحور y) مقابل معدل الفائدة المئوية (FPR) (المحور x)
أداء نموذج مثالي: خط من (0,1) إلى (1,1).](https://developers.google.cn/static/machine-learning/crash-course/images/auc_1-0.png?authuser=4&hl=ar)
المساحة تحت المنحنى (AUC)
المنطقة تحت منحنى ROC (AUC) احتمالية أن النموذج، إذا تم إعطاؤه مثالاً إيجابيًا وسلبيًا تم اختياره عشوائيًا، فسيصنف موجب أعلى من السالب.
النموذج المثالي أعلاه، الذي يحتوي على مربع بجانبيه طول 1، له المساحة تحت المنحنى بقيمة 1.0 (AUC). هذا يعني أن هناك احتمال 100٪ أن سيُحدّد النموذج بشكل صحيح مثالاً إيجابيًا يتم اختياره عشوائيًا ليكون أعلى من مثال سلبي يتم اختياره عشوائيًا. بعبارة أخرى، بالنظر إلى انتشار نقاط البيانات أدناه، تعطي AUC احتمالية أن يضع النموذج مربع يتم اختياره عشوائيًا على يمين دائرة مختارة عشوائيًا، مستقلاً عن حيث يتم تعيين الحد.
بتعبير أكثر واقعية، يتم تصنيف مصنف الرسائل غير المرغوب فيها باستخدام AUC تُعين القيمة 1.0 دائمًا رسالة إلكترونية عشوائية غير مرغوب فيها غير مرغوب فيه من رسالة بريد إلكتروني مشروعة عشوائية. إن التصنيف الفعلي لكل وبريدك الإلكتروني على الحد الذي تختاره.
بالنسبة إلى المصنِّف الثنائي، أي نموذج ينتج عنه تمامًا التخمينات أو التخمينات العشوائية تتضمن تقلبات العملة ذات ROC خط قطري من (0,0) إلى (1,1). قيمة AUC هي 0.5، وهو يمثل احتمالية 50% للحصول على ترتيب صحيح للإيجابيات العشوائية مثال سلبي.
في مثال مُصنِّف الرسائل غير المرغوب فيها، يُعين مُصنِّف الرسائل غير المرغوب فيها الذي يكون قيمته AUC 0.5 تكون احتمالية أن تكون رسالة بريد إلكتروني عشوائية غير مرغوب فيها أعلى من احتمال أن تكون رسالة غير مرغوب فيها البريد الإلكتروني المشروع نصف الوقت فقط.
![الشكل 2. رسم بياني لـ TPR (المحور y) مقابل معدل الفائدة المئوية (FPR) (المحور x)
أداء تخمين عشوائي من 50 إلى 50: خط قطري من (0,0)
إلى (1،1).](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-5.png?authuser=4&hl=ar)
(اختياري، متقدم) منحنى التذكر الدقيق
وتعمل كل من AUC وROC بشكل جيد لمقارنة النماذج عندما تكون مجموعة البيانات متوازن بين الفئات. عندما تكون مجموعة البيانات غير متوازنة، تذكر الدقة المنحنيات (PRC) والمساحة أسفل هذه المنحنيات قد توفر مقارنة أفضل والتصور لأداء النموذج. يتم إنشاء منحنيات تذكُّر الدقة بواسطة رسم الدقة على المحور ص والتذكر على المحور السيني عبر والمعايير.
![مثال على منحنى استدعاء الدقة مع منحنى محدّب للأسفل من (0,1)
إلى (1,0)](https://developers.google.cn/static/machine-learning/crash-course/images/prauc.png?authuser=4&hl=ar)
AUC وROC لاختيار النموذج والحدّ الأدنى
وتُعدّ AUC مقياسًا مفيدًا لمقارنة أداء نموذجين مختلفين، طالما أن مجموعة البيانات متوازنة تقريبًا. (اطّلع على منحنى تذكُّر الدقة، أعلاه، لمجموعات البيانات غير المتوازنة). النموذج ذو المساحة الأكبر أسفل يكون المنحنى بشكل عام هو الأفضل
![الشكل 3.أ. الرسم البياني لـ ROC/AUC لنموذج تبلغ قيمته 0.65 AUC.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-65.png?authuser=4&hl=ar)
![الشكل 3.ب. الرسم البياني لـ ROC/AUC لنموذج تبلغ قيمته 0.93 AUC.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-93.png?authuser=4&hl=ar)
وتمثل النقاط في منحنى خاصية تشغيل جهاز الاستقبال الأقرب إلى (0,1) نطاقًا من الحدود الدنيا الأفضل أداءً للنموذج المحدد. كما تمت مناقشته في الحدود الدنيا، مصفوفة نجاح التوقّعات أو اختيار المقاييس والعوامل المفاضلة المستخدم، يعتمد الحد الذي تختاره على المقياس الأكثر أهمية في حالة الاستخدام المحددة. ضع في الاعتبار النقاط A وB وC في ما يلي كل منها يمثل نقطة واحدة:
![الشكل 4. منحنى ROC بقيمة AUC=0.84 يوضح ثلاث نقاط
الجزء المحدب من المنحنى الأقرب إلى (0,1) التصنيف أ، ب، ج بالترتيب.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_abc.png?authuser=4&hl=ar)
إذا كانت النتائج الموجبة الخاطئة (المنبّهات الخاطئة) مكلفة للغاية، قد يكون من المنطقي اختر حدًا أدنى لمعدل الفائدة السنوية (FPR)، كالمعدل عند النقطة أ، حتى إذا كان مقياس TPR انخفاض. وبالعكس، إذا كانت النتائج الموجبة الخاطئة رخيصة وسالبة كاذبة (الإيجابيات الحقيقية المفقودة) مكلف للغاية، وهو الحد للنقطة ج، وزيادة TPR، فقد يكون من الأفضل إذا كانت التكاليف متكافئة تقريبًا، فإن النقطة ب لتحقيق أفضل توازن بين معدل الفائدة المئوية من TPR وFPR.
في ما يلي منحنى خاصية تشغيل جهاز الاستقبال للبيانات التي رأيناها من قبل:
تمرين: التحقق من فهمك
![منحنى خاصية تشغيل جهاز الاستقبال ينحني لأعلى ثم لليمين من (0,0) إلى
(1،1). تبلغ قيمة AUC للمنحنى 0.77.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-77.png?authuser=4&hl=ar)
![منحنى خاصية تشغيل جهاز الاستقبال يساوي خط مستقيم تقريبًا من (0,0) إلى
(1,1)، مع بعض الطرق المتعرجة. تبلغ قيمة AUC للمنحنى 0.508.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-508.png?authuser=4&hl=ar)
![منحنى خاصية تشغيل جهاز الاستقبال بشكل متعرّج لأعلى ولليمين من (0,0) إلى (1,1).
تبلغ قيمة AUC للمنحنى 0.623.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-623.png?authuser=4&hl=ar)
![منحنى خاصية تشغيل جهاز الاستقبال الذي ينحني لليمين ثم لأعلى من
من (0,0) إلى (1,1). تبلغ قيمة AUC للمنحنى 0.31.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-31.png?authuser=4&hl=ar)
![منحنى خاصية تشغيل جهاز الاستقبال الذي ينحني لليمين ثم لأعلى من
من (0,0) إلى (1,1). تبلغ قيمة AUC للمنحنى 0.32.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-32.png?authuser=4&hl=ar)
![منحنى ROC الذي يقع تقريبًا في خط مستقيم من
(0,0) إلى (1,1)، مع بعض الطرق المتعرجة. يحتوي المنحنى على
بقيمة AUC بقيمة 0.508.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-508.png?authuser=4&hl=ar)
![منحنى ROC خط مستقيم قطري من
من (0,0) إلى (1,1). تبلغ قيمة AUC للمنحنى 0.5.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_0-5.png?authuser=4&hl=ar)
![منحنى خاصية تشغيل جهاز الاستقبال يتكون من خطين عموديين: خط رأسي
خط من (0,0) إلى (0,1) وخط أفقي من (0,1) إلى (1,1).
وتبلغ قيمة AUC لهذا المنحنى 1.0.](https://developers.google.cn/static/machine-learning/crash-course/images/auc_1-0.png?authuser=4&hl=ar)
(اختياري، متقدم) سؤال إضافي
تخيل موقفًا من الأفضل فيه السماح لبعض المحتوى غير المرغوب فيه بالوصول إلى من إرسال بريد إلكتروني بالغ الأهمية إلى مجلد الرسائل غير المرغوب فيها. لقد بتدريب مصنف الرسائل غير المرغوب فيها على هذا الوضع حيث تكون الفئة الموجبة غير مرغوب فيه والفئة السلبية ليست من الرسائل غير المرغوب فيها. أي من النقاط التالية في منحنى خاصية تشغيل جهاز الاستقبال في المُصنِّف؟
![منحنى ROC بقيمة AUC=0.84 يوضح ثلاث نقاط على الجزء المحدب
المنحنى الأقرب إلى (0,1). تبعد النقطة أ تقريبًا
(0.25، 0.75). عند النقطة ب تقريبًا (0.30، 0.90)،
والنقطة التي تزيد من معدل البث العام TPR مع خفض معدل نقل البيانات الافتراضي (FPR). نقطة
C عند حوالي (0.4، 0.95).](https://developers.google.cn/static/machine-learning/crash-course/images/auc_abc.png?authuser=4&hl=ar)