التصنيف: ROC وAUC

قدّم القسم السابق مجموعة من مقاييس النماذج، وتم حسابها جميعها قيمة الحد الأدنى للتصنيف الفردي. ولكن إذا أردت تقييم لجودة نموذجك عبر جميع الحدود الممكنة، يتعين عليك استخدام أدوات مختلفة.

منحنى خاصية تشغيل جهاز الاستقبال (ROC)

منحنى RoC هو التمثيل المرئي لأداء النموذج على مستوى جميع الحدود. إن النسخة الطويلة من الاسم، وخصائص تشغيل جهاز الاستقبال، هي عبارة عن تعليق من اكتشاف رادار الحرب العالمية الثانية.

يتم رسم منحنى خاصية تشغيل جهاز الاستقبال بحساب معدل الموجب الصحيح (TPR) ومعدّل الموجب الخاطئ (FPR) عند كل حدّ ممكن (على أرض الواقع، الفواصل الزمنية المحددة)، ثم رسم TPR برسم بياني على معدل فائدة الفائدة المئوية. النموذج المثالي، والذي يكون عند حدّ ما معدّل TPR يبلغ 1.0 ومعدّل فائدة FPR يبلغ 0.0، أن يتم تمثيلها إما بنقطة (0 أو 1) في حال تجاهل جميع الحدود الأخرى أو من خلال اتّباع الخطوات التالية:

الشكل 1. رسم بياني لـ TPR (المحور y) مقابل معدل الفائدة المئوية (FPR) (المحور x)
            أداء نموذج مثالي: خط من (0,1) إلى (1,1).
الشكل 1. ROC وAUC لنموذج افتراضي مثالي.

المساحة تحت المنحنى (AUC)

المنطقة تحت منحنى ROC (AUC) احتمالية أن النموذج، إذا تم إعطاؤه مثالاً إيجابيًا وسلبيًا تم اختياره عشوائيًا، فسيصنف موجب أعلى من السالب.

النموذج المثالي أعلاه، الذي يحتوي على مربع بجانبيه طول 1، له المساحة تحت المنحنى بقيمة 1.0 (AUC). هذا يعني أن هناك احتمال 100٪ أن سيُحدّد النموذج بشكل صحيح مثالاً إيجابيًا يتم اختياره عشوائيًا ليكون أعلى من مثال سلبي يتم اختياره عشوائيًا. بعبارة أخرى، بالنظر إلى انتشار نقاط البيانات أدناه، تعطي AUC احتمالية أن يضع النموذج مربع يتم اختياره عشوائيًا على يمين دائرة مختارة عشوائيًا، مستقلاً عن حيث يتم تعيين الحد.

خط بيانات الأداة بدون شريط تمرير

بتعبير أكثر واقعية، يتم تصنيف مصنف الرسائل غير المرغوب فيها باستخدام AUC تُعين القيمة 1.0 دائمًا رسالة إلكترونية عشوائية غير مرغوب فيها غير مرغوب فيه من رسالة بريد إلكتروني مشروعة عشوائية. إن التصنيف الفعلي لكل وبريدك الإلكتروني على الحد الذي تختاره.

بالنسبة إلى المصنِّف الثنائي، أي نموذج ينتج عنه تمامًا التخمينات أو التخمينات العشوائية تتضمن تقلبات العملة ذات ROC خط قطري من (0,0) إلى (1,1). قيمة AUC هي 0.5، وهو يمثل احتمالية 50% للحصول على ترتيب صحيح للإيجابيات العشوائية مثال سلبي.

في مثال مُصنِّف الرسائل غير المرغوب فيها، يُعين مُصنِّف الرسائل غير المرغوب فيها الذي يكون قيمته AUC 0.5 تكون احتمالية أن تكون رسالة بريد إلكتروني عشوائية غير مرغوب فيها أعلى من احتمال أن تكون رسالة غير مرغوب فيها البريد الإلكتروني المشروع نصف الوقت فقط.

الشكل 2.  رسم بياني لـ TPR (المحور y) مقابل معدل الفائدة المئوية (FPR) (المحور x)
            أداء تخمين عشوائي من 50 إلى 50: خط قطري من (0,0)
            إلى (1،1).
الشكل 2. تخمينات عشوائية تمامًا هي ROC وAUC.

(اختياري، متقدم) منحنى التذكر الدقيق

وتعمل كل من AUC وROC بشكل جيد لمقارنة النماذج عندما تكون مجموعة البيانات متوازن بين الفئات. عندما تكون مجموعة البيانات غير متوازنة، تذكر الدقة المنحنيات (PRC) والمساحة أسفل هذه المنحنيات قد توفر مقارنة أفضل والتصور لأداء النموذج. يتم إنشاء منحنيات تذكُّر الدقة بواسطة رسم الدقة على المحور ص والتذكر على المحور السيني عبر والمعايير.

مثال على منحنى استدعاء الدقة مع منحنى محدّب للأسفل من (0,1)
            إلى (1,0)

AUC وROC لاختيار النموذج والحدّ الأدنى

وتُعدّ AUC مقياسًا مفيدًا لمقارنة أداء نموذجين مختلفين، طالما أن مجموعة البيانات متوازنة تقريبًا. (اطّلع على منحنى تذكُّر الدقة، أعلاه، لمجموعات البيانات غير المتوازنة). النموذج ذو المساحة الأكبر أسفل يكون المنحنى بشكل عام هو الأفضل

الشكل 3.أ. الرسم البياني لـ ROC/AUC لنموذج تبلغ قيمته 0.65 AUC. الشكل 3.ب. الرسم البياني لـ ROC/AUC لنموذج تبلغ قيمته 0.93 AUC.
الشكل 3. ROC وAUC لنموذجين افتراضيين. المنحنى على الأيمن، مع مقياس AUC أكبر، يمثل أفضل النموذجين.

وتمثل النقاط في منحنى خاصية تشغيل جهاز الاستقبال الأقرب إلى (0,1) نطاقًا من الحدود الدنيا الأفضل أداءً للنموذج المحدد. كما تمت مناقشته في الحدود الدنيا، مصفوفة نجاح التوقّعات أو اختيار المقاييس والعوامل المفاضلة المستخدم، يعتمد الحد الذي تختاره على المقياس الأكثر أهمية في حالة الاستخدام المحددة. ضع في الاعتبار النقاط A وB وC في ما يلي كل منها يمثل نقطة واحدة:

الشكل 4.  منحنى ROC بقيمة AUC=0.84 يوضح ثلاث نقاط
            الجزء المحدب من المنحنى الأقرب إلى (0,1) التصنيف أ، ب، ج بالترتيب.
الشكل 4. ثلاث نقاط مصنَّفة تمثّل الحدود.

إذا كانت النتائج الموجبة الخاطئة (المنبّهات الخاطئة) مكلفة للغاية، قد يكون من المنطقي اختر حدًا أدنى لمعدل الفائدة السنوية (FPR)، كالمعدل عند النقطة أ، حتى إذا كان مقياس TPR انخفاض. وبالعكس، إذا كانت النتائج الموجبة الخاطئة رخيصة وسالبة كاذبة (الإيجابيات الحقيقية المفقودة) مكلف للغاية، وهو الحد للنقطة ج، وزيادة TPR، فقد يكون من الأفضل إذا كانت التكاليف متكافئة تقريبًا، فإن النقطة ب لتحقيق أفضل توازن بين معدل الفائدة المئوية من TPR وFPR.

في ما يلي منحنى خاصية تشغيل جهاز الاستقبال للبيانات التي رأيناها من قبل:

تمرين: التحقق من فهمك

من الناحية العملية، تكون منحنيات ROC أقل انتظامًا بكثير من الرسوم التوضيحية المذكورة أعلاه. أي من النماذج التالية، ممثلة بمنحنى خاصية تشغيل جهاز الاستقبال الخاص بها وAUC، التي تقدّم أفضل أداء؟
منحنى خاصية تشغيل جهاز الاستقبال ينحني لأعلى ثم لليمين من (0,0) إلى
           (1،1). تبلغ قيمة AUC للمنحنى 0.77.
هذا النموذج يحتوى على أعلى نسبة AUC، والتي تتوافق مع أفضل أدائه.
منحنى خاصية تشغيل جهاز الاستقبال يساوي خط مستقيم تقريبًا من (0,0) إلى
           (1,1)، مع بعض الطرق المتعرجة. تبلغ قيمة AUC للمنحنى 0.508.
منحنى خاصية تشغيل جهاز الاستقبال بشكل متعرّج لأعلى ولليمين من (0,0) إلى (1,1).
           تبلغ قيمة AUC للمنحنى 0.623.
منحنى خاصية تشغيل جهاز الاستقبال الذي ينحني لليمين ثم لأعلى من
                من (0,0) إلى (1,1). تبلغ قيمة AUC للمنحنى 0.31.
أي من النماذج التالية يعمل بشكل أسوأ من الصدفة؟
منحنى خاصية تشغيل جهاز الاستقبال الذي ينحني لليمين ثم لأعلى من
                من (0,0) إلى (1,1). تبلغ قيمة AUC للمنحنى 0.32.
حيث إن قيمة AUC لهذا النموذج تقل عن 0.5، مما يعني أن أدائه أسوأ من الصدفة.
منحنى ROC الذي يقع تقريبًا في خط مستقيم من
                     (0,0) إلى (1,1)، مع بعض الطرق المتعرجة. يحتوي المنحنى على
                     بقيمة AUC بقيمة 0.508.
يحقّق هذا النموذج أداءً أفضل قليلاً من الصدفة.
منحنى ROC خط مستقيم قطري من
                من (0,0) إلى (1,1). تبلغ قيمة AUC للمنحنى 0.5.
يؤدي هذا النموذج نفس مستوى أداء الصدفة.
منحنى خاصية تشغيل جهاز الاستقبال يتكون من خطين عموديين: خط رأسي
      خط من (0,0) إلى (0,1) وخط أفقي من (0,1) إلى (1,1).
      وتبلغ قيمة AUC لهذا المنحنى 1.0.
وهذا هو المصنف الافتراضي المثالي.

(اختياري، متقدم) سؤال إضافي

أي من التغييرات التالية يمكن إجراؤها للأسوأ من الفرصة في السؤال السابق لجعله يؤدي أداءً أفضل من الصدفة؟
عليك عكس التوقّعات، كي تصبح التوقّعات بشأن القيمة 1. 0، وتصبح توقّعات القيمة 0 1.
إذا وضع المُصنِّف الثنائي أمثلة بشكل موثوق في الفئات الخاطئة أكثر من الصدفة، يؤدي تغيير تصنيف الفصل على الفور في جعل تنبؤاته أفضل من المصادفة دون الحاجة إلى إعادة تدريب النموذج.
اجعلها تتنبأ دائمًا بالفئة السالبة.
قد يؤدي ذلك إلى تحسين الأداء أو عدم تحسينه بشكل أفضل من الاحتمال. وأيضًا، بصفتك التي تمت مناقشتها في قسم الدقة، فهذا ليس نموذجًا مفيدًا.
اجعلها تتنبأ دائمًا بالفئة الموجبة.
قد يؤدي ذلك إلى تحسين الأداء أو عدم تحسينه بشكل أفضل من الاحتمال. وأيضًا، بصفتك التي تمت مناقشتها في قسم الدقة، فهذا ليس نموذجًا مفيدًا.

تخيل موقفًا من الأفضل فيه السماح لبعض المحتوى غير المرغوب فيه بالوصول إلى من إرسال بريد إلكتروني بالغ الأهمية إلى مجلد الرسائل غير المرغوب فيها. لقد بتدريب مصنف الرسائل غير المرغوب فيها على هذا الوضع حيث تكون الفئة الموجبة غير مرغوب فيه والفئة السلبية ليست من الرسائل غير المرغوب فيها. أي من النقاط التالية في منحنى خاصية تشغيل جهاز الاستقبال في المُصنِّف؟

منحنى ROC بقيمة AUC=0.84 يوضح ثلاث نقاط على الجزء المحدب
       المنحنى الأقرب إلى (0,1). تبعد النقطة أ تقريبًا
       (0.25، 0.75). عند النقطة ب تقريبًا (0.30، 0.90)،
       والنقطة التي تزيد من معدل البث العام TPR مع خفض معدل نقل البيانات الافتراضي (FPR). نقطة
       C عند حوالي (0.4، 0.95).
النقطة أ
وفي حالة الاستخدام هذه، من الأفضل تقليل النتائج الموجبة الخاطئة، حتى لو انخفضت الإيجابيات الحقيقية أيضًا.
النقطة ب
يوازن هذا الحد بين النتائج الموجبة الصائبة والخاطئة.
النقطة "ج"
يعمل هذا الحدّ على زيادة النتائج الإيجابية الصحيحة (الإبلاغ عن عدد أكبر من المحتوى غير المرغوب فيه). بتكلفة أكثر من النتائج الإيجابية الزائفة (تم الإبلاغ عن المزيد من رسائل البريد الإلكتروني الشرعية محتوى غير مرغوب فيه).