वर्गीकरण: ROC और AUC

पिछले सेक्शन में, मॉडल मेट्रिक का एक सेट दिखाया गया था. इन मेट्रिक की गिनती सिंगल क्लासिफ़िकेशन थ्रेशोल्ड की वैल्यू. हालांकि, अगर आपको दुनिया भर में साथ ही, आपको अलग-अलग टूल की ज़रूरत है.

रिसीवर-ऑपरेटिंग एट्रिब्यूट कर्व (आरओसी)

आरओसी कर्व सभी थ्रेशोल्ड पर मॉडल की परफ़ॉर्मेंस को विज़ुअल तौर पर दिखाता है. नाम का लंबा वर्शन, रिसीवर के काम करने की विशेषता है, एक होल्डओवर है दूसरे विश्व युद्ध के रडार डिटेक्टर के रूप में इस्तेमाल किया गया था.

आरओसी कर्व को सही पॉज़िटिव रेट (टीपीआर) की गिनती करके निकाला जाता है और हर संभावित थ्रेशोल्ड पर फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर) के बारे में बताएं (व्यावहारिक तौर पर, चुने गए इंटरवल के हिसाब से फ़िल्टर किया जाता है). इसके बाद, एफ़पीआर के हिसाब से TPR का ग्राफ़ बनाना. एक आदर्श मॉडल, जो कुछ थ्रेशोल्ड पर 1.0 का TPR और 0.0 का FPR है, जिसका प्रतिनिधित्व किसी बिंदु से किया जाता है. (0, 1) अगर अन्य सभी थ्रेशोल्ड को नज़रअंदाज़ किया जाता है या ये बातें लागू होती हैं:

चित्र 1.  FPR (x-ऐक्सिस) के हिसाब से TPR (y-ऐक्सिस) का ग्राफ़, जो
            सटीक मॉडल की परफ़ॉर्मेंस: (0,1) से (1,1) तक की लाइन.
पहला डायग्राम. एक काल्पनिक परफ़ेक्ट मॉडल का ROC और AUC.

कर्व के दायरे में आने वाला क्षेत्रफल (AUC)

आरओसी कर्व (एयूसी) के दायरे में आने वाला एरिया इस बात की संभावना दिखाता है कि मॉडल, यदि बेतरतीब ढंग से चुना गया सकारात्मक और नकारात्मक उदाहरण दिया जाता है, तो पॉज़िटिव वैल्यू, नेगेटिव से ज़्यादा हो.

ऊपर दिए गए पूर्ण मॉडल में, लंबाई 1 के किनारों वाला एक वर्ग है, जिसमें 1.0 के कर्व (AUC) के तहत क्षेत्र. इसका मतलब है कि इस बात की 100% संभावना है कि यह मॉडल, रैंडम तरीके से चुने गए पॉज़िटिव उदाहरण को सही तरीके से रैंक करेगा. यह यादृच्छिक रूप से चुने गए नकारात्मक उदाहरण. दूसरे शब्दों में, एआई (AI) के इस्तेमाल से, नीचे दिए गए डेटा पॉइंट के हिसाब से, AUC संभावना देता है कि मॉडल यादृच्छिक रूप से चुने गए वृत्त की दाईं ओर यादृच्छिक रूप से चुने गए वर्ग, से स्वतंत्र जहां थ्रेशोल्ड को सेट किया जाता है.

बिना स्लाइडर वाली विजेट डेटा लाइन

आसान शब्दों में कहें, तो AUC के साथ स्पैम की कैटगरी तय करने वाला एल्गोरिदम का 1.0 हमेशा किसी रैंडम स्पैम ईमेल को असाइन करता है. इसमें स्पैम मैसेज होता है. हर एक कैटगरी का असल क्लासिफ़िकेशन ईमेल आपके चुने गए थ्रेशोल्ड पर निर्भर करता है.

बाइनरी क्लासिफ़ायर के लिए, एक मॉडल जो रैंडम तरीके से अनुमान लगाता है या कॉइन फ़्लिप्स में आरओसी होता है, जो (0,0) से (1,1) तक डायगनल लाइन होता है. एयूसी है 0.5, जो रैंडम तरीके से पॉज़िटिव रैंकिंग मिलने की 50% संभावना दिखाता है और टारगेटिंग से बाहर रखा गया है.

स्पैम क्लासिफ़ायर के उदाहरण में, 0.5 के AUC वाला स्पैम क्लासिफ़ायर रैंडम स्पैम ईमेल से स्पैम होने की संभावना, रैंडम स्पैम से ज़्यादा होती है आधे से ज़्यादा मामलों में सही ईमेल नहीं भेजा जा सकता.

चित्र 2.  FPR (x-ऐक्सिस) के हिसाब से TPR (y-ऐक्सिस) का ग्राफ़, जो
            किसी रैंडम 50-50 अनुमानक का प्रदर्शन: (0,0) से एक डायगनल लाइन
            (1,1) तक.
दूसरा डायग्राम. पूरी तरह से रैंडम अनुमानों के लिए ROC और AUC.

(वैकल्पिक, बेहतर) प्रिसिज़न-रीकॉल कर्व

AUC और ROC, मॉडल की तुलना करने के लिए तब अच्छे होते हैं, जब डेटासेट मोटे तौर पर क्लास के बीच संतुलन बनाना चाहिए. डेटासेट के असंतुलन होने पर, उसे सटीक तरीके से वापस लिया जाएगा कर्व (पीआरसी) और उन कर्व के नीचे के इलाके की तुलना बेहतर तरीके से की जा सकती है मॉडल की परफ़ॉर्मेंस का विज़ुअलाइज़ेशन. प्रिसिज़न-रीकॉल कर्व इससे बनाए जाते हैं सभी पॉइंट पर y-ऐक्सिस और x-ऐक्सिस पर रीकॉल का सटीक अनुमान लगाना थ्रेशोल्ड.

(0,1) से नीचे की ओर उत्तल वक्र के साथ सटीक-रीकॉल कर्व का उदाहरण
            से (1,0) तक

मॉडल और थ्रेशोल्ड चुनने के लिए AUC और ROC

AUC दो अलग-अलग मॉडल की परफ़ॉर्मेंस की तुलना करने के लिए एक कारगर पैमाना है. जब तक डेटासेट मोटे तौर पर संतुलित है. (प्रीसिज़न-रीकॉल कर्व देखें, देखें.) वह मॉडल जिसमें बड़ा क्षेत्रफल हो आम तौर पर, कर्व बेहतर होता है.

इमेज 3.a. AUC=0.65 वाले मॉडल का ROC/AUC ग्राफ़. इमेज 3.b. AUC=0.93 वाले मॉडल का ROC/AUC ग्राफ़.
तीसरी इमेज. दो काल्पनिक मॉडल का ROC और AUC. इस पर मौजूद कर्व दाईं ओर, AUC की संख्या ज़्यादा होने पर, यह दोनों मॉडल में से बेहतर को दिखाता है.

(0,1) के सबसे नज़दीक वाले ROC कर्व पर मौजूद पॉइंट, दिए गए मॉडल के लिए सबसे अच्छा परफ़ॉर्म करने वाले थ्रेशोल्ड. जैसा कि थ्रेशोल्ड, कन्फ़्यूज़न मैट्रिक्स और मेट्रिक और ट्रेडऑफ़ के विकल्प सेक्शन है, तो थ्रेशोल्ड इस बात पर निर्भर करता है कि आपके लिए कौनसा मेट्रिक सबसे अहम है इस्तेमाल का खास उदाहरण होगा. यहां दिए गए पॉइंट A, B, और C पर विचार करें डायग्राम में दिखाया गया है, जिसमें हर थ्रेशोल्ड को दिखाया गया है:

चित्र 4.  AUC=0.84 का ROC कर्व जो
            क्रम से A,B, C लेबल वाले कर्व (0, 1) के सबसे करीब का उत्तल भाग.
चौथी इमेज. लेबल किए गए तीन पॉइंट, थ्रेशोल्ड दिखाते हैं.

अगर फ़ॉल्स पॉज़िटिव (ग़लत अलार्म) बहुत ज़्यादा महंगा होता है, तो कोई ऐसा थ्रेशोल्ड चुनें जिससे कम एफ़पीआर मिले, जैसा कि पॉइंट A पर है. भले ही, TPR की सीमा कम हो कम हो गया है. इसके उलट, अगर फ़ॉल्स पॉज़िटिव सस्ते और फ़ॉल्स नेगेटिव हैं (मिस्ड ट्रू पॉज़िटिव) बहुत महंगा पड़ता है, यानी पॉइंट C का थ्रेशोल्ड, जो टीपीआर को बढ़ाता है, लेकिन बेहतर बनाया जा सकता है. अगर लागत करीब-करीब बराबर है, तो पॉइंट B TPR और FPR के बीच सबसे बेहतर संतुलन बना सकता है.

यहां उस डेटा के लिए ROC कर्व दिया गया है जिसे हमने पहले देखा है:

व्यायाम: अपनी समझ की जांच करें

व्यावहारिक तौर पर, चित्र (इमेज) की तुलना में आरओसी कर्व बहुत कम नियमित होते हैं ऊपर दी गई जानकारी. इनमें से कौनसे मॉडल को उनके आरओसी कर्व से दिखाया जाता है और AUC की परफ़ॉर्मेंस सबसे अच्छी है?
ROC कर्व, जो ऊपर की ओर जाता है और फिर (0,0) से दाईं ओर बढ़ता है
           (1,1). कर्व का AUC 0.77 है.
इस मॉडल की AUC सबसे ज़्यादा है, जो परफ़ॉर्मेंस.
आरओसी कर्व, जो (0,0) से लेकर (0,0) तक करीब एक सीधी रेखा है
           (1,1), कुछ ज़िग-ज़ैग के साथ. कर्व का AUC 0.508 है.
ROC कर्व जो (0,0) से (1,1) तक ऊपर और दाईं ओर ज़िग-ज़ैग करता है.
           कर्व का AUC 0.623 है.
ROC कर्व जो दाईं ओर और फिर ऊपर की ओर चाप होता है
                (0,0) से (1,1) तक. कर्व का AUC 0.31 है.
इनमें से कौनसे मॉडल की परफ़ॉर्मेंस, संभावना से खराब है?
ROC कर्व जो दाईं ओर और फिर ऊपर की ओर चाप होता है
                (0,0) से (1,1) तक. कर्व का AUC 0.32 है.
इस मॉडल का AUC 0.5 से कम है, जिसका मतलब है कि यह खराब परफ़ॉर्म करता है संभावना से ज़्यादा.
आरओसी कर्व, जो यहां से करीब एक सीधी रेखा है
                     (0,0) से (1,1) तक, कुछ ज़िग-ज़ैग के साथ. कर्व में
                     0.508 का एयूसी.
यह मॉडल संयोग से थोड़ा बेहतर प्रदर्शन करता है.
आरओसी कर्व, जो यहां से एक डायगनल सीधी रेखा है
                (0,0) से (1,1) तक. कर्व का AUC 0.5 है.
इस मॉडल की परफ़ॉर्मेंस एक जैसी है.
आरओसी कर्व जो दो लंबवत रेखाओं से बना होता है: ऊर्ध्वाधर
      (0,0) से (0,1) तक की लाइन और (0,1) से (1,1) तक एक हॉरिज़ॉन्टल लाइन.
      इस कर्व का AUC 1.0 है.
यह एक काल्पनिक परफ़ेक्ट क्लासिफ़ायर है.

(वैकल्पिक, बेहतर) बोनस सवाल

इनमें से किस तरह के बदलाव ज़्यादा गंभीर हो सकते हैं क्या मॉडल की परफ़ॉर्मेंस बेहतर की जा सकती है?
अनुमानों को उलटा दें, ताकि 1 का अनुमान बन जाए 0, और 0 का अनुमान, 1 बन जाता है.
अगर बाइनरी क्लासिफ़ायर भरोसे के साथ, बार-बार गलत क्लास का इस्तेमाल करने की वजह से, क्लास का लेबल स्विच करने पर अपने अनुमान को अवसर से बेहतर बना देता है. मॉडल को फिर से ट्रेनिंग दें.
इसे हमेशा नेगेटिव क्लास का अनुमान लगाने दें.
इसकी वजह से, हो सकता है कि परफ़ॉर्मेंस बेहतर होने की संभावना न के बराबर हो. साथ ही, इस तरह से सटीक होने वाले सेक्शन में बताया गया है, यह उपयोगी मॉडल नहीं है.
इसे हमेशा सकारात्मक वर्ग का अनुमान लगाने के लिए कहें.
इसकी वजह से, हो सकता है कि परफ़ॉर्मेंस बेहतर होने की संभावना न के बराबर हो. साथ ही, इस तरह से सटीक होने वाले सेक्शन में बताया गया है, यह उपयोगी मॉडल नहीं है.

कल्पना कीजिए कि कुछ स्पैम को ईमेल भेजने के लिए किया जा सकता है. आपने ने इस स्थिति के लिए एक स्पैम क्लासिफ़ायर को ट्रेनिंग दी है जहां पॉज़िटिव क्लास स्पैम और नेगेटिव क्लास, स्पैम नहीं होती. इनमें से कौनसे पॉइंट के लिए ROC कर्व पर आधारित है?

AUC=0.84 का ROC कर्व, जो के उत्तल हिस्से पर तीन बिंदु दिखा रहा है
       (0,1) के करीब का कर्व. पॉइंट A तकरीबन
       (0.25, 0.75). पॉइंट B करीब (0.30, 0.90) पर है और यह है
       एफ़पीआर को कम करते समय टीपीआर को बढ़ाने वाला पॉइंट होता है. पॉइंट
       C, करीब (0.4, 0.95) पर है.
पॉइंट A
इस्तेमाल के इस उदाहरण में, बेहतर होगा कि फ़ॉल्स पॉज़िटिव को कम किया जाए, भले ही ट्रू पॉज़िटिव कम हों.
पॉइंट B
इस थ्रेशोल्ड में सही और गलत, दोनों तरह की पॉज़िटिव वैल्यू को बैलेंस किया जाता है.
पॉइंट C
यह थ्रेशोल्ड ट्रू पॉज़िटिव को बड़ा करता है (ज़्यादा स्पैम फ़्लैग करता है) पर ज़्यादा फ़ॉल्स पॉज़िटिव का शुल्क लगा देता है (ज़्यादा सही ईमेल को स्पैम).
अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है