मॉडल का आकलन करने के लिए, कई काम की मेट्रिक का हिसाब लगाने के लिए, सच्चे और गलत पॉज़िटिव और नेगेटिव का इस्तेमाल किया जाता है. कौनसी मेट्रिक सबसे ज़्यादा काम की हैं, यह इस बात पर निर्भर करता है कि मॉडल और टास्क किस तरह का है, अलग-अलग कैटगरी में गलत तरीके से डालने की लागत क्या है, और डेटासेट बैलेंस है या नहीं.
इस सेक्शन में मौजूद सभी मेट्रिक की गिनती, एक तय थ्रेशोल्ड के आधार पर की जाती है. साथ ही, थ्रेशोल्ड में बदलाव होने पर, इन मेट्रिक में भी बदलाव होता है. अक्सर, उपयोगकर्ता इनमें से किसी एक मेट्रिक को ऑप्टिमाइज़ करने के लिए, थ्रेशोल्ड को ट्यून करता है.
सटीक जानकारी
सटीक जानकारी, सही कैटगरी के सभी आइटम का अनुपात है. भले ही, वे पॉज़िटिव हों या नेगेटिव. इसे गणितीय तौर पर इस तरह परिभाषित किया गया है:
स्पैम कैटगरी के उदाहरण में, सटीक जानकारी से पता चलता है कि सभी ईमेल में से कितने ईमेल की कैटगरी सही तरीके से तय की गई है.
एक बेहतरीन मॉडल में शून्य फ़ॉल्स पॉज़िटिव और शून्य फ़ॉल्स नेगेटिव होंगे और इसलिए, 1.0 या 100% सटीक होगा.
इसमें कन्फ़्यूज़न मैट्रिक्स (टीपी, एफ़पी, टीएन, एफ़एन) के सभी चार नतीजे शामिल हैं. इसलिए, दोनों क्लास में एक जैसे उदाहरणों की संख्या के साथ एक संतुलित डेटासेट होने की वजह से, मॉडल की क्वालिटी को ज़्यादा सटीक तरीके से मापा जा सकता है. इस वजह से, यह अक्सर सामान्य या अनजान मॉडल के लिए इस्तेमाल की जाने वाली डिफ़ॉल्ट आकलन मेट्रिक होती है जिसमें सामान्य या ऐसे टास्क होते हैं जिनके बारे में नहीं बताया गया है.
हालांकि, जब डेटासेट असंतुलित हो या एक तरह की गड़बड़ी (एफ़एन या एफ़पी) दूसरी गड़बड़ी से ज़्यादा महंगी हो, तो किसी दूसरी मेट्रिक के लिए ऑप्टिमाइज़ करना बेहतर होता है. ऐसा असल दुनिया के ज़्यादातर ऐप्लिकेशन में होता है.
बहुत असंतुलित डेटासेट के लिए, जहां एक क्लास बहुत कम दिखती है, जैसे कि 1% समय, तो 100% समय के लिए नेगेटिव का अनुमान लगाने वाले मॉडल को सटीक होने के लिए 99% स्कोर मिलेगा. हालांकि, यह मॉडल काम का नहीं होगा.
रीकॉल या ट्रू पॉज़िटिव रेट
ट्रू पॉज़िटिव रेट (टीपीआर) या असल पॉज़िटिव डेटा का अनुपात, जिसे सही तरीके से पॉज़िटिव के तौर पर कैटगरी में रखा गया है. इसे रीकॉल भी कहा जाता है.
रिकॉर्ड के हिसाब से याद रखने की क्षमता को गणितीय तौर पर इस तरह से परिभाषित किया गया है:
गलत नेगेटिव, असल में ऐसे पॉज़िटिव होते हैं जिन्हें गलत तरीके से नेगेटिव के तौर पर मार्क किया गया है. इसलिए, ये भाजक में दिखते हैं. स्पैम कैटगरी के उदाहरण में, रिकॉल का मतलब है कि स्पैम ईमेल में से कितने ईमेल को सही तरीके से स्पैम के तौर पर मार्क किया गया. इसलिए, रिकॉल को स्पैम का पता चलने की संभावना भी कहा जाता है: इससे इस सवाल का जवाब मिलता है कि "इस मॉडल से स्पैम ईमेल का पता किस हद तक चलता है?"
किसी काल्पनिक परफ़ेक्ट मॉडल में शून्य फ़ॉल्स नेगेटिव होगा और इसलिए 1.0 का रीकॉल (TPR) होगा, जिसका मतलब है कि 100% डिटेक्शन रेट.
ऐसे असंतुलित डेटासेट में जहां वास्तविक पॉज़िटिव की संख्या बहुत, बहुत कम होती है, मान लें कि कुल 1-2 उदाहरण, एक मेट्रिक के रूप में कम काम का और कम उपयोगी होता है.
फ़ॉल्स पॉज़िटिव रेट
फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर), उन सभी असल नेगेटिव इवेंट का अनुपात होता है जिन्हें गलत तरीके से पॉज़िटिव के तौर पर मार्क किया गया था. इसे गलत चेतावनी की संभावना भी कहा जाता है. इसे गणितीय तौर पर इस तरह परिभाषित किया गया है:
फ़ॉल्स पॉज़िटिव, असल नेगेटिव होते हैं जिन्हें गलत कैटगरी में रखा गया है. इसलिए, ये डाउनमिनर में दिखते हैं. स्पैम की कैटगरी तय करने के उदाहरण में, FPR उन सही ईमेल के हिस्से का आकलन करता है जिन्हें गलती से स्पैम की कैटगरी में रखा गया था. इसके अलावा, एफ़पीआर, गलत अलार्म के मॉडल रेट का आकलन करता है.
किसी सही मॉडल में, गलत तरीके से पॉज़िटिव नतीजे मिलने की दर शून्य होती है. इसलिए, इसकी एफ़पीआर 0.0 होती है. इसका मतलब है कि गलत चेतावनी मिलने की दर 0% होती है.
असली नेगेटिव की संख्या बहुत कम होने पर, जैसे कि कुल एक या दो उदाहरण, तो असली नेगेटिव के लिए फ़ॉल्स पॉज़िटिव रेट (एफ़पीआर) का मतलब कम होता है और यह मेट्रिक के तौर पर कम काम का होता है.
स्पष्टता
प्रिसिज़न, मॉडल की उन सभी पॉज़िटिव कैटगरी का अनुपात होता है जो असल में पॉज़िटिव होती हैं. इसे गणितीय तौर पर इस तरह परिभाषित किया गया है:
स्पैम की कैटगरी तय करने के उदाहरण में, स्पैम के तौर पर मार्क किए गए ईमेल के हिस्से को सटीक तरीके से मेज़र किया जाता है.
किसी आदर्श मॉडल में, फ़ॉल्स पॉज़िटिव की संख्या शून्य होती है. इसलिए, इसकी सटीकता 1.0 होती है.
असंतुलित डेटासेट में, जहां असल पॉज़िटिव की संख्या बहुत कम होती है, जैसे कि कुल 1-2 उदाहरण, तो सटीक होने की मेट्रिक का मतलब कम होता है और यह कम काम की होती है.
सटीक नतीजे पाने के लिए, गलत सकारात्मक नतीजों की संख्या कम होनी चाहिए. साथ ही, गलत नेगेटिव नतीजों की संख्या कम होने पर, रीकॉल बेहतर होता है. हालांकि, जैसा कि पिछले सेक्शन में दिखाया गया है, कैटगरी तय करने के थ्रेशोल्ड को बढ़ाने से फ़ॉल्स पॉज़िटिव की संख्या कम हो जाती है और फ़ॉल्स नेगेटिव की संख्या बढ़ जाती है. वहीं, थ्रेशोल्ड को कम करने पर नतीजे पर बुरा असर पड़ता है. इस वजह से, सटीक जानकारी और चीज़ें याद रखने से जुड़े मामले अक्सर उलटे दिखते हैं. हालांकि, दोनों में से एक को बेहतर बनाने से दूसरा रिश्ता और भी खराब हो जाता है.
इसे खुद आज़माएं:
मेट्रिक में NaN का क्या मतलब है?
0 से भाग देने पर, NaN या "यह कोई संख्या नहीं है" दिखता है. ऐसा इनमें से किसी भी मेट्रिक के साथ हो सकता है. उदाहरण के लिए, जब TP और FP, दोनों 0 हों, तो सटीक नतीजे के फ़ॉर्मूले में, हर numerator में 0 होता है. इससे NaN मिलता है. कुछ मामलों में, NaN का मतलब बेहतरीन परफ़ॉर्मेंस से हो सकता है और इसे 1.0 के स्कोर से बदला जा सकता है. हालांकि, यह किसी ऐसे मॉडल से भी मिल सकता है जो काम का नहीं है. उदाहरण के लिए, किसी ऐसे मॉडल में 0 TP और 0 FP होंगे जो कभी भी पॉज़िटिव का अनुमान नहीं लगाता. इसलिए, इसके सटीक होने का हिसाब लगाने पर NaN दिखेगा.
मेट्रिक और समझौते की शर्तें चुनना
मॉडल का आकलन करते समय और थ्रेशोल्ड चुनते समय, जिन मेट्रिक को प्राथमिकता दी जाती है वे समस्या की कीमत, फ़ायदों, और जोखिमों पर निर्भर करते हैं. स्पैम कैटगरी के उदाहरण में, अक्सर यह तय करना ज़रूरी होता है कि ईमेल को वापस पाने या सभी स्पैम ईमेल को हटाने को प्राथमिकता दी जाए या सटीक तरीके से यह पक्का करने को कि स्पैम के तौर पर लेबल किए गए ईमेल असल में स्पैम हैं या इन दोनों में से किसी एक को प्राथमिकता दी जाए. हालांकि, यह ज़रूरी है कि इनमें से किसी भी विकल्प को चुनने से पहले, यह पक्का कर लिया जाए कि यह सटीक है.
मेट्रिक | दिशा-निर्देश |
---|---|
सटीक जानकारी | बैलेंस किए गए डेटासेट के लिए, मॉडल की ट्रेनिंग की प्रोग्रेस/कंसीवर्जेंस के अनुमानित इंडिकेटर के तौर पर इस्तेमाल करें. मॉडल की परफ़ॉर्मेंस के लिए, इसका इस्तेमाल सिर्फ़ अन्य मेट्रिक के साथ करें. असंतुलित डेटासेट के लिए इस्तेमाल न करें. किसी दूसरी मेट्रिक का इस्तेमाल करें. |
रीकॉल (ट्रू पॉज़िटिव रेट) |
इसका इस्तेमाल तब करें, जब गलत नतीजे मिलने की वजह से होने वाली लागत, गलत नतीजे न मिलने की वजह से होने वाली लागत से ज़्यादा हो. |
फ़ॉल्स पॉज़िटिव रेट | इसका इस्तेमाल तब करें, जब गलत तरीके से सही के तौर पर पहचाने जाने की लागत, गलत तरीके से गलत के तौर पर पहचाने जाने की लागत से ज़्यादा हो. |
स्पष्टता | इसका इस्तेमाल तब करें, जब पॉज़िटिव अनुमानों का सटीक होना बहुत ज़रूरी हो. |
(ज़रूरी नहीं, ऐडवांस) F1 स्कोर
F1 स्कोर, प्रिसिज़न और रीकॉल का हार्मोनिक मीन (एक तरह का औसत) होता है.
गणित के नज़रिए से, यह इस तरीके से दिया गया है:
यह मेट्रिक, सटीक और रीकॉल की अहमियत को संतुलित करती है. साथ ही, क्लास-असंतुलित डेटासेट के लिए सटीक होने की तुलना में इसे ज़्यादा सटीक बनाती है. जब सटीकता और रीकॉल, दोनों का स्कोर 1.0 हो, तो एफ़1 का स्कोर भी 1.0 होगा. आम तौर पर, जब सटीकता और रीकॉल की वैल्यू करीब-करीब होती है, तो एफ़1 की वैल्यू भी उनके करीब होती है. जब सटीकता और रीकॉल की वैल्यू काफ़ी अलग-अलग होती हैं, तो एफ़1 वैल्यू, उस मेट्रिक के जैसी होगी जो खराब है.