थ्रेशोल्ड और भ्रम की स्थिति बताने वाली मैट्रिक्स

मान लें कि आपके पास स्पैम ईमेल का पता लगाने के लिए लॉजिस्टिक रिग्रेशन मॉडल है, जो 0 से 1 के बीच की वैल्यू का अनुमान लगाता है. इससे यह पता चलता है कि दिया गया ईमेल स्पैम है या नहीं. 0.50 का अनुमान बताता है कि ईमेल के स्पैम होने की संभावना 50% है, 0.75 का अनुमान बताता है कि ईमेल के स्पैम होने की संभावना 75% है, और इसी तरह.

आपको इस मॉडल को ईमेल ऐप्लिकेशन में डिप्लॉय करना है, ताकि स्पैम को अलग मेल फ़ोल्डर में फ़िल्टर किया जा सके. हालांकि, ऐसा करने के लिए, आपको मॉडल के रॉ संख्यात्मक आउटपुट (उदाहरण के लिए, 0.75) को दो में से किसी एक कैटगरी में बांटता है: "स्पैम" या "स्पैम नहीं."

यह कन्वर्ज़न करने के लिए, आपको थ्रेशोल्ड की संभावना चुननी होगी. इसे क्लासिफ़िकेशन थ्रेशोल्ड कहा जाता है. इसके बाद, थ्रेशोल्ड वैल्यू से ज़्यादा संभावना वाले उदाहरणों को पॉज़िटिव क्लास, यानी उस क्लास को असाइन किया जाता है जिसकी जांच की जा रही है (यहां, spam). कम संभावना वाले उदाहरणों को नेगेटिव क्लास, यानी वैकल्पिक क्लास (यहां, not spam) को असाइन किया जाता है.

कैटगरी तय करने की थ्रेशोल्ड के बारे में ज़्यादा जानने के लिए यहां क्लिक करें

आपको शायद यह जानना हो कि अगर अनुमानित स्कोर, कैटगरी के लिए तय किए गए थ्रेशोल्ड के बराबर है, तो क्या होगा. उदाहरण के लिए, अगर कैटगरी के लिए तय किया गया थ्रेशोल्ड 0.5 है और अनुमानित स्कोर भी 0.5 है, तो क्या होगा? इस मामले को मैनेज करने का तरीका, कैटगरी तय करने वाले मॉडल के लिए चुने गए लागू करने के तरीके पर निर्भर करता है. अगर स्कोर और थ्रेशोल्ड एक जैसे हैं, तो Keras लाइब्रेरी नेगेटिव क्लास का अनुमान लगाती है. हालांकि, अन्य टूल/फ़्रेमवर्क इस मामले को अलग तरीके से मैनेज कर सकते हैं.

मान लें कि मॉडल ने किसी ईमेल को 0.99 का स्कोर दिया है. इससे पता चलता है कि उस ईमेल के स्पैम होने की संभावना 99% है. साथ ही, मॉडल ने किसी दूसरे ईमेल को 0.51 का स्कोर दिया है. इससे पता चलता है कि उस ईमेल के स्पैम होने की संभावना 51% है. अगर आपने क्लासिफ़िकेशन थ्रेशोल्ड को 0.5 पर सेट किया है, तो मॉडल दोनों ईमेल को स्पैम के तौर पर मार्क कर देगा. अगर थ्रेशोल्ड को 0.95 पर सेट किया जाता है, तो सिर्फ़ 0.99 स्कोर वाले ईमेल को स्पैम के तौर पर मार्क किया जाएगा.

0.5, एक आसान थ्रेशोल्ड की तरह लग सकता है. हालांकि, अगर गलत कैटगरी में डालने की एक तरह की लागत, दूसरी तरह की लागत से ज़्यादा है या कैटगरी असंतुलित हैं, तो यह एक अच्छा विचार नहीं है. अगर सिर्फ़ 0.01% ईमेल स्पैम हैं या ईमेल को गलत फ़ोल्डर में डालना, स्पैम को इनबॉक्स में आने से रोकने से ज़्यादा खराब है, तो मॉडल को किसी भी ईमेल को स्पैम के तौर पर मार्क करने की अनुमति नहीं दी जाती. ऐसा इसलिए, क्योंकि मॉडल के हिसाब से, किसी ईमेल को स्पैम के तौर पर मार्क करने की संभावना 50% से ज़्यादा होनी चाहिए.

कन्फ़्यूजन मैट्रिक्स

संभावना का स्कोर, असल स्थिति या असल सच नहीं होता. बाइनरी क्लासिफ़ायर के हर आउटपुट के चार संभावित नतीजे हो सकते हैं. स्पैम क्लासिफ़ायर के उदाहरण के लिए, अगर ग्राउंड ट्रूथ को कॉलम के तौर पर और मॉडल के अनुमान को पंक्तियों के तौर पर दिखाया जाता है, तो नीचे दी गई टेबल दिखती है. इसे कन्फ़्यूज़न मैट्रिक्स कहा जाता है:

	असल पॉज़िटिव	असल नेगेटिव
अनुमानित पॉज़िटिव	सही नतीजा (TP): स्पैम वाला ऐसा ईमेल जिसे सही तरीके से स्पैम के तौर पर मार्क किया गया हो. ये स्पैम मैसेज हैं, जो अपने-आप स्पैम फ़ोल्डर में भेजे जाते हैं.	फ़ॉल्स पॉज़िटिव (FP): स्पैम नहीं होने वाले ईमेल को स्पैम के तौर पर मार्क करना. ये ऐसे मान्य ईमेल होते हैं जो स्पैम फ़ोल्डर में चले जाते हैं.
अनुमानित नेगेटिव	गलत नकारात्मक (FN): स्पैम ईमेल को गलत तरीके से नॉन-स्पैम के तौर पर मार्क किया गया. ये ऐसे स्पैम ईमेल होते हैं जिन्हें स्पैम फ़िल्टर से नहीं पकड़ा जाता और वे इनबॉक्स में पहुंच जाते हैं.	ट्रू नेगेटिव (TN): ऐसा ईमेल जिसे सही तरीके से स्पैम के तौर पर मार्क नहीं किया गया है. ये ऐसे मान्य ईमेल होते हैं जिन्हें सीधे इनबॉक्स में भेजा जाता है.

ध्यान दें कि हर पंक्ति में कुल, सभी अनुमानित पॉज़िटिव (TP + FP) और सभी अनुमानित नेगेटिव (FN + TN) दिखते हैं. भले ही, वे मान्य हों या नहीं. इस बीच, हर कॉलम में कुल वैल्यू, सभी रीयल पॉज़िटिव (TP + FN) और सभी रीयल नेगेटिव (FP + TN) दिखाती है. भले ही, मॉडल की कैटगरी कुछ भी हो.

जब असल पॉज़िटिव की कुल संख्या, असल नेगेटिव की कुल संख्या के करीब न हो, तो डेटासेट असंतुलित होता है. असंतुलित डेटासेट का एक उदाहरण, बादलों की हज़ारों फ़ोटो का सेट हो सकता है. इसमें, आपके पसंदीदा बादल का टाइप, जैसे कि वॉलुटस बादल, सिर्फ़ कुछ बार दिखता है.

थ्रेशोल्ड का असर, सच्चे और गलत पॉज़िटिव और नेगेटिव पर

आम तौर पर, अलग-अलग थ्रेशोल्ड से ट्रू और फ़ॉल्स पॉज़िटिव और ट्रू और फ़ॉल्स नेगेटिव की संख्या अलग-अलग होती है. इस वीडियो में बताया गया है कि ऐसा क्यों होता है.

थ्रेशोल्ड को खुद बदलकर देखें.

इस विजेट में तीन खिलौने के डेटासेट शामिल हैं:

अलग-अलग, जहां आम तौर पर पॉज़िटिव और नेगेटिव उदाहरणों में काफ़ी फ़र्क़ होता है. साथ ही, ज़्यादातर पॉज़िटिव उदाहरणों को नेगेटिव उदाहरणों के मुकाबले ज़्यादा स्कोर मिलता है.
अलग नहीं किए गए, जहां कई पॉज़िटिव उदाहरणों को नेगेटिव उदाहरणों के मुकाबले कम स्कोर मिलते हैं. साथ ही, कई नेगेटिव उदाहरणों को पॉज़िटिव उदाहरणों के मुकाबले ज़्यादा स्कोर मिलते हैं.
असंतुलित, जिसमें पॉज़िटिव क्लास के सिर्फ़ कुछ उदाहरण शामिल हैं.

देखें कि आपको क्या समझ आया

1. फ़िशिंग या मैलवेयर की कैटगरी तय करने वाले मॉडल की कल्पना करें, जिसमें फ़िशिंग और मैलवेयर वाली वेबसाइटों को 1 (सही) लेबल वाली क्लास में रखा गया है और हानिरहित वेबसाइटों को 0 (गलत) लेबल वाली क्लास में रखा गया है. यह मॉडल गलती से किसी मान्य वेबसाइट को मैलवेयर के तौर पर लेबल कर देता है. इसे क्या कहा जाता है?

फ़ॉल्स पॉज़िटिव

किसी नेगेटिव उदाहरण (मान्य साइट) को गलत तरीके से पॉज़िटिव उदाहरण (मैलवेयर साइट) के तौर पर मार्क किया गया है.

ट्रू पॉज़िटिव

ट्रू पॉज़िटिव का मतलब है कि मैलवेयर वाली साइट को सही तरीके से मैलवेयर के तौर पर मार्क किया गया हो.

खतरे को कम आंकना

गलत नेगेटिव का मतलब है कि मैलवेयर वाली साइट को गलत तरीके से, मान्य साइट के तौर पर मार्क किया गया हो.

ट्रू नेगेटिव

'सही नेगेटिव' का मतलब है कि किसी मान्य साइट को सही तरीके से, मान्य साइट के तौर पर कैटगरी में रखा गया हो.

2. आम तौर पर, कैटगरी के थ्रेशोल्ड के बढ़ने पर, फ़ॉल्स पॉज़िटिव की संख्या पर क्या असर पड़ता है? ट्रू पॉज़िटिव के बारे में क्या? ऊपर दिए गए स्लाइडर का इस्तेमाल करके, अलग-अलग विकल्प आज़माएं.

असल और गलत पॉज़िटिव, दोनों की संख्या कम हो जाती है.

थ्रेशोल्ड बढ़ने पर, मॉडल की ओर से सही और गलत, दोनों तरह के कम पॉज़िटिव नतीजे मिलने की संभावना होगी. स्पैम की पहचान करने वाली ऐसी एल्गोरिदम की मदद से, किसी ईमेल को स्पैम के तौर पर लेबल किया जाएगा जिसका थ्रेशोल्ड .9999 हो. हालांकि, ऐसा सिर्फ़ तब किया जाएगा, जब ईमेल को स्पैम के तौर पर लेबल करने की संभावना 99.99% हो. इसका मतलब है कि किसी मान्य ईमेल को स्पैम के तौर पर लेबल करने की संभावना बहुत कम है. हालांकि, स्पैम ईमेल को स्पैम के तौर पर लेबल न करने की संभावना भी है.

असल और गलत पॉज़िटिव, दोनों की संख्या बढ़ जाती है.

ऊपर दिए गए स्लाइडर का इस्तेमाल करके, थ्रेशोल्ड को 0.1 पर सेट करें. इसके बाद, उसे 0.9 पर खींचें और छोड़ें. फ़ॉल्स पॉज़िटिव और ट्रू पॉज़िटिव की संख्या पर क्या असर पड़ता है?

ट्रू पॉज़िटिव की संख्या बढ़ जाती है. फ़ॉल्स पॉज़िटिव कम हो जाते हैं.

3. आम तौर पर, कैटगरी तय करने के थ्रेशोल्ड के बढ़ने पर, गलत नतीजों की संख्या पर क्या असर पड़ता है? ट्रू नेगेटिव के बारे में क्या? ऊपर दिए गए स्लाइडर का इस्तेमाल करके, अलग-अलग विकल्प आज़माएं.

ट्रू और फ़ॉल्स नेगेटिव, दोनों की संख्या बढ़ जाती है.

थ्रेशोल्ड बढ़ने पर, मॉडल की ओर से ज़्यादा गलत नतीजे मिल सकते हैं. बहुत ज़्यादा थ्रेशोल्ड पर, स्पैम और नॉन-स्पैम, दोनों तरह के ज़्यादातर ईमेल को नॉन-स्पैम के तौर पर मार्क किया जाएगा.

ट्रू और फ़ॉल्स नेगेटिव, दोनों की संख्या कम हो जाती है.

ऊपर दिए गए स्लाइडर का इस्तेमाल करके, थ्रेशोल्ड को 0.1 पर सेट करें. इसके बाद, उसे 0.9 पर खींचें और छोड़ें. फ़ॉल्स नेगेटिव और ट्रू नेगेटिव की संख्या पर क्या असर पड़ता है?

ट्रू नेगेटिव की संख्या बढ़ जाती है. फ़ॉल्स नेगेटिव कम हो जाते हैं.

पीछे जाएं

परिचय (तीन मिनट)

आगे बढ़ें

सटीक होने से जुड़े आंकड़े, रीकॉल, प्रिसिज़न, और मिलती-जुलती मेट्रिक (15 मिनट)