वर्गीकरण

इस मॉड्यूल से पता चलता है कि कैटगरी टास्क के लिए, लॉजिस्टिक रिग्रेशन का इस्तेमाल कैसे किया जा सकता है. साथ ही, यह किसी क्लासिफ़िकेशन मॉडल के असर का आकलन करने का तरीका भी बताता है.

कैटगरी

  • कभी-कभी, हम प्रॉबेबिलिटी आउटपुट के लिए लॉजिस्टिक रिग्रेशन का इस्तेमाल करते हैं -- यह (0, 1) में रिग्रेशन है
  • अन्य मामलों में, हम अलग-अलग बाइनरी क्लासिफ़िकेशन की वैल्यू को थ्रेशोल्ड करेंगे
  • थ्रेशोल्ड चुनना एक ज़रूरी विकल्प है. इसे ट्यून किया जा सकता है
  • हम क्लासिफ़िकेशन मॉडल का आकलन कैसे करते हैं?
  • हम क्लासिफ़िकेशन मॉडल का आकलन कैसे करते हैं?
  • इसका एक तरीका यह हो सकता है: सटीक जानकारी
    • हमें मिले अनुमानों के अंश
  • कई मामलों में, स्कोर खराब या गुमराह करने वाला होता है
    • आम तौर पर, जब अलग-अलग तरह की गलतियों की लागतें अलग-अलग होती हैं
    • सामान्य मामलों में, क्लास असंतुलन शामिल होता है, जब पॉज़िटिव या नेगेटिव बहुत कम होते हैं
  • कक्षा से जुड़ी फ़र्क़ की समस्याओं के लिए, अलग-अलग तरह की गड़बड़ियों को अलग-अलग करें
सही नतीजे
हमने इसे भेड़िया नाम दिया है!
हमने शहर को सेव कर लिया है.

गलत नतीजे
गड़बड़ी: हमने भेड़िया को झूठा नाम दिया.
हम सभी को गुस्सा नहीं आ रहा.

गलत नतीजे
भेड़िये का शिकार होना पड़ा, लेकिन हमें उसका पता नहीं चला. यह हमारी सभी मुर्गियों को खा चुका है.
सही नेगेटिव
भेड़िया, कोई अलार्म नहीं.
सभी ठीक हैं.

  • सटीक: (सही पॉज़िटिव) / (सभी पॉज़िटिव अनुमान)
    • जब मॉडल ने "पॉज़िटिव" क्लास कहा, तो क्या वह सही था?
    • मन की बात: क्या मॉडल "रोड़ा" बहुत बार रोया?
  • सटीक: (सही पॉज़िटिव) / (सभी पॉज़िटिव अनुमान)
    • जब मॉडल ने "पॉज़िटिव" क्लास कहा, तो क्या वह सही था?
    • मन की बात: क्या मॉडल "रोड़ा" बहुत बार रोया?
  • वापस लाएं: (सही पॉज़िटिव) / (सभी पॉज़िटिव)
    • सभी संभावित पॉज़िटिव में से, मॉडल ने कितने सही की पहचान की?
    • श्रवण: क्या यह किसी भेड़िया से छूट गया था?

नीचे दिए गए विकल्प देखें.

ईमेल को कैटगरी में बांटने के ऐसे मॉडल पर विचार करें जो ईमेल को दो कैटगरी में बांटता है: "स्पैम" या "स्पैम नहीं." अगर आप क्लासिफ़िकेशन थ्रेशोल्ड को बढ़ाते हैं, तो सटीक होने का क्या होगा?
बिल्कुल बढ़नी चाहिए.
आम तौर पर, डेटा की कैटगरी तय करने के लिए थ्रेशोल्ड को बढ़ाने से सटीक जानकारी मिलती है. हालांकि, इस सीमा को बढ़ाने से इस बात की गारंटी नहीं मिलती कि यह रेंज एक जैसी रहेगी.
तो शायद बढ़ जाए.
आम तौर पर, कैटगरी तय करने की सीमा बढ़ाने से गलत चीज़ें कम होती हैं. इससे सटीक जानकारी मिलती है.
शायद कम हो जाए.
आम तौर पर, कैटगरी तय करने की सीमा बढ़ाने से गलत चीज़ें कम होती हैं. इससे सटीक जानकारी मिलती है.
बिल्कुल कम.
आम तौर पर, कैटगरी तय करने की सीमा बढ़ाने से गलत चीज़ें कम होती हैं. इससे सटीक जानकारी मिलती है.

हर पॉइंट, एक तय थ्रेशोल्ड पर टीपी और एफ़पी दर होता है.

अलग-अलग क्लासिफ़िकेशन थ्रेशोल्ड पर टीपी रेट बनाम FP रेट दिखाने वाला आरओसी कर्व.
  • AUC: "आरओसी कर्व के नीचे अरीना"
  • AUC: "आरओसी कर्व के नीचे अरीना"
  • अनुवाद:
    • अगर हम कोई भी रैंडम पॉज़िटिव और रैंडम नेगेटिव चुनते हैं, तो इस बात की कितनी संभावना है कि मेरा मॉडल उन्हें सही क्रम में रैंक करे?
  • AUC: "आरओसी कर्व के नीचे अरीना"
  • अनुवाद:
    • अगर हम कोई भी रैंडम पॉज़िटिव और रैंडम नेगेटिव चुनते हैं, तो इस बात की कितनी संभावना है कि मेरा मॉडल उन्हें सही क्रम में रैंक करे?
  • इंट्यूशन: सभी संभावित क्लासिफ़िकेशन थ्रेशोल्ड के लिए, एग्रीगेट की गई सभी परफ़ॉर्मेंस को एग्रीगेट करता है
  • लॉजिस्टिक रिग्रेशन के अनुमान निष्पक्ष होने चाहिए.
    • अनुमानों का औसत == निगरानी का औसत
  • लॉजिस्टिक रिग्रेशन के अनुमान निष्पक्ष होने चाहिए.
    • अनुमानों का औसत == निगरानी का औसत
  • बायस एक कैनरी है.
    • सिर्फ़ शून्य के मापदंड का यह मतलब नहीं है कि आपके सिस्टम में सब कुछ सही है.
    • हालांकि, यह अच्छी तरह से काम करता है.
  • अगर किसी भी तरह का भेदभाव हो रहा है, तो कोई समस्या है.
    • अधूरा फ़ीचर सेट किया गया?
    • गड़बड़ी वाली पाइपलाइन?
    • भेदभाव वाला ट्रेनिंग सैंपल?
  • कैलिब्रेशन लेयर को लेकर कोई भेदभाव न करें. इसे मॉडल में ठीक करें.
  • डेटा के हिस्सों में पक्षपात देखें -- इससे सुधार किया जा सकता है.
कैलिब्रेशन का प्लॉट