निष्पक्षता: अपनी जानकारी को परखें

  1. सही या गलत: पुराना पूर्वाग्रह तब होता है, जब किसी मॉडल को पुराने डेटा का इस्तेमाल करके ट्रेनिंग दी जाती है.

  2. इंजीनियर, खाने की कैलोरी कॉन्टेंट का अनुमान लगाने के लिए, एक रिग्रेशन मॉडल को ट्रेनिंग दे रहे हैं. यह जानकारी, दुनिया भर की रेसिपी वेबसाइटों से इकट्ठा किए गए अलग-अलग तरह के डेटा के आधार पर दी गई है. इस डेटा में खाना बनाने की तकनीक, खाना बनाने की तकनीक, और रेसिपी की वेबसाइट से इकट्ठा किया गया डेटा शामिल है. नीचे दी गई डेटा से जुड़ी किन समस्याओं की वजह से पक्षपात हो सकता है और इनकी आगे जांच की जानी चाहिए?

    जितने जवाब सही लगते हैं उतने जवाब चुनें.

  3. व्यंग्य की पहचान करने वाले मॉडल को 80,000 मैसेज पर ट्रेनिंग दी गई. इनमें वयस्कों (18 साल और उससे ज़्यादा) के भेजे गए 40,000 मैसेज और 18 साल से कम उम्र वाले नाबालिगों के 40,000 मैसेज शामिल किए गए. इसके बाद, इस मॉडल का आकलन 20,000 मैसेज के एक टेस्ट सेट पर किया गया. इसमें वयस्कों के 10,000 मैसेज और नाबालिगों से मिले 10,000 मैसेज शामिल थे. भ्रम की स्थिति वाले ये मैट्रिक्स हर ग्रुप के लिए नतीजे दिखाते हैं (सकारात्मक अनुमान "मज़ाक़िया" की कैटगरी को दिखाता है; नेगेटिव अनुमान "व्यंग्य नहीं" की कैटगरी को दिखाता है):

    वयस्क

    ट्रू पॉज़िटिव (टीपी): 512 फ़ॉल्स पॉज़िटिव (एफ़पी): 51
    फ़ॉल्स नेगेटिव (एफ़एन): 36 ट्रू नेगेटिव (टीएन): 9401
    प्रिसिज़न = TP/(TP + FP) = 0.909
    रीकॉल = TP/(TP + FN) = 0.934

    नाबालिग

    ट्रू पॉज़िटिव (टीपी): 2147 फ़ॉल्स पॉज़िटिव (एफ़पी): 96
    फ़ॉल्स नेगेटिव (एफ़एन): 2177 ट्रू नेगेटिव (TN): 5580
    प्रिसिज़न = TP/(TP + FP) = 0.957
    रीकॉल = TP/(TP + FN) = 0.497

    मॉडल के टेस्ट-सेट की परफ़ॉर्मेंस के बारे में इनमें से कौनसी बातें सही हैं?

    जितने जवाब सही लगते हैं उतने जवाब चुनें.

  4. इनमें से कौनसा अनुमान, ऊपर दिए गए व्यंग्य की पहचान करने वाले मॉडल के लिए, टेस्ट सेट पर सबग्रुप के परफ़ॉर्मेंस में अंतर को समझा सकता है?

    जितने जवाब सही लगते हैं उतने जवाब चुनें.

  5. इंजीनियर, ऊपर दिए गए व्यंग्य वाले मॉडल को फिर से ट्रेनिंग देने पर काम कर रहे हैं, ताकि अलग-अलग उम्र के लोगों के लिए, व्यंग्य या कटाक्ष की पहचान करने वाली उसकी सटीक जानकारी में मौजूद अंतर को दूर किया जा सके. हालांकि, मॉडल को प्रोडक्शन में पहले ही रिलीज़ कर दिया गया है. इनमें से कौनसी रणनीति, मॉडल के अनुमानों में गड़बड़ियों को कम करने में मदद करेगी?