क्लासिफ़िकेशन: प्रेडिक्शन बायस

जैसा कि इसमें बताया गया है लीनियर रिग्रेशन मॉड्यूल, गणना अनुमान बायस एक ऐसी क्विक जांच है जो मॉडल या ट्रेनिंग डेटा की समस्याओं को फ़्लैग कर सकती है शुरू कर दिया है.

अनुमान बायस, मॉडल के मीन के बीच का अंतर होता है अनुमान और मीन इसमें बुनियादी तथ्यों के लेबल डेटा शामिल है. डेटासेट पर ट्रेनिंग दिया गया मॉडल जहां 5% ईमेल स्पैम होते हैं, उन्हें अनुमान लगाना चाहिए कि औसतन 5% ईमेल इसे अलग-अलग ग्रुप में बांटा जाता है और ईमेल स्पैम होते हैं. दूसरे शब्दों में, लेबल का माध्य ग्राउंड-ट्रुथ डेटासेट 0.05 है और मॉडल के पूर्वानुमान का मीन भी 0.05 होना चाहिए. अगर ऐसा है, तो मॉडल में अनुमान लगाने के लिए कोई बायस नहीं है. का बेशक, मॉडल में अब भी अन्य समस्याएं हो सकती हैं.

अगर इसके बजाय, मॉडल किसी ईमेल के 50% मामलों में स्पैम ईमेल होने का अनुमान लगाता है, तो ट्रेनिंग डेटासेट में कोई गड़बड़ी है, इसलिए नया डेटासेट जो यह मॉडल है पर लागू होता है या मॉडल के साथ लागू होता है. कोई भी दोनों के बीच पर्याप्त अंतर होने से पता चलता है कि मॉडल में कुछ हद तक पूर्वाग्रह.

अनुमान में भेदभाव इन वजहों से हो सकता है:

  • डेटा में कोई भेदभाव या ग़ैर-ज़रूरी चीज़ें शामिल हैं. इनमें ट्रेनिंग सेट के लिए किसी एक पक्ष की तरफ़ से सैंपल देने का तरीका भी शामिल है
  • रेगुलराइज़ेशन बहुत सख्त है. इसका मतलब है कि मॉडल बहुत ज़्यादा आसान हो गया है और अब इसका इस्तेमाल नहीं किया जा सकता कुछ ज़रूरी जटिलता
  • मॉडल ट्रेनिंग पाइपलाइन में गड़बड़ियां
  • इस मॉडल को दी गई सुविधाओं का सेट इस टास्क के लिए काफ़ी नहीं है