इस कोर्स में, डेटा से जुड़ी कई सामान्य समस्याओं के बारे में बताया गया है. जैसे, डेटासेट की क्वालिटी, सोच, विज़ुअलाइज़ेशन, और आंकड़ों का विश्लेषण.
मशीन लर्निंग के जानकारों को ये सवाल पूछने चाहिए:
- क्या मुझे अपने डेटासेट की विशेषताओं और उन शर्तों के बारे में अच्छी तरह से पता है जिनके तहत वह डेटा इकट्ठा किया गया था?
- मेरे डेटा में क्वालिटी या पक्षपात से जुड़ी कौनसी समस्याएं मौजूद हैं? क्या भ्रमित करने वाले कारक मौजूद हैं?
- इन डेटासेट का इस्तेमाल करने से, आगे चलकर किस तरह की समस्याएं हो सकती हैं?
- अनुमान लगाने या क्लासिफ़िकेशन करने वाले मॉडल को ट्रेनिंग देते समय: क्या मॉडल को ट्रेन करने के लिए इस्तेमाल किए गए डेटासेट में सभी ज़रूरी वैरिएबल शामिल हैं?
एमएल प्रैक्टिशनर को हमेशा पुष्टि करने के पूर्वाग्रह की जांच करनी चाहिए. इसके बाद, उन्हें अपने निष्कर्षों की तुलना अपनी सोच और सामान्य ज्ञान से करनी चाहिए. साथ ही, जहां भी डेटा इनसे मेल नहीं खाता है वहां जांच करनी चाहिए.
आपकी मदद के लिए कुछ और लेख
कैरो, अल्बर्टो. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.
हफ़, डैरिल. How to Lie with Statistics. NY: W.W. Norton, 1954.
Monmonier, Mark. How to Lie with Maps, 3rd ed. Chicago: U of Chicago P, 2018.
जोंस, बेन. डेटा से जुड़ी समस्याओं से बचना. Hoboken, NJ: Wiley, 2020.
व्हीलन, चार्ल्स. नग्न आंकड़े: डेटा से डर को हटाना. NY: W.W. Norton, 2013