सीखने के उद्देश्य
इस मॉड्यूल में, आप ये जानेंगे:
- रॉ या प्रोसेस किए गए डेटासेट में मौजूद संभावित समस्याओं की जांच करें. इनमें ये समस्याएं भी शामिल हैं संग्रह और क्वालिटी की समस्याएं.
- पक्षपात, अमान्य अनुमान, और तर्क के बारे में बताएं.
- आंकड़ों के विश्लेषण में अक्सर आने वाली समस्याओं का पता लगाना. जैसे, सहसंबंध, जुड़ाव, और काम का नहीं है.
- सामान्य समस्याओं, ग़लतफ़हमियों, और गुमराह करने वाले डिसप्ले और डिज़ाइन के विकल्प.
मशीन लर्निंग मोटिवेशन
हालांकि, यह मॉडल आर्किटेक्चर और अन्य डाउनस्ट्रीम मॉडल के मुकाबले ग्लैमरस नहीं है, डेटा एक्सप्लोरेशन, दस्तावेज़, और प्रीप्रोसेसिंग मशीन लर्निंग का इस्तेमाल करना. मशीन लर्निंग का इस्तेमाल करने वाले लोग, नित्या संबशिवन और अन्य जैसे विषयों में बंट सकते हैं. कॉल किया गया डेटा कैस्केड अपने 2021 एसीएम पेपर में अगर वे इस बारे में गहराई से नहीं जानते हैं, तो:
- उन शर्तों को पूरा करता है जिनके तहत उसका डेटा इकट्ठा किया जाता है
- डेटा की क्वालिटी, विशेषताएं, और सीमाएं
- डेटा में कौनसा डेटा दिख सकता है और कौनसा नहीं
खराब डेटा का इस्तेमाल करके, मॉडल को ट्रेनिंग देना बहुत महंगी है और केवल ख़राब क्वालिटी वाले आउटपुट के आधार पर यह पता चलता है कि के साथ किया जा सकता है. इसी तरह, डेटा की सीमाओं को नहीं समझ पाने पर लोगों के लिए डेटा इकट्ठा करने में पक्षपात या कोई काम करने के लिए कोई गलत सहसंबंध होना, नतीजे उम्मीद से ज़्यादा और कम डिलीवर हो सकते हैं. इस वजह से भरोसा खो जाता है.
इस कोर्स में, मशीन लर्निंग और डेटा को अलग-अलग तरह से इस्तेमाल करने के बारे में बताया गया है, लेकिन पेशेवरों को उनके काम में समस्या आ सकती है.