डेटासेट, सामान्यीकरण, और ओवरफ़िटिंग

लर्निंग के मकसद

आंकड़ों और आंकड़ों की चार अलग-अलग विशेषताओं की पहचान करें.
डेटा भरोसेमंद न होने की कम से कम चार अलग-अलग वजहें बताएं.
यह तय करना कि छूटे हुए डेटा को कब खारिज करना है और कब उसे लागू करना है.
प्रत्यक्ष और व्युत्पन्न लेबल के बीच अंतर करें.
मैन्युअल रेटिंग वाले कॉन्टेंट की क्वालिटी को बेहतर बनाने के दो अलग-अलग तरीकों के बारे में बताएं लेबल.
बताएं कि किसी डेटासेट को ट्रेनिंग सेट, पुष्टि करने वाले सेट, और जांच सेट में बांटने की ज़रूरत क्यों है. साथ ही, डेटा के बंटवारे में संभावित समस्या की पहचान करें.
ओवरफ़िटिंग के बारे में बताएं और इसकी तीन संभावित वजहों की पहचान करें.
रेगुलराइज़ेशन की अवधारणा के बारे में बताएं. खास तौर पर, फ़ॉलो किया जा रहा है:
- बायस बनाम वैरिएंस (आउटलायर के लिए अडैप्टेशन…)
- L₂ रेगुलराइज़ेशन, जिसमें Lambda (रेगुलराइज़ेशन रेट) शामिल है
- समय से पहले रुकने की जगह
अलग-अलग तरह के लॉस कर्व का विश्लेषण करना; लॉस कर्व में कन्वर्ज़न और ओवरफ़िटिंग का पता लगाना.

परिचय

यह मॉड्यूल एक लीडिंग सवाल से शुरू होता है. इनमें से कोई एक जवाब चुनें:

अगर आपको इनमें से किसी एक क्षेत्र को बेहतर बनाना हो, तो आपके प्रोजेक्ट में सबसे ज़्यादा क्या असर पड़ेगा?

अपने डेटासेट की क्वालिटी को बेहतर बनाना

डेटा सबसे ऊपर है. डेटासेट की क्वालिटी और साइज़, प्रॉडक्ट की क्वालिटी और साइज़ से कहीं ज़्यादा मायने रखता है शानदार एल्गोरिदम का इस्तेमाल कैसे किया जाता है.

अपने मॉडल को ट्रेनिंग देने के लिए, बेहतर लॉस फ़ंक्शन का इस्तेमाल करना

यह सच है कि बेहतर लॉस फ़ंक्शन से मॉडल को तेज़ी से ट्रेन करने में मदद मिल सकती है, लेकिन यह इस सूची में मौजूद किसी दूसरे आइटम से काफ़ी पीछे है.

और यहां एक और भी अहम सवाल दिया गया है:

अनुमान लगाएं: अपने मशीन लर्निंग प्रोजेक्ट में, डेटा तैयार करने और उसे बदलने में आम तौर पर आपका कितना समय लगता है?

प्रोजेक्ट के आधे से ज़्यादा समय के लिए

हां, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर अपना ज़्यादातर समय बिताते हैं डेटासेट बनाना और फ़ीचर इंजीनियरिंग करना.

प्रोजेक्ट में आधे से कम समय लगता है

ज़्यादा वीडियो बनाने का प्लान बनाएं! आम तौर पर, मशीन लर्निंग प्रोजेक्ट पर 80% समय, डेटासेट बनाने और डेटा को बदलने में बीतता है.

इस मॉड्यूल में, आपको मशीन लर्निंग की विशेषताओं के बारे में ज़्यादा जानकारी मिलेगी डेटासेट शामिल करने के बारे में जानकारी दी जाती है. साथ ही, जब अच्छी क्वालिटी के नतीजे पाने के लिए अपने डेटा को ट्रेनिंग और आकलन की सुविधा उपलब्ध है.

पीछे जाएं

देखें कि आपको कितनी जानकारी है (10 मिनट)

आगे बढ़ें

डेटा की विशेषताएं (10 मिनट)