डेटासेट, सामान्यीकरण, और ओवरफ़िटिंग

परिचय

यह मॉड्यूल एक लीडिंग सवाल से शुरू होता है. इनमें से कोई एक जवाब चुनें:

अगर आपको इनमें से किसी एक क्षेत्र को बेहतर बनाना हो, तो आपके प्रोजेक्ट में सबसे ज़्यादा क्या असर पड़ेगा?
अपने डेटासेट की क्वालिटी को बेहतर बनाना
डेटा सबसे ऊपर है. डेटासेट की क्वालिटी और साइज़, प्रॉडक्ट की क्वालिटी और साइज़ से कहीं ज़्यादा मायने रखता है शानदार एल्गोरिदम का इस्तेमाल कैसे किया जाता है.
अपने मॉडल को प्रशिक्षण देने के लिए अधिक चतुर घटिया फ़ंक्शन लागू करना
यह बात सही है कि अगर हारने का फ़ंक्शन बेहतर होता है, तो मॉडल को ट्रेनिंग देने में आसानी होती है. हालांकि, यह अभी भी इस सूची के किसी अन्य आइटम से एक सेकंड दूर है.

और यहां एक और भी अहम सवाल दिया गया है:

एक अनुमान लगाएं: आपके मशीन लर्निंग प्रोजेक्ट में, क्या आपका खर्च आम तौर पर डेटा तैयार करने और उसमें बदलाव करने में होता है?
प्रोजेक्ट में आधे से ज़्यादा समय लगता है
हां, मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर अपना ज़्यादातर समय बिताते हैं डेटासेट बनाना और फ़ीचर इंजीनियरिंग करना.
प्रोजेक्ट में आधे से कम समय लगता है
और लोगों के लिए प्लान बनाएं! आम तौर पर, मशीन लर्निंग पर 80% समय प्रोजेक्ट बनाने में खर्च होता है. इसके अलावा, डेटासेट बनाने और डेटा को बदलने पर भी खर्च होता है.

इस मॉड्यूल में, आपको मशीन लर्निंग की विशेषताओं के बारे में ज़्यादा जानकारी मिलेगी डेटासेट शामिल करने के बारे में जानकारी दी जाती है. साथ ही, जब अच्छी क्वालिटी के नतीजे पाने के लिए अपने डेटा को ट्रेनिंग और आकलन की सुविधा उपलब्ध है.