मशीन लर्निंग (एमएल) मॉडल की परफ़ॉर्मेंस, उसके डेटा से तय होती है. अपने स्वस्थ डेटा मॉडल करें और यह कामयाब होगा; अपने मॉडल को फ़ीड करें और पूर्वानुमान काम का नहीं होगा.
संख्या वाले डेटा के साथ काम करने के सबसे सही तरीके:
- याद रखें कि आपका एमएल मॉडल, इसकी मदद से फ़ीचर वेक्टर, नहीं है, बल्कि डेटासेट.
- ज़्यादातर को नॉर्मलाइज़ करें अंकों वाली सुविधाएं.
- अगर नॉर्मलाइज़ेशन की आपकी पहली रणनीति सफल नहीं होती, तो किसी दूसरी रणनीति का इस्तेमाल करें करने का तरीका बताया गया है.
- बिनिंग, इसे यह भी कहा जाता है बकेटिंग, कभी-कभी सामान्य बनाने से बेहतर है.
- आपका डेटा कैसा दिखना चाहिए, इसे ध्यान में रखते हुए, पुष्टि लिखें
की जांच कर सकता है. उदाहरण के लिए:
- अक्षांश की कुल वैल्यू कभी भी 90 से ज़्यादा नहीं होनी चाहिए. आप इसकी जांच करें कि आपके डेटा में अक्षांश वैल्यू 90 से ज़्यादा है या नहीं.
- अगर आपका डेटा फ़्लोरिडा राज्य तक सीमित है, तो टेस्ट सेव किया जा सकता है यह जांच करने के लिए कि अक्षांश 24 से 31 के बीच आते हैं या नहीं.
- स्कैटर प्लॉट और हिस्टोग्राम की मदद से, अपना डेटा विज़ुअलाइज़ करें. इसे खोजें अनियमितताओं.
- न सिर्फ़ पूरे डेटासेट बल्कि छोटे साइज़ पर भी आंकड़े इकट्ठा करें डेटासेट के सबसेट. इसकी वजह यह है कि कभी-कभी कुल आंकड़े डेटासेट के छोटे-छोटे सेक्शन में अस्पष्ट समस्याओं को दूर करना.
- डेटा में हुए सभी बदलावों के बारे में जानकारी दें.
डेटा आपके लिए सबसे ज़रूरी संसाधन है, इसलिए इसका इस्तेमाल सावधानी से करें.
अतिरिक्त जानकारी
- मशीन लर्निंग के नियम गाइड में एक ज़रूरी जानकारी होती है फ़ीचर इंजीनियरिंग सेक्शन.
आगे क्या करना है
यह मॉड्यूल पूरा करने पर बधाई!
हमारा सुझाव है कि आप अलग-अलग एमएलसीसी मॉड्यूल देखें अपने हिसाब से और अपने हिसाब से मशीन में बदलाव करना. सुझाए गए ऑर्डर का पालन करने के लिए, हमारा सुझाव है कि आप नीचे दिए गए मॉड्यूल पर जाएं: कैटगरिकल डेटा को दिखाना.