संख्या वाला डेटा: नतीजा

मशीन लर्निंग (एमएल) मॉडल की परफ़ॉर्मेंस, उसके डेटा से तय होती है. अपने स्वस्थ डेटा मॉडल करें और यह कामयाब होगा; अपने मॉडल को फ़ीड करें और पूर्वानुमान काम का नहीं होगा.

संख्या वाले डेटा के साथ काम करने के सबसे सही तरीके:

याद रखें कि आपका एमएल मॉडल, फ़ीचर वेक्टर में मौजूद डेटा के साथ इंटरैक्ट करता है, न कि डेटासेट में मौजूद डेटा के साथ.
ज़्यादातर को नॉर्मलाइज़ करें अंकों वाली सुविधाएं.
अगर डेटा को सामान्य बनाने की आपकी पहली रणनीति काम नहीं करती है, तो डेटा को सामान्य बनाने के लिए किसी दूसरे तरीके का इस्तेमाल करें.
बिनिंग, इसे यह भी कहा जाता है बकेटिंग, कभी-कभी सामान्य बनाने से बेहतर है.
आपका डेटा कैसा दिखना चाहिए, इसे ध्यान में रखते हुए, पुष्टि लिखें की जांच कर सकता है. उदाहरण के लिए:
- अक्षांश की कुल वैल्यू कभी भी 90 से ज़्यादा नहीं होनी चाहिए. आपके पास यह जांचने के लिए एक जांच लिखने का विकल्प है कि आपके डेटा में अक्षांश की वैल्यू 90 से ज़्यादा है या नहीं.
- अगर आपका डेटा सिर्फ़ फ़्लोरिडा राज्य तक सीमित है, तो यह जांचने के लिए टेस्ट लिखे जा सकते हैं कि अक्षांश 24 से 31 के बीच है या नहीं.
स्कैटर प्लॉट और हिस्टोग्राम की मदद से, अपना डेटा विज़ुअलाइज़ करें. इसे खोजें अनियमितताओं.
सिर्फ़ पूरे डेटासेट के लिए ही नहीं, बल्कि डेटासेट के छोटे सबसेट के लिए भी आंकड़े इकट्ठा करें. ऐसा इसलिए होता है, क्योंकि एग्रीगेट किए गए आंकड़ों से कभी-कभी डेटासेट के छोटे सेक्शन में मौजूद समस्याएं छिप जाती हैं.
डेटा में हुए सभी बदलावों के बारे में जानकारी दें.

डेटा आपका सबसे अहम संसाधन है. इसलिए, इसका इस्तेमाल सावधानी से करें.

अतिरिक्त जानकारी

मशीन लर्निंग के नियम गाइड में, फ़ीचर इंजीनियरिंग सेक्शन की अहम जानकारी दी गई है.

आगे क्या करना है

यह मॉड्यूल पूरा करने पर बधाई!

हमारा सुझाव है कि आप अलग-अलग एमएलसीसी मॉड्यूल देखें अपने हिसाब से और अपने हिसाब से मशीन में बदलाव करना. सुझाए गए ऑर्डर का पालन करने के लिए, हमारा सुझाव है कि आप नीचे दिए गए मॉड्यूल पर जाएं: कैटगरिकल डेटा को दिखाना.

अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है

पीछे जाएं

देखें कि आपको कितनी जानकारी है (10 मिनट)

आगे बढ़ें

परिचय (पांच मिनट)