मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर, इन लोगों के काम का आकलन करने, साफ़-सफ़ाई, और बदलाव को पूरा करने में ज़्यादा समय बिताते हैं मॉडल बनाने की तुलना में ज़्यादा डेटा है. डेटा इतना अहम है कि यह कोर्स, विषय के लिए तीन पूरी यूनिट ही देता है:
- संख्या वाले डेटा के साथ काम करना (यह इकाई)
- कैटगरिकल डेटा के साथ काम करना
- डेटासेट, सामान्य जानकारी, और ओवरफ़िटिंग
यह यूनिट इस पर फ़ोकस करती है संख्या वाला डेटा, पूर्णांक या फ़्लोटिंग-पॉइंट वैल्यू जो संख्याओं की तरह व्यवहार करते हैं. इसका मतलब है कि उन्हें अलग से जोड़ा जा सकता है, गिना जा सकता है, और एक क्रम में रखा जा सकता है. वगैरह. अगली यूनिट इस पर फ़ोकस करती है कैटगरिकल डेटा का इस्तेमाल करता है. संख्याओं की तरह व्यवहार करने वाली संख्याएं शामिल करें. तीसरी यूनिट का फ़ोकस इस बात पर है कि ट्रेनिंग और आकलन करते समय अच्छी क्वालिटी के नतीजे पाने के लिए, अपना डेटा तैयार करें आपका मॉडल.
संख्या वाले डेटा के उदाहरणों में ये शामिल हैं:
- तापमान
- वज़न
- संरक्षित क्षेत्र में जमा किए गए हिरणों की संख्या
इसके विपरीत, यू.एस. के पिन कोड, भले ही पाँच अंकों या नौ अंकों वाली संख्याएं होने पर, संख्याओं की तरह व्यवहार न करें या उन्हें निरूपित न करें गणितीय संबंध. पिन कोड 40004 (नेल्सन काउंटी, केंटकी में) है में मौजूद पिन कोड 20002 (वॉशिंगटन, डी.सी. में) की मात्रा दोगुनी नहीं होगी. ये नंबर खास तौर पर भौगोलिक क्षेत्रों की कैटगरी को दिखाते हैं और उन्हें कैटगरी से जुड़ा डेटा होता है.