संख्यात्मक डेटा के साथ काम करना

मशीन लर्निंग का इस्तेमाल करने वाले पेशेवर, इन लोगों के काम का आकलन करने, साफ़-सफ़ाई, और बदलाव को पूरा करने में ज़्यादा समय बिताते हैं मॉडल बनाने की तुलना में ज़्यादा डेटा है. डेटा इतना अहम है कि यह कोर्स, विषय के लिए तीन पूरी यूनिट ही देता है:

यह यूनिट इस पर फ़ोकस करती है संख्या वाला डेटा, पूर्णांक या फ़्लोटिंग-पॉइंट वैल्यू जो संख्याओं की तरह व्यवहार करते हैं. इसका मतलब है कि उन्हें अलग से जोड़ा जा सकता है, गिना जा सकता है, और एक क्रम में रखा जा सकता है. वगैरह. अगली यूनिट इस पर फ़ोकस करती है कैटगरिकल डेटा का इस्तेमाल करता है. संख्याओं की तरह व्यवहार करने वाली संख्याएं शामिल करें. तीसरी यूनिट का फ़ोकस इस बात पर है कि ट्रेनिंग और आकलन करते समय अच्छी क्वालिटी के नतीजे पाने के लिए, अपना डेटा तैयार करें आपका मॉडल.

संख्या वाले डेटा के उदाहरणों में ये शामिल हैं:

  • तापमान
  • वज़न
  • संरक्षित क्षेत्र में जमा किए गए हिरणों की संख्या

इसके विपरीत, यू.एस. के पिन कोड, भले ही पाँच अंकों या नौ अंकों वाली संख्याएं होने पर, संख्याओं की तरह व्यवहार न करें या उन्हें निरूपित न करें गणितीय संबंध. पिन कोड 40004 (नेल्सन काउंटी, केंटकी में) है में मौजूद पिन कोड 20002 (वॉशिंगटन, डी.सी. में) की मात्रा दोगुनी नहीं होगी. ये नंबर खास तौर पर भौगोलिक क्षेत्रों की कैटगरी को दिखाते हैं और उन्हें कैटगरी से जुड़ा डेटा होता है.