এমএল অনুশীলনকারীরা মডেল তৈরির চেয়ে ডেটা মূল্যায়ন, পরিষ্কার এবং রূপান্তর করতে অনেক বেশি সময় ব্যয় করে। ডেটা এতই গুরুত্বপূর্ণ যে এই কোর্সটি বিষয়ের জন্য তিনটি সম্পূর্ণ ইউনিট উৎসর্গ করে:
- সংখ্যাসূচক ডেটা নিয়ে কাজ করা (এই ইউনিট)
- শ্রেণীবদ্ধ ডেটা নিয়ে কাজ করা
- ডেটাসেট, সাধারণীকরণ এবং ওভারফিটিং
এই ইউনিটটি সাংখ্যিক তথ্যের উপর ফোকাস করে, যার অর্থ পূর্ণসংখ্যা বা ভাসমান-বিন্দু মান যা সংখ্যার মত আচরণ করে। অর্থাৎ, তারা যোজক, গণনাযোগ্য, আদেশকৃত ইত্যাদি। পরবর্তী ইউনিটটি শ্রেণীবদ্ধ ডেটার উপর ফোকাস করে, যে সংখ্যাগুলিকে অন্তর্ভুক্ত করতে পারে যা বিভাগগুলির মতো আচরণ করে। তৃতীয় ইউনিটটি আপনার মডেলকে প্রশিক্ষণ এবং মূল্যায়ন করার সময় উচ্চ-মানের ফলাফল নিশ্চিত করতে কীভাবে আপনার ডেটা প্রস্তুত করতে হয় তার উপর ফোকাস করে।
সংখ্যাসূচক ডেটার উদাহরণগুলির মধ্যে রয়েছে:
- তাপমাত্রা
- ওজন
- একটি প্রকৃতি সংরক্ষণে শীতকালে হরিণের সংখ্যা
বিপরীতে, ইউএস পোস্টাল কোডগুলি, পাঁচ-অঙ্কের বা নয়-সংখ্যার হওয়া সত্ত্বেও, সংখ্যার মতো আচরণ করে না বা গাণিতিক সম্পর্কের প্রতিনিধিত্ব করে না। পোস্টাল কোড 40004 (নেলসন কাউন্টি, কেন্টাকিতে) পোস্টাল কোড 20002 (ওয়াশিংটন, ডিসিতে) এর দ্বিগুণ নয়। এই সংখ্যাগুলি বিভাগগুলিকে প্রতিনিধিত্ব করে, বিশেষত ভৌগলিক অঞ্চলগুলি, এবং শ্রেণীগত ডেটা হিসাবে বিবেচিত হয়৷