ผู้ปฏิบัติงานด้าน ML ใช้เวลาประเมิน ทำความสะอาด และเปลี่ยนรูปแบบ ข้อมูลมากกว่าโมเดลสิ่งปลูกสร้าง ข้อมูลมีความสำคัญมากจนหลักสูตรนี้จะแบ่งบทเรียนทั้งหมด 3 หน่วยให้กับหัวข้อนั้น ได้แก่
- การทำงานกับข้อมูลตัวเลข (หน่วยนี้)
- การทํางานกับข้อมูลเชิงหมวดหมู่
- ชุดข้อมูล การสรุป และการปรับมากเกินไป
หน่วยนี้โฟกัสที่ ข้อมูลตัวเลข หมายถึงจำนวนเต็มหรือค่าทศนิยม ที่ทำงานเหมือนกับตัวเลข ซึ่งก็คือการเพิ่ม การนับจำนวน การเรียงลำดับ เป็นต้น หน่วยถัดไปมุ่งเน้นไปที่ ข้อมูลเชิงหมวดหมู่ ซึ่งสามารถ รวมตัวเลขที่ทำงานเหมือนหมวดหมู่ หน่วยที่ 3 เน้นสอนวิธี เตรียมข้อมูลเพื่อให้ได้ผลลัพธ์ที่มีคุณภาพสูงเมื่อทำการฝึกและประเมิน โมเดลของคุณ
ตัวอย่างข้อมูลที่เป็นตัวเลข ได้แก่
- อุณหภูมิ
- น้ำหนัก
- จำนวนกวางฤดูหนาวในเขตอนุรักษ์ธรรมชาติ
ในทางกลับกัน รหัสไปรษณีย์ของสหรัฐอเมริกาที่ เป็นตัวเลข 5 หรือ 9 หลัก ห้ามทำตัวเหมือนตัวเลขหรือแสดงถึง ความสัมพันธ์ทางคณิตศาสตร์ รหัสไปรษณีย์ 40004 (ใน Nelson County เคนทักกี) คือ ไม่ใช่สองเท่าของรหัสไปรษณีย์ 20002 (ในวอชิงตัน ดี.ซี.) หมายเลขเหล่านี้ แสดงถึงหมวดหมู่โดยเฉพาะอย่างยิ่งพื้นที่ทางภูมิศาสตร์และ ข้อมูลเชิงหมวดหมู่