ผู้ปฏิบัติงานด้าน ML ใช้เวลาประเมิน ทำความสะอาด และเปลี่ยนรูปแบบ ข้อมูลมากกว่าโมเดลสิ่งปลูกสร้าง ข้อมูลมีความสำคัญมากจนหลักสูตรนี้จะแบ่งบทเรียนทั้งหมด 3 หน่วยให้กับหัวข้อนั้น ได้แก่
- การทำงานกับข้อมูลตัวเลข (หน่วยนี้)
- การทํางานกับข้อมูลเชิงหมวดหมู่
- ชุดข้อมูล การทั่วไป และการพอดีมากเกินไป
หน่วยนี้โฟกัสที่ ข้อมูลตัวเลข หมายถึงจำนวนเต็มหรือค่าทศนิยม ที่ทำงานเหมือนกับตัวเลข ซึ่งก็คือการเพิ่ม การนับจำนวน การเรียงลำดับ เป็นต้น หน่วยถัดไปมุ่งเน้นไปที่ ข้อมูลเชิงหมวดหมู่ ซึ่งสามารถ รวมตัวเลขที่ทำงานเหมือนหมวดหมู่ หน่วยที่ 3 เน้นสอนวิธี เตรียมข้อมูลเพื่อให้ได้ผลลัพธ์ที่มีคุณภาพสูงเมื่อทำการฝึกและประเมิน โมเดลของคุณ
ตัวอย่างข้อมูลที่เป็นตัวเลข ได้แก่
- อุณหภูมิ
- น้ำหนัก
- จำนวนกวางฤดูหนาวในเขตอนุรักษ์ธรรมชาติ
ในทางกลับกัน รหัสไปรษณีย์ของสหรัฐอเมริกาที่ เป็นตัวเลข 5 หรือ 9 หลัก ห้ามทำตัวเหมือนตัวเลขหรือแสดงถึง ความสัมพันธ์ทางคณิตศาสตร์ รหัสไปรษณีย์ 40004 (ในเนลสันเคาน์ตี รัฐเคนทักกี) ไม่ได้เป็นจำนวน 2 เท่าของรหัสไปรษณีย์ 20002 (ในวอชิงตัน ดี.ซี.) ตัวเลขเหล่านี้แสดงถึงหมวดหมู่ โดยเฉพาะพื้นที่ทางภูมิศาสตร์ และถือว่าเป็นข้อมูลเชิงหมวดหมู่