โมเดลแมชชีนเลิร์นนิงจะฝึกได้เฉพาะกับค่าทศนิยม อย่างไรก็ตาม ฟีเจอร์ชุดข้อมูลจำนวนมากไม่ใช่ค่าทศนิยมตามปกติ ดังนั้น องค์ประกอบที่สําคัญอย่างหนึ่งของแมชชีนเลิร์นนิงคือการแปลงฟีเจอร์ที่ไม่ใช่ทศนิยมไปเป็นการแสดงผลทศนิยม
ตัวอย่างเช่น สมมติว่า street names
คือฟีเจอร์ ชื่อถนนส่วนใหญ่เป็นสตริง เช่น "Broadway" หรือ "Vilakazi"
โมเดลไม่สามารถฝึกกับ "Broadway" ได้ คุณจึงต้องเปลี่ยน "Broadway" เป็นตัวเลขทศนิยม ข้อบังคับเกี่ยวกับข้อมูลเชิงหมวดหมู่อธิบายวิธีดำเนินการนี้
นอกจากนี้ คุณควรเปลี่ยนรูปแบบของฟีเจอร์ทศนิยมส่วนใหญ่ด้วย กระบวนการเปลี่ยนรูปแบบนี้เรียกว่าการปรับให้เป็นมาตรฐาน ซึ่งจะแปลงตัวเลขทศนิยมให้เป็นช่วงที่มีข้อจำกัดซึ่งช่วยปรับปรุงการฝึกโมเดล ข้อบังคับด้านข้อมูลเชิงตัวเลขอธิบายวิธีดำเนินการนี้
สุ่มตัวอย่างข้อมูลเมื่อคุณมีข้อมูลมากเกินไป
บางองค์กรมีข้อมูลจํานวนมาก เมื่อชุดข้อมูลมีตัวอย่างมากเกินไป คุณต้องเลือกชุดย่อยของตัวอย่างสำหรับการฝึก เลือกชุดย่อยที่มีความเกี่ยวข้องกับการคาดการณ์ของโมเดลมากที่สุด หากเป็นไปได้
ตัวอย่างตัวกรองที่มี PII
ชุดข้อมูลที่ดีจะไม่ใส่ตัวอย่างที่มีข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้ (PII) นโยบายนี้ช่วยปกป้องความเป็นส่วนตัว แต่ก็อาจส่งผลต่อโมเดลได้
ดูข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อเหล่านี้ได้ในโมดูลความปลอดภัยและความเป็นส่วนตัวในภายหลัง