หน่วยนี้สำรวจวิธีแมปข้อมูลดิบเป็นเวกเตอร์องค์ประกอบที่เหมาะสม องค์ประกอบที่เป็นตัวเลขที่ดีจะมีลักษณะตามที่อธิบายไว้ในส่วนนี้
มีชื่อที่ชัดเจน
ฟีเจอร์แต่ละรายการควรมีความหมายที่ชัดเจน สมเหตุสมผล และเห็นได้ชัดสำหรับทุกคนในโปรเจ็กต์ ตัวอย่างเช่น ค่าฟีเจอร์ต่อไปนี้มีความหมายที่คลุมเครือ
ไม่แนะนำ
house_age: 851472000
ในทางตรงกันข้าม ชื่อและค่าของฟีเจอร์ต่อไปนี้ชัดเจนกว่ามาก
แนะนำ
house_age_years: 27
ตรวจสอบหรือทดสอบก่อนการฝึก
แม้ว่าโมดูลนี้จะใช้เวลาไปกับค่าที่ผิดปกติเป็นส่วนใหญ่ แต่หัวข้อนี้สำคัญมากพอที่จะกล่าวถึงอีกสักครั้ง ในบางกรณี ข้อมูลที่ไม่ถูกต้อง (ไม่ใช่ทางเลือกทางวิศวกรรมที่ไม่ถูกต้อง) อาจทําให้ค่าไม่ชัดเจน ตัวอย่างเช่น user_age_in_years
ต่อไปนี้มาจากแหล่งที่มาที่ไม่ได้ตรวจสอบค่าที่เหมาะสม
ไม่แนะนำ
user_age_in_years: 224
แต่ผู้ที่สามารถมีอายุ 24 ปีได้ในกรณีต่อไปนี้
แนะนำ
user_age_in_years: 24
ตรวจสอบข้อมูลของคุณ
เหมาะสม
"ค่ามายากล" คือความต่อเนื่องแบบจงใจในฟีเจอร์ที่ควรจะต่อเนื่อง ตัวอย่างเช่น สมมติว่าองค์ประกอบต่อเนื่องชื่อ watch_time_in_seconds
สามารถเก็บค่าตัวเลขทศนิยมระหว่าง 0 ถึง 30 แต่แสดงถึงการไม่มีการวัดผลด้วยค่ามายากล -1
ไม่แนะนำ
watch_time_in_seconds: -1
watch_time_in_seconds
ที่เท่ากับ -1 จะบังคับให้โมเดลพยายามหาความหมายของการดูภาพยนตร์ย้อนหลัง โมเดลที่ได้อาจทำการคาดการณ์ได้ไม่ดี
เทคนิคที่ดีกว่าคือสร้างฟีเจอร์บูลีนแยกต่างหากซึ่งระบุว่ามีการระบุค่า watch_time_in_seconds
หรือไม่ เช่น
แนะนำ
watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
วิธีนี้เป็นวิธีจัดการชุดข้อมูลต่อเนื่องที่มีค่าขาดหายไป ต่อไปให้พิจารณาฟีเจอร์ตัวเลขแบบไม่ต่อเนื่อง เช่น product_category
ซึ่งค่าต้องอยู่ในชุดค่าที่จำกัด ในกรณีนี้ เมื่อไม่มีค่า ให้ระบุค่าที่ขาดหายไปโดยใช้ค่าใหม่ในเซตที่สิ้นสุด เมื่อใช้ฟีเจอร์แบบไม่ต่อเนื่อง โมเดลจะเรียนรู้น้ำหนักที่แตกต่างกันสำหรับแต่ละค่า รวมถึงน้ำหนักเดิมสำหรับฟีเจอร์ที่ขาดหายไป
ตัวอย่างเช่น เราจินตนาการค่าที่เป็นไปได้ซึ่งพอดีกับชุดค่าผสมได้ดังนี้
{0: 'electronics', 1: 'books', 2: 'clothing', 3: 'missing_category'}.