ข้อมูลตัวเลข: คุณสมบัติของคุณลักษณะทางตัวเลขที่ดี

หน่วยนี้สำรวจวิธีแมปข้อมูลดิบเป็นเวกเตอร์องค์ประกอบที่เหมาะสม องค์ประกอบที่เป็นตัวเลขที่ดีจะมีลักษณะตามที่อธิบายไว้ในส่วนนี้

มีชื่อที่ชัดเจน

ฟีเจอร์แต่ละรายการควรมีความหมายที่ชัดเจน สมเหตุสมผล และเห็นได้ชัดสำหรับทุกคนในโปรเจ็กต์ ตัวอย่างเช่น ค่าฟีเจอร์ต่อไปนี้มีความหมายที่คลุมเครือ

ไม่แนะนำ

house_age: 851472000

ในทางตรงกันข้าม ชื่อและค่าของฟีเจอร์ต่อไปนี้ชัดเจนกว่ามาก

แนะนำ

house_age_years: 27

ตรวจสอบหรือทดสอบก่อนการฝึก

แม้ว่าโมดูลนี้จะใช้เวลาไปกับค่าที่ผิดปกติเป็นส่วนใหญ่ แต่หัวข้อนี้สำคัญมากพอที่จะกล่าวถึงอีกสักครั้ง ในบางกรณี ข้อมูลที่ไม่ถูกต้อง (ไม่ใช่ทางเลือกทางวิศวกรรมที่ไม่ถูกต้อง) อาจทําให้ค่าไม่ชัดเจน ตัวอย่างเช่น user_age_in_years ต่อไปนี้มาจากแหล่งที่มาที่ไม่ได้ตรวจสอบค่าที่เหมาะสม

ไม่แนะนำ

user_age_in_years: 224

แต่ผู้ที่สามารถมีอายุ 24 ปีได้ในกรณีต่อไปนี้

แนะนำ

user_age_in_years: 24

ตรวจสอบข้อมูลของคุณ

เหมาะสม

"ค่ามายากล" คือความต่อเนื่องแบบจงใจในฟีเจอร์ที่ควรจะต่อเนื่อง ตัวอย่างเช่น สมมติว่าองค์ประกอบต่อเนื่องชื่อ watch_time_in_seconds สามารถเก็บค่าตัวเลขทศนิยมระหว่าง 0 ถึง 30 แต่แสดงถึงการไม่มีการวัดผลด้วยค่ามายากล -1

ไม่แนะนำ

watch_time_in_seconds: -1

watch_time_in_seconds ที่เท่ากับ -1 จะบังคับให้โมเดลพยายามหาความหมายของการดูภาพยนตร์ย้อนหลัง โมเดลที่ได้อาจทำการคาดการณ์ได้ไม่ดี

เทคนิคที่ดีกว่าคือสร้างฟีเจอร์บูลีนแยกต่างหากซึ่งระบุว่ามีการระบุค่า watch_time_in_seconds หรือไม่ เช่น

แนะนำ

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

วิธีนี้เป็นวิธีจัดการชุดข้อมูลต่อเนื่องที่มีค่าขาดหายไป ต่อไปให้พิจารณาฟีเจอร์ตัวเลขแบบไม่ต่อเนื่อง เช่น product_category ซึ่งค่าต้องอยู่ในชุดค่าที่จำกัด ในกรณีนี้ เมื่อไม่มีค่า ให้ระบุค่าที่ขาดหายไปโดยใช้ค่าใหม่ในเซตที่สิ้นสุด เมื่อใช้ฟีเจอร์แบบไม่ต่อเนื่อง โมเดลจะเรียนรู้น้ำหนักที่แตกต่างกันสำหรับแต่ละค่า รวมถึงน้ำหนักเดิมสำหรับฟีเจอร์ที่ขาดหายไป

ตัวอย่างเช่น เราจินตนาการค่าที่เป็นไปได้ซึ่งพอดีกับชุดค่าผสมได้ดังนี้

{0: 'electronics', 1: 'books', 2: 'clothing', 3: 'missing_category'}.