หน่วยนี้ได้สำรวจวิธีจับคู่ข้อมูลดิบ เวกเตอร์จุดสนใจ ฟีเจอร์เชิงตัวเลขที่ดีจะแชร์ ตามที่อธิบายไว้ในส่วนนี้
ตั้งชื่ออย่างชัดเจน
แต่ละสถานที่ควรมีความหมายที่ชัดเจน สมเหตุสมผล และชัดเจนสำหรับมนุษย์ ให้กับโครงการ ตัวอย่างเช่น ความหมายของค่าฟีเจอร์ต่อไปนี้คือ ทำให้สับสน:
ไม่แนะนำ
อายุ_บ้าน: 851472000
ในทางตรงกันข้าม ชื่อและค่าฟีเจอร์ต่อไปนี้จะชัดเจนกว่า
แนะนำ
House_age_years: 27
ตรวจสอบหรือทดสอบก่อนการฝึก
แม้ว่าโมดูลนี้จะทุ่มเทเวลาอย่างมากให้กับ
outliers หัวข้อคือ
มีความสำคัญพอที่จะพูดถึง
การกล่าวถึงครั้งสุดท้าย ในบางกรณี ข้อมูลไม่ถูกต้อง
(ไม่ใช่ตัวเลือกด้านวิศวกรรมที่ไม่ดี) ก่อให้เกิดค่าที่ไม่ชัดเจน ตัวอย่างเช่น
user_age_in_years
ต่อไปนี้มาจากแหล่งที่มาที่ไม่ได้ตรวจหา
ค่าที่เหมาะสม ได้แก่
ไม่แนะนำ
user_age_in_years: 224
แต่บุคคลอาจมีอายุได้ 24 ปี ดังนี้
แนะนำ
user_age_in_years: 24
ตรวจสอบข้อมูล
สมเหตุสมผล
"ความมหัศจรรย์" คือความไม่ต่อเนื่องโดยเจตนา
ตัวอย่างเช่น สมมติว่าฟีเจอร์ต่อเนื่องชื่อ watch_time_in_seconds
มีค่าจุดลอยตัวใดก็ได้ระหว่าง 0 ถึง 30 แต่แสดงค่าการไม่มีอยู่
ของการวัดที่มีค่าเวทมนตร์ -1:
ไม่แนะนำ
เวลาในการรับชมเป็นหน่วยวินาที: -1
watch_time_in_seconds
ของ -1 จะบังคับให้โมเดลลองคำนวณ
เพื่อดูภาพยนตร์แบบย้อนเวลา โมเดลที่ได้จะ
อาจคาดการณ์ได้ไม่ดีนัก
เทคนิคที่ดีกว่าคือการสร้าง คุณลักษณะบูลีน แยกต่างหากที่ระบุ
ไม่ว่าจะเป็น watch_time_in_seconds
หรือไม่
ที่ระบุ เช่น
แนะนำ
เวลาในการรับชมเป็นหน่วยวินาที: 4.82
is_watch_time_in_seconds_defined=Trueเวลาในการรับชมเป็นหน่วยวินาที: 0
is_watch_time_in_seconds_defined=False
คราวนี้ให้พิจารณาเมตริกที่ไม่ต่อเนื่อง ฟีเจอร์ตัวเลขที่มีค่าต้องอยู่ในกลุ่มค่าที่จำกัด ด้วยวิธีนี้ หากค่าขาดหายไป หมายความว่าค่าที่หายไปโดยใช้ค่าใหม่ใน จำกัดเวลา ฟีเจอร์แยกกันช่วยให้โมเดลเรียนรู้เกี่ยวกับน้ำหนักที่ต่างกัน สำหรับแต่ละค่า รวมทั้งน้ำหนักเดิมของจุดสนใจที่ขาดหายไป