ข้อมูลตัวเลข: คุณสมบัติของคุณลักษณะทางตัวเลขที่ดี

หน่วยนี้ได้สำรวจวิธีจับคู่ข้อมูลดิบ เวกเตอร์จุดสนใจ ฟีเจอร์เชิงตัวเลขที่ดีจะแชร์ ตามที่อธิบายไว้ในส่วนนี้

ตั้งชื่ออย่างชัดเจน

แต่ละสถานที่ควรมีความหมายที่ชัดเจน สมเหตุสมผล และชัดเจนสำหรับมนุษย์ ให้กับโครงการ ตัวอย่างเช่น ความหมายของค่าฟีเจอร์ต่อไปนี้คือ ทำให้สับสน:

ไม่แนะนำ

อายุ_บ้าน: 851472000

ในทางตรงกันข้าม ชื่อและค่าฟีเจอร์ต่อไปนี้จะชัดเจนกว่า

แนะนำ

House_age_years: 27

ตรวจสอบหรือทดสอบก่อนการฝึก

แม้ว่าโมดูลนี้จะทุ่มเทเวลาอย่างมากให้กับ outliers หัวข้อคือ มีความสำคัญพอที่จะพูดถึง การกล่าวถึงครั้งสุดท้าย ในบางกรณี ข้อมูลไม่ถูกต้อง (ไม่ใช่ตัวเลือกด้านวิศวกรรมที่ไม่ดี) ก่อให้เกิดค่าที่ไม่ชัดเจน ตัวอย่างเช่น user_age_in_years ต่อไปนี้มาจากแหล่งที่มาที่ไม่ได้ตรวจหา ค่าที่เหมาะสม ได้แก่

ไม่แนะนำ

user_age_in_years: 224

แต่บุคคลอาจมีอายุได้ 24 ปี ดังนี้

แนะนำ

user_age_in_years: 24

ตรวจสอบข้อมูล

สมเหตุสมผล

"ความมหัศจรรย์" คือความไม่ต่อเนื่องโดยเจตนา ตัวอย่างเช่น สมมติว่าฟีเจอร์ต่อเนื่องชื่อ watch_time_in_seconds มีค่าจุดลอยตัวใดก็ได้ระหว่าง 0 ถึง 30 แต่แสดงค่าการไม่มีอยู่ ของการวัดที่มีค่าเวทมนตร์ -1:

ไม่แนะนำ

เวลาในการรับชมเป็นหน่วยวินาที: -1

watch_time_in_seconds ของ -1 จะบังคับให้โมเดลลองคำนวณ เพื่อดูภาพยนตร์แบบย้อนเวลา โมเดลที่ได้จะ อาจคาดการณ์ได้ไม่ดีนัก

เทคนิคที่ดีกว่าคือการสร้าง คุณลักษณะบูลีน แยกต่างหากที่ระบุ ไม่ว่าจะเป็น watch_time_in_seconds หรือไม่ ที่ระบุ เช่น

แนะนำ

เวลาในการรับชมเป็นหน่วยวินาที: 4.82
is_watch_time_in_seconds_defined=True

เวลาในการรับชมเป็นหน่วยวินาที: 0
is_watch_time_in_seconds_defined=False

คราวนี้ให้พิจารณาเมตริกที่ไม่ต่อเนื่อง ฟีเจอร์ตัวเลขที่มีค่าต้องอยู่ในกลุ่มค่าที่จำกัด ด้วยวิธีนี้ หากค่าขาดหายไป หมายความว่าค่าที่หายไปโดยใช้ค่าใหม่ใน จำกัดเวลา ฟีเจอร์แยกกันช่วยให้โมเดลเรียนรู้เกี่ยวกับน้ำหนักที่ต่างกัน สำหรับแต่ละค่า รวมทั้งน้ำหนักเดิมของจุดสนใจที่ขาดหายไป