โมเดลแมชชีนเลิร์นนิงจะดู ได้ยิน หรือรับรู้ตัวอย่างการป้อนข้อมูลโดยตรงไม่ได้ แต่จะต้องสร้างการนำเสนอข้อมูลเพื่อให้โมเดลมีมุมมองที่เป็นประโยชน์เกี่ยวกับคุณภาพที่สำคัญของข้อมูล กล่าวคือ คุณต้องเลือกชุดฟีเจอร์ที่แสดงข้อมูลได้ดีที่สุดเพื่อฝึกโมเดล
การแสดง
ตั้งแต่ข้อมูลดิบไปจนถึงฟีเจอร์
ความคิดคือการจับคู่แต่ละส่วนของเวกเตอร์ทางด้านซ้ายเป็นฟิลด์หนึ่งหรือหลายฟิลด์ลงในเวกเตอร์ของจุดสนใจทางด้านขวา
ตั้งแต่ข้อมูลดิบไปจนถึงฟีเจอร์
ตั้งแต่ข้อมูลดิบไปจนถึงฟีเจอร์
ตั้งแต่ข้อมูลดิบไปจนถึงฟีเจอร์
- พจนานุกรมจะจับคู่ชื่อถนนแต่ละชื่อกับ int ใน {0, ...,V-1}
- แสดงเวกเตอร์หนึ่งที่นิยมด้านบนเป็น <i>
คุณสมบัติของฟีเจอร์ที่ดี
ค่าฟีเจอร์ควรปรากฏด้วยค่าที่ไม่ใช่ 0 เป็นจำนวนน้อยครั้งมากในชุดข้อมูล
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
คุณสมบัติของฟีเจอร์ที่ดี
สถานที่ควรมีความหมายที่ชัดเจน
user_age:23
user_age:123456789
คุณสมบัติของฟีเจอร์ที่ดี
ฟีเจอร์ต่างๆ ไม่ควรต้องใช้กับค่า "เวทมนตร์"
(ใช้ฟีเจอร์บูลีนเพิ่มเติม เช่น watch_time_is_define แทน)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
คุณสมบัติของฟีเจอร์ที่ดี
คำจำกัดความของฟีเจอร์ไม่ควรเปลี่ยนแปลงเมื่อเวลาผ่านไป
(โปรดระวังการใช้ระบบ ML อื่นด้วย)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
คุณสมบัติของฟีเจอร์ที่ดี
การกระจายไม่ควรมีค่าผิดปกติมากเกินไป
โดยหลักการแล้ว เนื้อหาทั้งหมดจะเปลี่ยนรูปแบบให้อยู่ในช่วงที่คล้ายกัน เช่น (-1, 1) หรือ (0, 5)
เคล็ดลับ Binning
เคล็ดลับ Binning
- สร้างถังบูลีนหลายๆ ถัง โดยแต่ละถังจับคู่กับฟีเจอร์ใหม่ที่ไม่ซ้ำกัน
- อนุญาตให้โมเดลใส่ค่าที่แตกต่างกันสำหรับ Bin แต่ละขนาด
นิสัยที่ดี
รู้ข้อมูลของคุณ
- แสดงภาพ: วาดฮิสโตแกรมโดยจัดอันดับจากมากที่สุดไปน้อยที่สุด
- แก้ไขข้อบกพร่อง: มีตัวอย่างที่ซ้ำกันไหม ไม่พบค่าใช่ไหม ค่าผิดปกติหรือไม่ ข้อมูลเห็นด้วยกับหน้าแดชบอร์ดไหม ข้อมูลการฝึกอบรมและการตรวจสอบคล้ายกันไหม
- ตรวจสอบ: ควอนไทล์ของฟีเจอร์ จำนวนตัวอย่างเมื่อเวลาผ่านไป