ข้อมูลดิบต้องได้รับวิศวกรรมฟีเจอร์ (เปลี่ยนรูปแบบ) คุณควรเปลี่ยนรูปแบบเมื่อใด หรือไม่ พูดกว้างๆ ก็คือ คุณสามารถทำงานด้านวิศวกรรมฟีเจอร์ได้ในระหว่าง สองช่วงต่อไปนี้:
- ก่อนฝึกโมเดล
- ขณะฝึกโมเดล
การเปลี่ยนรูปแบบข้อมูลก่อนการฝึก
สำหรับวิธีการนี้ คุณปฏิบัติตาม 2 ขั้นตอนดังนี้
- เขียนโค้ดหรือใช้เครื่องมือเฉพาะทาง เพื่อแปลงข้อมูลดิบ
- จัดเก็บข้อมูลที่เปลี่ยนรูปแบบไว้ในที่ที่โมเดลนำเข้าได้ เช่น เหมือนในดิสก์
ข้อดี
- ระบบจะแปลงข้อมูลดิบเพียงครั้งเดียว
- ระบบสามารถวิเคราะห์ทั้งชุดข้อมูลเพื่อระบุที่ดีที่สุด การเปลี่ยนแปลงที่ยิ่งใหญ่
ข้อเสีย
- คุณต้องสร้างการเปลี่ยนรูปแบบอีกครั้งในเวลาการคาดการณ์ ระวัง ความคลาดเคลื่อนระหว่างการให้บริการการฝึก
ความคลาดเคลื่อนในการแสดงการฝึกจะเป็นอันตรายมากขึ้นเมื่อระบบทำงานแบบไดนามิก (ออนไลน์) การอนุมาน ในระบบที่ใช้การอนุมานแบบไดนามิก ซอฟต์แวร์ที่เปลี่ยนรูปแบบ ชุดข้อมูลข้อมูลดิบมักจะแตกต่างจากซอฟต์แวร์ที่ทำการคาดการณ์ ซึ่งอาจทำให้การให้บริการการฝึกบิดเบือนได้ ในทางตรงกันข้าม ระบบที่ใช้การอนุมานแบบคงที่ (ออฟไลน์) สามารถ ใช้ซอฟต์แวร์เดียวกัน
การเปลี่ยนรูปแบบข้อมูลขณะฝึก
ในวิธีนี้ การเปลี่ยนรูปแบบเป็นส่วนหนึ่งของโค้ดโมเดล โมเดล ส่งผ่านข้อมูลดิบและเปลี่ยนรูปแบบ
ข้อดี
- คุณจะยังใช้ไฟล์ข้อมูลดิบเดียวกันได้หากเปลี่ยนแปลงการเปลี่ยนรูปแบบ
- คุณจะได้มั่นใจได้ว่าการเปลี่ยนแปลงจะเหมือนกันในเวลาการฝึกและการคาดการณ์
ข้อเสีย
- การเปลี่ยนรูปแบบที่ซับซ้อนอาจเพิ่มเวลาในการตอบสนองของโมเดลได้
- การเปลี่ยนรูปแบบจะเกิดขึ้นสําหรับแต่ละกลุ่มและทุกกลุ่ม
การแปลงข้อมูลต่อกลุ่มอาจเป็นเรื่องยาก ตัวอย่างเช่น สมมติว่าคุณต้องการ ใช้การปรับคะแนนมาตรฐาน Z-Score เพื่อแปลงข้อมูลดิบที่เป็นตัวเลข การแปลงค่ามาตรฐาน Z-Score ต้องใช้ค่าเฉลี่ยและ ส่วนเบี่ยงเบนมาตรฐานของฟีเจอร์ อย่างไรก็ตาม การเปลี่ยนรูปแบบต่อกลุ่มหมายความว่าคุณจะเข้าถึงได้เฉพาะ ข้อมูล 1 ชุด ไม่ใช่ชุดข้อมูลที่สมบูรณ์ ดังนั้นหากกลุ่มลูกค้า ตัวแปรหนึ่ง ค่า Z ของ -2.5 ในกลุ่มหนึ่ง จะไม่มีความหมายเหมือนกัน เป็น -2.5 ในอีกแบตช์ ในการแก้ไขเบื้องต้น ระบบของคุณสามารถคำนวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานไว้ล่วงหน้า ชุดข้อมูลทั้งหมด แล้วใช้เป็นค่าคงที่ในโมเดล