ระบบ ML การผลิต: ควรเปลี่ยนรูปแบบข้อมูลเมื่อใด

ข้อมูลดิบต้องได้รับวิศวกรรมฟีเจอร์ (เปลี่ยนรูปแบบ) คุณควรเปลี่ยนรูปแบบเมื่อใด หรือไม่ พูดกว้างๆ ก็คือ คุณสามารถทำงานด้านวิศวกรรมฟีเจอร์ได้ในระหว่าง สองช่วงต่อไปนี้:

  • ก่อนฝึกโมเดล
  • ขณะฝึกโมเดล

การเปลี่ยนรูปแบบข้อมูลก่อนการฝึก

สำหรับวิธีการนี้ คุณปฏิบัติตาม 2 ขั้นตอนดังนี้

  1. เขียนโค้ดหรือใช้เครื่องมือเฉพาะทาง เพื่อแปลงข้อมูลดิบ
  2. จัดเก็บข้อมูลที่เปลี่ยนรูปแบบไว้ในที่ที่โมเดลนำเข้าได้ เช่น เหมือนในดิสก์

ข้อดี

  • ระบบจะแปลงข้อมูลดิบเพียงครั้งเดียว
  • ระบบสามารถวิเคราะห์ทั้งชุดข้อมูลเพื่อระบุที่ดีที่สุด การเปลี่ยนแปลงที่ยิ่งใหญ่

ข้อเสีย

ความคลาดเคลื่อนในการแสดงการฝึกจะเป็นอันตรายมากขึ้นเมื่อระบบทำงานแบบไดนามิก (ออนไลน์) การอนุมาน ในระบบที่ใช้การอนุมานแบบไดนามิก ซอฟต์แวร์ที่เปลี่ยนรูปแบบ ชุดข้อมูลข้อมูลดิบมักจะแตกต่างจากซอฟต์แวร์ที่ทำการคาดการณ์ ซึ่งอาจทำให้การให้บริการการฝึกบิดเบือนได้ ในทางตรงกันข้าม ระบบที่ใช้การอนุมานแบบคงที่ (ออฟไลน์) สามารถ ใช้ซอฟต์แวร์เดียวกัน

การเปลี่ยนรูปแบบข้อมูลขณะฝึก

ในวิธีนี้ การเปลี่ยนรูปแบบเป็นส่วนหนึ่งของโค้ดโมเดล โมเดล ส่งผ่านข้อมูลดิบและเปลี่ยนรูปแบบ

ข้อดี

  • คุณจะยังใช้ไฟล์ข้อมูลดิบเดียวกันได้หากเปลี่ยนแปลงการเปลี่ยนรูปแบบ
  • คุณจะได้มั่นใจได้ว่าการเปลี่ยนแปลงจะเหมือนกันในเวลาการฝึกและการคาดการณ์

ข้อเสีย

  • การเปลี่ยนรูปแบบที่ซับซ้อนอาจเพิ่มเวลาในการตอบสนองของโมเดลได้
  • การเปลี่ยนรูปแบบจะเกิดขึ้นสําหรับแต่ละกลุ่มและทุกกลุ่ม

การแปลงข้อมูลต่อกลุ่มอาจเป็นเรื่องยาก ตัวอย่างเช่น สมมติว่าคุณต้องการ ใช้การปรับคะแนนมาตรฐาน Z-Score เพื่อแปลงข้อมูลดิบที่เป็นตัวเลข การแปลงค่ามาตรฐาน Z-Score ต้องใช้ค่าเฉลี่ยและ ส่วนเบี่ยงเบนมาตรฐานของฟีเจอร์ อย่างไรก็ตาม การเปลี่ยนรูปแบบต่อกลุ่มหมายความว่าคุณจะเข้าถึงได้เฉพาะ ข้อมูล 1 ชุด ไม่ใช่ชุดข้อมูลที่สมบูรณ์ ดังนั้นหากกลุ่มลูกค้า ตัวแปรหนึ่ง ค่า Z ของ -2.5 ในกลุ่มหนึ่ง จะไม่มีความหมายเหมือนกัน เป็น -2.5 ในอีกแบตช์ ในการแก้ไขเบื้องต้น ระบบของคุณสามารถคำนวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานไว้ล่วงหน้า ชุดข้อมูลทั้งหมด แล้วใช้เป็นค่าคงที่ในโมเดล