การแยกข้อมูลของคุณ

ดังที่ตัวอย่างข่าวแสดงให้เห็นการแบ่งแยกซึ่งไม่ใช่เรื่องจริงเสมอไป ไม่ใช่วิธีที่ถูกต้องเสมอไป

เทคนิคที่พบบ่อยสําหรับระบบออนไลน์คือการแบ่งข้อมูลตามเวลา ซึ่งคุณจะต้องทําดังนี้

  • รวบรวมข้อมูล 30 วัน
  • ฝึกข้อมูลจากวันที่ 1-29
  • ประเมินข้อมูลจากวันที่ 30

สําหรับระบบออนไลน์ ข้อมูลการฝึกมีอายุมากกว่าข้อมูลการแสดงผล ดังนั้น เทคนิคนี้ช่วยให้มั่นใจได้ว่าการตรวจสอบความถูกต้องจะล่าช้ากว่าในระหว่างการฝึกและการให้บริการ อย่างไรก็ตาม การแยกที่อิงตามเวลาจะทํางานได้ดีที่สุดกับชุดข้อมูลขนาดใหญ่มาก เช่น ชุดข้อมูลตัวอย่าง 10 ล้านตัวอย่าง ในโปรเจ็กต์ที่มีข้อมูลน้อย การกระจายอาจแตกต่างกันออกไปตามการฝึก การตรวจสอบ และการทดสอบ

จดจําข้อบกพร่องของการแยกข้อมูลจากโครงการวรรณกรรมแมชชีนเลิร์นนิงที่อธิบายไว้ในหลักสูตรหลักสูตรแมชชีนเลิร์นนิงด้วย ข้อมูลเขียนโดยนักเขียน 1 ใน 3 คน ข้อมูลจึงแบ่งออกเป็น 3 กลุ่มหลัก เนื่องจากทีมใช้การแยกการสุ่ม ข้อมูลจากแต่ละกลุ่มก็อยู่ในชุดการฝึก การประเมิน และการทดสอบ ดังนั้นโมเดลจะได้เรียนรู้จากข้อมูลที่ควรจะไม่ได้ในเวลาที่มีการคาดการณ์ ปัญหานี้อาจเกิดขึ้นทุกครั้งที่มีการจัดกลุ่มข้อมูล ไม่ว่าจะเป็นข้อมูลอนุกรมเวลา หรือจัดกลุ่มตามเกณฑ์อื่นๆ ความรู้เกี่ยวกับโดเมนช่วยให้ทราบวิธีการแบ่งข้อมูล

โปรดดูข้อมูลเพิ่มเติมเกี่ยวกับโมดูลเหล่านี้ในหลักสูตร "แมชชีนเลิร์นนิง"