ดังที่ตัวอย่างข่าวแสดงให้เห็นการแบ่งแยกซึ่งไม่ใช่เรื่องจริงเสมอไป ไม่ใช่วิธีที่ถูกต้องเสมอไป
เทคนิคที่พบบ่อยสําหรับระบบออนไลน์คือการแบ่งข้อมูลตามเวลา ซึ่งคุณจะต้องทําดังนี้
- รวบรวมข้อมูล 30 วัน
- ฝึกข้อมูลจากวันที่ 1-29
- ประเมินข้อมูลจากวันที่ 30
สําหรับระบบออนไลน์ ข้อมูลการฝึกมีอายุมากกว่าข้อมูลการแสดงผล ดังนั้น เทคนิคนี้ช่วยให้มั่นใจได้ว่าการตรวจสอบความถูกต้องจะล่าช้ากว่าในระหว่างการฝึกและการให้บริการ อย่างไรก็ตาม การแยกที่อิงตามเวลาจะทํางานได้ดีที่สุดกับชุดข้อมูลขนาดใหญ่มาก เช่น ชุดข้อมูลตัวอย่าง 10 ล้านตัวอย่าง ในโปรเจ็กต์ที่มีข้อมูลน้อย การกระจายอาจแตกต่างกันออกไปตามการฝึก การตรวจสอบ และการทดสอบ
จดจําข้อบกพร่องของการแยกข้อมูลจากโครงการวรรณกรรมแมชชีนเลิร์นนิงที่อธิบายไว้ในหลักสูตรหลักสูตรแมชชีนเลิร์นนิงด้วย ข้อมูลเขียนโดยนักเขียน 1 ใน 3 คน ข้อมูลจึงแบ่งออกเป็น 3 กลุ่มหลัก เนื่องจากทีมใช้การแยกการสุ่ม ข้อมูลจากแต่ละกลุ่มก็อยู่ในชุดการฝึก การประเมิน และการทดสอบ ดังนั้นโมเดลจะได้เรียนรู้จากข้อมูลที่ควรจะไม่ได้ในเวลาที่มีการคาดการณ์ ปัญหานี้อาจเกิดขึ้นทุกครั้งที่มีการจัดกลุ่มข้อมูล ไม่ว่าจะเป็นข้อมูลอนุกรมเวลา หรือจัดกลุ่มตามเกณฑ์อื่นๆ ความรู้เกี่ยวกับโดเมนช่วยให้ทราบวิธีการแบ่งข้อมูล
โปรดดูข้อมูลเพิ่มเติมเกี่ยวกับโมดูลเหล่านี้ในหลักสูตร "แมชชีนเลิร์นนิง"