ข้อควรพิจารณาในทางปฏิบัติ
ทําให้ไปป์ไลน์การสร้างข้อมูลจําลองได้ สมมติว่าคุณต้องการเพิ่ม ฟีเจอร์เพื่อดูผลกระทบที่มีต่อคุณภาพของโมเดล สําหรับการทดสอบที่เป็นธรรม ชุดข้อมูลของคุณควรเหมือนกัน ยกเว้นฟีเจอร์ใหม่นี้ หากสร้างข้อมูลเรียกใช้ไม่ได้ คุณจะสร้างชุดข้อมูลเหล่านี้ไม่ได้
ในการสํารวจดังกล่าว ให้ตรวจสอบว่าระบบสุ่มสร้างข้อมูลได้หลายรูปแบบ ดังนี้
- โปรแกรมสร้างตัวเลขแบบสุ่ม (RNG) Seeding ช่วยให้แน่ใจว่า RNG จะแสดงผลค่าเดียวกันในลําดับเดียวกันทุกครั้งที่คุณเรียกใช้ เพื่อสร้างชุดข้อมูลขึ้นใหม่
- ใช้คีย์แฮชที่แปรผันได้ การแฮชเป็นวิธีทั่วไปในการแบ่งหรือสุ่มตัวอย่างข้อมูล คุณสามารถแฮชแต่ละตัวอย่าง และใช้จํานวนเต็มที่ได้เพื่อตัดสินใจว่าควรแยกส่วนใดเพื่อวางตัวอย่าง ไม่ควรป้อนอินพุตของฟังก์ชันแฮช #39; ทุกครั้งที่คุณเรียกใช้โปรแกรมการสร้างข้อมูล อย่าใช้เวลาปัจจุบันหรือตัวเลขแบบสุ่มในแฮช เช่น หากต้องการสร้างแฮชใหม่ตามคําขอ
วิธีการก่อนหน้านี้นํามาใช้กับการสุ่มตัวอย่างและการแยกข้อมูล
ข้อควรพิจารณาสําหรับการแฮช
สมมติว่าคุณรวบรวมคําค้นหาและใช้การแฮช เพื่อรวมหรือยกเว้นคําค้นหา หากคีย์แฮชใช้คําค้นหานั้นและข้ามวันของข้อมูล คุณจะยกเว้นคําค้นหานั้นเสมอ หรือ "ยกเว้น" เสมอ การรวมหรือไม่รวมคําค้นหาเสมอ ย่อมเป็นผลเสียเนื่องจาก
- ชุดการฝึกจะเห็นชุดคําค้นหาที่หลากหลายน้อยลง
- ชุดการประเมินจะเป็นเรื่องยาก เนื่องจากชุดจะไม่ซ้อนทับข้อมูลการฝึก ในความเป็นจริงแล้ว ณ เวลาที่แสดง คุณจะเห็นการเข้าชมแบบสดบางส่วนในข้อมูลการฝึก ดังนั้นการประเมินของคุณควรแสดงเช่นนั้น
แต่แฮชในคําค้นหา + วันที่ได้ ซึ่งจะทําให้เกิดการแฮชที่ต่างกันในแต่ละวัน