การสุ่ม

ข้อควรพิจารณาในทางปฏิบัติ

ทําให้ไปป์ไลน์การสร้างข้อมูลจําลองได้ สมมติว่าคุณต้องการเพิ่ม ฟีเจอร์เพื่อดูผลกระทบที่มีต่อคุณภาพของโมเดล สําหรับการทดสอบที่เป็นธรรม ชุดข้อมูลของคุณควรเหมือนกัน ยกเว้นฟีเจอร์ใหม่นี้ หากสร้างข้อมูลเรียกใช้ไม่ได้ คุณจะสร้างชุดข้อมูลเหล่านี้ไม่ได้

ในการสํารวจดังกล่าว ให้ตรวจสอบว่าระบบสุ่มสร้างข้อมูลได้หลายรูปแบบ ดังนี้

  • โปรแกรมสร้างตัวเลขแบบสุ่ม (RNG) Seeding ช่วยให้แน่ใจว่า RNG จะแสดงผลค่าเดียวกันในลําดับเดียวกันทุกครั้งที่คุณเรียกใช้ เพื่อสร้างชุดข้อมูลขึ้นใหม่
  • ใช้คีย์แฮชที่แปรผันได้ การแฮชเป็นวิธีทั่วไปในการแบ่งหรือสุ่มตัวอย่างข้อมูล คุณสามารถแฮชแต่ละตัวอย่าง และใช้จํานวนเต็มที่ได้เพื่อตัดสินใจว่าควรแยกส่วนใดเพื่อวางตัวอย่าง ไม่ควรป้อนอินพุตของฟังก์ชันแฮช #39; ทุกครั้งที่คุณเรียกใช้โปรแกรมการสร้างข้อมูล อย่าใช้เวลาปัจจุบันหรือตัวเลขแบบสุ่มในแฮช เช่น หากต้องการสร้างแฮชใหม่ตามคําขอ

วิธีการก่อนหน้านี้นํามาใช้กับการสุ่มตัวอย่างและการแยกข้อมูล

ข้อควรพิจารณาสําหรับการแฮช

สมมติว่าคุณรวบรวมคําค้นหาและใช้การแฮช เพื่อรวมหรือยกเว้นคําค้นหา หากคีย์แฮชใช้คําค้นหานั้นและข้ามวันของข้อมูล คุณจะยกเว้นคําค้นหานั้นเสมอ หรือ "ยกเว้น" เสมอ การรวมหรือไม่รวมคําค้นหาเสมอ ย่อมเป็นผลเสียเนื่องจาก

  • ชุดการฝึกจะเห็นชุดคําค้นหาที่หลากหลายน้อยลง
  • ชุดการประเมินจะเป็นเรื่องยาก เนื่องจากชุดจะไม่ซ้อนทับข้อมูลการฝึก ในความเป็นจริงแล้ว ณ เวลาที่แสดง คุณจะเห็นการเข้าชมแบบสดบางส่วนในข้อมูลการฝึก ดังนั้นการประเมินของคุณควรแสดงเช่นนั้น

แต่แฮชในคําค้นหา + วันที่ได้ ซึ่งจะทําให้เกิดการแฮชที่ต่างกันในแต่ละวัน

 

ภาพเคลื่อนไหวที่แสดงให้เห็นว่าการแฮชเฉพาะคําค้นหาเพียงอย่างเดียวจะทําให้ข้อมูลอยู่ในที่เก็บข้อมูลเดียวกันในแต่ละวัน แต่การแฮชคําค้นหาบวกเวลาสืบค้นทําให้ข้อมูลที่เก็บข้อมูลแยกกันในแต่ละวัน ที่เก็บข้อมูล 3 รายการ ได้แก่ การฝึกอบรม
การประเมิน และละเว้น