การสุ่มตัวอย่างและการแยก: ตรวจสอบความเข้าใจ

สําหรับคําถามต่อไปนี้ ให้คลิกลูกศรที่ต้องการเพื่อตรวจคําตอบ

ลองสมมติว่าคุณมีชุดข้อมูลที่มีอัตราส่วนที่เป็นบวก 1:1000 ขออภัย โมเดลของคุณคาดการณ์คลาสส่วนใหญ่เสมอ เทคนิคใดจะช่วยให้คุณจัดการกับปัญหานี้ได้ดีที่สุด โปรดทราบว่าคุณต้องการให้โมเดลรายงานความน่าจะเป็นที่ปรับเทียบ
เพียงแสดงตัวอย่างเชิงลบ
ซึ่งเป็นการเริ่มต้นที่ดี แต่จะเปลี่ยนแปลงอัตราฐานของโมเดลจึงไม่มีการปรับเทียบอีกต่อไป
สุ่มตัวอย่างตัวอย่างเชิงลบ (คลาสส่วนใหญ่) จากนั้นจึงเพิ่มน้ําหนัก คลาสแบบไม่สุ่มตัวอย่างแยกตามปัจจัยเดียวกัน
วิธีนี้เป็นวิธีที่มีประสิทธิภาพในการจัดการกับข้อมูลที่ไม่สมดุลและยังคงได้รับการกระจายของป้ายกํากับจริงๆ โปรดทราบว่าคุณควรคํานึงถึงว่าโมเดลจะรายงานความน่าจะเป็นของการปรับเทียบหรือไม่ แต่หากไม่จําเป็นต้องปรับเทียบ คุณก็ไม่ต้องกังวลกับการเปลี่ยนแปลงราคาฐาน
เทคนิคใดจะสูญเสียข้อมูลจากส่วนเกินของชุดข้อมูล เลือกได้หลายคำตอบ
การกรอง PII
การกรอง PII ออกจากข้อมูลอาจนําข้อมูลออกซึ่งช่วยให้เผยแพร่ข้อมูลได้ยาก
การถ่วงน้ำหนัก
ตัวอย่างการถ่วงน้ําหนักจะเปลี่ยนแปลงความสําคัญของตัวอย่างที่ต่างกัน แต่ข้อมูลจะไม่สูญหาย ที่จริงแล้ว การเพิ่มน้ําหนักให้กับตัวอย่างหางสามารถช่วยให้โมเดลเรียนรู้พฤติกรรมเกี่ยวกับหางได้
การสุ่มตัวอย่าง
ส่วนการแจกแจงของฟีเจอร์จะสูญเสียข้อมูลที่จะมีการสุ่มตัวอย่าง อย่างไรก็ตาม เนื่องจากโดยปกติเราจะลดขนาดคลาสส่วนใหญ่ การสูญเสียนี้จึงไม่ใช่ปัญหาใหญ่
การปรับให้เป็นมาตรฐาน
การปรับข้อมูลให้เป็นมาตรฐานจะดําเนินการกับตัวอย่างแต่ละรายการ จึงไม่ทําให้เกิดการให้น้ําหนักพิเศษ
คุณกําลังทําปัญหาด้านการแยกประเภทแบบสุ่ม และจะแบ่งข้อมูลออกเป็นชุดการฝึก การประเมิน และการทดสอบแบบสุ่ม ดูเหมือนว่าตัวแยกประเภทจะทํางานได้อย่างสมบูรณ์แบบ แต่ในเวอร์ชันที่ใช้งานจริง ตัวแยกประเภทจะไม่สําเร็จเลย คุณพบว่าปัญหาเกิดจากการสุ่มแยกในภายหลังได้ ข้อมูลประเภทใดที่มีความเสี่ยงสําหรับปัญหานี้
ข้อมูลอนุกรมเวลา
การแยกแบบสุ่มจะแบ่งแต่ละคลัสเตอร์กับฝั่งทดสอบ/รถไฟ ทําให้เห็น "ตัวอย่างการแอบดู" กับโมเดลที่จะใช้งานไม่ได้จริง
ข้อมูลที่มีการเปลี่ยนแปลงไม่เปลี่ยนแปลงเมื่อเวลาผ่านไป
หากข้อมูลไม่เปลี่ยนแปลงมากนักเมื่อเวลาผ่านไป คุณจะมีโอกาสมากขึ้นที่จะเจอกับการแบ่งข้อมูลแบบสุ่ม เช่น คุณอาจต้องการระบุสายพันธุ์สุนัขในรูปภาพหรือคาดการณ์ผู้ป่วยที่เสี่ยงต่อความบกพร่องทางหัวใจโดยอิงตามข้อมูลไบโอเมตริกที่ผ่านมา ในทั้ง 2 กรณี ข้อมูลมักจะไม่เปลี่ยนแปลงเมื่อเวลาผ่านไป ดังนั้นการแยกส่วนแบบสุ่มจึงไม่ควรทําให้เกิดปัญหา
การจัดกลุ่มข้อมูล
ชุดทดสอบจะคล้ายกันเกินไปกับชุดการฝึกเสมอ เนื่องจากคลัสเตอร์ของข้อมูลที่คล้ายกันอยู่ในทั้ง 2 ชุด โมเดลดังกล่าวจะมีสิทธิ์ในการคาดการณ์ที่ดีกว่า
ข้อมูลที่มีความเร่ง (ข้อมูลที่เข้ามาถึงช่วงต่อเนื่องเป็นช่วงๆ ไม่ใช่ตรงข้ามกับสตรีมต่อเนื่อง)
คลัสเตอร์ของข้อมูลที่คล้ายกัน (ระเบิด) จะแสดงทั้งในการฝึกและการทดสอบ โมเดลจะคาดการณ์การทดสอบได้ดีขึ้นกว่าข้อมูลใหม่