พิจารณาชุดข้อมูลที่มีป้ายกำกับเชิงหมวดหมู่ที่มีค่าเป็น Positive หรือ Negative ในชุดข้อมูลที่สมดุล จำนวนของเชิงบวก และป้ายกำกับเชิงลบนั้นเท่ากัน แต่ถ้าป้ายกำกับใดป้ายหนึ่งมีการใช้งานมากกว่า มากกว่าป้ายกำกับอื่น จากนั้นชุดข้อมูลจะเป็น ไม่สมดุล ป้ายกำกับที่โดดเด่นในชุดข้อมูลที่ไม่สมดุลเรียกว่าฟิลด์ กลุ่มใหญ่ ป้ายกำกับที่ใช้น้อยกว่าจะเรียกว่า ชนกลุ่มน้อย
ตารางต่อไปนี้แสดงชื่อและช่วงที่ได้รับการยอมรับโดยทั่วไปสำหรับความไม่สมดุลในระดับต่างๆ
เปอร์เซ็นต์ของข้อมูลที่ชนกลุ่มน้อย | ระดับความไม่สมดุล |
---|---|
20-40% ของชุดข้อมูล | ผ่อนปรน |
1-20% ของชุดข้อมูล | ปานกลาง |
<1% ของชุดข้อมูล | สูงสุด |
ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลการตรวจหาไวรัสซึ่งคลาสส่วนน้อยแสดงถึง 0.5% ของชุดข้อมูล และคลาสส่วนใหญ่แสดงถึง 99.5% ชุดข้อมูลที่ไม่สมดุลอย่างมากเช่นนี้เป็นเรื่องปกติในทางการแพทย์ เนื่องจากผู้เข้าร่วมส่วนใหญ่จะไม่มีไวรัส
บางครั้งชุดข้อมูลที่ไม่สมดุลจะมีชนกลุ่มน้อยเพียงพอ ตัวอย่างเพื่อฝึกโมเดลอย่างถูกต้อง กล่าวคือ หากมีป้ายกำกับเชิงบวกจำนวนไม่มาก โมเดลจะฝึกบนเว็บไซต์เกือบทั้งหมด ป้ายกำกับเชิงลบ และไม่สามารถเรียนรู้เกี่ยวกับป้ายกำกับเชิงบวกได้มากพอ เช่น หากขนาดกลุ่มเป็น 50 รายการ หลายๆ กลุ่มจะไม่มีป้ายกำกับเชิงบวก
บ่อยครั้ง โดยเฉพาะอาการที่ไม่สมดุลเล็กน้อยและบางจุดไม่สมดุลปานกลาง ความไม่สมดุลก็ไม่ใช่ปัญหา ดังนั้นคุณควรลอง จากชุดข้อมูลต้นฉบับ หากโมเดลทำงานได้ดี แสดงว่าเสร็จแล้ว หากไม่ อย่างน้อยโมเดลที่มีประสิทธิภาพต่ำกว่าเกณฑ์ก็ถือเป็นฐานที่ดีสำหรับการทดสอบในอนาคต หลังจากนั้นคุณสามารถลองใช้เทคนิคต่อไปนี้เพื่อเอาชนะปัญหา เกิดจากชุดข้อมูลที่ไม่สมดุล
การดาวน์แซมปลิงและการเพิ่มน้ำหนัก
วิธีจัดการชุดข้อมูลที่ไม่สมดุลอย่างหนึ่งคือการลดขนาดตัวอย่างและเพิ่มน้ำหนักของคลาสส่วนใหญ่ คำจำกัดความของ 2 คำใหม่มีดังนี้
- การลดขนาดการสุ่มตัวอย่าง (ในบริบทนี้) หมายถึงการฝึกกับชุดย่อยที่มีจำนวนน้อยมากของตัวอย่างในคลาสส่วนใหญ่
- การให้น้ำหนักเกินเกณฑ์หมายถึงการเพิ่ม ให้น้ำหนักตัวอย่างเป็นคลาสแบบไม่สุ่มตัวอย่างที่เท่ากับปัจจัยที่คุณ ลดการสุ่มตัวอย่าง
ขั้นตอนที่ 1: ลดการสุ่มตัวอย่างชั้นเรียนส่วนใหญ่ พิจารณาชุดข้อมูลไวรัสที่แสดงใน รูปที่ 5 ที่มีอัตราส่วนของป้ายกำกับเชิงบวก 1 ป้ายต่อป้ายกำกับเชิงลบทุกๆ 200 ป้ายกำกับ การลดขนาดลง 10 เท่าช่วยเพิ่มความสมดุลเป็น 1 รายการเชิงบวกต่อ 20 รายการเชิงลบ (5%) แม้ว่าชุดการฝึกที่ได้จะยังคงไม่สมดุลในระดับปานกลาง แต่สัดส่วนระหว่างตัวอย่างเชิงบวกกับเชิงลบนั้นดีกว่าสัดส่วนเดิมที่ไม่สมดุลอย่างมาก (0.5%) มาก
ขั้นตอนที่ 2: เพิ่มน้ำหนักของคลาสที่ลดขนาด: เพิ่มตัวอย่างน้ำหนักลงในคลาสที่ลดขนาด หลังจากลดขนาดตัวอย่างลง 10 เท่า น้ำหนักตัวอย่างควรเป็น 10 (ใช่ นี่อาจฟังดูขัดกับสัญชาตญาณ แต่เราจะอธิบายเหตุผลในภายหลัง)
คำว่าน้ำหนักไม่ได้หมายถึงพารามิเตอร์โมเดล (เช่น w1 หรือ ตะวันตก2) ในที่นี้ weight หมายถึงน้ำหนักตัวอย่าง ซึ่งจะเพิ่มความสำคัญของตัวอย่างแต่ละรายการในระหว่างการฝึก ตัวอย่างที่มีน้ำหนัก 10 หมายความว่าโมเดลจะถือว่าตัวอย่างนั้นสำคัญกว่า (เมื่อคํานวณการสูญเสีย) 10 เท่าเมื่อเทียบกับตัวอย่างที่มีน้ำหนัก 1
น้ำหนักควรเท่ากับปัจจัยที่คุณใช้ในการลดตัวอย่าง
\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]
การเพิ่มน้ำหนักตัวอย่างหลังจากสุ่มตัวอย่างอาจฟังดูแปลกๆ ท้ายที่สุดแล้ว คุณพยายามทําให้โมเดลปรับปรุงการแยกแยะคลาสที่มีจํานวนน้อยอยู่แล้ว เหตุใดจึงต้องเพิ่มน้ำหนักให้คลาสที่มีจํานวนมาก อันที่จริง การลดน้ำหนักผู้ชมส่วนใหญ่มีแนวโน้มที่ อคติจากการคาดคะเน นั่นคือ การถ่วงน้ำหนักที่สูงขึ้นหลังจากสุ่มตัวอย่างมีแนวโน้มที่จะลดเดลต้าระหว่างค่าเฉลี่ย การคาดการณ์ของโมเดลและค่าเฉลี่ยของป้ายกำกับของชุดข้อมูล
อัตราส่วนการทรงตัวใหม่
คุณควรลดขนาดและเพิ่มน้ำหนักเท่าใดเพื่อปรับสมดุลชุดข้อมูล ในการหาคำตอบ คุณควรทดสอบกับอัตราส่วนการจัดสรรใหม่ เช่นเดียวกับที่คุณทดสอบกับ Hyperพารามิเตอร์ อย่างไรก็ตาม คำตอบสุดท้ายจะขึ้นอยู่กับปัจจัยต่อไปนี้
- ขนาดกลุ่ม
- อัตราส่วนความไม่สมดุล
- จำนวนตัวอย่างในชุดการฝึก
ตามหลักการแล้ว แต่ละกลุ่มควรมีตัวอย่างคลาสของชนกลุ่มน้อยหลายรายการ กลุ่มที่ไม่มีคลาสของชนกลุ่มน้อยเพียงพอจะทําให้การฝึกมีประสิทธิภาพต่ำมาก ขนาดกลุ่มควรมากกว่าอัตราส่วนความไม่สมดุลหลายเท่า ตัวอย่างเช่น หากอัตราส่วนที่ไม่สมดุลคือ 100:1 ขนาดกลุ่มควร ต้องมีอย่างน้อย 500 ตัว
แบบฝึกหัด: ตรวจสอบความเข้าใจ
ลองพิจารณาสถานการณ์ต่อไปนี้
- ชุดข้อมูลการฝึกมีตัวอย่างมากกว่า 1 พันล้านรายการ
- ขนาดกลุ่มคือ 128
- อัตราส่วนความไม่สมดุลคือ 100:1 ดังนั้นชุดการฝึกจะแบ่งดังนี้
- ตัวอย่างคลาสส่วนใหญ่ประมาณ 1 พันล้านรายการ
- ตัวอย่างชนกลุ่มน้อยราว 10 ล้านคน