ชุดข้อมูล: ชุดข้อมูลที่ไม่สมดุล

พิจารณาชุดข้อมูลที่มีป้ายกำกับเชิงหมวดหมู่ที่มีค่าเป็น Positive หรือ Negative (เชิงลบ) ในชุดข้อมูลที่สมดุล จำนวนของเชิงบวก และป้ายกำกับเชิงลบนั้นเท่ากัน แต่ถ้าป้ายกำกับใดป้ายหนึ่งมีการใช้งานมากกว่า มากกว่าป้ายกำกับอื่น จากนั้นชุดข้อมูลจะเป็น ไม่สมดุล ป้ายกำกับที่โดดเด่นในชุดข้อมูลที่ไม่สมดุลเรียกว่าฟิลด์ กลุ่มใหญ่ ป้ายกำกับที่ใช้น้อยกว่าจะเรียกว่า ชนกลุ่มน้อย

ตารางต่อไปนี้ระบุชื่อและช่วงที่ยอมรับโดยทั่วไปสำหรับ ความไม่สมดุลในระดับต่างๆ

เปอร์เซ็นต์ของข้อมูลที่ชนกลุ่มน้อย ระดับความไม่สมดุล
20-40% ของชุดข้อมูล ผ่อนปรน
1-20% ของชุดข้อมูล ปานกลาง
<1% ของชุดข้อมูล สูงสุด

ตัวอย่างเช่น ลองพิจารณาชุดข้อมูลการตรวจจับไวรัสที่ชนกลุ่มน้อย คิดเป็น 0.5% ของชุดข้อมูล และคลาสส่วนใหญ่คิดเป็น 99.5% ชุดข้อมูลที่ไม่สมดุลกันมากเช่นนี้พบได้บ่อยในทางการแพทย์เนื่องจาก วิชาส่วนใหญ่จะไม่มีไวรัส

รูปที่ 5 กราฟแท่งที่มี 2 แท่ง แถบหนึ่งแสดงประมาณ 200
            คลาสเชิงลบ; ส่วนอีกแถบหนึ่งจะแสดงคลาสเชิงบวก 1 รายการ
รูปที่ 5 ชุดข้อมูลไม่สมดุลอย่างมาก

 

บางครั้งชุดข้อมูลที่ไม่สมดุลอาจมีชนกลุ่มน้อยเพียงพอ ตัวอย่างเพื่อฝึกโมเดลอย่างถูกต้อง กล่าวคือ หากมีป้ายกำกับเชิงบวกจำนวนไม่มาก โมเดลจะฝึกบนเว็บไซต์เกือบทั้งหมด ป้ายกำกับเชิงลบ และไม่สามารถเรียนรู้เกี่ยวกับป้ายกำกับเชิงบวกได้มากพอ ตัวอย่างเช่น หากกลุ่มขนาดคือ 50 กลุ่มจำนวนมากจะไม่มีป้ายกำกับเชิงบวก

บ่อยครั้ง โดยเฉพาะอาการที่ไม่สมดุลเล็กน้อยและบางจุดไม่สมดุลปานกลาง ความไม่สมดุลก็ไม่ใช่ปัญหา ดังนั้นคุณควรลอง จากชุดข้อมูลต้นฉบับ หากโมเดลทำงานได้ดี ก็ถือว่าเสร็จเรียบร้อย หากไม่ อย่างน้อยที่สุด โมเดลประสิทธิภาพต่ำกว่ามาตรฐานจะแสดง baseline สำหรับการทดสอบในอนาคต หลังจากนั้นคุณสามารถลองใช้เทคนิคต่อไปนี้เพื่อเอาชนะปัญหา เกิดจากชุดข้อมูลที่ไม่สมดุล

การดาวน์แซมปลิงและการเพิ่มน้ำหนัก

วิธีหนึ่งในการจัดการชุดข้อมูลที่ไม่สมดุลคือการลดการสุ่มตัวอย่างและเพิ่มน้ำหนัก ส่วนใหญ่ คำจำกัดความของ 2 คำใหม่มีดังนี้

  • การสุ่มตัวอย่าง (ในบริบทนี้) หมายถึงการฝึกกับกลุ่มย่อยที่ต่ำอย่างไม่เป็นสัดส่วนของประชากรส่วนใหญ่ ตัวอย่าง
  • การให้น้ำหนักเกินเกณฑ์หมายถึงการเพิ่ม ให้น้ำหนักตัวอย่างเป็นคลาสตัวอย่างที่ลดลงซึ่งเท่ากับปัจจัยที่คุณ ลดการสุ่มตัวอย่าง

ขั้นตอนที่ 1: ลดการสุ่มตัวอย่างชั้นเรียนส่วนใหญ่ ลองพิจารณาดู ชุดข้อมูลไวรัสที่มีอัตราส่วนของป้ายกำกับบวก 1 ค่าต่อทุก 200 ลบ ป้ายกำกับ การสุ่มตัวอย่างจากเกณฑ์ของ 20 จะช่วยปรับปรุงยอดคงเหลือเป็น 1 บวกถึง 10 ลบ (10%) แม้ว่า ชุดการฝึกที่ได้ยังคงไม่สมดุลปานกลาง สัดส่วนของ ผลบวกถึงเชิงลบดีกว่าแบบเดิมที่ไม่สมดุลอย่างมาก สัดส่วน (0.5%)

รูปที่ 6 กราฟแท่งที่มี 2 แท่ง 1 ขีดแสดงค่าลบ 20
            ชั้นเรียน ส่วนอีกแถบหนึ่งจะแสดงคลาสเชิงบวก 1 รายการ
รูปที่ 6 การดาวน์แซมปลิง

 

ขั้นตอนที่ 2: เพิ่มน้ำหนักของคลาสที่ลดการสุ่มตัวอย่าง: เพิ่มตัวอย่าง ให้เป็นคลาสที่ลดลงตัวอย่าง หลังจากลดลงในอัตรา 20 ค่า น้ำหนักตัวอย่างควรเป็น 20 (ใช่ อาจฟังดูขัดกับสัญชาตญาณ แต่เราจะ แล้วอธิบายสาเหตุในภายหลัง)

รูปที่ 7 แผนภาพ 2 ขั้นตอนของการลดเสียงและการลดน้ำหนัก
            ขั้นตอนที่ 1: การสุ่มตัวอย่างจะดึงข้อมูลตัวอย่างแบบสุ่มจากรายการหลัก
             ขั้นตอนที่ 2: การเพิ่มน้ำหนักจะเพิ่มน้ำหนักให้กับตัวอย่างที่ลดลง
            ตัวอย่าง
รูปที่ 7 การเพิ่มน้ำหนัก

 

คำว่าน้ำหนักไม่ได้หมายถึงพารามิเตอร์โมเดล (เช่น w1 หรือ ตะวันตก2) ในที่นี้ น้ำหนักหมายถึง ตัวอย่างน้ำหนัก ซึ่งเพิ่มความสำคัญของตัวอย่างแต่ละรายการ ในระหว่างการฝึก ตัวอย่างน้ำหนัก 10 หมายความว่าโมเดลถือว่าตัวอย่าง มีความสำคัญมากกว่า (เมื่อสูญเสียการประมวลผล) 10 เท่าจากตัวอย่างของ น้ำหนัก 1

น้ำหนักควรเท่ากับปัจจัยที่คุณใช้ในการลดตัวอย่าง

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

การเพิ่มน้ำหนักตัวอย่างหลังจากสุ่มตัวอย่างอาจฟังดูแปลกๆ ทั้งนี้เพราะคุณ ที่จะทำให้โมเดลนี้พัฒนาขึ้นในกลุ่มชนกลุ่มน้อย ดังนั้น ทำไมต้องเพิ่มน้ำหนัก ส่วนใหญ่แล้ว อันที่จริงแล้ว การลดน้ำหนักผู้ชมส่วนใหญ่มีแนวโน้มที่ อคติจากการคาดคะเน นั่นคือ การถ่วงน้ำหนักที่สูงขึ้นหลังจากสุ่มตัวอย่างมีแนวโน้มที่จะลดเดลต้าระหว่างค่าเฉลี่ย การคาดการณ์ของโมเดลและค่าเฉลี่ยของป้ายกำกับของชุดข้อมูล

อัตราส่วนการทรงตัวใหม่

คุณควรลดการสุ่มตัวอย่างและเพิ่มน้ำหนักมากน้อยเพียงใดเพื่อสร้างความสมดุลให้กับชุดข้อมูลใหม่ ในการหาคำตอบ คุณควรทดสอบกับอัตราส่วนการจัดสรรใหม่ เช่นเดียวกับที่คุณทดสอบกับ Hyperพารามิเตอร์ ดังนั้น คำตอบจะขึ้นอยู่กับปัจจัยดังต่อไปนี้

  • ขนาดกลุ่ม
  • อัตราส่วนที่ไม่สมดุล
  • จำนวนตัวอย่างในชุดการฝึก

ตามหลักการแล้ว แต่ละกลุ่มควรมีตัวอย่างคลาสของชนกลุ่มน้อยหลายรายการ กลุ่มที่มีชนกลุ่มน้อยไม่เพียงพอจะฝึกฝนได้ไม่ดี ขนาดกลุ่มควรมากกว่าอัตราส่วนความไม่สมดุลหลายเท่า ตัวอย่างเช่น หากอัตราส่วนที่ไม่สมดุลคือ 100:1 ขนาดกลุ่มควร ต้องมีอย่างน้อย 500 ตัว

แบบฝึกหัด: ตรวจสอบความเข้าใจ

พิจารณาสถานการณ์ต่อไปนี้

  • ขนาดกลุ่มคือ 128
  • อัตราส่วนความไม่สมดุลคือ 100:1
  • ชุดการฝึกมีตัวอย่าง 1,000 ล้านรายการ
ข้อความใดต่อไปนี้เป็นจริง
การเพิ่มขนาดกลุ่มเป็น 1,024 จะช่วยปรับปรุงผลลัพธ์ โมเดล
ด้วยขนาดกลุ่มเท่ากับ 1,024 แต่ละกลุ่มจะมีค่าเฉลี่ยประมาณ 10 ตัวอย่างคลาสจำนวนน้อย ซึ่งควรจะเพียงพอสำหรับการฝึก ชุดการฝึกจะยังคงมี 1 ชุดเมื่อไม่มีการสุ่มตัวอย่าง พันล้านตัวอย่าง
การลดขนาด (และการเพิ่มน้ำหนัก) เป็น 20:1 ขณะที่คงขนาดกลุ่มไว้ ที่ 128 จะปรับปรุงโมเดลที่ได้
แต่ละกลุ่มจะมีตัวอย่างคลาสส่วนน้อยประมาณ 9 รายการ ซึ่งควร จะเพียงพอสำหรับการฝึก การลดลงอย่างมีประสิทธิภาพสามารถ จำนวนตัวอย่างในชุดการฝึกจาก 1 พันล้านถึง 40 ล้าน
สถานการณ์ตอนนี้ไม่เป็นไร
กลุ่มส่วนใหญ่จะไม่มีคลาสชนกลุ่มน้อยเพียงพอที่จะฝึก โมเดล