ความยุติธรรม: การลดอคติ

เมื่อแหล่งที่มาของอคติ ถูกระบุในข้อมูลการฝึกอบรม เราสามารถดำเนินการเชิงรุกเพื่อ ลดผลกระทบที่อาจเกิดขึ้น มี 2 กลยุทธ์หลักที่แมชชีนเลิร์นนิง (ML) ที่วิศวกรมักใช้เพื่อแก้ไขอคติ:

  • กำลังเสริมข้อมูลการฝึก
  • กำลังปรับฟังก์ชันการสูญหายของโมเดล

การเสริมข้อมูลการฝึก

หากการตรวจสอบข้อมูลการฝึกตรวจพบว่ามีปัญหา ที่ขาดหายไป ไม่ถูกต้อง หรือข้อมูลบิดเบือน วิธีการที่ง่ายที่สุดในการแก้ไขปัญหาคือ เพื่อรวบรวมข้อมูลเพิ่มเติม

แต่แม้ว่าการเสริมข้อมูลการฝึกจะเป็นแบบที่ดีที่สุด แต่ก็ข้อเสียของ วิธีนี้ก็อาจเป็นไปไม่ได้ เนื่องจากขาด ข้อมูลหรือข้อจำกัดของทรัพยากรที่มีอยู่ซึ่งขัดขวางการเก็บรวบรวมข้อมูล ตัวอย่างเช่น การรวบรวมข้อมูลเพิ่มเติมอาจมีต้นทุนสูงหรือใช้เวลานาน หรือไม่สามารถทำได้เนื่องจาก ข้อจำกัดทางกฎหมาย/ความเป็นส่วนตัว

การปรับฟังก์ชันการเพิ่มประสิทธิภาพของโมเดล

ในกรณีที่ไม่สามารถเก็บรวบรวมข้อมูลการฝึกเพิ่มเติม แนวทางในการลดการให้น้ำหนักพิเศษคือการปรับวิธีคำนวณการสูญเสียระหว่างการสร้าง การฝึกอบรม โดยทั่วไปเราจะใช้ฟังก์ชันการเพิ่มประสิทธิภาพ เช่น การสูญหายของบันทึกเพื่อลงโทษโมเดลที่ไม่ถูกต้อง การคาดการณ์ อย่างไรก็ตาม การสูญหายของบันทึกจะไม่รวมการเป็นสมาชิกกลุ่มย่อย การพิจารณา ดังนั้นแทนที่จะใช้บันทึกที่หายไป เราจึงเลือกการเพิ่มประสิทธิภาพ ที่ออกแบบมาเพื่อลงโทษข้อผิดพลาดด้วยหลักความเป็นธรรม แก้ไขความไม่สมดุลที่เราพบในข้อมูลการฝึกของเรา

ไลบรารีการแก้ไขโมเดล TensorFlow มียูทิลิตีสำหรับการนำไปใช้ เทคนิคการบรรเทาอคติที่แตกต่างกันระหว่างการฝึกโมเดล

  • MinDiff: MinDiff มุ่งสร้างความสมดุลระหว่างข้อผิดพลาดสำหรับข้อมูล 2 ส่วนที่แตกต่างกัน (นักเรียนชาย/หญิงกับนักเรียนนอนไบนารี) โดยเพิ่มบทลงโทษสำหรับ ความแตกต่างของการกระจายการคาดการณ์สำหรับ 2 กลุ่ม

  • การจับคู่ลอจิทปลอม: การจับคู่ลอจิทจำลอง (CLP) มีวัตถุประสงค์เพื่อให้แน่ใจว่าการเปลี่ยนแปลงข้อมูลที่ละเอียดอ่อน ของตัวอย่างที่ระบุไม่เปลี่ยนการคาดการณ์ของโมเดล เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 2 รายการ ค่าฟีเจอร์เหมือนกัน แต่ค่าหนึ่งมีค่า gender เป็น male และ อีกค่าหนึ่งมีค่า gender เป็น nonbinary CLP จะเพิ่มการลงโทษหาก การพยากรณ์สำหรับ 2 ตัวอย่างนี้แตกต่างกัน

เทคนิคที่คุณเลือกในการปรับฟังก์ชันการเพิ่มประสิทธิภาพมีดังนี้ ขึ้นอยู่กับกรณีการใช้งานของโมเดล ในส่วนถัดไป เราจะดู แนวทางการประเมินต้นแบบด้านความยุติธรรมอย่างละเอียดขึ้น โดยพิจารณา Use Case เหล่านี้

แบบฝึกหัด: ตรวจสอบความเข้าใจ

ข้อความเกี่ยวกับเทคนิคการบรรเทาอคติในข้อใดต่อไปนี้เป็นจริง
ทั้ง MinDiff และ CLP จะลงโทษความคลาดเคลื่อนในประสิทธิภาพของโมเดล เกี่ยวข้องกับแอตทริบิวต์ที่มีความละเอียดอ่อน
เทคนิคทั้งสองมีจุดมุ่งหมายเพื่อลดอคติโดยการลงโทษการคาดคะเน ข้อผิดพลาดซึ่งเกิดจากความไม่สมดุลของแอตทริบิวต์ที่มีความละเอียดอ่อน ที่แสดงในข้อมูลการฝึก
MinDiff ลงโทษความแตกต่างในการกระจายโดยรวมของ การคาดการณ์สำหรับข้อมูลส่วนต่างๆ ในขณะที่ CLP จะลงโทษ ความคลาดเคลื่อนในการคาดการณ์ของตัวอย่างแต่ละคู่
MinDiff จัดการกับอคติโดยการปรับการแจกแจงคะแนนสำหรับ 2 กลุ่ม กลุ่มย่อย CLP จัดการกับอคติด้วยการตรวจสอบว่าตัวอย่างแต่ละรายการ ไม่ได้ปฏิบัติต่างกันเพียงเพราะเป็นสมาชิกกลุ่มย่อย
การเพิ่มตัวอย่างลงในชุดข้อมูลการฝึกจะช่วยได้เสมอ ลดอคติในการคาดการณ์ของโมเดล
การเพิ่มตัวอย่างการฝึกอบรมเป็นกลยุทธ์ที่มีประสิทธิภาพสำหรับ การลดอคติ แต่องค์ประกอบของข้อมูลการฝึกใหม่ เป็นสิ่งสำคัญ หากตัวอย่างการฝึกอบรมเพิ่มเติมแสดง ข้อมูลเดิมไม่เพียงพอ พวกเขาก็ไม่สามารถช่วยลด อคติที่มีอยู่เดิม
หากคุณลดอคติด้วยการเพิ่มข้อมูลการฝึก ไม่ควรใช้ MinDiff หรือ CLP ในระหว่างการฝึก
การเสริมข้อมูลการฝึกและการใช้เทคนิค เช่น MinDiff หรือ CLP อาจเป็นส่วนเสริมได้ ตัวอย่างเช่น วิศวกร ML อาจสามารถ ในการรวบรวมข้อมูลการฝึกเพิ่มเติม ให้เพียงพอที่จะลดความคลาดเคลื่อน ประสิทธิภาพได้ถึง 30% แล้วใช้ MinDiff เพื่อลด ความคลาดเคลื่อนอีก 50%