ความยุติธรรม: การลดอคติ

เมื่อระบุแหล่งที่มาของอคติในข้อมูลการฝึกแล้ว เราจะดำเนินการเชิงรุกเพื่อบรรเทาผลกระทบ มี 2 กลยุทธ์หลักที่แมชชีนเลิร์นนิง (ML) ที่วิศวกรมักใช้เพื่อแก้ไขอคติ:

  • กำลังเสริมข้อมูลการฝึก
  • กำลังปรับฟังก์ชันการสูญหายของโมเดล

การเสริมข้อมูลการฝึก

หากการตรวจสอบข้อมูลการฝึกอบรมพบปัญหาเกี่ยวกับข้อมูลที่ขาดหายไป ไม่ถูกต้อง หรือบิดเบือน วิธีที่ตรงที่สุดในการแก้ปัญหามักเป็นการรวบรวมข้อมูลเพิ่มเติม

อย่างไรก็ตาม แม้ว่าการเพิ่มข้อมูลการฝึกอบรมจะเป็นวิธีที่เหมาะ แต่ข้อเสียของแนวทางนี้คืออาจไม่สามารถทำได้เนื่องจากไม่มีข้อมูลที่มีอยู่หรือข้อจำกัดด้านทรัพยากรที่ขัดขวางการเก็บรวบรวมข้อมูล เช่น การรวบรวมข้อมูลเพิ่มเติมอาจทําให้สิ้นเปลืองค่าใช้จ่ายหรือเวลามากเกินไป หรือทําไม่ได้เนื่องจากข้อจํากัดทางกฎหมาย/ความเป็นส่วนตัว

การปรับฟังก์ชันการเพิ่มประสิทธิภาพของโมเดล

ในกรณีที่การเก็บรวบรวมข้อมูลเพิ่มเติมสำหรับการฝึกโมเดลไม่สามารถทำได้ อีกวิธีหนึ่งในการลดอคติคือการปรับเปลี่ยนวิธีคำนวณการสูญเสียระหว่างการฝึกโมเดล โดยปกติแล้ว เราจะใช้ฟังก์ชันการเพิ่มประสิทธิภาพ เช่น การสูญเสียเชิงลอจิสติก เพื่อลงโทษการคาดคะเนของโมเดลที่ไม่ถูกต้อง อย่างไรก็ตาม การสูญหายของบันทึกจะไม่รวมการเป็นสมาชิกกลุ่มย่อย การพิจารณา ดังนั้น เราจึงเลือกฟังก์ชันการเพิ่มประสิทธิภาพที่ออกแบบมาเพื่อลงโทษข้อผิดพลาดในลักษณะที่คำนึงถึงความเป็นธรรม ซึ่งจะช่วยลดความไม่สมดุลที่เราพบในข้อมูลการฝึก

ไลบรารีการแก้ไขโมเดล TensorFlow มียูทิลิตีสําหรับการใช้เทคนิคการลดอคติ 2 เทคนิคที่แตกต่างกันในระหว่างการฝึกโมเดล ดังนี้

  • MinDiff: MinDiff มีเป้าหมายเพื่อปรับสมดุลข้อผิดพลาดของข้อมูล 2 กลุ่มที่แตกต่างกัน (นักเรียนชาย/หญิงเทียบกับนักเรียนที่ไม่ใช่เพศชายหรือหญิง) ด้วยการเพิ่มค่าปรับสำหรับความแตกต่างของข้อมูลการแจกแจงความน่าจะเป็นของทั้ง 2 กลุ่ม

  • การจับคู่ Logit สมมติฐานเทียบกับความเป็นจริง: การจับคู่ Logit สมมติฐานเทียบกับความเป็นจริง (CLP) มีจุดประสงค์เพื่อให้มั่นใจว่าการเปลี่ยนแปลงแอตทริบิวต์ที่มีความละเอียดอ่อนของตัวอย่างหนึ่งๆ จะไม่เปลี่ยนแปลงการคาดการณ์ของโมเดลสําหรับตัวอย่างนั้น เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 2 รายการ ค่าฟีเจอร์เหมือนกัน แต่ค่าหนึ่งมีค่า gender เป็น male และ อีกค่าหนึ่งมีค่า gender เป็น nonbinary CLP จะเพิ่มการลงโทษหาก การคาดการณ์สำหรับ 2 ตัวอย่างนี้แตกต่างกัน

เทคนิคที่คุณเลือกสําหรับการปรับฟังก์ชันการเพิ่มประสิทธิภาพจะขึ้นอยู่กับกรณีการใช้งานของโมเดล ในส่วนถัดไป เราจะมาดูวิธีประเมินโมเดลอย่างละเอียดเพื่อดูความยุติธรรมโดยพิจารณาจากกรณีการใช้งานเหล่านี้

แบบฝึกหัด: ตรวจสอบความเข้าใจ

ข้อความใดต่อไปนี้เกี่ยวกับเทคนิคการลดอคติเป็นจริง
การเพิ่มตัวอย่างลงในชุดข้อมูลการฝึกจะช่วยได้เสมอ ลดอคติในการคาดการณ์ของโมเดล
หากกำลังลดอคติด้วยการเพิ่มข้อมูลการฝึกอบรม คุณไม่ควรใช้ MinDiff หรือ CLP ในระหว่างการฝึกอบรมด้วย
ทั้ง MinDiff และ CLP จะลงโทษความคลาดเคลื่อนในประสิทธิภาพของโมเดล เกี่ยวข้องกับแอตทริบิวต์ที่มีความละเอียดอ่อน
MinDiff ลงโทษความแตกต่างในการกระจายโดยรวมของ การคาดการณ์สำหรับข้อมูลส่วนต่างๆ ในขณะที่ CLP จะลงโทษ ความคลาดเคลื่อนในการคาดการณ์ของตัวอย่างแต่ละคู่