ความยุติธรรม: การลดอคติ

เมื่อระบุแหล่งที่มาของอคติในข้อมูลการฝึกแล้ว เราจะดำเนินการเชิงรุกเพื่อบรรเทาผลกระทบ มี 2 กลยุทธ์หลักที่แมชชีนเลิร์นนิง (ML) ที่วิศวกรมักใช้เพื่อแก้ไขอคติ:

  • กำลังเสริมข้อมูลการฝึก
  • กำลังปรับฟังก์ชันการสูญหายของโมเดล

การเสริมข้อมูลการฝึก

หากการตรวจสอบข้อมูลการฝึกอบรมพบปัญหาเกี่ยวกับข้อมูลที่ขาดหายไป ไม่ถูกต้อง หรือบิดเบือน วิธีที่ตรงที่สุดในการแก้ปัญหามักเป็นการรวบรวมข้อมูลเพิ่มเติม

อย่างไรก็ตาม แม้ว่าการเพิ่มข้อมูลการฝึกอบรมจะเป็นวิธีที่เหมาะ แต่ข้อเสียของแนวทางนี้คืออาจไม่สามารถทำได้เนื่องจากไม่มีข้อมูลที่มีอยู่หรือข้อจำกัดด้านทรัพยากรที่ขัดขวางการเก็บรวบรวมข้อมูล เช่น การรวบรวมข้อมูลเพิ่มเติมอาจทําให้สิ้นเปลืองค่าใช้จ่ายหรือเวลามากเกินไป หรือทําไม่ได้เนื่องจากข้อจํากัดทางกฎหมาย/ความเป็นส่วนตัว

การปรับฟังก์ชันการเพิ่มประสิทธิภาพของโมเดล

ในกรณีที่การเก็บรวบรวมข้อมูลเพิ่มเติมสำหรับการฝึกโมเดลไม่สามารถทำได้ อีกวิธีหนึ่งในการลดอคติคือการปรับเปลี่ยนวิธีคำนวณการสูญเสียระหว่างการฝึกโมเดล โดยปกติแล้ว เราจะใช้ฟังก์ชันการเพิ่มประสิทธิภาพ เช่น การสูญเสียเชิงลอจิสติก เพื่อลงโทษการคาดคะเนของโมเดลที่ไม่ถูกต้อง อย่างไรก็ตาม การสูญหายของบันทึกจะไม่รวมการเป็นสมาชิกกลุ่มย่อย การพิจารณา ดังนั้น เราจึงเลือกฟังก์ชันการเพิ่มประสิทธิภาพที่ออกแบบมาเพื่อลงโทษข้อผิดพลาดในลักษณะที่คำนึงถึงความเป็นธรรม ซึ่งจะช่วยลดความไม่สมดุลที่เราพบในข้อมูลการฝึก

ไลบรารีการแก้ไขโมเดล TensorFlow มียูทิลิตีสําหรับการใช้เทคนิคการลดอคติ 2 เทคนิคที่แตกต่างกันในระหว่างการฝึกโมเดล ดังนี้

  • MinDiff: MinDiff มีเป้าหมายเพื่อปรับสมดุลข้อผิดพลาดของข้อมูล 2 กลุ่มที่แตกต่างกัน (นักเรียนชาย/หญิงเทียบกับนักเรียนที่ไม่ใช่เพศชายหรือหญิง) ด้วยการเพิ่มค่าปรับสำหรับความแตกต่างของข้อมูลการแจกแจงความน่าจะเป็นของทั้ง 2 กลุ่ม

  • การจับคู่ Logit สมมติฐานเทียบกับความเป็นจริง: การจับคู่ Logit สมมติฐานเทียบกับความเป็นจริง (CLP) มีจุดประสงค์เพื่อให้มั่นใจว่าการเปลี่ยนแปลงแอตทริบิวต์ที่มีความละเอียดอ่อนของตัวอย่างหนึ่งๆ จะไม่เปลี่ยนแปลงการคาดการณ์ของโมเดลสําหรับตัวอย่างนั้น เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 2 รายการ ค่าฟีเจอร์เหมือนกัน แต่ค่าหนึ่งมีค่า gender เป็น male และ อีกค่าหนึ่งมีค่า gender เป็น nonbinary CLP จะเพิ่มการลงโทษหาก การคาดการณ์สำหรับ 2 ตัวอย่างนี้แตกต่างกัน

เทคนิคที่คุณเลือกสําหรับการปรับฟังก์ชันการเพิ่มประสิทธิภาพจะขึ้นอยู่กับกรณีการใช้งานของโมเดล ในส่วนถัดไป เราจะมาดูวิธีประเมินโมเดลอย่างละเอียดเพื่อดูความยุติธรรมโดยพิจารณาจากกรณีการใช้งานเหล่านี้

แบบฝึกหัด: ตรวจสอบความเข้าใจ

ข้อความใดต่อไปนี้เกี่ยวกับเทคนิคการลดอคติเป็นจริง
ทั้ง MinDiff และ CLP จะลงโทษความคลาดเคลื่อนในประสิทธิภาพของโมเดล เกี่ยวข้องกับแอตทริบิวต์ที่มีความละเอียดอ่อน
เทคนิคทั้ง 2 ประเภทนี้มีจุดมุ่งหมายเพื่อลดอคติด้วยการลงโทษข้อผิดพลาดในการคาดการณ์ที่เกิดจากความไม่สมดุลของการแสดงแอตทริบิวต์ที่ละเอียดอ่อนในข้อมูลการฝึก
MinDiff ลงโทษความแตกต่างในการกระจายโดยรวมของ การคาดการณ์สำหรับข้อมูลส่วนต่างๆ ในขณะที่ CLP จะลงโทษ ความคลาดเคลื่อนในการคาดการณ์ของตัวอย่างแต่ละคู่
MinDiff จัดการกับอคติโดยการปรับการแจกแจงคะแนนสำหรับ 2 กลุ่ม กลุ่มย่อย CLP จัดการอคติโดยการตรวจสอบว่าตัวอย่างแต่ละรายการได้รับการปฏิบัติอย่างเท่าเทียมกัน โดยไม่คำนึงถึงการเป็นสมาชิกของกลุ่มย่อย
การเพิ่มตัวอย่างลงในชุดข้อมูลการฝึกจะช่วยได้เสมอ ลดอคติในการคาดการณ์ของโมเดล
การเพิ่มตัวอย่างการฝึกอบรมเป็นกลยุทธ์ที่มีประสิทธิภาพสำหรับ การลดอคติ แต่องค์ประกอบของข้อมูลการฝึกใหม่ เป็นสิ่งสำคัญ หากตัวอย่างการฝึกอบรมเพิ่มเติมแสดง ข้อมูลเดิมไม่เพียงพอ พวกเขาก็ไม่สามารถช่วยลด อคติที่มีอยู่เดิม
หากกำลังลดอคติด้วยการเพิ่มข้อมูลการฝึกอบรม คุณไม่ควรใช้ MinDiff หรือ CLP ในระหว่างการฝึกอบรมด้วย
การเสริมข้อมูลการฝึกและการใช้เทคนิค เช่น MinDiff หรือ CLP อาจเป็นส่วนเสริมได้ ตัวอย่างเช่น วิศวกร ML อาจสามารถ ในการรวบรวมข้อมูลการฝึกเพิ่มเติม ให้เพียงพอที่จะลดความคลาดเคลื่อน ประสิทธิภาพได้ถึง 30% แล้วใช้ MinDiff เพื่อลด ความคลาดเคลื่อนอีก 50%