เมื่อแหล่งที่มาของอคติ ถูกระบุในข้อมูลการฝึกอบรม เราสามารถดำเนินการเชิงรุกเพื่อ ลดผลกระทบที่อาจเกิดขึ้น มี 2 กลยุทธ์หลักที่แมชชีนเลิร์นนิง (ML) ที่วิศวกรมักใช้เพื่อแก้ไขอคติ:
- กำลังเสริมข้อมูลการฝึก
- กำลังปรับฟังก์ชันการสูญหายของโมเดล
การเสริมข้อมูลการฝึก
หากการตรวจสอบข้อมูลการฝึกตรวจพบว่ามีปัญหา ที่ขาดหายไป ไม่ถูกต้อง หรือข้อมูลบิดเบือน วิธีการที่ง่ายที่สุดในการแก้ไขปัญหาคือ เพื่อรวบรวมข้อมูลเพิ่มเติม
แต่แม้ว่าการเสริมข้อมูลการฝึกจะเป็นแบบที่ดีที่สุด แต่ก็ข้อเสียของ วิธีนี้ก็อาจเป็นไปไม่ได้ เนื่องจากขาด ข้อมูลหรือข้อจำกัดของทรัพยากรที่มีอยู่ซึ่งขัดขวางการเก็บรวบรวมข้อมูล ตัวอย่างเช่น การรวบรวมข้อมูลเพิ่มเติมอาจมีต้นทุนสูงหรือใช้เวลานาน หรือไม่สามารถทำได้เนื่องจาก ข้อจำกัดทางกฎหมาย/ความเป็นส่วนตัว
การปรับฟังก์ชันการเพิ่มประสิทธิภาพของโมเดล
ในกรณีที่ไม่สามารถเก็บรวบรวมข้อมูลการฝึกเพิ่มเติม แนวทางในการลดการให้น้ำหนักพิเศษคือการปรับวิธีคำนวณการสูญเสียระหว่างการสร้าง การฝึกอบรม โดยทั่วไปเราจะใช้ฟังก์ชันการเพิ่มประสิทธิภาพ เช่น การสูญหายของบันทึกเพื่อลงโทษโมเดลที่ไม่ถูกต้อง การคาดการณ์ อย่างไรก็ตาม การสูญหายของบันทึกจะไม่รวมการเป็นสมาชิกกลุ่มย่อย การพิจารณา ดังนั้นแทนที่จะใช้บันทึกที่หายไป เราจึงเลือกการเพิ่มประสิทธิภาพ ที่ออกแบบมาเพื่อลงโทษข้อผิดพลาดด้วยหลักความเป็นธรรม แก้ไขความไม่สมดุลที่เราพบในข้อมูลการฝึกของเรา
ไลบรารีการแก้ไขโมเดล TensorFlow มียูทิลิตีสำหรับการนำไปใช้ เทคนิคการบรรเทาอคติที่แตกต่างกันระหว่างการฝึกโมเดล
MinDiff: MinDiff มุ่งสร้างความสมดุลระหว่างข้อผิดพลาดสำหรับข้อมูล 2 ส่วนที่แตกต่างกัน (นักเรียนชาย/หญิงกับนักเรียนนอนไบนารี) โดยเพิ่มบทลงโทษสำหรับ ความแตกต่างของการกระจายการคาดการณ์สำหรับ 2 กลุ่ม
การจับคู่ลอจิทปลอม: การจับคู่ลอจิทจำลอง (CLP) มีวัตถุประสงค์เพื่อให้แน่ใจว่าการเปลี่ยนแปลงข้อมูลที่ละเอียดอ่อน ของตัวอย่างที่ระบุไม่เปลี่ยนการคาดการณ์ของโมเดล เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 2 รายการ ค่าฟีเจอร์เหมือนกัน แต่ค่าหนึ่งมีค่า
gender
เป็นmale
และ อีกค่าหนึ่งมีค่าgender
เป็นnonbinary
CLP จะเพิ่มการลงโทษหาก การพยากรณ์สำหรับ 2 ตัวอย่างนี้แตกต่างกัน
เทคนิคที่คุณเลือกในการปรับฟังก์ชันการเพิ่มประสิทธิภาพมีดังนี้ ขึ้นอยู่กับกรณีการใช้งานของโมเดล ในส่วนถัดไป เราจะดู แนวทางการประเมินต้นแบบด้านความยุติธรรมอย่างละเอียดขึ้น โดยพิจารณา Use Case เหล่านี้