ความยุติธรรม: การลดอคติ
เมื่อระบุแหล่งที่มาของอคติในข้อมูลการฝึกแล้ว เราจะดำเนินการเชิงรุกเพื่อบรรเทาผลกระทบ มี 2 กลยุทธ์หลักที่แมชชีนเลิร์นนิง (ML)
ที่วิศวกรมักใช้เพื่อแก้ไขอคติ:
- กำลังเสริมข้อมูลการฝึก
- กำลังปรับฟังก์ชันการสูญหายของโมเดล
การเสริมข้อมูลการฝึก
หากการตรวจสอบข้อมูลการฝึกอบรมพบปัญหาเกี่ยวกับข้อมูลที่ขาดหายไป ไม่ถูกต้อง หรือบิดเบือน วิธีที่ตรงที่สุดในการแก้ปัญหามักเป็นการรวบรวมข้อมูลเพิ่มเติม
อย่างไรก็ตาม แม้ว่าการเพิ่มข้อมูลการฝึกอบรมจะเป็นวิธีที่เหมาะ แต่ข้อเสียของแนวทางนี้คืออาจไม่สามารถทำได้เนื่องจากไม่มีข้อมูลที่มีอยู่หรือข้อจำกัดด้านทรัพยากรที่ขัดขวางการเก็บรวบรวมข้อมูล เช่น การรวบรวมข้อมูลเพิ่มเติมอาจทําให้สิ้นเปลืองค่าใช้จ่ายหรือเวลามากเกินไป หรือทําไม่ได้เนื่องจากข้อจํากัดทางกฎหมาย/ความเป็นส่วนตัว
การปรับฟังก์ชันการเพิ่มประสิทธิภาพของโมเดล
ในกรณีที่การเก็บรวบรวมข้อมูลเพิ่มเติมสำหรับการฝึกโมเดลไม่สามารถทำได้ อีกวิธีหนึ่งในการลดอคติคือการปรับเปลี่ยนวิธีคำนวณการสูญเสียระหว่างการฝึกโมเดล โดยปกติแล้ว เราจะใช้ฟังก์ชันการเพิ่มประสิทธิภาพ เช่น
การสูญเสียเชิงลอจิสติก เพื่อลงโทษการคาดคะเนของโมเดลที่ไม่ถูกต้อง อย่างไรก็ตาม การสูญหายของบันทึกจะไม่รวมการเป็นสมาชิกกลุ่มย่อย
การพิจารณา ดังนั้น เราจึงเลือกฟังก์ชันการเพิ่มประสิทธิภาพที่ออกแบบมาเพื่อลงโทษข้อผิดพลาดในลักษณะที่คำนึงถึงความเป็นธรรม ซึ่งจะช่วยลดความไม่สมดุลที่เราพบในข้อมูลการฝึก
ไลบรารีการแก้ไขโมเดล TensorFlow มียูทิลิตีสําหรับการใช้เทคนิคการลดอคติ 2 เทคนิคที่แตกต่างกันในระหว่างการฝึกโมเดล ดังนี้
MinDiff:
MinDiff มีเป้าหมายเพื่อปรับสมดุลข้อผิดพลาดของข้อมูล 2 กลุ่มที่แตกต่างกัน (นักเรียนชาย/หญิงเทียบกับนักเรียนที่ไม่ใช่เพศชายหรือหญิง) ด้วยการเพิ่มค่าปรับสำหรับความแตกต่างของข้อมูลการแจกแจงความน่าจะเป็นของทั้ง 2 กลุ่ม
การจับคู่ Logit สมมติฐานเทียบกับความเป็นจริง:
การจับคู่ Logit สมมติฐานเทียบกับความเป็นจริง (CLP) มีจุดประสงค์เพื่อให้มั่นใจว่าการเปลี่ยนแปลงแอตทริบิวต์ที่มีความละเอียดอ่อนของตัวอย่างหนึ่งๆ จะไม่เปลี่ยนแปลงการคาดการณ์ของโมเดลสําหรับตัวอย่างนั้น เช่น หากชุดข้อมูลการฝึกมีตัวอย่าง 2 รายการ
ค่าฟีเจอร์เหมือนกัน แต่ค่าหนึ่งมีค่า gender
เป็น male
และ
อีกค่าหนึ่งมีค่า gender
เป็น nonbinary
CLP จะเพิ่มการลงโทษหาก
การคาดการณ์สำหรับ 2 ตัวอย่างนี้แตกต่างกัน
เทคนิคที่คุณเลือกสําหรับการปรับฟังก์ชันการเพิ่มประสิทธิภาพจะขึ้นอยู่กับกรณีการใช้งานของโมเดล ในส่วนถัดไป เราจะมาดูวิธีประเมินโมเดลอย่างละเอียดเพื่อดูความยุติธรรมโดยพิจารณาจากกรณีการใช้งานเหล่านี้
แบบฝึกหัด: ตรวจสอบความเข้าใจ
ข้อความใดต่อไปนี้เกี่ยวกับเทคนิคการลดอคติเป็นจริง
การเพิ่มตัวอย่างลงในชุดข้อมูลการฝึกจะช่วยได้เสมอ
ลดอคติในการคาดการณ์ของโมเดล
การเพิ่มตัวอย่างการฝึกอบรมเป็นกลยุทธ์ที่มีประสิทธิภาพสำหรับ
การลดอคติ แต่องค์ประกอบของข้อมูลการฝึกใหม่
เป็นสิ่งสำคัญ หากตัวอย่างการฝึกอบรมเพิ่มเติมแสดง
ข้อมูลเดิมไม่เพียงพอ พวกเขาก็ไม่สามารถช่วยลด
อคติที่มีอยู่เดิม
หากกำลังลดอคติด้วยการเพิ่มข้อมูลการฝึกอบรม คุณไม่ควรใช้ MinDiff หรือ CLP ในระหว่างการฝึกอบรมด้วย
การเสริมข้อมูลการฝึกและการใช้เทคนิค เช่น MinDiff หรือ CLP
อาจเป็นส่วนเสริมได้ ตัวอย่างเช่น วิศวกร ML อาจสามารถ
ในการรวบรวมข้อมูลการฝึกเพิ่มเติม
ให้เพียงพอที่จะลดความคลาดเคลื่อน
ประสิทธิภาพได้ถึง 30% แล้วใช้ MinDiff เพื่อลด
ความคลาดเคลื่อนอีก 50%
ทั้ง MinDiff และ CLP จะลงโทษความคลาดเคลื่อนในประสิทธิภาพของโมเดล
เกี่ยวข้องกับแอตทริบิวต์ที่มีความละเอียดอ่อน
เทคนิคทั้ง 2 ประเภทนี้มีจุดมุ่งหมายเพื่อลดอคติด้วยการลงโทษข้อผิดพลาดในการคาดการณ์ที่เกิดจากความไม่สมดุลของการแสดงแอตทริบิวต์ที่ละเอียดอ่อนในข้อมูลการฝึก
MinDiff ลงโทษความแตกต่างในการกระจายโดยรวมของ
การคาดการณ์สำหรับข้อมูลส่วนต่างๆ ในขณะที่ CLP จะลงโทษ
ความคลาดเคลื่อนในการคาดการณ์ของตัวอย่างแต่ละคู่
MinDiff จัดการกับอคติโดยการปรับการแจกแจงคะแนนสำหรับ 2 กลุ่ม
กลุ่มย่อย CLP จัดการอคติโดยการตรวจสอบว่าตัวอย่างแต่ละรายการได้รับการปฏิบัติอย่างเท่าเทียมกัน โดยไม่คำนึงถึงการเป็นสมาชิกของกลุ่มย่อย
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2024-11-10 UTC
[null,null,["อัปเดตล่าสุด 2024-11-10 UTC"],[[["Machine learning engineers use two primary strategies to mitigate bias in models: augmenting training data and adjusting the model's loss function."],["Augmenting training data involves collecting additional data to address missing, incorrect, or skewed data, but it can be infeasible due to data availability or resource constraints."],["Adjusting the model's loss function involves using fairness-aware optimization functions like MinDiff or Counterfactual Logit Pairing to penalize errors based on sensitive attributes and counteract imbalances in training data."],["MinDiff aims to balance errors between different data slices by penalizing differences in prediction distributions, while Counterfactual Logit Pairing penalizes discrepancies in predictions for similar examples with different sensitive attribute values."],["Choosing the right bias-mitigation technique depends on the specific use case of the model, and augmenting training data and adjusting the loss function can be used in conjunction for optimal bias reduction."]]],[]]