ความยุติธรรม: การระบุอคติ

ขณะที่คุณเตรียมข้อมูลสำหรับการฝึกและประเมินโมเดล คุณต้อง คำนึงถึงประเด็นด้านความยุติธรรม และตรวจสอบหาแหล่งที่มา อคติ คุณจึง ลดผลกระทบในเชิงรุกก่อนเปิดตัวโมเดลสู่การใช้งานจริง

อคติอาจซ่อนอยู่ตรงไหน คุณควรระวังสัญญาณอันตรายต่อไปนี้ในชุดข้อมูล

ไม่มีค่าของฟีเจอร์

หากชุดข้อมูลมีฟีเจอร์อย่างน้อย 1 รายการที่ไม่มีค่าสำหรับแอตทริบิวต์ขนาดใหญ่ ตัวอย่าง ซึ่งอาจเป็นตัวบ่งชี้ว่าลักษณะสำคัญบางอย่าง ของชุดข้อมูลน้อยกว่าความเป็นจริง

แบบฝึกหัด: ตรวจสอบความเข้าใจ

คุณกำลังฝึกโมเดลเพื่อคาดการณ์การรับเลี้ยงสุนัขช่วยเหลือตาม ลักษณะต่างๆ รวมถึงสายพันธุ์ อายุ น้ำหนัก นิสัย และปริมาณขนสัตว์ในแต่ละวัน เป้าหมายของคุณคือการดูแลให้โมเดล ทำงานได้ดีเท่าๆ กันกับสุนัขทุกชนิด ไม่ว่าสุนัขจะเป็นตัวไหน หรือลักษณะเชิงพฤติกรรม

คุณพบว่าตัวอย่าง 1,500 จาก 5,000 รายการในชุดการฝึกนั้น ไม่มีค่าอารมณ์ ข้อใดต่อไปนี้คือแหล่งที่มาที่เป็นไปได้ ที่คุณควรตรวจสอบหรือไม่

ข้อมูลอารมณ์มีแนวโน้มที่จะหายไปสำหรับสายพันธุ์บางประเภทของ สุนัข
หากความพร้อมใช้งานของข้อมูลลักษณะนิสัยสัมพันธ์กับสายพันธุ์สุนัข ก็อาจทำให้การคาดการณ์ความสามารถในการปรับใช้ ที่แม่นยำยิ่งขึ้นสำหรับ สุนัขพันธุ์ใดสายพันธุ์หนึ่ง
ข้อมูลอุปนิสัยมักสำหรับสุนัขอายุต่ำกว่า 12 ปีที่ขาดหายไป อายุ เดือน
หากความพร้อมของข้อมูลอารมณ์สัมพันธ์กับอายุ สิ่งนี้อาจส่งผลให้คาดการณ์ คุณสมบัติการใช้งานได้ แม่นยำน้อยลงสำหรับ ลูกสุนัขกับสุนัขโตเต็มวัย
ไม่มีข้อมูลอุปนิสัยของสุนัขทุกตัวที่ได้รับการช่วยเหลือจากเมืองใหญ่
เมื่อมองเผินๆ ก็อาจไม่รู้ว่านี่คือแหล่งที่มาที่เป็นไปได้ ของการให้น้ำหนักพิเศษ เนื่องจากข้อมูลที่ขาดไปจะส่งผลกระทบต่อสุนัขทุกตัวจาก เมืองเท่าๆ กัน โดยไม่คำนึงถึงสายพันธุ์ อายุ น้ำหนัก ฯลฯ อย่างไรก็ตาม เรายังคงต้องพิจารณาว่าสุนัขมาจากสถานที่ที่สุนัขอยู่จริงๆ อาจใช้เป็นสื่อกลางแทนอุปกรณ์เหล่านี้ ลักษณะพิเศษ เช่น ถ้าสุนัขจากเมืองใหญ่ๆ มีแนวโน้มที่จะมีขนาดเล็กกว่าสุนัขในชนบท ไปพร้อมๆ กัน ซึ่งอาจทำให้คาดการณ์ความสามารถในการปรับใช้ได้อย่างแม่นยำน้อยลง สำหรับสุนัขน้ำหนักต่ำกว่าหรือสุนัขพันธุ์เล็กบางสายพันธุ์
ไม่มีข้อมูลอารมณ์ในชุดข้อมูลแบบสุ่ม
ถ้าการสุ่มไม่มีข้อมูลอารมณ์ นั่นคงไม่ ก็อาจเป็นแหล่งที่มาของอคติได้ แต่ก็อาจเป็นไปได้ว่าอารมณ์ของคุณ ข้อมูลอาจขาดหายไปจากการสุ่ม แต่การตรวจสอบเพิ่มเติม อาจแสดงคำอธิบายความคลาดเคลื่อนได้ คุณจึงควร ให้ตรวจสอบโดยละเอียดเพื่อตัดความเป็นไปได้อื่นๆ ให้คิดว่าช่องว่างของข้อมูลเป็นแบบสุ่ม

ค่าฟีเจอร์ที่ไม่คาดคิด

ขณะสำรวจข้อมูล คุณควรมองหาตัวอย่างที่มีค่าของฟีเจอร์ด้วย มีลักษณะพิเศษหรือผิดปกติเป็นพิเศษ ฟีเจอร์ที่ไม่คาดคิดเหล่านี้ อาจบ่งบอกถึงปัญหาที่เกิดขึ้นระหว่างการเก็บรวบรวมข้อมูลหรือ ความไม่ถูกต้องต่างๆ ที่อาจทำให้เกิดอคติได้

แบบฝึกหัด: ตรวจสอบความเข้าใจ

ลองดูชุดตัวอย่างสมมติต่อไปนี้สำหรับการฝึกสุนัขกู้ภัย รูปแบบความสามารถในการรับไปใช้งาน

สายพันธุ์ อายุ (ปี) น้ำหนัก (ปอนด์) อุปนิสัย shedding_level
พุดเดิลทอย 2 12 ตื่นเต้น ต่ำ
โกลเด้นรีทรีฟเวอร์ 7 65 สงบ สูง
ลาบราดอร์รีทรีฟเวอร์ 35 73 สงบ สูง
เฟรนช์ บูลด็อก 0.5 11 สงบ ปานกลาง
สายพันธุ์ผสมที่ไม่รู้จัก 4 45 ตื่นเต้น สูง
สุนัขบาสเซ็ตฮาวด์ 9 48 สงบ ปานกลาง
คุณระบุปัญหาเกี่ยวกับข้อมูลฟีเจอร์ได้ไหม
คลิกที่นี่เพื่อดูคำตอบ

ข้อมูลบิดเบือน

การบิดเบือนข้อมูลในข้อมูลของคุณ ซึ่งอาจมีกลุ่มหรือลักษณะบางอย่าง น้อยกว่าหรือมากเกินไปเมื่อเทียบกับความแพร่หลายในโลกแห่งความเป็นจริง ทำให้เกิดอคติ ในโมเดลของคุณ

เมื่อตรวจสอบประสิทธิภาพของโมเดล สิ่งสำคัญไม่เพียงต้องดูที่ผลลัพธ์ใน แต่แบ่งผลลัพธ์ตามกลุ่มย่อย ตัวอย่างเช่น ในกรณีของ โมเดลการรับเลี้ยงสุนัขช่วยเหลือของเรา เพื่อให้เกิดความยุติธรรม นี่ไม่เพียงพอ เพียงแค่ดูที่ความแม่นยำโดยรวม เราควรตรวจสอบประสิทธิภาพตามกลุ่มย่อยด้วย เพื่อตรวจสอบว่าโมเดลทำงานได้ดีเท่าเทียมกันสำหรับสุนัขแต่ละสายพันธุ์ กลุ่มอายุ และ กลุ่มขนาด

จากนั้น ในโมดูลนี้ ในการประเมินการให้น้ำหนักพิเศษ เราจะ ดูรายละเอียดวิธีการต่างๆ ในการประเมินโมเดลตามกลุ่มย่อย