ความยุติธรรม: การระบุอคติ

เมื่อเตรียมข้อมูลสําหรับการฝึกและประเมินโมเดล คุณต้องคํานึงถึงประเด็นด้านความยุติธรรมและตรวจสอบแหล่งที่มาของอคติที่อาจเกิดขึ้น เพื่อให้คุณลดผลกระทบเชิงรุกก่อนนําโมเดลเข้าสู่เวอร์ชันที่ใช้งานจริง

อคติอาจเกิดขึ้นได้ที่ไหน สัญญาณอันตรายที่ควรระวังในชุดข้อมูลมีดังนี้

ไม่มีค่าฟีเจอร์

หากชุดข้อมูลของคุณมีฟีเจอร์อย่างน้อย 1 รายการที่ไม่มีค่าสำหรับตัวอย่างจํานวนมาก อาจเป็นตัวบ่งชี้ว่าลักษณะเฉพาะที่สําคัญบางอย่างของชุดข้อมูลมีการแสดงไม่เพียงพอ

แบบฝึกหัด: ทดสอบความเข้าใจ

คุณกำลังฝึกโมเดลให้คาดการณ์การนำไปเลี้ยงดูสุนัขที่รับมาเลี้ยงได้ โดยอิงตามลักษณะต่างๆ เช่น สายพันธุ์ อายุ น้ำหนัก นิสัย และปริมาณขนที่หลุดในแต่ละวัน เป้าหมายของคุณคือตรวจสอบว่าโมเดลทำงานได้ดีเท่าๆ กันกับสุนัขทุกประเภท โดยไม่คำนึงถึงลักษณะทางกายภาพหรือพฤติกรรม

คุณพบว่าตัวอย่าง 1,500 รายการจาก 5,000 รายการในชุดการฝึกไม่มีค่าอารมณ์ ข้อใดต่อไปนี้คือที่มาของอคติ ที่คุณควรตรวจสอบ

ข้อมูลลักษณะนิสัยมีแนวโน้มที่จะขาดหายไปสำหรับสุนัขบางสายพันธุ์
หากความพร้อมใช้งานของข้อมูลลักษณะนิสัยสัมพันธ์กับสายพันธุ์สุนัข ก็อาจส่งผลให้การคาดคะเนความสามารถในการรับเลี้ยงสุนัขบางสายพันธุ์มีความแม่นยำน้อยลง
ข้อมูลลักษณะนิสัยมีแนวโน้มที่จะหายไปสำหรับสุนัขอายุต่ำกว่า 12 เดือน
หากความพร้อมของข้อมูลเกี่ยวกับลักษณะนิสัยมีความสัมพันธ์กับอายุ ข้อมูลนี้อาจส่งผลให้การคาดการณ์การนำไปเลี้ยงดูของสุนัขพันธุ์นั้นๆ แม่นยำน้อยลงสำหรับลูกสุนัขเมื่อเทียบกับสุนัขโต
ไม่มีข้อมูลลักษณะนิสัยสำหรับสุนัขทั้งหมดที่ได้รับการช่วยเหลือจากเมืองใหญ่
เมื่อมองแวบแรก ข้อมูลนี้อาจไม่ได้ดูเป็นแหล่งที่มาของอคติ เนื่องจากข้อมูลที่ขาดหายไปจะส่งผลต่อสุนัขทุกตัวจากเมืองใหญ่ๆ เท่าๆ กัน โดยไม่คำนึงถึงสายพันธุ์ อายุ น้ำหนัก ฯลฯ อย่างไรก็ตาม เรายังคงต้องพิจารณาว่าสถานที่เกิดของสุนัขอาจทำหน้าที่เป็นพร็อกซีสำหรับลักษณะทางกายภาพเหล่านี้ได้อย่างมีประสิทธิภาพ ตัวอย่างเช่น หากสุนัขจากเมืองใหญ่มีแนวโน้มที่จะตัวเล็กกว่าสุนัขจากพื้นที่ชนบทมากกว่า ผลการคาดการณ์การนำไปรับเลี้ยงสุนัขที่มีน้ำหนักน้อยหรือสุนัขพันธุ์เล็กบางสายพันธุ์อาจมีความแม่นยำลดลง
ไม่มีข้อมูลลักษณะนิสัยจากชุดข้อมูลแบบสุ่ม
หากข้อมูลลักษณะนิสัยขาดหายไปอย่างสุ่มจริง ข้อมูลดังกล่าวก็ไม่น่าเป็นแหล่งที่มาของอคติ อย่างไรก็ตาม ลักษณะของข้อมูลที่อาจขาดหายไปก็อาจเกิดขึ้นได้ แต่การตรวจสอบเพิ่มเติมอาจเผยให้เห็นคำอธิบายของความคลาดเคลื่อนได้ ดังนั้น คุณจึงต้องตรวจสอบอย่างละเอียดเพื่อตัดความเป็นไปได้อื่นๆ ออก แทนที่จะคิดว่าช่องว่างของข้อมูลเกิดขึ้นแบบสุ่ม

ค่าฟีเจอร์ที่ไม่คาดคิด

เมื่อสํารวจข้อมูล คุณควรมองหาตัวอย่างที่มีค่าองค์ประกอบที่โดดเด่นเนื่องจากมีลักษณะไม่เป็นไปตามปกติหรือผิดปกติ ค่าของฟีเจอร์ที่ไม่คาดคิดเหล่านี้อาจบ่งบอกถึงปัญหาที่เกิดขึ้นระหว่างการเก็บรวบรวมข้อมูลหรือความไม่ถูกต้องอื่นๆ ที่อาจทำให้เกิดการให้น้ำหนักพิเศษได้

แบบฝึกหัด: ทดสอบความเข้าใจ

ดูชุดตัวอย่างสมมติต่อไปนี้สำหรับการฝึกโมเดลการยอมรับการเลี้ยงดูสุนัขจรจัด

สายพันธุ์ อายุ (ปี) น้ำหนัก (ปอนด์) อุปนิสัย shedding_level
พุดเดิ้ลพันธุ์เล็ก 2 12 ตื่นเต้น ต่ำ
โกลเด้นรีทรีฟเวอร์ 7 65 สงบ สูง
ลาบราดอร์รีทรีฟเวอร์ 35 73 สงบ สูง
เฟรนช์บูลด็อก 0.5 11 สงบ ปานกลาง
สายพันธุ์ผสมที่ไม่รู้จัก 4 45 ตื่นเต้น สูง
สุนัขบาสเซ็ตฮาวด์ 9 48 สงบ ปานกลาง
คุณระบุปัญหาเกี่ยวกับข้อมูลฟีเจอร์ได้ไหม
คลิกที่นี่เพื่อดูคำตอบ

ข้อมูลบิดเบือน

ความเอนเอียงของข้อมูลไม่ว่าประเภทใดก็ตาม ซึ่งกลุ่มหรือลักษณะบางอย่างอาจได้รับการนำเสนอมากหรือน้อยเกินไปเมื่อเทียบกับความแพร่หลายในชีวิตจริง อาจทําให้โมเดลมีอคติ

เมื่อตรวจสอบประสิทธิภาพของโมเดล สิ่งสำคัญไม่เพียงต้องดูที่ผลลัพธ์แบบรวมเท่านั้น แต่ยังต้องแยกผลลัพธ์ตามกลุ่มย่อยด้วย ตัวอย่างเช่น ในกรณีของโมเดลการนำไปรับเลี้ยงสุนัขจรจัดของเรา การพิจารณาความแม่นยำโดยรวมเพียงอย่างเดียวนั้นไม่เพียงพอต่อการสร้างความเป็นธรรม นอกจากนี้ เราควรตรวจสอบประสิทธิภาพตามกลุ่มย่อยเพื่อให้แน่ใจว่าโมเดลทำงานได้ดีเท่าๆ กันสำหรับสุนัขแต่ละสายพันธุ์ กลุ่มอายุ และกลุ่มขนาด

ในส่วนการประเมินการให้น้ำหนักพิเศษในช่วงท้ายของโมดูลนี้ เราจะเจาะลึกวิธีต่างๆ ในการประเมินโมเดลตามกลุ่มย่อย