เมื่อเตรียมข้อมูลสําหรับการฝึกและประเมินโมเดล คุณต้องคํานึงถึงประเด็นด้านความยุติธรรมและตรวจสอบแหล่งที่มาของอคติที่อาจเกิดขึ้น เพื่อให้คุณลดผลกระทบเชิงรุกก่อนนําโมเดลเข้าสู่เวอร์ชันที่ใช้งานจริง
อคติอาจเกิดขึ้นได้ที่ไหน สัญญาณอันตรายที่ควรระวังในชุดข้อมูลมีดังนี้
ไม่มีค่าฟีเจอร์
หากชุดข้อมูลของคุณมีฟีเจอร์อย่างน้อย 1 รายการที่ไม่มีค่าสำหรับตัวอย่างจํานวนมาก อาจเป็นตัวบ่งชี้ว่าลักษณะเฉพาะที่สําคัญบางอย่างของชุดข้อมูลมีการแสดงไม่เพียงพอ
แบบฝึกหัด: ทดสอบความเข้าใจ
คุณพบว่าตัวอย่าง 1,500 รายการจาก 5,000 รายการในชุดการฝึกไม่มีค่าอารมณ์ ข้อใดต่อไปนี้คือที่มาของอคติ ที่คุณควรตรวจสอบ
ค่าฟีเจอร์ที่ไม่คาดคิด
เมื่อสํารวจข้อมูล คุณควรมองหาตัวอย่างที่มีค่าองค์ประกอบที่โดดเด่นเนื่องจากมีลักษณะไม่เป็นไปตามปกติหรือผิดปกติ ค่าของฟีเจอร์ที่ไม่คาดคิดเหล่านี้อาจบ่งบอกถึงปัญหาที่เกิดขึ้นระหว่างการเก็บรวบรวมข้อมูลหรือความไม่ถูกต้องอื่นๆ ที่อาจทำให้เกิดการให้น้ำหนักพิเศษได้
แบบฝึกหัด: ทดสอบความเข้าใจ
ดูชุดตัวอย่างสมมติต่อไปนี้สำหรับการฝึกโมเดลการยอมรับการเลี้ยงดูสุนัขจรจัด
สายพันธุ์ | อายุ (ปี) | น้ำหนัก (ปอนด์) | อุปนิสัย | shedding_level |
---|---|---|---|---|
พุดเดิ้ลพันธุ์เล็ก | 2 | 12 | ตื่นเต้น | ต่ำ |
โกลเด้นรีทรีฟเวอร์ | 7 | 65 | สงบ | สูง |
ลาบราดอร์รีทรีฟเวอร์ | 35 | 73 | สงบ | สูง |
เฟรนช์บูลด็อก | 0.5 | 11 | สงบ | ปานกลาง |
สายพันธุ์ผสมที่ไม่รู้จัก | 4 | 45 | ตื่นเต้น | สูง |
สุนัขบาสเซ็ตฮาวด์ | 9 | 48 | สงบ | ปานกลาง |
สายพันธุ์ | อายุ (ปี) | น้ำหนัก (ปอนด์) | อุปนิสัย | shedding_level |
---|---|---|---|---|
พุดเดิ้ลพันธุ์เล็ก | 2 | 12 | ตื่นเต้น | ต่ำ |
โกลเด้นรีทรีฟเวอร์ | 7 | 65 | สงบ | สูง |
ลาบราดอร์รีทรีฟเวอร์ | 35 | 73 | สงบ | สูง |
เฟรนช์บูลด็อก | 0.5 | 11 | สงบ | ปานกลาง |
สายพันธุ์ผสมที่ไม่รู้จัก | 4 | 45 | ตื่นเต้น | สูง |
สุนัขบาสเซ็ตฮาวด์ | 9 | 48 | สงบ | ปานกลาง |
สุนัขที่อายุมากที่สุดที่ Guinness World Records ยืนยันอายุคือ Bluey สุนัขพันธุ์ออสเตรเลียน Cattle Dog อายุ 29 ปี 5 เดือน เมื่อพิจารณาจากข้อมูลดังกล่าวแล้ว ดูเหมือนว่าสุนัขพันธุ์ลาบราดอร์รีทรีฟเวอร์จะมีอายุ 35 ปีนั้นไม่น่าเป็นไปได้ และมีความเป็นไปได้มากกว่าว่าอายุของสุนัขจะคํานวณหรือบันทึกอย่างไม่ถูกต้อง (สุนัขอาจมีอายุ 3.5 ปีจริงๆ) ข้อผิดพลาดนี้อาจบ่งบอกถึงปัญหาความแม่นยำที่กว้างขึ้นเกี่ยวกับข้อมูลอายุในชุดข้อมูลที่ควรตรวจสอบเพิ่มเติม
ข้อมูลบิดเบือน
ความเอนเอียงของข้อมูลไม่ว่าประเภทใดก็ตาม ซึ่งกลุ่มหรือลักษณะบางอย่างอาจได้รับการนำเสนอมากหรือน้อยเกินไปเมื่อเทียบกับความแพร่หลายในชีวิตจริง อาจทําให้โมเดลมีอคติ
เมื่อตรวจสอบประสิทธิภาพของโมเดล สิ่งสำคัญไม่เพียงต้องดูที่ผลลัพธ์แบบรวมเท่านั้น แต่ยังต้องแยกผลลัพธ์ตามกลุ่มย่อยด้วย ตัวอย่างเช่น ในกรณีของโมเดลการนำไปรับเลี้ยงสุนัขจรจัดของเรา การพิจารณาความแม่นยำโดยรวมเพียงอย่างเดียวนั้นไม่เพียงพอต่อการสร้างความเป็นธรรม นอกจากนี้ เราควรตรวจสอบประสิทธิภาพตามกลุ่มย่อยเพื่อให้แน่ใจว่าโมเดลทำงานได้ดีเท่าๆ กันสำหรับสุนัขแต่ละสายพันธุ์ กลุ่มอายุ และกลุ่มขนาด
ในส่วนการประเมินการให้น้ำหนักพิเศษในช่วงท้ายของโมดูลนี้ เราจะเจาะลึกวิธีต่างๆ ในการประเมินโมเดลตามกลุ่มย่อย