ขณะที่คุณเตรียมข้อมูลสำหรับการฝึกและประเมินโมเดล คุณต้อง คำนึงถึงประเด็นด้านความยุติธรรม และตรวจสอบหาแหล่งที่มา อคติ คุณจึง ลดผลกระทบในเชิงรุกก่อนเปิดตัวโมเดลสู่การใช้งานจริง
อคติอาจซ่อนอยู่ตรงไหน คุณควรระวังสัญญาณอันตรายต่อไปนี้ในชุดข้อมูล
ไม่มีค่าของฟีเจอร์
หากชุดข้อมูลมีฟีเจอร์อย่างน้อย 1 รายการที่ไม่มีค่าสำหรับแอตทริบิวต์ขนาดใหญ่ ตัวอย่าง ซึ่งอาจเป็นตัวบ่งชี้ว่าลักษณะสำคัญบางอย่าง ของชุดข้อมูลน้อยกว่าความเป็นจริง
แบบฝึกหัด: ตรวจสอบความเข้าใจ
คุณพบว่าตัวอย่าง 1,500 จาก 5,000 รายการในชุดการฝึกนั้น ไม่มีค่าอารมณ์ ข้อใดต่อไปนี้คือแหล่งที่มาที่เป็นไปได้ ที่คุณควรตรวจสอบหรือไม่
ค่าฟีเจอร์ที่ไม่คาดคิด
ขณะสำรวจข้อมูล คุณควรมองหาตัวอย่างที่มีค่าของฟีเจอร์ด้วย มีลักษณะพิเศษหรือผิดปกติเป็นพิเศษ ฟีเจอร์ที่ไม่คาดคิดเหล่านี้ อาจบ่งบอกถึงปัญหาที่เกิดขึ้นระหว่างการเก็บรวบรวมข้อมูลหรือ ความไม่ถูกต้องต่างๆ ที่อาจทำให้เกิดอคติได้
แบบฝึกหัด: ตรวจสอบความเข้าใจ
ลองดูชุดตัวอย่างสมมติต่อไปนี้สำหรับการฝึกสุนัขกู้ภัย รูปแบบความสามารถในการรับไปใช้งาน
สายพันธุ์ | อายุ (ปี) | น้ำหนัก (ปอนด์) | อุปนิสัย | shedding_level |
---|---|---|---|---|
พุดเดิลทอย | 2 | 12 | ตื่นเต้น | ต่ำ |
โกลเด้นรีทรีฟเวอร์ | 7 | 65 | สงบ | สูง |
ลาบราดอร์รีทรีฟเวอร์ | 35 | 73 | สงบ | สูง |
เฟรนช์ บูลด็อก | 0.5 | 11 | สงบ | ปานกลาง |
สายพันธุ์ผสมที่ไม่รู้จัก | 4 | 45 | ตื่นเต้น | สูง |
สุนัขบาสเซ็ตฮาวด์ | 9 | 48 | สงบ | ปานกลาง |
สายพันธุ์ | อายุ (ปี) | น้ำหนัก (ปอนด์) | อุปนิสัย | shedding_level |
---|---|---|---|---|
พุดเดิลทอย | 2 | 12 | ตื่นเต้น | ต่ำ |
โกลเด้นรีทรีฟเวอร์ | 7 | 65 | สงบ | สูง |
ลาบราดอร์รีทรีฟเวอร์ | 35 | 73 | สงบ | สูง |
เฟรนช์ บูลด็อก | 0.5 | 11 | สงบ | ปานกลาง |
สายพันธุ์ผสมที่ไม่รู้จัก | 4 | 45 | ตื่นเต้น | สูง |
สุนัขบาสเซ็ตฮาวด์ | 9 | 48 | สงบ | ปานกลาง |
สุนัขที่อายุมากที่สุดที่ได้รับการยืนยันอายุโดยบันทึกโลกกินเนสส์ เดิมคือ Bluey สุนัขพันธุ์ออสเตรเลียนแคทเทิลด็อกซึ่งมีอายุ 29 ปี 5 เดือน ดังนั้น ดูไม่น่าจะเป็นไปได้เลยว่า ลาบราดอร์รีทรีฟเวอร์อายุ 35 ปีจริงๆ และมีแนวโน้มสูงที่จะมีการคำนวณหรือบันทึกอายุของสุนัข ไม่ถูกต้อง (จริงๆ แล้วสุนัขอายุ 3.5 ปี) ข้อผิดพลาดนี้อาจ ยังบ่งบอกถึงปัญหาความถูกต้องที่กว้างขึ้นเกี่ยวกับข้อมูลอายุในชุดข้อมูล ที่ควรตรวจสอบเพิ่มเติม
ข้อมูลบิดเบือน
การบิดเบือนข้อมูลในข้อมูลของคุณ ซึ่งอาจมีกลุ่มหรือลักษณะบางอย่าง น้อยกว่าหรือมากเกินไปเมื่อเทียบกับความแพร่หลายในโลกแห่งความเป็นจริง ทำให้เกิดอคติ ในโมเดลของคุณ
เมื่อตรวจสอบประสิทธิภาพของโมเดล สิ่งสำคัญไม่เพียงต้องดูที่ผลลัพธ์ใน แต่แบ่งผลลัพธ์ตามกลุ่มย่อย ตัวอย่างเช่น ในกรณีของ โมเดลการรับเลี้ยงสุนัขช่วยเหลือของเรา เพื่อให้เกิดความยุติธรรม นี่ไม่เพียงพอ เพียงแค่ดูที่ความแม่นยำโดยรวม เราควรตรวจสอบประสิทธิภาพตามกลุ่มย่อยด้วย เพื่อตรวจสอบว่าโมเดลทำงานได้ดีเท่าเทียมกันสำหรับสุนัขแต่ละสายพันธุ์ กลุ่มอายุ และ กลุ่มขนาด
จากนั้น ในโมดูลนี้ ในการประเมินการให้น้ำหนักพิเศษ เราจะ ดูรายละเอียดวิธีการต่างๆ ในการประเมินโมเดลตามกลุ่มย่อย