การจัดประเภท: การให้น้ำหนักพิเศษกับการคาดการณ์

ตามที่กล่าวไว้ใน การถดถอยเชิงเส้น โมดูล, การคำนวณ อคติจากการคาดคะเน เป็นการตรวจสอบด่วนที่สามารถแจ้งปัญหาเกี่ยวกับโมเดลหรือข้อมูลการฝึกได้ ในช่วงแรก

อคติในการคาดการณ์คือความแตกต่างระหว่างค่าเฉลี่ยของโมเดล การคาดการณ์ และค่าเฉลี่ยของ ป้ายกำกับ ground-truth ใน โมเดลที่ได้รับการฝึกในชุดข้อมูล โดยที่ 5% ของอีเมลเป็นสแปมควรคาดการณ์โดยเฉลี่ยว่า 5% ของ อีเมลที่จัดประเภทนั้นเป็นสแปม กล่าวคือ ค่าเฉลี่ยของป้ายกำกับในองค์ประกอบ ชุดข้อมูล Ground-truth เท่ากับ 0.05 และค่าเฉลี่ยการคาดการณ์ของโมเดลควร และเป็น 0.05 ด้วย ในกรณีนี้ โมเดลจะมีความเอนเอียงในการคาดการณ์เป็น 0 จาก โมเดลจึงอาจยังมีปัญหาอื่นๆ

ถ้าโมเดลคาดการณ์ 50% ของจำนวนครั้งทั้งหมดว่าอีเมลเป็นสแปม เกิดข้อผิดพลาดกับชุดข้อมูลการฝึก แต่ชุดข้อมูลใหม่ของโมเดล หรือใช้กับตัวโมเดลเอง ช่วง ความแตกต่างที่มีนัยสำคัญระหว่างทั้งสองวิธีนี้แสดงให้เห็นว่าโมเดลมี ความเอนเอียงในการคาดการณ์บางอย่าง

ความคลาดเคลื่อนในการคาดการณ์อาจเกิดจากสาเหตุต่อไปนี้

  • การให้น้ำหนักพิเศษหรือข้อผิดพลาดในข้อมูล รวมถึงการสุ่มตัวอย่างที่มีอคติสำหรับชุดการฝึก
  • การแปลงข้อมูลเป็นมาตรฐานมากเกินไป ซึ่งหมายความว่าโมเดลมีการปรับมากเกินไปและหายไป ความซับซ้อนบางอย่างที่จำเป็น
  • ข้อบกพร่องในไปป์ไลน์การฝึกโมเดล
  • ชุดฟีเจอร์ที่มีให้กับโมเดลไม่เพียงพอสำหรับงาน