เมื่อสํารวจข้อมูลเพื่อพิจารณาว่าควรนําเสนอข้อมูลใดในโมเดลได้ดีที่สุด คุณควรคํานึงถึงประเด็นด้านความเป็นธรรมและการตรวจสอบแหล่งที่มาของอคติที่อาจเกิดขึ้นในเชิงรุก
ที่ซึ่งอาจทําให้อคติเกิดขึ้นได้ที่ไหน นี่คือธงสีแดง 3 ชุดที่ต้องระวังในชุดข้อมูล
ไม่มีค่าของฟีเจอร์
หากชุดข้อมูลมีฟีเจอร์อย่างน้อย 1 รายการที่ค่าตัวอย่างจํานวนมากขาดหายไป อาจเป็นตัวบ่งชี้ว่ามีคุณลักษณะหลักบางอย่างในชุดข้อมูลนั้นต่ํากว่าความเป็นจริง
ตัวอย่างเช่น ตารางด้านล่างแสดงสรุปสถิติที่สําคัญสําหรับชุดย่อยของฟีเจอร์ในชุดข้อมูลที่พักอาศัยในแคลิฟอร์เนีย ซึ่งจัดเก็บไว้ในแพนด้า DataFrame
และสร้างผ่าน DataFrame.describe
โปรดทราบว่าฟีเจอร์ทั้งหมดมี count
เท่ากับ 17, 000 ซึ่งหมายความว่าไม่มีค่าที่ขาดหายไป
longitude | latitude | ห้องแชททั้งหมด | ประชากร | ครอบครัว | ค่ามัธยฐานของรายได้ | ค่ามัธยฐานของค่าบ้าน | |
---|---|---|---|---|---|---|---|
จำนวน | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 |
ค่าเฉลี่ย | -119.6 | 35.6 ปี | 2643.7 | 1,429.6 | 501.2 | 3.9 | 207.3 ครั้ง |
Sttd | 2.0 | 2.1 | 2179.9 | 1147.9 | 384.5 ปี | 1.9 | 1160.00 THB |
นาที | -124.3 | 32.5 ปี | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 | 1,462.0 | 790.0 | 2820.00 | 2.6 | 119.4 |
50% | -118.5 | 34.2 ครั้ง | 2127.00 | 1167.0 | 4090.00 | 3.5 | 180.4 |
75% | -118.0 | 37.7 ครั้ง | 3151.2 | 1,721.0 | 605.2 ครั้ง | 4.8 | 2650.00 |
สูงสุด | -114.3 | 420.00 THB | 37937.0 | 35682.0 | 6082.0 | 15.0 | 5000.00 THB |
แต่สมมติว่าฟีเจอร์ 3 อย่าง (population
, households
และ median_income
) มีแค่ 3000
เท่านั้น กล่าวคือแต่ละค่ามีค่าขาดหายไป 14,000 รายการ
longitude | latitude | ห้องแชททั้งหมด | ประชากร | ครอบครัว | ค่ามัธยฐานของรายได้ | ค่ามัธยฐานของค่าบ้าน | |
---|---|---|---|---|---|---|---|
จำนวน | 17,000.0 | 17,000.0 | 17,000.0 | 3,000.0 | 3,000.0 | 3,000.0 | 17,000.0 |
ค่าเฉลี่ย | -119.6 | 35.6 ปี | 2643.7 | 1,429.6 | 501.2 | 3.9 | 207.3 ครั้ง |
Sttd | 2.0 | 2.1 | 2179.9 | 1147.9 | 384.5 ปี | 1.9 | 1160.00 THB |
นาที | -124.3 | 32.5 ปี | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 | 1,462.0 | 790.0 | 2820.00 | 2.6 | 119.4 |
50% | -118.5 | 34.2 ครั้ง | 2127.00 | 1167.0 | 4090.00 | 3.5 | 180.4 |
75% | -118.0 | 37.7 ครั้ง | 3151.2 | 1,721.0 | 605.2 ครั้ง | 4.8 | 2650.00 |
สูงสุด | -114.3 | 420.00 THB | 37937.0 | 35682.0 | 6082.0 | 15.0 | 5000.00 THB |
ค่าที่หายไป 14,000 อย่างนี้อาจทําให้ยากต่อการเชื่อมโยงรายได้ครัวเรือนกับราคามัธยฐานของบ้านได้อย่างถูกต้อง ก่อนที่จะฝึกโมเดลให้ข้อมูลนี้ คุณควรตรวจดูสาเหตุของค่าที่หายไปเหล่านี้เพื่อให้แน่ใจว่าไม่มีอคติที่มีความรับผิดชอบซึ่งส่งผลให้สูญเสียข้อมูลรายได้และประชากร
ค่าฟีเจอร์ที่ไม่คาดคิด
เมื่อสํารวจข้อมูล คุณควรมองหาตัวอย่างที่มีค่าฟีเจอร์ที่โดดเด่นกว่าปกติหรือผิดปกติด้วย ค่าฟีเจอร์ที่ไม่คาดคิดเหล่านี้อาจบ่งชี้ถึงปัญหาที่เกิดขึ้นระหว่างการเก็บรวบรวมข้อมูลหรือความไม่ถูกต้องอื่นๆ ที่อาจทําให้มีอคติ
เช่น ดูตัวอย่างข้อความที่ตัดตอนมาจากชุดข้อมูลของรัฐแคลิฟอร์เนีย
longitude | latitude | ห้องแชททั้งหมด | ประชากร | ครอบครัว | ค่ามัธยฐานของรายได้ | ค่ามัธยฐานของค่าบ้าน | |
---|---|---|---|---|---|---|---|
1 | -121.7 | 380.00 | 7105.0 | 3,523.0 | 1088.0 | 5.0 | 0.2 |
2 | -122.4 | 37.8 คะแนน | 2,479.0 | 1816.0 | 4960.00 THB | 3.1 | 0.3 |
3 | -122.0 | 370.00 | 2813.0 | 1337.0 | 4770.00 | 3.7 | 0.3 |
4 | -103.5 | 43.8 | 2212.00 | 803.0 | 1440.00 | 5.3 | 0.2 |
5 | -117.1 | 32.8 ปี | 2963.0 | 1.162 แสน | 5560.00 | 3.6 | 0.2 |
6 | -118.0 | 33.7 ครั้ง | 3,396.0 | 1.542.0 | 4720.00 THB | 7.4 | 0.4 |
คุณสามารถระบุค่าฟีเจอร์ที่ไม่คาดคิดได้ไหม
เอียง
ข้อมูลประเภทนี้อาจมีความบิดเบือนข้อมูลได้หากกลุ่มหรือลักษณะบางอย่างอาจมีความไม่เท่าเทียมหรือเป็นตัวแทนที่มากเกินไป เมื่อเทียบกับความแพร่หลายของโลกแห่งความจริง อาจทําให้โมเดลของคุณมีการให้น้ําหนักพิเศษกับโมเดลของคุณ
หากคุณทําตามแบบฝึกหัดการตรวจสอบความถูกต้องเรียบร้อยแล้ว คุณอาจจําได้ว่าสุ่มสร้างชุดข้อมูลของรัฐแคลิฟอร์เนียก่อนแยกส่วนไปยังชุดการฝึกและการตรวจสอบซึ่งจะส่งผลให้ข้อมูลบิดเบือนชัดเจน รูปที่ 1 แสดงข้อมูลชุดย่อยจากชุดข้อมูลทั้งหมดที่แสดงถึงภูมิภาคทางตะวันตกเฉียงเหนือของรัฐแคลิฟอร์เนียโดยเฉพาะ
รูปที่ 1 แผนที่รัฐแคลิฟอร์เนีย วางซ้อนด้วยชุดข้อมูลของรัฐแคลิฟอร์เนีย แต่ละจุดแสดงองค์ประกอบต่างๆ ของอาคาร ซึ่งแบ่งออกเป็นสีต่างๆ ตั้งแต่สีน้ําเงินไปจนถึงสีแดง และมีค่ามัธยฐานของราคาบ้านจากต่ําไปสูง ตามลําดับ
หากมีการนําตัวอย่างที่ไม่เป็นตัวแทนนี้ไปใช้เพื่อฝึกโมเดลเพื่อคาดการณ์ราคาที่พักอาศัยในรัฐแคลิฟอร์เนีย การขาดข้อมูลที่พักอาศัยจากภาคใต้ของแคลิฟอร์เนียจะทําให้เกิดปัญหาได้ อคติทางภูมิศาสตร์ที่เข้ารหัสในโมเดลอาจส่งผลกระทบเชิงลบต่อผู้ซื้อบ้านในชุมชนที่ไม่เป็นตัวแทน