Khi chuẩn bị dữ liệu để huấn luyện và đánh giá mô hình, bạn cần lưu ý đến các vấn đề về tính công bằng và kiểm tra các nguồn tiềm ẩn của thiên kiến để có thể chủ động giảm thiểu tác động của thiên kiến trước khi phát hành mô hình vào môi trường thực tế.
Sự thiên vị có thể ẩn nấp ở đâu? Dưới đây là một số dấu hiệu cảnh báo cần chú ý trong tập dữ liệu của bạn.
Thiếu giá trị đối tượng
Nếu tập dữ liệu của bạn có một hoặc nhiều đặc điểm bị thiếu giá trị cho một số lượng lớn ví dụ, thì đó có thể là chỉ báo cho thấy một số đặc điểm chính nhất định của tập dữ liệu chưa được thể hiện đầy đủ.
Bài tập: Kiểm tra mức độ hiểu bài
Bạn phát hiện thấy 1.500 trong số 5.000 ví dụ trong tập huấn luyện bị thiếu giá trị tính khí. Bạn nên điều tra nguồn nào sau đây có khả năng gây ra thiên kiến?
Giá trị đặc điểm không mong muốn
Khi khám phá dữ liệu, bạn cũng nên tìm những ví dụ chứa các giá trị đặc điểm nổi bật, đặc biệt là không đặc trưng hoặc bất thường. Những giá trị tính năng không mong muốn này có thể cho biết các vấn đề xảy ra trong quá trình thu thập dữ liệu hoặc các lỗi không chính xác khác có thể gây ra sự thiên vị.
Bài tập: Kiểm tra kiến thức
Xem xét tập hợp ví dụ giả định sau đây để huấn luyện mô hình về khả năng nhận nuôi chó cứu hộ.
giống | age (yrs) | trọng lượng (pound) | tính khí | shedding_level |
---|---|---|---|---|
chó xù toy | 2 | 12 | dễ bị kích thích | thấp |
chó săn lông vàng | 7 | 65 | bình tĩnh | cao |
chó săn Labrador Retriever | 35 | 73 | bình tĩnh | cao |
chó bun pháp | 0,5 | 11 | bình tĩnh | trung bình |
giống hỗn hợp không xác định | 4 | 45 | dễ kích động | cao |
chó săn Basset | 9 | 48 | bình tĩnh | trung bình |
giống | age (yrs) | trọng lượng (pound) | tính khí | shedding_level |
---|---|---|---|---|
chó xù toy | 2 | 12 | dễ bị kích thích | thấp |
chó săn lông vàng | 7 | 65 | bình tĩnh | cao |
chó săn Labrador Retriever | 35 | 73 | bình tĩnh | cao |
chó bun pháp | 0,5 | 11 | bình tĩnh | trung bình |
giống hỗn hợp không xác định | 4 | 45 | dễ kích động | cao |
chó săn Basset | 9 | 48 | bình tĩnh | trung bình |
Chú chó già nhất được Sách kỷ lục Guinness thế giới xác minh độ tuổi là Bluey, một chú chó Cattle Úc sống được 29 năm 5 tháng. Do đó, có vẻ khá khó hiểu khi con chó tha mồi Labrador thực sự đã 35 tuổi và nhiều khả năng là tuổi của chú chó đã được tính toán hoặc ghi lại không chính xác (có thể con chó thực sự đã 3,5 tuổi). Lỗi này cũng có thể cho thấy các vấn đề về độ chính xác rộng hơn đối với dữ liệu tuổi trong tập dữ liệu xứng đáng được điều tra thêm.
Độ lệch dữ liệu
Bất kỳ sự chênh lệch nào trong dữ liệu của bạn, trong đó một số nhóm hoặc đặc điểm nhất định có thể được trình bày không đầy đủ hoặc quá mức so với mức độ phổ biến trong thực tế, đều có thể gây ra sự thiên lệch trong mô hình của bạn.
Khi kiểm tra hiệu suất của mô hình, điều quan trọng không chỉ là xem xét kết quả ở dạng tổng hợp mà còn phải chia nhỏ kết quả theo nhóm con. Ví dụ: trong trường hợp mô hình về khả năng nhận nuôi chó cứu hộ, để đảm bảo tính công bằng, bạn không chỉ xem xét độ chính xác tổng thể. Chúng ta cũng nên kiểm tra hiệu suất theo nhóm nhỏ để đảm bảo mô hình hoạt động hiệu quả như nhau đối với từng giống chó, nhóm tuổi và nhóm kích thước.
Ở phần sau của mô-đun này, trong phần Đánh giá độ lệch, chúng ta sẽ tìm hiểu kỹ hơn về các phương pháp đánh giá mô hình theo nhóm phụ.