Khi chuẩn bị dữ liệu để huấn luyện và đánh giá mô hình, bạn cần lưu ý lưu ý đến các vấn đề về sự công bằng và kiểm toán đối với các nguồn thiên vị, vì vậy, bạn có thể chủ động giảm thiểu tác động của nó trước khi phát hành mô hình vào giai đoạn phát hành chính thức.
Thành kiến có thể ẩn náu ở đâu? Dưới đây là một số dấu hiệu cảnh báo cần chú ý trong tập dữ liệu của bạn.
Thiếu giá trị tính năng
Nếu tập dữ liệu của bạn có một hoặc nhiều đối tượng bị thiếu giá trị cho thuộc tính lớn ví dụ, đó có thể là một chỉ báo cho biết một số đặc điểm chính nhất định của tập dữ liệu được biểu thị thiếu.
Bài tập: Kiểm tra kiến thức
Bạn phát hiện ra rằng 1.500 trong số 5.000 ví dụ trong tập huấn luyện là thiếu giá trị tính chất. Nguồn nào sau đây là nguồn tiềm năng thiên kiến đáng chú ý mà bạn nên tìm hiểu không?
Giá trị tính năng không mong muốn
Khi khám phá dữ liệu, bạn cũng nên tìm các ví dụ chứa giá trị của tính năng nổi bật và đặc biệt không đặc trưng hoặc khác thường. Tính năng không mong muốn này có thể cho biết các vấn đề đã xảy ra trong quá trình thu thập dữ liệu hoặc những điểm không chính xác có thể tạo ra sai lệch.
Bài tập: Kiểm tra kiến thức
Xem tập hợp các ví dụ giả định sau đây để huấn luyện chú chó cứu hộ mô hình áp dụng.
giống | độ tuổi (năm) | trọng lượng (lb) | tính khí | shedding_level |
---|---|---|---|---|
chó toy poodle | 2 | 12 | dễ bị kích thích | thấp |
chó săn lông vàng | 7 | 65 | bình tĩnh | cao |
chó săn Labrador Retriever | 35 | 73 | bình tĩnh | cao |
chó bun pháp | 0,5 | 11 | bình tĩnh | trung bình |
giống hỗn hợp không xác định | 4 | 45 | dễ bị kích thích | cao |
chó săn basset | 9 | 48 | bình tĩnh | trung bình |
giống | độ tuổi (năm) | trọng lượng (lb) | tính khí | shedding_level |
---|---|---|---|---|
chó toy poodle | 2 | 12 | dễ bị kích thích | thấp |
chó săn lông vàng | 7 | 65 | bình tĩnh | cao |
chó săn Labrador Retriever | 35 | 73 | bình tĩnh | cao |
chó bun pháp | 0,5 | 11 | bình tĩnh | trung bình |
giống hỗn hợp không xác định | 4 | 45 | dễ bị kích thích | cao |
chó săn basset | 9 | 48 | bình tĩnh | trung bình |
Chú chó lâu đời nhất đã được Kỷ lục Guinness thế giới xác minh tuổi là Bluey, một chú chó chăn bò Úc đã sống được 29 năm 5 tháng. Do đó, có vẻ khá khó hiểu khi thực ra chú chó tha mồi labrador đã 35 tuổi, và có nhiều khả năng tuổi của chú chó đã được tính toán hoặc ghi lại không chính xác (có thể chú chó thực sự đã 3,5 tuổi). Lỗi này có thể báo cáo này cũng cho thấy các vấn đề rộng hơn về độ chính xác của dữ liệu độ tuổi trong tập dữ liệu đáng được điều tra thêm.
Độ lệch dữ liệu
Bất kỳ kiểu sai lệch nào trong dữ liệu của bạn, trong đó có thể có một số nhóm hoặc đặc điểm nhất định được thể hiện ít hơn hoặc được thể hiện quá mức so với tỷ lệ phổ biến trong thế giới thực, có thể đưa sai lệch vào mô hình của bạn.
Khi kiểm tra hiệu suất của mô hình, điều quan trọng không chỉ là xem xét kết quả mà là để chia nhỏ kết quả theo nhóm con. Ví dụ: trong trường hợp mô hình chấp nhận chó cứu hộ của chúng tôi, để đảm bảo tính công bằng, việc này là chưa đủ chỉ xem xét mức độ chính xác tổng thể. Chúng ta cũng nên kiểm tra hiệu suất theo nhóm con để đảm bảo mô hình hoạt động hiệu quả như nhau cho từng giống chó, nhóm tuổi và nhóm kích thước.
Ở phần sau của học phần này, trong phần Đánh giá độ lệch, chúng ta sẽ xem xét kỹ hơn các phương pháp khác nhau để đánh giá mô hình theo nhóm con.