Công bằng: Xác định thành kiến

Khi bạn khám phá dữ liệu của mình để xác định cách tốt nhất để thể hiện dữ liệu đó trong mô hình của mình, bạn cũng cần lưu ý đến các vấn đề về sự công bằng và chủ động kiểm tra các nguồn định kiến tiềm ẩn.

Thành kiến xuất hiện ở đâu? Dưới đây là 3 dấu hiệu cảnh báo cần chú ý trong tập dữ liệu của bạn.

Thiếu giá trị tính năng

Nếu tập dữ liệu của bạn có một hoặc nhiều tính năng bị thiếu giá trị trong một số lượng lớn ví dụ, thì đó có thể là một chỉ báo cho biết một số đặc điểm chính của tập dữ liệu của bạn chưa được thể hiện đúng mức.

Ví dụ: bảng dưới đây cho thấy bản tóm tắt các số liệu chính cho một số tính năng trong tập dữ liệu Nhà ở tại California, được lưu trữ trong gấu trúc DataFrame và được tạo thông qua DataFrame.describe. Lưu ý tất cả các tính năng đều có count là 17000, cho biết không có giá trị nào bị thiếu:

longitude vĩ độ tổng_số phòng tổng số hộ gia đình thu nhập trung bình giá_trị_trung_tại
số lượng 17000 17000 17000 17000 17000 17000 17000
trung bình -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
std 2 2.1 2179,9 1147,9 384,5 1.9 116
phút -124,3 32,5 2 3 1 0,5 15
25% -121,8 33,9 1462 790 282 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409 3,5 180,4
75% -118,0 37,7 3151,2 1721 605,2 4.8 265
tối đa -114,3 42 37937,0 35682 6082,0 15 500

Giả sử ba tính năng (population, householdsmedian_income) chỉ có số lượng 3000 — nói cách khác là có 14.000 giá trị bị thiếu cho mỗi tính năng:

longitude vĩ độ tổng_số phòng tổng số hộ gia đình thu nhập trung bình giá_trị_trung_tại
số lượng 17000 17000 17000 3000 3000 3000 17000
trung bình -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
std 2 2.1 2179,9 1147,9 384,5 1.9 116
phút -124,3 32,5 2 3 1 0,5 15
25% -121,8 33,9 1462 790 282 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409 3,5 180,4
75% -118,0 37,7 3151,2 1721 605,2 4.8 265
tối đa -114,3 42 37937,0 35682 6082,0 15 500

14.000 giá trị còn thiếu này sẽ gây khó khăn hơn nhiều trong việc liên hệ chính xác thu nhập trung bình của các hộ gia đình với giá nhà trung bình. Trước khi đào tạo một mô hình dựa trên dữ liệu này, chúng ta nên điều tra nguyên nhân của những giá trị bị thiếu này để đảm bảo rằng không có sai lệch tiềm ẩn nào gây ra tình trạng thiếu dữ liệu dân số và thu nhập.

Giá trị tính năng không mong muốn

Khi khám phá dữ liệu, bạn cũng nên tìm kiếm các ví dụ chứa các giá trị tính năng nổi bật là đặc biệt không đặc trưng hoặc bất thường. Các giá trị tính năng không mong muốn này có thể cho biết sự cố xảy ra trong quá trình thu thập dữ liệu hoặc các điểm không chính xác khác có thể gây ra sai lệch.

Ví dụ: hãy xem các ví dụ được trích dẫn sau đây từ tập dữ liệu nhà ở tại California:

longitude vĩ độ tổng_số phòng tổng số hộ gia đình thu nhập trung bình giá_trị_trung_tại
1 -121,7 38 7105,0 3523 1088 5 0,2
2 -122,4 37,8 2479,0 1816,0 496,0 3.1 0,3
3 -122,0 37 2813 1337 477 3.7 0,3
4 -103,5 43,8 2212 803 144 5.3 0,2
5 -117,1 32,8 2963,0 1162,0 556 3.6 0,2
6 -118,0 33,7 3396,0 1542,0 472 7.4 0,4

Bạn có thể xác định những giá trị tính năng không mong muốn không?

Thu thập dữ liệu

Bất kỳ độ lệch nào trong dữ liệu của bạn, trong đó một số nhóm hoặc đặc điểm nhất định có thể được mô tả dưới mức hoặc quá mức so với mức độ phổ biến trong thực tế, có thể tạo ra sai lệch trong mô hình.

Nếu đã hoàn thành Bài tập lập trình xác thực, thì bạn có thể nhớ lại việc không thể phân ngẫu nhiên tập dữ liệu nhà ở California trước khi chia nhỏ thành các tập dữ liệu huấn luyện và xác thực dẫn đến sai lệch dữ liệu rõ ràng. Hình 1 trực quan hoá một tập dữ liệu con được rút ra từ toàn bộ tập dữ liệu đại diện riêng cho khu vực tây bắc của California.

Một bản đồ của tiểu bang California được phủ lên dữ liệu từ tập dữ liệu Nhà ở California.
          Mỗi dấu chấm đại diện cho một khối nhà ở. Các dấu chấm đều được nhóm ở phía tây bắc California,
          không có dấu chấm ở miền nam California, minh họa sự sai lệch về dữ liệu địa lý

Hình 1. Bản đồ của tiểu bang California phủ lên dữ liệu từ tập dữ liệu Nhà ở California. Mỗi dấu chấm đại diện cho một khối nhà có màu sắc từ xanh dương đến đỏ tương ứng với giá nhà trung bình lần lượt từ thấp đến cao.

Nếu mẫu đại diện này được dùng để huấn luyện một mô hình để dự đoán giá nhà ở California trên toàn tiểu bang, thì việc thiếu dữ liệu về nhà ở từ các vùng phía nam California sẽ có vấn đề. Thành kiến địa lý được mã hóa trong mô hình có thể ảnh hưởng tiêu cực đến người mua nhà trong các cộng đồng không được đại diện.