Công bằng: Xác định thiên kiến

Khi chuẩn bị dữ liệu để huấn luyện và đánh giá mô hình, bạn cần lưu ý lưu ý đến các vấn đề về sự công bằng và kiểm toán đối với các nguồn thiên vị, vì vậy, bạn có thể chủ động giảm thiểu tác động của nó trước khi phát hành mô hình vào giai đoạn phát hành chính thức.

Thành kiến có thể ẩn náu ở đâu? Dưới đây là một số dấu hiệu cảnh báo cần chú ý trong tập dữ liệu của bạn.

Thiếu giá trị tính năng

Nếu tập dữ liệu của bạn có một hoặc nhiều đối tượng bị thiếu giá trị cho thuộc tính lớn ví dụ, đó có thể là một chỉ báo cho biết một số đặc điểm chính nhất định của tập dữ liệu được biểu thị thiếu.

Bài tập: Kiểm tra kiến thức

Bạn đang huấn luyện một mô hình dự đoán khả năng chấp nhận của những chú chó cứu hộ dựa trên dựa trên nhiều đặc điểm, bao gồm giống, tuổi, cân nặng, tính cách, và số lượng lông mỗi ngày. Mục tiêu của bạn là đảm bảo mô hình hoạt động hiệu quả như nhau trên tất cả các loại chó, bất kể cơ thể của chúng hoặc đặc điểm hành vi

Bạn phát hiện ra rằng 1.500 trong số 5.000 ví dụ trong tập huấn luyện là thiếu giá trị tính chất. Nguồn nào sau đây là nguồn tiềm năng thiên kiến đáng chú ý mà bạn nên tìm hiểu không?

Dữ liệu về nhiệt độ có nhiều khả năng sẽ bị thiếu đối với một số giống chó chó.
Nếu có sẵn dữ liệu về tính khí tương quan với giống chó, thì điều này có thể dẫn đến các dự đoán ít chính xác hơn về khả năng áp dụng cho một số giống chó nhất định.
Dữ liệu về thân nhiệt có nhiều khả năng sẽ bị thiếu đối với chó dưới 12 tuổi tháng tuổi
Nếu lượng dữ liệu về tính khí có liên quan đến độ tuổi, thì điều này có thể dẫn đến các dự đoán ít chính xác hơn về khả năng áp dụng cho chó con so với chó trưởng thành.
Tất cả những chú chó được giải cứu khỏi các thành phố lớn đều thiếu dữ liệu về tính nhiệt.
Khi nhìn thoáng qua, có vẻ như đây không phải là nguồn tiềm năng thiên vị, vì dữ liệu bị thiếu sẽ ảnh hưởng đến tất cả những chú chó, thành phố như nhau, không phân biệt giống, độ tuổi, trọng lượng, v.v. Tuy nhiên, chúng ta vẫn cần xem xét rằng vị trí của chó có thể đóng vai trò hiệu quả như một proxy cho đặc điểm. Ví dụ: nếu những chú chó ở các thành phố lớn đang có nhiều khả năng nhỏ hơn đáng kể so với những chú chó ở vùng nông thôn hơn có thể dẫn đến việc dự đoán khả năng áp dụng kém chính xác hơn dành cho chó có cân nặng thấp hơn hoặc một số giống chó nhỏ.
Tập dữ liệu bị thiếu dữ liệu về nhiệt độ một cách ngẫu nhiên.
Nếu dữ liệu về tính cách thực sự bị thiếu một cách ngẫu nhiên, thì điều đó có thể là một nguồn thiên kiến. Tuy nhiên, có thể tính khí đó dữ liệu có thể bị thiếu một cách ngẫu nhiên, nhưng hãy điều tra thêm có thể giải thích cho sự khác biệt này. Vì vậy, điều quan trọng là xem xét kỹ lưỡng để loại trừ các khả năng khác, thay vì giả định khoảng trống dữ liệu là ngẫu nhiên.

Giá trị tính năng không mong muốn

Khi khám phá dữ liệu, bạn cũng nên tìm các ví dụ chứa giá trị của tính năng nổi bật và đặc biệt không đặc trưng hoặc khác thường. Tính năng không mong muốn này có thể cho biết các vấn đề đã xảy ra trong quá trình thu thập dữ liệu hoặc những điểm không chính xác có thể tạo ra sai lệch.

Bài tập: Kiểm tra kiến thức

Xem tập hợp các ví dụ giả định sau đây để huấn luyện chú chó cứu hộ mô hình áp dụng.

giống độ tuổi (năm) trọng lượng (lb) tính khí shedding_level
chó toy poodle 2 12 dễ bị kích thích thấp
chó săn lông vàng 7 65 bình tĩnh cao
chó săn Labrador Retriever 35 73 bình tĩnh cao
chó bun pháp 0,5 11 bình tĩnh trung bình
giống hỗn hợp không xác định 4 45 dễ bị kích thích cao
chó săn basset 9 48 bình tĩnh trung bình
Bạn có thể xác định bất kỳ vấn đề nào với dữ liệu tính năng không?
Nhấp vào đây để xem câu trả lời

Độ lệch dữ liệu

Bất kỳ kiểu sai lệch nào trong dữ liệu của bạn, trong đó có thể có một số nhóm hoặc đặc điểm nhất định được thể hiện ít hơn hoặc được thể hiện quá mức so với tỷ lệ phổ biến trong thế giới thực, có thể đưa sai lệch vào mô hình của bạn.

Khi kiểm tra hiệu suất của mô hình, điều quan trọng không chỉ là xem xét kết quả mà là để chia nhỏ kết quả theo nhóm con. Ví dụ: trong trường hợp mô hình chấp nhận chó cứu hộ của chúng tôi, để đảm bảo tính công bằng, việc này là chưa đủ chỉ xem xét mức độ chính xác tổng thể. Chúng ta cũng nên kiểm tra hiệu suất theo nhóm con để đảm bảo mô hình hoạt động hiệu quả như nhau cho từng giống chó, nhóm tuổi và nhóm kích thước.

Ở phần sau của học phần này, trong phần Đánh giá độ lệch, chúng ta sẽ xem xét kỹ hơn các phương pháp khác nhau để đánh giá mô hình theo nhóm con.