Công bằng: Xác định thiên kiến

Khi chuẩn bị dữ liệu để huấn luyện và đánh giá mô hình, bạn cần lưu ý đến các vấn đề về tính công bằng và kiểm tra các nguồn tiềm ẩn của thiên kiến để có thể chủ động giảm thiểu tác động của thiên kiến trước khi phát hành mô hình vào môi trường thực tế.

Sự thiên vị có thể ẩn nấp ở đâu? Dưới đây là một số dấu hiệu cảnh báo cần chú ý trong tập dữ liệu của bạn.

Thiếu giá trị đối tượng

Nếu tập dữ liệu của bạn có một hoặc nhiều đặc điểm bị thiếu giá trị cho một số lượng lớn ví dụ, thì đó có thể là chỉ báo cho thấy một số đặc điểm chính nhất định của tập dữ liệu chưa được thể hiện đầy đủ.

Bài tập: Kiểm tra mức độ hiểu bài

Bạn đang huấn luyện một mô hình để dự đoán khả năng nhận nuôi chó cứu hộ dựa trên nhiều đặc điểm, bao gồm giống, độ tuổi, cân nặng, tính khí và lượng lông rụng mỗi ngày. Mục tiêu của bạn là đảm bảo mô hình hoạt động tốt như nhau trên tất cả các loại chó, bất kể đặc điểm thể chất hay hành vi của chúng

Bạn phát hiện thấy 1.500 trong số 5.000 ví dụ trong tập huấn luyện bị thiếu giá trị tính khí. Bạn nên điều tra nguồn nào sau đây có khả năng gây ra thiên kiến?

Dữ liệu về tính trạng có nhiều khả năng sẽ bị thiếu đối với một số giống chó.

Nếu dữ liệu về tính khí có liên quan đến giống chó, thì điều này có thể dẫn đến kết quả dự đoán về khả năng được nhận nuôi kém chính xác hơn đối với một số giống chó.

Dữ liệu về tính khí có nhiều khả năng bị thiếu đối với những chú chó dưới 12 tháng tuổi

Nếu dữ liệu về tính khí có liên quan đến độ tuổi, thì điều này có thể dẫn đến kết quả dự đoán về khả năng được nhận nuôi kém chính xác hơn đối với chó con so với chó trưởng thành.

Thiếu dữ liệu về tính cách của tất cả những chú chó được cứu hộ ở các thành phố lớn.

Thoạt nhìn, có vẻ như đây không phải là nguồn có tính thiên vị vì dữ liệu bị thiếu sẽ ảnh hưởng như nhau đến tất cả những chú chó ở các thành phố lớn, bất kể giống, tuổi, cân nặng, v.v. Tuy nhiên, chúng ta vẫn cần xem xét rằng vị trí của một chú chó có thể đóng vai trò như một đại diện cho những đặc điểm cơ thể này. Ví dụ: nếu chó ở thành phố lớn có khả năng nhỏ hơn đáng kể so với chó ở các khu vực nông thôn hơn, điều đó có thể dẫn đến việc dự đoán kém chính xác hơn về khả năng áp dụng cho chó có cân nặng thấp hơn hoặc một số giống chó nhỏ hơn.

Dữ liệu về tính khí bị thiếu trong tập dữ liệu một cách ngẫu nhiên.

Nếu dữ liệu về tính khí thực sự bị thiếu một cách ngẫu nhiên, thì đó sẽ không phải là nguồn gây thiên vị tiềm ẩn. Tuy nhiên, có thể dữ liệu về tính khí sẽ xuất hiện ngẫu nhiên, nhưng việc điều tra thêm có thể giúp giải thích sự khác biệt này. Vì vậy, điều quan trọng là phải kiểm tra kỹ lưỡng để loại trừ các khả năng khác, thay vì giả định khoảng trống dữ liệu là ngẫu nhiên.

Giá trị đặc điểm không mong muốn

Khi khám phá dữ liệu, bạn cũng nên tìm những ví dụ chứa các giá trị đặc điểm nổi bật, đặc biệt là không đặc trưng hoặc bất thường. Những giá trị tính năng không mong muốn này có thể cho biết các vấn đề xảy ra trong quá trình thu thập dữ liệu hoặc các lỗi không chính xác khác có thể gây ra sự thiên vị.

Bài tập: Kiểm tra kiến thức

Xem xét tập hợp ví dụ giả định sau đây để huấn luyện mô hình về khả năng nhận nuôi chó cứu hộ.

giống	age (yrs)	trọng lượng (pound)	tính khí	shedding_level
chó xù toy	2	12	dễ bị kích thích	thấp
chó săn lông vàng	7	65	bình tĩnh	cao
chó săn Labrador Retriever	35	73	bình tĩnh	cao
chó bun pháp	0,5	11	bình tĩnh	trung bình
giống hỗn hợp không xác định	4	45	dễ kích động	cao
chó săn Basset	9	48	bình tĩnh	trung bình

Bạn có thể xác định vấn đề nào với dữ liệu tính năng không?

Nhấp vào đây để xem câu trả lời

giống	age (yrs)	trọng lượng (pound)	tính khí	shedding_level
chó xù toy	2	12	dễ bị kích thích	thấp
chó săn lông vàng	7	65	bình tĩnh	cao
chó săn Labrador Retriever	35	73	bình tĩnh	cao
chó bun pháp	0,5	11	bình tĩnh	trung bình
giống hỗn hợp không xác định	4	45	dễ kích động	cao
chó săn Basset	9	48	bình tĩnh	trung bình

Chú chó già nhất được Sách kỷ lục Guinness thế giới xác minh độ tuổi là Bluey, một chú chó Cattle Úc sống được 29 năm 5 tháng. Do đó, có vẻ khá khó hiểu khi con chó tha mồi Labrador thực sự đã 35 tuổi và nhiều khả năng là tuổi của chú chó đã được tính toán hoặc ghi lại không chính xác (có thể con chó thực sự đã 3,5 tuổi). Lỗi này cũng có thể cho thấy các vấn đề về độ chính xác rộng hơn đối với dữ liệu tuổi trong tập dữ liệu xứng đáng được điều tra thêm.

Độ lệch dữ liệu

Bất kỳ sự chênh lệch nào trong dữ liệu của bạn, trong đó một số nhóm hoặc đặc điểm nhất định có thể được trình bày không đầy đủ hoặc quá mức so với mức độ phổ biến trong thực tế, đều có thể gây ra sự thiên lệch trong mô hình của bạn.

Khi kiểm tra hiệu suất của mô hình, điều quan trọng không chỉ là xem xét kết quả ở dạng tổng hợp mà còn phải chia nhỏ kết quả theo nhóm con. Ví dụ: trong trường hợp mô hình về khả năng nhận nuôi chó cứu hộ, để đảm bảo tính công bằng, bạn không chỉ xem xét độ chính xác tổng thể. Chúng ta cũng nên kiểm tra hiệu suất theo nhóm nhỏ để đảm bảo mô hình hoạt động hiệu quả như nhau đối với từng giống chó, nhóm tuổi và nhóm kích thước.

Ở phần sau của mô-đun này, trong phần Đánh giá độ lệch, chúng ta sẽ tìm hiểu kỹ hơn về các phương pháp đánh giá mô hình theo nhóm phụ.

Các loại thiên kiến (5 phút)

Tiếp

Giảm thiểu thiên kiến (5 phút)