Trang này được dịch bởi Cloud Translation API.

Công bằng: Các loại thiên kiến

Bản chất của các mô hình học máy (ML) không phải là khách quan. Các nhà thực hành học máy đào tạo mô hình bằng cách cung cấp cho mô hình một tập dữ liệu gồm các ví dụ về việc huấn luyện. Việc con người tham gia vào việc cung cấp và tuyển chọn dữ liệu này có thể khiến dự đoán của mô hình dễ bị thiên vị.

Khi xây dựng mô hình, bạn cần lưu ý đến những thành kiến phổ biến của con người có thể xuất hiện trong dữ liệu của mình để có thể chủ động thực hiện các bước nhằm giảm thiểu tác động của chúng.

Thiên vị dựa trên báo cáo

Định nghĩa

Độ lệch trong báo cáo xảy ra khi tần suất của sự kiện, thuộc tính và/hoặc kết quả được thu thập trong một tập dữ liệu không phản ánh chính xác tần suất thực tế của chúng. Sự thiên vị này có thể phát sinh vì mọi người có xu hướng tập trung vào việc ghi lại những trường hợp bất thường hoặc đặc biệt đáng nhớ, giả định rằng những trường hợp bình thường không cần được ghi lại.

Nhấp vào chevron_right để xem ví dụ.
Ví dụ:

Một mô hình phân tích cảm xúc được huấn luyện để dự đoán xem bài đánh giá cuốn sách là tích cực hay tiêu cực dựa trên một tập hợp các bài đánh giá do người dùng gửi đến một trang web phổ biến. Phần lớn các bài đánh giá trong tập dữ liệu huấn luyện đều phản ánh các ý kiến cực đoan (những người đánh giá thích hoặc ghét một cuốn sách), vì khả năng mọi người gửi bài đánh giá về một cuốn sách sẽ ít hơn nếu họ không phản hồi rõ ràng về cuốn sách đó. Do đó, mô hình này khó dự đoán chính xác cảm xúc của những bài đánh giá sử dụng ngôn từ tinh tế hơn để mô tả một cuốn sách.

Nhấp vào chevron_left để xem định nghĩa.

Xu hướng trước đây

Định nghĩa

Thiên kiến trong quá khứ xảy ra khi dữ liệu trong quá khứ phản ánh sự bất bình đẳng tồn tại trên thế giới tại thời điểm đó.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Một tập dữ liệu về nhà ở thành phố từ những năm 1960 chứa dữ liệu về giá nhà phản ánh các hoạt động cho vay phân biệt đối xử có hiệu lực trong thập kỷ đó.

Nhấp vào chevron_left để xem định nghĩa.

Thiên vị tự động hoá

Định nghĩa

Thiên vị tự động hoá là xu hướng ưu tiên kết quả do hệ thống tự động tạo ra so với kết quả do hệ thống không tự động tạo ra, bất kể tỷ lệ lỗi của từng hệ thống.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Các chuyên viên công nghệ học máy làm việc cho một nhà sản xuất bánh răng xích rất háo hức triển khai mô hình "đột phá" mà họ đã được đào tạo để xác định lỗi răng, cho đến khi giám sát viên nhà máy chỉ ra rằng độ chính xác và tỷ lệ thu hồi của mô hình này đều thấp hơn 15% so với nhân viên kiểm tra.

Nhấp vào chevron_left để xem định nghĩa.

Thiên vị khi lựa chọn

Sự thiên vị trong lựa chọn xảy ra nếu các ví dụ của tập dữ liệu được chọn theo cách không phản ánh việc phân phối trong thực tế. Sự thiên vị trong lựa chọn có thể diễn ra dưới nhiều hình thức, bao gồm cả thiên vị về phạm vi, thiên vị về tỷ lệ không trả lời và thiên vị về mẫu.

Thiên vị mức độ phù hợp

Định nghĩa

Thiên vị về phạm vi xảy ra nếu dữ liệu không được chọn theo cách đại diện.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm. Những người tiêu dùng chọn mua sản phẩm cạnh tranh không được khảo sát, do đó, nhóm người này không được thể hiện trong dữ liệu huấn luyện.

Nhấp vào chevron_left để xem định nghĩa.

Thiên kiến do thiếu hồi âm

Định nghĩa

Thiên vị không phản hồi (còn gọi là thiên vị tham gia) xảy ra nếu dữ liệu không đại diện do có sự chênh lệch về mức độ tham gia trong quy trình thu thập dữ liệu.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm đó và với một mẫu người tiêu dùng đã mua một sản phẩm cạnh tranh. Những người tiêu dùng đã mua sản phẩm cạnh tranh có nhiều khả năng từ chối hoàn tất bản khảo sát hơn 80% và dữ liệu của họ không được trình bày đúng mức trong mẫu.

Nhấp vào chevron_left để xem định nghĩa.

Thiên vị do lấy mẫu

Định nghĩa

Xu hướng lấy mẫu xảy ra nếu việc sắp xếp ngẫu nhiên thích hợp không được sử dụng trong quá trình thu thập dữ liệu.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm và một mẫu người tiêu dùng đã mua sản phẩm cạnh tranh. Thay vì nhắm đến người tiêu dùng một cách ngẫu nhiên, người khảo sát đã chọn 200 người tiêu dùng đầu tiên phản hồi email. Họ có thể nhiệt tình hơn với sản phẩm so với người mua trung bình.

Nhấp vào chevron_left để xem định nghĩa.

Thiên vị quy cho nhóm

Sự thiên vị trong việc phân bổ cho nhóm là xu hướng khái quát hoá những điều đúng về các cá nhân cho toàn bộ nhóm mà họ thuộc về. Thành kiến phân bổ theo nhóm thường thể hiện ở 2 dạng sau.

Thiên vị cùng nhóm

Định nghĩa

Thiên kiến nhóm là sự ưu tiên dành cho các thành viên trong nhóm của bạn mà bạn cũng thuộc về hoặc cho những đặc điểm mà bạn cũng có.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Hai chuyên viên học máy đào tạo mô hình sàng lọc sơ yếu lý lịch cho các nhà phát triển phần mềm được cho là có khả năng tin rằng những ứng viên theo học cùng một học viện khoa học máy tính vì cả hai đều có đủ điều kiện để đảm nhận công việc này.

Nhấp vào chevron_left để xem định nghĩa.

Thiên vị khác nhóm

Định nghĩa

Thiên vị khác nhóm là xu hướng gán ghép các thành viên cá nhân của một nhóm mà bạn không thuộc về hoặc xem các đặc điểm của họ là đồng nhất hơn.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Hai chuyên viên học máy đào tạo mô hình sàng lọc sơ yếu lý lịch cho các nhà phát triển phần mềm được cho là có khả năng tin rằng tất cả những ứng viên không theo học học viện khoa học máy tính đều không có đủ chuyên môn cho vai trò này.

Nhấp vào chevron_left để xem định nghĩa.

Thiên kiến ngầm ẩn

Định nghĩa

Thiên kiến ngầm ẩn xảy ra khi người ta đưa ra giả định dựa trên mô hình tư duy và trải nghiệm cá nhân của riêng họ, những điều này không nhất thiết áp dụng một cách chung hơn.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Một người thực hành học máy đang huấn luyện mô hình nhận dạng cử chỉ sử dụng cử chỉ lắc đầu làm một tính năng để cho biết một người đang giao tiếp từ "không". Tuy nhiên, ở một số khu vực trên thế giới, việc lắc đầu lại có nghĩa là "có".

Nhấp vào chevron_left để xem định nghĩa.

Thiên vị xác nhận

Định nghĩa

Thiên kiến xác nhận xảy ra khi các nhà xây dựng mô hình vô thức xử lý dữ liệu theo cách xác nhận các niềm tin và giả thuyết có sẵn.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Một chuyên viên học máy đang xây dựng một mô hình dự đoán tính hiếu động của chó dựa trên nhiều đặc điểm (chiều cao, cân nặng, giống, môi trường). Khi còn nhỏ, người học viên này đã gặp khó chịu với một chú chó toy Poodle hiếu động và kể từ đó, giống chó này đã trở nên hung hăng. Khi tuyển chọn dữ liệu huấn luyện cho mô hình, người thực hành đã vô tình loại bỏ các đặc điểm cung cấp bằng chứng về sự ngoan ngoãn ở những chú chó nhỏ hơn.

Nhấp vào chevron_left để xem định nghĩa.

Thiên vị của người thử nghiệm

Định nghĩa

Sự sai lệch của người thử nghiệm xảy ra khi trình tạo mô hình tiếp tục huấn luyện một mô hình cho đến khi mô hình đó tạo ra kết quả phù hợp với giả thuyết ban đầu.

Nhấp vào chevron_right để xem ví dụ
Ví dụ:

Một người hành nghề học máy đang xây dựng một mô hình dự đoán mức độ hung hăng của chó dựa trên nhiều đặc điểm (chiều cao, cân nặng, giống, môi trường). Người thực hành này đã có một trải nghiệm không vui khi còn nhỏ với một chú chó săn sục đồ chơi hoạt động quá mức, và từ đó liên kết giống chó này với sự hung hăng. Khi mô hình được huấn luyện dự đoán hầu hết các giống chó poodle đồ chơi đều tương đối ngoan ngoãn, người thực hành đã huấn luyện lại mô hình này vài lần cho đến khi mô hình đưa ra kết quả cho thấy các giống chó poodle nhỏ hơn hung dữ hơn.

Nhấp vào chevron_left để xem định nghĩa.

Bài tập: Kiểm tra mức độ hiểu bài

Loại thiên kiến nào sau đây có thể đã góp phần tạo ra các dự đoán sai lệch trong mô hình tuyển sinh đại học được mô tả trong phần giới thiệu?

Sự thiên vị trong quá khứ

Mô hình tuyển sinh đã được đào tạo dựa trên hồ sơ học sinh trong 20 năm qua. Nếu dữ liệu này không thể hiện đúng đối với học sinh là người thiểu số, thì mô hình này có thể tái hiện sự bất bình đẳng trước đây khi đưa ra dự đoán về dữ liệu mới về học sinh.

Thiên vị cùng nhóm

Mô hình tuyển sinh được đào tạo bởi các sinh viên đại học hiện tại, những người có thể vô thức ưu tiên nhận những sinh viên có xuất thân tương tự như họ. Điều này có thể ảnh hưởng đến cách họ tuyển chọn hoặc tạo tính năng cho dữ liệu mà mô hình được đào tạo.

Thiên kiến xác nhận

Mô hình tuyển sinh được đào tạo bởi các sinh viên đại học hiện tại, những người có thể đã có niềm tin trước đó về những loại bằng cấp liên quan đến sự thành công trong chương trình khoa học máy tính. Họ có thể vô tình tuyển chọn hoặc tạo tính năng cho dữ liệu để mô hình xác nhận những niềm tin hiện có này.

Thiên vị tự động hoá

Sự thiên vị của hệ thống tự động hoá có thể giải thích lý do ban tuyển sinh chọn sử dụng mô hình học máy để đưa ra quyết định tuyển sinh; có thể họ tin rằng hệ thống tự động sẽ mang lại kết quả tốt hơn so với quyết định do con người đưa ra. Tuy nhiên, thiên kiến tự động hoá không cung cấp bất kỳ thông tin chi tiết nào về lý do dự đoán của mô hình bị sai lệch.

Giới thiệu (5 phút)

Tiếp

Xác định độ lệch (10 phút)

Công bằng: Các loại thiên kiến

Thiên vị dựa trên báo cáo

Định nghĩa

Ví dụ:

Xu hướng trước đây

Định nghĩa

Ví dụ:

Thiên vị tự động hoá

Định nghĩa

Ví dụ:

Thiên vị khi lựa chọn

Thiên vị mức độ phù hợp

Định nghĩa

Ví dụ:

Thiên kiến do thiếu hồi âm

Định nghĩa

Ví dụ:

Thiên vị do lấy mẫu

Định nghĩa

Ví dụ:

Thiên vị quy cho nhóm

Thiên vị cùng nhóm

Định nghĩa

Ví dụ:

Thiên vị khác nhóm

Định nghĩa

Ví dụ:

Thiên kiến ngầm ẩn

Định nghĩa

Ví dụ:

Thiên vị xác nhận

Định nghĩa

Ví dụ:

Thiên vị của người thử nghiệm

Định nghĩa

Ví dụ:

Bài tập: Kiểm tra mức độ hiểu bài