Bản chất của các mô hình học máy (ML) không phải là khách quan. Các nhà thực hành học máy đào tạo mô hình bằng cách cung cấp cho mô hình một tập dữ liệu gồm các ví dụ về việc huấn luyện. Việc con người tham gia vào việc cung cấp và tuyển chọn dữ liệu này có thể khiến dự đoán của mô hình dễ bị thiên vị.
Khi xây dựng mô hình, bạn cần lưu ý đến những thành kiến phổ biến của con người có thể xuất hiện trong dữ liệu của mình để có thể chủ động thực hiện các bước nhằm giảm thiểu tác động của chúng.
Thiên vị dựa trên báo cáo
-
Định nghĩa
Độ lệch trong báo cáo xảy ra khi tần suất của sự kiện, thuộc tính và/hoặc kết quả được thu thập trong một tập dữ liệu không phản ánh chính xác tần suất thực tế của chúng. Sự thiên vị này có thể phát sinh vì mọi người có xu hướng tập trung vào việc ghi lại những trường hợp bất thường hoặc đặc biệt đáng nhớ, giả định rằng những trường hợp bình thường không cần được ghi lại.
-
Ví dụ:
Một mô hình phân tích cảm xúc được huấn luyện để dự đoán xem bài đánh giá cuốn sách là tích cực hay tiêu cực dựa trên một tập hợp các bài đánh giá do người dùng gửi đến một trang web phổ biến. Phần lớn các bài đánh giá trong tập dữ liệu huấn luyện đều phản ánh các ý kiến cực đoan (những người đánh giá thích hoặc ghét một cuốn sách), vì khả năng mọi người gửi bài đánh giá về một cuốn sách sẽ ít hơn nếu họ không phản hồi rõ ràng về cuốn sách đó. Do đó, mô hình này khó dự đoán chính xác cảm xúc của những bài đánh giá sử dụng ngôn từ tinh tế hơn để mô tả một cuốn sách.
Nhấp vào chevron_left để xem định nghĩa.
Xu hướng trước đây
-
Định nghĩa
Thiên kiến trong quá khứ xảy ra khi dữ liệu trong quá khứ phản ánh sự bất bình đẳng tồn tại trên thế giới tại thời điểm đó.
-
Ví dụ:
Một tập dữ liệu về nhà ở thành phố từ những năm 1960 chứa dữ liệu về giá nhà phản ánh các hoạt động cho vay phân biệt đối xử có hiệu lực trong thập kỷ đó.
Nhấp vào chevron_left để xem định nghĩa.
Thiên vị tự động hoá
-
Định nghĩa
Thiên vị tự động hoá là xu hướng ưu tiên kết quả do hệ thống tự động tạo ra so với kết quả do hệ thống không tự động tạo ra, bất kể tỷ lệ lỗi của từng hệ thống.
-
Ví dụ:
Các chuyên viên công nghệ học máy làm việc cho một nhà sản xuất bánh răng xích rất háo hức triển khai mô hình "đột phá" mà họ đã được đào tạo để xác định lỗi răng, cho đến khi giám sát viên nhà máy chỉ ra rằng độ chính xác và tỷ lệ thu hồi của mô hình này đều thấp hơn 15% so với nhân viên kiểm tra.
Nhấp vào chevron_left để xem định nghĩa.
Thiên vị khi lựa chọn
Sự thiên vị trong lựa chọn xảy ra nếu các ví dụ của tập dữ liệu được chọn theo cách không phản ánh việc phân phối trong thực tế. Sự thiên vị trong lựa chọn có thể diễn ra dưới nhiều hình thức, bao gồm cả thiên vị về phạm vi, thiên vị về tỷ lệ không trả lời và thiên vị về mẫu.
Thiên vị mức độ phù hợp
-
Định nghĩa
Thiên vị về phạm vi xảy ra nếu dữ liệu không được chọn theo cách đại diện.
-
Ví dụ:
Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm. Những người tiêu dùng chọn mua sản phẩm cạnh tranh không được khảo sát, do đó, nhóm người này không được thể hiện trong dữ liệu huấn luyện.
Nhấp vào chevron_left để xem định nghĩa.
Thiên kiến do thiếu hồi âm
-
Định nghĩa
Thiên vị không phản hồi (còn gọi là thiên vị tham gia) xảy ra nếu dữ liệu không đại diện do có sự chênh lệch về mức độ tham gia trong quy trình thu thập dữ liệu.
-
Ví dụ:
Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm đó và với một mẫu người tiêu dùng đã mua một sản phẩm cạnh tranh. Những người tiêu dùng đã mua sản phẩm cạnh tranh có nhiều khả năng từ chối hoàn tất bản khảo sát hơn 80% và dữ liệu của họ không được trình bày đúng mức trong mẫu.
Nhấp vào chevron_left để xem định nghĩa.
Thiên vị do lấy mẫu
-
Định nghĩa
Xu hướng lấy mẫu xảy ra nếu việc sắp xếp ngẫu nhiên thích hợp không được sử dụng trong quá trình thu thập dữ liệu.
-
Ví dụ:
Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm và một mẫu người tiêu dùng đã mua sản phẩm cạnh tranh. Thay vì nhắm đến người tiêu dùng một cách ngẫu nhiên, người khảo sát đã chọn 200 người tiêu dùng đầu tiên phản hồi email. Họ có thể nhiệt tình hơn với sản phẩm so với người mua trung bình.
Nhấp vào chevron_left để xem định nghĩa.
Thiên vị quy cho nhóm
Sự thiên vị trong việc phân bổ cho nhóm là xu hướng khái quát hoá những điều đúng về các cá nhân cho toàn bộ nhóm mà họ thuộc về. Thành kiến phân bổ theo nhóm thường thể hiện ở 2 dạng sau.
Thiên vị cùng nhóm
-
Định nghĩa
Thiên kiến nhóm là sự ưu tiên dành cho các thành viên trong nhóm của bạn mà bạn cũng thuộc về hoặc cho những đặc điểm mà bạn cũng có.
-
Ví dụ:
Hai chuyên viên học máy đào tạo mô hình sàng lọc sơ yếu lý lịch cho các nhà phát triển phần mềm được cho là có khả năng tin rằng những ứng viên theo học cùng một học viện khoa học máy tính vì cả hai đều có đủ điều kiện để đảm nhận công việc này.
Nhấp vào chevron_left để xem định nghĩa.
Thiên vị khác nhóm
-
Định nghĩa
Thiên vị khác nhóm là xu hướng gán ghép các thành viên cá nhân của một nhóm mà bạn không thuộc về hoặc xem các đặc điểm của họ là đồng nhất hơn.
-
Ví dụ:
Hai chuyên viên học máy đào tạo mô hình sàng lọc sơ yếu lý lịch cho các nhà phát triển phần mềm được cho là có khả năng tin rằng tất cả những ứng viên không theo học học viện khoa học máy tính đều không có đủ chuyên môn cho vai trò này.
Nhấp vào chevron_left để xem định nghĩa.
Thiên kiến ngầm ẩn
-
Định nghĩa
Thiên kiến ngầm ẩn xảy ra khi người ta đưa ra giả định dựa trên mô hình tư duy và trải nghiệm cá nhân của riêng họ, những điều này không nhất thiết áp dụng một cách chung hơn.
-
Ví dụ:
Một người thực hành học máy đang huấn luyện mô hình nhận dạng cử chỉ sử dụng cử chỉ lắc đầu làm một tính năng để cho biết một người đang giao tiếp từ "không". Tuy nhiên, ở một số khu vực trên thế giới, việc lắc đầu lại có nghĩa là "có".
Nhấp vào chevron_left để xem định nghĩa.
Thiên vị xác nhận
-
Định nghĩa
Thiên kiến xác nhận xảy ra khi các nhà xây dựng mô hình vô thức xử lý dữ liệu theo cách xác nhận các niềm tin và giả thuyết có sẵn.
-
Ví dụ:
Một chuyên viên học máy đang xây dựng một mô hình dự đoán tính hiếu động của chó dựa trên nhiều đặc điểm (chiều cao, cân nặng, giống, môi trường). Khi còn nhỏ, người học viên này đã gặp khó chịu với một chú chó toy Poodle hiếu động và kể từ đó, giống chó này đã trở nên hung hăng. Khi tuyển chọn dữ liệu huấn luyện cho mô hình, người thực hành đã vô tình loại bỏ các đặc điểm cung cấp bằng chứng về sự ngoan ngoãn ở những chú chó nhỏ hơn.
Nhấp vào chevron_left để xem định nghĩa.
Thiên vị của người thử nghiệm
-
Định nghĩa
Sự sai lệch của người thử nghiệm xảy ra khi trình tạo mô hình tiếp tục huấn luyện một mô hình cho đến khi mô hình đó tạo ra kết quả phù hợp với giả thuyết ban đầu.
-
Ví dụ:
Một người hành nghề học máy đang xây dựng một mô hình dự đoán mức độ hung hăng của chó dựa trên nhiều đặc điểm (chiều cao, cân nặng, giống, môi trường). Người thực hành này đã có một trải nghiệm không vui khi còn nhỏ với một chú chó săn sục đồ chơi hoạt động quá mức, và từ đó liên kết giống chó này với sự hung hăng. Khi mô hình được huấn luyện dự đoán hầu hết các giống chó poodle đồ chơi đều tương đối ngoan ngoãn, người thực hành đã huấn luyện lại mô hình này vài lần cho đến khi mô hình đưa ra kết quả cho thấy các giống chó poodle nhỏ hơn hung dữ hơn.
Nhấp vào chevron_left để xem định nghĩa.