Các mô hình học máy (ML) vốn không phải là mô hình khách quan. chuyên viên học máy huấn luyện các mô hình bằng cách cung cấp cho chúng một tập dữ liệu gồm các ví dụ huấn luyện và con người tham gia vào việc cung cấp và tuyển chọn dữ liệu này có thể giúp dự đoán dễ bị thiên lệch.
Khi xây dựng mô hình, điều quan trọng là phải nhận thức được các thiên kiến phổ biến của con người có thể tệp kê khai trong dữ liệu của mình để bạn có thể chủ động thực hiện các bước nhằm giảm thiểu các hiệu ứng.
Thiên vị trong báo cáo
-
Định nghĩa
Xu hướng báo cáo xảy ra khi tần suất các sự kiện, thuộc tính và/hoặc kết quả được thu thập trong một tập dữ liệu không phản ánh chính xác tần suất thực tế của chúng. Thành kiến này có thể xuất hiện vì mọi người có xu hướng tập trung vào việc ghi chép các tình huống khác thường hoặc đặc biệt đáng nhớ, giả sử rằng bình thường thì không cần được ghi lại.
-
Ví dụ:
Mô hình phân tích cảm xúc được huấn luyện để dự đoán liệu sách bài đánh giá tích cực hoặc tiêu cực dựa trên nhóm người dùng lượt gửi biểu mẫu đến một trang web phổ biến. Phần lớn các bài đánh giá ở tập dữ liệu huấn luyện phản ánh quan điểm cực đoan (người đánh giá đã yêu thích hoặc ghét một cuốn sách) bởi vì khả năng mọi người sẽ gửi bài đánh giá một cuốn sách nếu họ không phản hồi tích cực về cuốn sách đó. Là một thì mô hình này khó có thể dự đoán chính xác ý kiến của bài đánh giá sử dụng ngôn từ tinh tế hơn để mô tả một cuốn sách.
Nhấp vào chevron_left để định nghĩa.
Xu hướng trước đây
-
Định nghĩa
Sai lệch lịch sử xảy ra khi dữ liệu trong quá khứ phản ánh sự bất bình đẳng đã tồn tại trên thế giới vào thời điểm đó.
-
Ví dụ:
Một tập dữ liệu về nhà ở trong thành phố từ những năm 1960 có chứa dữ liệu về giá nhà phản ánh hành vi cho vay phân biệt đối xử có hiệu lực trong thời gian đó thập kỷ này.
Nhấp vào chevron_left để định nghĩa.
Xu hướng tự động hoá
-
Định nghĩa
Xu hướng tự động hoá là một xu hướng ưu tiên kết quả do các hệ thống tự động tạo ra so với do các hệ thống không tự động tạo ra của mỗi hệ thống, bất kể tỷ lệ lỗi của từng hệ thống.
-
Ví dụ:
Các chuyên viên máy học làm việc cho một nhà sản xuất bánh răng xích rất háo hức muốn triển khai " bước đột phá" mới mô hình mà các em đã huấn luyện để xác định khiếm khuyết răng, cho đến khi người giám sát nhà máy chỉ ra rằng độ chính xác và tỷ lệ thu hồi của mô hình đều thấp hơn 15% so với kiểm tra viên.
Nhấp vào chevron_left để định nghĩa.
Thiên vị khi lựa chọn
Thiên vị lựa chọn xảy ra nếu các ví dụ của tập dữ liệu được chọn theo cách không phản ánh phân phối trong thế giới thực. Thiên kiến lựa chọn có thể có nhiều hình thức, bao gồm sai lệch do phạm vi sử dụng, sai lệch do không phản hồi và sai lệch lấy mẫu.
Thiên vị mức độ phù hợp
-
Định nghĩa
Xu hướng phạm vi bao phủ xảy ra nếu dữ liệu không được chọn trong mang phong cách thời trang đại diện.
-
Ví dụ:
Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu gồm những người tiêu dùng đã mua sản phẩm. Những người tiêu dùng đã chọn mua một sản phẩm cạnh tranh chưa được khảo sát, nên nhóm người này không được thể hiện trong dữ liệu huấn luyện.
Nhấp vào chevron_left để định nghĩa.
Thành kiến khi không phản hồi
-
Định nghĩa
Thành kiến khi không phản hồi (còn được gọi là thiên kiến khi tham gia) xảy ra nếu dữ liệu trở nên không có tính đại diện do có sự thiếu hụt về mức độ tham gia trong hoạt động thu thập dữ liệu của chúng tôi.
-
Ví dụ:
Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu gồm những người tiêu dùng đã mua sản phẩm đó và với một nhóm người tiêu dùng mẫu của Google. Số người tiêu dùng mua sản phẩm cạnh tranh cao hơn 80% có khả năng từ chối hoàn thành khảo sát và dữ liệu của họ được thể hiện dưới mức trong mẫu.
Nhấp vào chevron_left để định nghĩa.
Xu hướng lấy mẫu
-
Định nghĩa
Sự sai lệch khi lấy mẫu xảy ra nếu việc sắp xếp ngẫu nhiên thích hợp không được sử dụng trong quá trình thu thập dữ liệu.
-
Ví dụ:
Một mô hình được huấn luyện để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu gồm những người tiêu dùng đã mua sản phẩm đó và với một nhóm người tiêu dùng mẫu của Google. Thay vì nhắm mục tiêu ngẫu nhiên người tiêu dùng, người khảo sát chọn 200 người tiêu dùng đầu tiên đã trả lời email, những người này có thể đã nhiệt tình với sản phẩm hơn mức trung bình người mua.
Nhấp vào chevron_left để định nghĩa.
Xu hướng phân bổ theo nhóm
Xu hướng phân bổ theo nhóm có xu hướng khái quát hoá những điều đúng đắn của một cá nhân cho cả nhóm để của mình. Thành kiến phân bổ nhóm thường thể hiện ở hai điều sau biểu mẫu.
Thiên vị cùng nhóm
-
Định nghĩa
Thành kiến trong nhóm là một lựa chọn ưu tiên đối với các thành viên của nhóm của riêng mình, bạn cũng thuộc hoặc có đặc điểm riêng mà bạn cũng chia sẻ.
-
Ví dụ:
Hai chuyên viên máy học huấn luyện mô hình sàng lọc sơ yếu lý lịch cho các nhà phát triển phần mềm thường tin rằng các ứng viên hai người từng học cùng một học viện khoa học máy tính đều đủ điều kiện hơn cho vai trò này.
Nhấp vào chevron_left để định nghĩa.
Thành kiến về tính đồng nhất ngoài nhóm
-
Định nghĩa
Thành kiến về tính đồng nhất ngoài nhóm là một xu hướng định kiến thành viên cá nhân của một nhóm mà bạn không phù hợp hoặc để thấy các đặc điểm của chúng đồng đều hơn.
-
Ví dụ:
Hai chuyên viên máy học huấn luyện mô hình sàng lọc sơ yếu lý lịch cho các nhà phát triển phần mềm có xu hướng tin rằng tất cả các ứng viên những người không tham dự học viện khoa học máy tính sẽ không có đủ chuyên môn cho vai trò này.
Nhấp vào chevron_left để định nghĩa.
Xu hướng ngầm ẩn
-
Định nghĩa
Thành kiến ngầm xảy ra khi các giả định được đưa ra dựa trên mô hình suy nghĩ và trải nghiệm cá nhân của riêng một người mà không nhất thiết phải áp dụng chung chung.
-
Ví dụ:
Một chuyên viên máy học huấn luyện mô hình nhận dạng cử chỉ sử dụng một lắc đầu một tính năng cho biết một người đang giao tiếp từ "không". Tuy nhiên, ở một số khu vực trên thế giới, sự lắc đầu thực sự biểu thị "có".
Nhấp vào chevron_left để định nghĩa.
Thiên vị xác nhận
-
Định nghĩa
Xu hướng xác nhận xảy ra khi trình tạo mô hình xử lý dữ liệu một cách vô thức theo những cách khẳng định những niềm tin có sẵn và giả thuyết.
-
Ví dụ:
Một chuyên viên học máy đang xây dựng một mô hình dự đoán mức độ năng nổ ở chó dựa trên nhiều đặc điểm (chiều cao, cân nặng, giống, môi trường). Người học viên này có gặp khó chịu với một khi còn nhỏ, toy poodle hiếu động và kể từ đó nó đã một con người đầy tính hiếu chiến. Khi tuyển chọn dữ liệu huấn luyện của mô hình, bác sĩ vô tình loại bỏ các tính năng cung cấp bằng chứng về sự dễ mến ở những chú chó nhỏ hơn.
Nhấp vào chevron_left để định nghĩa.
Thiên vị của người thử nghiệm
-
Định nghĩa
Sự sai lệch của người thử nghiệm xảy ra khi trình tạo mô hình huấn luyện một mô hình cho đến khi tạo ra kết quả phù hợp với giả thuyết ban đầu của mình.
-
Ví dụ:
Một chuyên viên học máy đang xây dựng một mô hình dự đoán mức độ năng nổ ở chó dựa trên nhiều đặc điểm (chiều cao, cân nặng, giống, môi trường). Người học viên này có gặp khó chịu với một khi còn nhỏ, toy poodle hiếu động và kể từ đó nó đã một con người đầy tính hiếu chiến. Thời điểm mô hình được huấn luyện dự đoán nhiều nhất chó toy poodle có tính chất tương đối nhút nhát, người học viên này đã được huấn luyện lại mô hình thêm một vài lần cho đến khi đưa ra kết quả hiển thị những chú chó xù nhỏ hơn để trở nên bạo lực hơn.
Nhấp vào chevron_left để định nghĩa.