Phiên bản mới và cải tiến của Khoá học máy học nhanh sẽ ra mắt vào tháng 8 năm 2024 . Hãy tiếp tục theo dõi!
Thời gian ước tính: 5 phút
Mô hình máy học vốn không phải là mục tiêu. Các kỹ sư huấn luyện các mô hình bằng cách
cung cấp cho họ một tập dữ liệu ví dụ về chương trình đào tạo. Sự tham gia của con người vào việc cung cấp
và tuyển chọn dữ liệu này có thể khiến các dự đoán dễ bị mô hình hóa.
Khi xây dựng mô hình, bạn cần lưu ý đến những thành kiến phổ biến của con người có thể xuất hiện trong dữ liệu của bạn, để bạn có thể chủ động thực hiện các bước nhằm giảm thiểu tác động của các mô hình đó.
CẢNH BÁO : Các thành kiến sau đây chỉ cung cấp một số ít các định kiến mà thường sẽ phát hiện được trong các tập dữ liệu của công nghệ máy học. Danh sách này không nhằm mục đích đầy đủ . Danh mục định kiến trong nhận thức của Wikipedia liệt kê hơn 100 loại định kiến con người có thể ảnh hưởng đến nhận định của chúng ta. Khi kiểm tra dữ liệu, bạn nên chú ý đến mọi nguồn thiên vị tiềm ẩn có thể làm sai lệch những dự đoán của mô hình.
Xu hướng báo cáo
Thành kiến báo cáo xảy ra khi tần suất của các sự kiện, tài sản và/hoặc kết quả
được thu thập trong một tập dữ liệu không phản ánh chính xác tần suất thực tế của chúng. Thành kiến này có thể xảy ra
vì mọi người có xu hướng tập trung vào những tình huống ghi lại những điều bất thường hoặc đặc biệt đáng nhớ, giả sử rằng người bình thường có thể "đi mà không cần nói."
VÍ DỤ : Mô hình phân tích cảm xúc được đào tạo để dự đoán xem đánh giá sách mang tính tích cực hay tiêu cực dựa trên kho nội dung người dùng gửi đến một trang web phổ biến. Phần lớn bài đánh giá trong tập dữ liệu đào tạo phản ánh ý kiến cực đoan
(những người đánh giá đã yêu thích hoặc không thích một cuốn sách) vì mọi người ít có khả năng sẽ gửi bài đánh giá về một cuốn sách nếu họ không phản hồi rõ ràng cuốn sách đó. Do đó, mô hình này sẽ ít có khả năng dự đoán chính xác hơn cảm giác của những bài đánh giá sử dụng ngôn ngữ tinh tế hơn để mô tả một cuốn sách.
Xu hướng tự động hóa
Thành kiến tự động là xu hướng ưu tiên kết quả do hệ thống tự động tạo ra so với kết quả do hệ thống không tự động tạo ra, bất kể tỷ lệ lỗi của từng kết quả.
VÍ DỤ : Các kỹ sư phần mềm làm việc cho một nhà sản xuất bánh xích rất hăng say triển khai mô hình & quot;tấn công mới
Xu hướng lựa chọn
Thành kiến lựa chọn xảy ra nếu các ví dụ về các tập dữ liệu được chọn theo cách không phản ánh sự phân phối thực tế của các tập dữ liệu đó. Xu hướng lựa chọn có thể có nhiều dạng khác nhau:
Thành kiến mức độ phù hợp : Dữ liệu không được chọn theo kiểu đại diện.
VÍ DỤ : Một mô hình được đào tạo để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm đó.
Thay vào đó, những người tiêu dùng chọn mua một sản phẩm cạnh tranh không được khảo sát, do đó, nhóm người này không được trình bày trong dữ liệu đào tạo.
Thành kiến không phản hồi (hoặc độ chệch tham gia ): Dữ liệu cuối cùng không thể hiện được do thiếu hụt tham gia trong quá trình thu thập dữ liệu.
VÍ DỤ : Một mô hình được đào tạo để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm và một mẫu người tiêu dùng đã mua sản phẩm cạnh tranh. Những người tiêu dùng mua sản phẩm cạnh tranh
có khả năng từ chối hoàn thành bản khảo sát cao hơn 80% và dữ liệu của họ trong mẫu
không phù hợp.
Thành kiến mẫu : Không sử dụng ngẫu nhiên phù hợp trong quá trình thu thập dữ liệu.
VÍ DỤ : Một mô hình được đào tạo để dự đoán doanh số bán hàng trong tương lai của một sản phẩm mới dựa trên các cuộc khảo sát qua điện thoại được thực hiện với một mẫu người tiêu dùng đã mua sản phẩm và một mẫu người tiêu dùng đã mua sản phẩm cạnh tranh. Thay vì nhắm mục tiêu ngẫu nhiên người tiêu dùng,
người khảo sát đã chọn 200 người tiêu dùng đầu tiên trả lời email, những người có thể hào hứng hơn
về sản phẩm so với người mua trung bình.
Xu hướng phân bổ nhóm
Mô hình phân bổ theo nhóm là xu hướng khái quát hoá những điều đúng về cá nhân với toàn bộ nhóm mà họ thuộc về. Hai biểu hiện chính của xu hướng này là:
Thành kiến trong nhóm : Một lựa chọn ưu tiên dành cho các thành viên của một nhóm mà bạn cũng thuộc về hoặc những đặc điểm mà bạn cũng có chung.
VÍ DỤ : Hai kỹ sư đào tạo một mô hình sàng lọc sơ yếu lý lịch dành cho các nhà phát triển phần mềm có xu hướng tin rằng những ứng viên đã học cùng một học viện khoa học máy tính vì cả hai đều có đủ tiêu chuẩn cho vai trò này.
Thành kiến đồng nhất ngoài nhóm : Xu hướng lặp lại các thành viên riêng lẻ của một nhóm mà bạn không thuộc về hoặc thấy các đặc điểm của họ đồng nhất hơn.
VÍ DỤ : Hai kỹ sư đào tạo một mô hình sàng lọc sơ yếu lý lịch dành cho các nhà phát triển phần mềm sẽ được dự đoán là tất cả ứng viên không tham gia học viện khoa học máy tính sẽ không có đủ kiến thức chuyên môn về vai trò này.
Định kiến ngầm
Sự thiên vị xảy ra khi các giả định được đưa ra dựa trên mô hình tinh thần và trải nghiệm cá nhân của chính bạn
mà không nhất thiết áp dụng chung chung.
VÍ DỤ : Một kỹ sư đào tạo một mô hình nhận dạng cử chỉ sẽ dùng tính năng lắc đầu để làm tính năng cho biết một người đang giao tiếp từ "no." Tuy nhiên, ở một số khu vực trên thế giới, lắc đầu thực sự biểu thị "yes."
Hình thức thành kiến ngầm phổ biến là t kiến thức xác nhận , trong đó trình tạo mô hình vô tình xử lý dữ liệu theo những cách khẳng định niềm tin và giả thuyết hiện có. Trong một số trường hợp, trình tạo mô hình thực sự có thể tiếp tục
đào tạo mô hình cho đến khi tạo ra kết quả phù hợp với giả thuyết ban đầu của họ; đây được gọi là
độ lệch của trình thử nghiệm .
VÍ DỤ : Một kỹ sư đang xây dựng một mô hình dự đoán sự linh hoạt ở chó dựa trên nhiều tính năng (chiều cao, cân nặng, giống, môi trường).
Kỹ sư này đã gặp phải một con chó
chó đồ chơi cực kỳ phản cảm khi còn nhỏ và từ đó đến nay đã gắn con chó này với hành vi gây hấn. Khi mô hình đã huấn luyện dự đoán được hầu hết các loài chó săn đồ chơi tương đối ngớ ngẩn, kỹ sư đã huấn luyện lại mô hình này nhiều lần cho đến khi tạo ra kết quả cho thấy chó Phối nhỏ hơn sẽ bạo lực hơn.