Xác định thành kiến

Khi ban đầu, nhóm Jigsaw đã đánh giá mô hình độc tính của API Phối cảnh, họ nhận thấy mô hình này hoạt động hiệu quả trên tập dữ liệu thử nghiệm. Nhưng họ lo ngại rằng vẫn có khả năng sai số có thể xuất hiện trong các cụm từ gợi ý của mô hình nếu có lỗi hệ thống trong dữ liệu huấn luyện. Để đảm bảo chất lượng dữ liệu đào tạo, họ đã thực hiện thêm bước kiểm tra nhãn do người đánh giá cung cấp để đảm bảo chính xác.

Tuy nhiên, mặc dù đã thực hiện các bước chủ động này để loại bỏ sai lệch trong dữ liệu đào tạo của mô hình, người dùng vẫn phát hiện ra vấn đề dương tính giả cho các nhận xét chứa cụm từ nhận dạng. Vì sao lại như vậy?

Kiểm tra lần thứ hai của tập huấn cho thấy rằng phần lớn nhận xét chứa các cụm từ nhận dạng về chủng tộc, tôn giáo và giới tính đều bị gắn nhãn là độc hại. Các nhãn này là chính xác; hầu hết các nhận xét trực tuyến chứa các cụm từ nhận dạng này thực sự rất độc hại. Tuy nhiên, do độ lệch này, mô hình đã tìm hiểu mối tương quan giữa sự có mặt của các thuật ngữ nhận dạng này và tính độc hại, do đó không phản ánh chính xác các quan điểm trung lập của các thuật ngữ này.

Nhóm đã phát hiện ra một lỗ hổng quan trọng trong dữ liệu đào tạo của mô hình: một khu vực mà trong đó không có đủ dữ liệu đào tạo để thể hiện một khía cạnh chính của thực tế. Tập hợp đào tạo không chứa đủ các ví dụ về nhận xét không nhận dạng độc hại cho mô hình để tìm hiểu rằng bản thân các cụm từ trung lập và ngữ cảnh được sử dụng trong đó là những yếu tố quan trọng.