Công nghệ máy học: Công bằng trong API góc nhìn

Tìm hiểu cách nhóm Jigsaw giải quyết hành vi quấy rối trực tuyến dưới sự cộng tác của nhóm Công nghệ phản đối của Google, bằng cách phát triển API Phối hợp sử dụng công nghệ máy học để xác định các bình luận độc hại. Sau đó, sử dụng Chỉ báo công bằng để đánh giá các mô hình máy học và giúp giảm thiểu độ sai lệch ngoài ý muốn trong dữ liệu đào tạo.

Giới thiệu

đúng cách Vào năm 2017, nhóm đã bắt đầu xử lý các hành vi quấy rối trực tuyến và phát triển API Phối cảnh. Mục tiêu của Perspective API là tăng khả năng tham gia, chất lượng và sự đồng cảm của cuộc trò chuyện trực tuyến trên quy mô lớn. Nhà phát triển và nhà xuất bản có thể sử dụng Perspective để xác định và lọc văn bản cản trở hoạt động đối thoại mang tính xây dựng trên các diễn đàn trực tuyến bằng cách phân tích nội dung của nhận xét đối với văn bản có khả năng xúc phạm, bao gồm mối đe doạ, xúc phạm, ngôn từ tục tĩu và ngôn ngữ độc hại.

API góc nhìn nhận văn bản nhận xét làm dữ liệu đầu vào và trả về "score" từ 0 đến 1 cho biết khả năng nhận xét tương tự như các nhận xét độc hại đã thấy trước đây. Điểm 0 cho biết khả năng bình luận là 0%, điểm 1 cho biết khả năng 100% bình luận là độc hại và điểm 0.5 cho biết khả năng bình luận là độc hại (tức là mô hình không chắc chắn).

Tuyên bố vấn đề

Sau khi ra mắt API Phối cảnh ban đầu, người dùng bên ngoài đã phát hiện ra mối tương quan tích cực giữa các thuật ngữ nhận dạng có chứa thông tin về chủng tộc hoặc xu hướng tính dục và điểm độc hại. Ví dụ: cụm từ "Tôi là một phụ nữ da đen đồng tính nam" nhận được điểm độc tính là 0, 87. Trong trường hợp này, các thuật ngữ về danh tính không được sử dụng sưu tầm, vì vậy ví dụ này được phân loại không chính xác. Vấn đề xảy ra ở đâu?