Thực hành học máy: Tính công bằng trong API phối cảnh

Kiểm tra hiểu biết của bạn: Xác định và khắc phục thành kiến

Xác định thành kiến

Trong Bài tập số 1: Khám phá mô hình, bạn xác nhận rằng mô hình này đã phân loại không cân đối các bình luận có từ ngữ nhận dạng là độc hại. Chỉ số nào giải thích nguyên nhân dẫn đến sự sai lệch này? Hãy khám phá các lựa chọn bên dưới.
Độ chính xác

Độ chính xác đo lường tỷ lệ phần trăm trong tổng số cụm từ gợi ý chính xác – tỷ lệ phần trăm cụm từ gợi ý là khẳng định thật hoặc phủ định thật. Việc so sánh độ chính xác của các nhóm con khác nhau (chẳng hạn như thông tin nhân khẩu học về giới tính) cho phép chúng tôi đánh giá hiệu suất tương đối của mô hình cho từng nhóm và có thể đóng vai trò như một chỉ báo về ảnh hưởng của độ sai lệch đối với mô hình.

Tuy nhiên, vì tính chính xác xem xét tổng hợp các cụm từ dự đoán chính xác và không chính xác, nên Google không thể phân biệt giữa hai loại dự đoán chính xác và hai loại dự đoán không chính xác. Nếu chỉ xét đến độ chính xác, chúng tôi không thể xác định các thông tin chi tiết cơ bản về kết quả dương tính thật, âm tính thật, dương tính giả và âm tính giả. Điều này sẽ giúp bạn có thêm thông tin chi tiết về nguồn gốc của sai số.

Tỷ lệ dương tính giả

Tỷ lệ dương tính giả (FPR) là tỷ lệ phần trăm ví dụ thực tế tiêu cực (bình luận không độc hại) được phân loại nhầm thành tích cực (bình luận độc hại). FPR là một chỉ báo về ảnh hưởng của độ sai lệch đối với mô hình. Khi so sánh FPR cho nhiều nhóm con (chẳng hạn như thông tin nhân khẩu học về giới tính), chúng tôi nhận thấy rằng bình luận dạng văn bản chứa cụm từ nhận dạng liên quan đến giới tính có nhiều khả năng bị phân loại nhầm là độc hại (xác định sai) so với bình luận không chứa các từ khoá này.

Tuy nhiên, chúng tôi không xem xét đo lường ảnh hưởng của thành kiến đó; chúng tôi muốn tìm ra nguyên nhân của thành kiến đó. Để làm được điều này, chúng ta cần xem xét kỹ hơn các dữ liệu đầu vào cho công thức FPR.

Phủ định thực tế và tích cực thực tế
Trong các tập dữ liệu huấn luyện và kiểm thử của mô hình này, Kết quả tích cực trong thực tế là tất cả ví dụ về các bình luận độc hại, còn các bình luận tiêu cực trong thực tế đều là những ví dụ về những bình luận không độc hại. Vì bản thân các cụm từ nhận dạng là trung lập, chúng tôi dự kiến sẽ có một số lượng cân bằng giữa các nhận xét thực – phủ định và thực tế tích cực, trong đó chứa một thuật ngữ đồng nhất nhất định. Nếu chúng tôi nhận thấy số lượng trường hợp phủ định thực tế với số lượng thấp một cách không cân đối, điều đó cho chúng tôi biết rằng mô hình không tìm thấy nhiều ví dụ về cụm từ đồng nhất được sử dụng trong ngữ cảnh tích cực hoặc trung lập. Trong trường hợp đó, mô hình có thể tìm hiểu mối tương quan giữa các thuật ngữ về danh tính và tính độc hại.
Mức độ truy lại
Thu hồi là tỷ lệ phần trăm các cụm từ gợi ý tích cực thực tế được phân loại chính xác thành khẳng định. Số liệu này cho chúng tôi biết tỷ lệ phần trăm bình luận độc hại mà mô hình đã bắt được thành công. Ở đây, chúng tôi quan tâm đến thành kiến liên quan đến việc nhận xét sai (những bình luận không độc hại nhưng bị phân loại là độc hại) còn lệnh thu hồi không đưa ra thông tin chi tiết về vấn đề này.

Khắc phục thành kiến

Hành động nào sau đây có thể là phương pháp hiệu quả để khắc phục sai số trong dữ liệu huấn luyện được dùng trong Bài tập #1Bài tập #2? Hãy khám phá các lựa chọn bên dưới.
Bổ sung thêm ví dụ tiêu cực (không độc hại) có chứa các thuật ngữ về danh tính vào tập hợp huấn luyện.
Việc bổ sung thêm các ví dụ tiêu cực (bình luận thực ra không độc hại) chứa các thuật ngữ về danh tính sẽ giúp cân bằng tập hợp huấn luyện. Sau đó, mô hình này sẽ thấy sự cân bằng tốt hơn giữa các từ khoá nhận dạng được sử dụng trong ngữ cảnh độc hại và không độc hại. Nhờ đó, mô hình có thể nhận biết được rằng chính các thuật ngữ đó là trung lập.
Thêm các ví dụ tích cực (độc hại) có chứa các thuật ngữ nhận dạng vào tập hợp huấn luyện.
Các ví dụ về độc hại đã được thể hiện quá nhiều trong một số ít ví dụ có chứa các từ khoá về danh tính. Nếu thêm nhiều ví dụ như vậy vào bộ huấn luyện, thì trên thực tế, định kiến hiện có sẽ làm trầm trọng hơn chứ không khắc phục được.
Bổ sung thêm ví dụ tiêu cực (không độc hại) không có thuật ngữ nhận dạng vào tập hợp huấn luyện.
Các thuật ngữ về danh tính hiện đã được thể hiện quá ít trong các ví dụ phủ định. Việc bổ sung thêm những ví dụ tiêu cực không có thuật ngữ đồng nhất sẽ làm tăng sự mất cân bằng và không giúp khắc phục thành kiến.
Thêm nhiều ví dụ tích cực (độc hại) không có thuật ngữ nhận dạng vào tập hợp huấn luyện.

Có thể việc thêm các ví dụ tích cực hơn không có thuật ngữ nhận dạng sẽ giúp phá vỡ mối liên hệ giữa thuật ngữ nhận dạng và độc hại mà mô hình đã học được trước đó.

Đánh giá để có thiên vị

Bạn đã đào tạo từ đầu thuật toán phân loại độc hại dạng văn bản. Nhóm kỹ thuật của bạn dự định sử dụng định dạng này để tự động ngăn chặn việc hiển thị các bình luận được phân loại là độc hại. Bạn lo ngại rằng mọi thành kiến đối với tính độc hại của các bình luận liên quan đến giới tính đều có thể dẫn đến việc ngăn chặn những luận điệu không độc hại về giới tính, và muốn đánh giá thành kiến liên quan đến giới tính trong các cụm từ gợi ý của thuật toán phân loại. Bạn nên sử dụng chỉ số nào sau đây để đánh giá mô hình này? Hãy khám phá các lựa chọn bên dưới.
Tỷ lệ dương tính giả (FPR)
Trong phiên bản chính thức, mô hình này sẽ được dùng để tự động loại bỏ các cụm từ gợi ý tích cực (độc hại). Mục tiêu của bạn là đảm bảo mô hình này không loại bỏ kết quả dương tính giả (các bình luận không độc hại mà mô hình này phân loại nhầm là độc hại) đối với các bình luận liên quan đến giới tính ở tỷ lệ cao hơn so với các bình luận tổng thể. Việc so sánh FPR của các nhóm con giới tính với FPR tổng thể là một cách hay để đánh giá hoạt động khắc phục thành kiến trong trường hợp sử dụng của bạn.
Tỷ lệ âm tính giả (FNR)
FNR đo lường tỷ lệ mô hình phân loại sai loại dương tính (ở đây là "độc hại") là loại âm tính ("không độc hại"). Đối với trường hợp sử dụng này, công cụ này sẽ cho bạn biết tỷ lệ những bình luận thực sự độc hại sẽ vượt qua bộ lọc và hiển thị với người dùng. Ở đây, mối quan tâm chính của bạn là mức độ thể hiện của thành kiến trong việc ngăn chặn những luận điệu không độc hại. FNR không cung cấp cho bạn thông tin chi tiết nào về phương diện này liên quan đến hiệu suất của mô hình.
Độ chính xác
Mức độ chính xác đo lường tỷ lệ phần trăm số cụm từ gợi ý mô hình là chính xác và tỷ lệ ngược lại, tỷ lệ phần trăm số cụm từ gợi ý không chính xác. Đối với trường hợp sử dụng này, độ chính xác sẽ cho bạn biết khả năng bộ lọc sẽ ngăn chặn bài diễn thuyết không độc hại hoặc trình bày bài diễn thuyết về độc hại. Mối quan tâm chính của bạn là vấn đề trước đây, chứ không phải vấn đề sau. Vì độ chính xác bao gồm 2 vấn đề, nên đây không phải là chỉ số đánh giá lý tưởng để sử dụng ở đây.
AUC
AUC cung cấp kết quả đo lường tuyệt đối về khả năng dự đoán của mô hình. Đây là chỉ số phù hợp để đánh giá hiệu suất tổng thể. Tuy nhiên, ở đây bạn đặc biệt quan tâm đến tỷ lệ chặn bình luận và AUC không cung cấp cho bạn thông tin chi tiết trực tiếp về vấn đề này.
Nhóm của bạn đã thêm một người kiểm duyệt nội dung và người quản lý sản phẩm đã quyết định thay đổi cách triển khai thuật toán phân loại. Thay vì tự động chặn các bình luận bị phân loại là độc hại, phần mềm lọc sẽ gắn cờ những bình luận đó để người kiểm duyệt nội dung xem xét. Vì người dùng sẽ xem xét các bình luận bị gắn nhãn là độc hại nên thành kiến sẽ không còn thể hiện dưới hình thức chặn nội dung. Hiện tại, bạn muốn sử dụng chỉ số nào sau đây để đo lường độ sai lệch — và tác động của việc khắc phục độ sai lệch? Hãy khám phá các lựa chọn bên dưới.
Tỷ lệ dương tính giả (FPR)
Tỷ lệ dương tính giả sẽ cho bạn biết tỷ lệ phần trăm bình luận không độc hại bị phân loại nhầm là độc hại. Vì giờ đây, người kiểm duyệt sẽ kiểm tra tất cả các bình luận mà mô hình gắn nhãn "độc hại" và sẽ phát hiện được hầu hết các cảnh báo nhầm, nên FPR không còn là mối quan tâm chính nữa.
Tỷ lệ âm tính giả (FNR)
Mặc dù người kiểm duyệt sẽ kiểm tra tất cả các bình luận có nhãn "độc hại" và đảm bảo rằng kết quả dương tính giả không bị chặn, nhưng họ sẽ không xem xét các bình luận có nhãn "không độc hại". Điều này dẫn đến khả năng sai lệch liên quan đến âm tính giả. Bạn có thể dùng FNR (tỷ lệ phần trăm dương tính thực tế được phân loại là tiêu cực) để đánh giá một cách có hệ thống xem liệu những cảm xúc độc hại đối với các nhóm con giới tính có nhiều khả năng bị gắn nhãn là không độc hại hay không so với các bình luận tổng thể.
Chính xác
Độ chính xác cho bạn biết tỷ lệ phần trăm cụm từ gợi ý tích cực thực sự là tích cực. Trong trường hợp này, tỷ lệ phần trăm cụm từ gợi ý "độc hại" là chính xác. Vì một người kiểm duyệt sẽ kiểm tra tất cả các cụm từ gợi ý "độc hại", nên bạn không cần phải đưa ra độ chính xác cho một trong các chỉ số đánh giá chính.
Mức độ truy lại
Recall cho bạn biết tỷ lệ phần trăm kết quả dương tính thực tế được phân loại chính xác. Từ giá trị này, bạn có thể rút ra được tỷ lệ phần trăm các kết quả tích cực thực tế bị phân loại sai (1 – thu hồi). Đây là một chỉ số hữu ích để đánh giá xem các bình luận độc hại liên quan đến giới tính có bị phân loại sai một cách không cân đối là "không độc hại" so với các bình luận tổng thể hay không.