Menentukan Bias

Saat tim Jigsaw awalnya mengevaluasi model toksisitas Perspective API, mereka mendapati bahwa model tersebut berperforma baik pada set data pengujian. Namun, mereka khawatir masih ada kemungkinan bahwa bias dapat terwujud dalam prediksi model jika ada error sistemik pada data pelatihan. Untuk memastikan kualitas data pelatihan, mereka mengambil langkah tambahan untuk mengaudit label yang diberikan oleh pemberi rating manual untuk memastikan label tersebut akurat.

Namun, terlepas dari langkah proaktif yang dilakukan untuk menghilangkan bias dalam data pelatihan model, pengguna masih menemukan masalah positif palsu untuk komentar yang berisi istilah identitas. Bagaimana hal ini terjadi?

Audit kedua pada set pelatihan menunjukkan bahwa sebagian besar komentar yang berisi istilah identitas terkait ras, agama, dan gender diberi label toksik. Label ini sudah benar; sebagian besar komentar online yang berisi istilah identitas ini memang bersifat racun. Namun, sebagai akibat dari bias ini, model mempelajari korelasi antara keberadaan istilah identitas dan toksisitas ini, yang tidak secara akurat mencerminkan konnotasi netral dari istilah itu sendiri.

Tim menemukan celah kritis dalam data pelatihan model: area yang tidak memiliki data pelatihan yang memadai untuk mewakili aspek realitas yang penting. Set pelatihan tidak berisi contoh komentar identitas non-toksik yang memadai untuk model guna mengetahui bahwa istilah itu sendiri netral dan bahwa konteks yang mereka gunakan adalah yang penting.