ML Practicum: Fairness in Perspective API

Öğrendiklerinizi Sınayın: Ön Yargıları Tespit Etme ve Çözümleme

Yanlılığı Tespit Etme

1. Alıştırma: Modeli Keşfedin bölümünde modelin, kimlik terimleri içeren yorumları orantısız bir şekilde zarar verici olarak sınıflandırdığını doğruladınız. Hangi metrikler bu ön yargının nedenini açıklamaya yardımcı olur? Aşağıdaki seçeneklere göz atın.
Doğruluk

Doğruluk, toplam doğru tahminlerin yüzdesini (gerçek pozitif veya gerçek negatif olan tahminlerin yüzdesini) ölçer. Farklı cinsiyet demografileri gibi farklı alt grupların doğruluğunu karşılaştırmak, modelin her grup için göreli performansını değerlendirmemize olanak tanır ve ön yargının model üzerindeki etkisinin bir göstergesi olabilir.

Ancak doğruluk, doğru ve yanlış tahminleri toplu olarak dikkate aldığından iki doğru tahmin türü ile iki yanlış tahmin türü arasında ayrım yapmaz. Yalnızca doğruluğu incelediğimizde doğru pozitifler, doğru negatifler, yanlış pozitifler ve yanlış negatiflerin temeldeki dökümlerini belirleyemeyiz. Bu da, ön yargının kaynağı hakkında daha fazla bilgi sağlar.

Yanlış pozitif oranı

Yanlış pozitif oranı (FPR), yanlış bir şekilde pozitif (rahatsız edici yorumlar) olarak sınıflandırılmış gerçek negatif örneklerin (zehirli olmayan yorumlar) yüzdesidir. FPR, model üzerindeki sapma etkisinin bir göstergesidir. Farklı cinsiyet demografileri gibi farklı alt gruplar için FPR'leri karşılaştırdığımızda cinsiyetle ilgili kimlik terimleri içeren metin yorumlarının, bu terimleri içermeyen yorumlara kıyasla yanlış bir şekilde zararlı (yanlış pozitif) olarak sınıflandırılma olasılığının daha yüksek olduğunu öğreniyoruz.

Ancak, ön yargının etkisini ölçmek değil, bunun nedenini bulmak istiyoruz. Bunun için, FPR formülündeki girişleri daha yakından incelememiz gerekir.

Gerçek negatifler ve gerçek pozitifler
Bu modelin eğitim ve test veri kümelerinde, gerçek pozitifler zararlı olan yorum örnekleri ve gerçek negatifler toksik olmayan tüm örneklerdir. Bu kimlik terimlerinin kendisi nötr olduğundan, belirli bir kimlik terimini içeren gerçek-negatif ve gerçek olumlu yorumların dengeli bir sayısını bekleriz. Gerçek negatif sayısının orantısız olarak düşük olması, modelin pozitif veya nötr bağlamlarda kullanılan kimlik terimi örneklerini çok fazla görmediğini gösterir. Bu durumda model, kimlik terimleri ile kirlilik arasındaki ilişkiyi öğrenebilir.
Geri çağırma
Geri çağırma, doğru şekilde pozitif olarak sınıflandırılan gerçek olumlu tahminlerin yüzdesidir. Bu veriler, modelin başarıyla yakaladığı zararlı yorumların yüzdesini gösterir. Bu yöntemde, yanlış pozitiflerle (rahatsız edici olarak sınıflandırılmış zehirli olmayan yorumlar) ilgili ön yargıyla ilgili endişelerimiz var ve geri çağırma, bu sorunla ilgili herhangi bir bilgi vermez.

Yanlılığı Çözme

Aşağıdaki işlemlerden hangileri 1. Alıştırma ve 2. Alıştırma'da kullanılan eğitim verilerindeki yanlılığı gidermek için etkili yöntemler olabilir? Aşağıdaki seçeneklere göz atın.
Eğitim kümesine, kimlik terimleri içeren daha fazla negatif (zehirli olmayan) örnek ekleyin.
Kimlik terimleri içeren daha fazla negatif örnek (aslında toksik olmayan yorumlar) eklemek, eğitim kümesinin dengelenmesine yardımcı olur. Model, daha sonra toksik ve zehirli olmayan bağlamlarda kullanılan kimlik terimleri arasında daha iyi bir denge görür. Böylece, terimlerin nötr olduğunu öğrenebilir.
Eğitim kümesine, kimlik terimleri içeren daha pozitif (rahatsız edici) örnekler ekleyin.
Zararlı örnekler, kimlik terimleri içeren örnek alt kümesinde zaten gereğinden fazla temsil edilmektedir. Eğitim kümesine bu örneklerden daha fazlasını eklersek mevcut ön yargıyı düzeltmekten ziyade güçlendirmiş oluruz.
Eğitim kümesine, kimlik terimleri içermeyen daha fazla negatif (zehirli olmayan) örnek ekleyin.
Kimlik terimleri, negatif örneklerde zaten yeterince temsil edilmemiştir. Kimlik terimleri olmadan daha fazla negatif örnek eklemek bu dengesizliği artırır ve ön yargının düzeltilmesine yardımcı olmaz.
Eğitim kümesine, kimlik terimleri içermeyen daha pozitif (rahatsız edici) örnekler ekleyin.

Özdeşlik terimleri olmadan daha fazla pozitif örnek eklemek, kimlik terimleri ile modelin daha önce öğrendiği toksiklik arasındaki ilişkiyi kaldırmaya yardımcı olabilir.

Yanlılık Nedeniyle Değerlendirme

Kendi metin zehirliliği sınıflandırıcınızı sıfırdan eğittiniz. Mühendislik ekibiniz, zararlı olarak sınıflandırılan yorumların gösterilmesini otomatik olarak engellemek için bu sınıflandırıcıyı kullanmayı planlıyor. Cinsiyetle ilgili yorumlarda zehirliliğe yönelik ön yargıların, cinsiyetle ilgili toksik olmayan söylemlerin azaltılmasına yol açabileceğinden endişeleniyorsunuz ve sınıflandırıcının tahminlerinde cinsiyetle ilgili ön yargıyı değerlendirmek istiyorsunuz. Modeli değerlendirmek için aşağıdaki metriklerden hangisini kullanmanız gerekir? Aşağıdaki seçeneklere göz atın.
Yanlış pozitif oranı (FPR)
Üretimde model, olumlu (zehirli) tahminleri otomatik olarak gizlemek için kullanılır. Amacınız, modelin cinsiyetle ilgili yorumlardaki yanlış pozitifleri (modelin zararlı olarak sınıflandırdığı zehirli olmayan yorumları) genel yorumlardan daha yüksek bir oranda engellememesini sağlamaktır. Cinsiyet alt gruplarının FPR'lerini genel FPR ile karşılaştırmak, kullanım alanınıza yönelik yanlılık düzeltmesini değerlendirmenin mükemmel bir yoludur.
Yanlış negatif oranı (FNR)
FNR, modelin pozitif sınıfı (burada "toksik") negatif sınıf ("toksik olmayan") olarak yanlış sınıflandırma oranını ölçer. Bu kullanım alanında, zararlı yorumların filtreden kaçma ve kullanıcılara gösterilme hızı ile ilgili bilgi verilir. Buradaki temel endişeniz, ön yargının toksik olmayan söylemlerin bastırılması şeklinde nasıl ortaya çıktığıdır. FNR, modelin performansının bu boyutu hakkında size bilgi sağlamaz.
Doğruluk
Doğruluk, doğru olan model tahminlerinin yüzdesini ve yanlış olan tahminlerin yüzdesini ölçer. Bu kullanım alanında doğruluk, filtrenin zehirli olmayan söylemleri engelleme ve zehirli söylemler sergileme ihtimalinin ne olduğunu gösterir. Birincil sorununuz ikinci sorun değil, ilk sorundur. Doğruluk iki sorunu bir araya getirdiği için burada kullanılacak ideal değerlendirme metriği değildir.
AUC
AUC, bir modelin tahmin yeteneğinin mutlak bir şekilde ölçülmesini sağlar. Bu, genel performansı değerlendirmek için iyi bir metriktir. Ancak burada özellikle yorum engelleme oranlarıyla ilgileniyorsunuz ve AUC size bu sorunla ilgili doğrudan bilgi vermez.
Ekibinize bir içerik moderatörü eklendi ve ürün yöneticisi, sınıflandırıcınızın dağıtılma şeklini değiştirmeye karar verdi. Zararlı olarak sınıflandırılan yorumları otomatik olarak gizlemek yerine, filtreleme yazılımı bu yorumları içerik moderatörünün incelemesi için işaretler. Rahatsız edici olarak etiketlenen yorumlar gerçek kişi tarafından inceleneceği için ön yargı, içerik gizleme şeklinde gösterilmez. Yanlılığı ve önyargı düzeltmenin etkisini ölçmek için şu anda aşağıdaki metriklerden hangisini kullanmak istersiniz? Aşağıdaki seçeneklere göz atın.
Yanlış pozitif oranı (FPR)
Yanlış pozitif oranı, zehirli olarak yanlış şekilde sınıflandırılmış, zehirli olmayan yorumların yüzdesini gösterir. Modelin "rahatsız edici" olarak etiketlediği tüm yorumları artık gerçek kişi olan moderatör denetleyeceği ve yanlış pozitiflerin çoğunu yakalaması beklendiği için FPR artık birincil sorun değil.
Yanlış negatif oranı (FNR)
Gerçek kişi olan moderatörler "rahatsız edici" olarak etiketlenmiş tüm yorumları denetleyip yanlış pozitiflerin engellenmemesini sağlar. Ancak "zehirli değil" olarak etiketlenmiş yorumları incelemez. Bu durum, yanlış negatiflerle ilgili yanlılık ihtimalini açık bırakır. Cinsiyet alt grupları için zararlı ifadelerin, genel yorumlara kıyasla zehirli olmayan olarak etiketlenme olasılığının daha yüksek olup olmadığını sistematik olarak değerlendirmek için FNR'yi (negatif olarak sınıflandırılmış gerçek pozitiflerin yüzdesi) kullanabilirsiniz.
Hassasiyet
Hassasiyet, gerçekten pozitif olan olumlu tahminlerin yüzdesini gösterir. Bu durumda, doğru olan "zehirli" tahminlerin yüzdesidir. Tüm "zararlı" tahminleri gerçek kişi olan moderatör denetleyeceğinden, hassasiyeti birincil değerlendirme metriklerinizden biri yapmanız gerekmez.
Geri çağırma
Geri çağırma, doğru şekilde sınıflandırılmış gerçek pozitiflerin yüzdesini gösterir. Bu değerden, yanlış sınıflandırılmış gerçek pozitiflerin yüzdesini türetebilirsiniz (1 - hatırlama). Bu, cinsiyetle ilgili zararlı yorumların, toplam yorumlara kıyasla orantısız bir şekilde "zehirli değil" olarak yanlış sınıflandırılıp sınıflandırılmadığını ölçmek için yararlı bir metriktir.