Adalet: Önyargıları hafifletme

Önyargı kaynağı olduğunda tespit ettiğimizden emin olmak isterseniz hafifletmek olabilir. Makine öğreniminin (ML) kullandığı iki temel strateji vardır: mühendisler genellikle ön yargıyı gidermek için kullanırlar:

  • Eğitim verilerini artırma.
  • Modelin kayıp işlevini ayarlama.

Eğitim verilerini genişletme

Eğitim verilerinin denetlenmesi eksik, yanlış, veya bozuk veriler içeriyorsa sorunu çözmenin en doğrudan yolu ek veri toplanmasını sağlar.

Eğitim verilerinin artırılması ideal olabilir ancak bunun kötü yanı, bu yaklaşım, daha az karmaşık veya daha az Veri toplamayı engelleyen kullanılabilir veri veya kaynak kısıtlamaları. Örneğin, daha fazla veri toplamanın çok maliyetli veya zaman alıcı olabilir ya da çeşitli nedenlerden dolayı kısıtlamalara tabi olduğunu unutmayın.

Modelin optimizasyon işlevini ayarlama

Ek eğitim verilerinin toplanmasının uygun olmadığı durumlarda, yanlılığı azaltmaya yönelik yaklaşım, model sırasında kaybın nasıl hesaplanacağını bahsedeceğim. Genelde genelde Yanlış modeli cezalandırmak için günlük kaybı tahminler. Ancak, günlük kaybı, alt grup üyeliğini üzerinde düşünülmesini sağlar. Dolayısıyla, günlük kaybını kullanmak yerine, ve hataları cezalandırmak için adil ve itibarlı bir şekilde tespit ettiğimiz dengesizlikleri giderir.

TensorFlow Model Düzeltme Kitaplığı, iki farklı çeşitli yanlılık azaltma teknikleri öğreteceğim.

  • MinDiff: MinDiff, iki farklı veri dilimindeki hataları dengelemeyi hedefliyor (erkek/kız öğrenciler ile diğer öğrenciler arasında ayrı ayrı) iki grubun tahmin dağılımlarındaki farklılıklar.

  • Karşılıklı Logit Eşleme: Yapay zeka destekli günlük kaydı eşleme (CLP) yöntemi, hassas bir veri türünün özelliğinin, modelin bununla ilgili tahminini değiştirmemesi örneğine bakalım. Örneğin, bir eğitim veri kümesinde özellik değerleri aynıdır ancak bir tanesinin gender değeri male ve diğerinin gender değeri nonbinary. CLP aşağıdaki durumlarda ceza ekler bu iki örnekle ilgili tahminler farklıdır.

Optimizasyon işlevini ayarlamak için seçtiğiniz teknikler ve modelin kullanım alanlarına bağlıdır. Bir sonraki bölümde, adalet açısından bir model değerlendirme görevine nasıl yaklaşılması gerektiğini daha yakından inceleyeceğiz.

Alıştırma: Öğrendiklerinizi sınayın

Yanlılığı azaltma teknikleriyle ilgili aşağıdaki ifadelerden hangisi doğrudur?
Hem MinDiff hem de CLP, model performansındaki tutarsızlıkları ortadan kaldırır hassas özelliklere bağlı
Her iki teknik de tahmini cezalandırarak yanlılığı azaltmayı amaçlar hassas özelliklerin performansındaki dengesizliklerden kaynaklanan hatalar temsil edilir.
MinDiff, bu anahtar kelimelerin genel dağılımındaki farklılıkları farklı veri dilimleri için tahminlerde bulunurken CLP, tek tek örnek çiftlerine yönelik tahminlerdeki tutarsızlıklar.
MinDiff, iki grup için puan dağılımını hizalayarak yanlılığı ortadan kaldırır alt gruplar. CLP, ön yargıların önüne geçmek için tek tek örneklerin farklı şekilde muamele görebilir.
Eğitim veri kümesine daha fazla örnek eklemek her zaman işe yarar. bir modelin tahminlerindeki ön yargıları ortadan kaldırmak için kullanılır.
Daha fazla eğitim örneği eklemek, ekibiniz için etkili bir stratejidir. ön yargıyı azaltmaktır. Aynı zamanda, yeni eğitim verilerinin önemlidir. Ek eğitim örneklerinde de ilk verilerde dengesizlikler olabileceğine hatırlatmak şartıyla ön yargı olabilir.
Daha fazla eğitim verisi ekleyerek yanlılığı azaltmak istiyorsanız eğitim sırasında MinDiff veya CLP uygulamasını da kullanmamalıdır.
Eğitim verilerini zenginleştirme ve MinDiff veya CLP gibi teknikleri uygulama olabilir. Örneğin, bir makine öğrenimi mühendisi ve tutarsızlığı azaltmak üzere yeterli ek eğitim verisi toplamak için %30'luk bir performans artışı sağlayabilir ve ardından MinDiff'i kullanarak %50 oranında daha fazla tutarsızlık olur.
.