Adalet: Önyargıları hafifletme

Eğitim verilerinde bir önyargı kaynağı belirlendikten sonra, etkilerini azaltmak için proaktif adımlar atabiliriz. Makine öğrenimi (ML) mühendislerinin genellikle yanlılığı gidermek için uyguladığı iki ana strateji vardır:

  • Eğitim verilerini artırma.
  • Modelin kayıp işlevini ayarlama

Eğitim verilerini genişletme

Eğitim verilerinin denetlenmesi eksik, yanlış veya çarpıtılmış verilerle ilgili sorunlar ortaya çıkardıysa, sorunu çözmenin en kolay yolu genellikle ek veri toplamaktır.

Ancak eğitim verilerini artırmak ideal olabilir. Bununla birlikte, bu yaklaşımın dezavantajı, mevcut veri eksikliği veya veri toplamayı engelleyen kaynak kısıtlamaları nedeniyle uygulanamayabilmesidir. Örneğin, daha fazla veri toplamak çok maliyetli, çok zaman alıcı olabilir ya da yasal kısıtlamalar/gizlilik kısıtlamaları nedeniyle uygun olmayabilir.

Modelin optimizasyon işlevini ayarlama

Ek eğitim verileri toplanamadığında, önyargıyı azaltmak için izlenebilecek başka bir yaklaşım da model eğitimi sırasında kaybın nasıl hesaplanacağını ayarlamaktır. Yanlış model tahminlerini cezalandırmak için genellikle log kaybı gibi bir optimizasyon işlevi kullanırız. Ancak günlük kaybı, alt grup üyeliğini dikkate almaz. Bu nedenle, günlük kaybı kullanmak yerine, hataları adalete duyarlı bir şekilde cezalandırmak için tasarlanmış ve eğitim verilerimizde tespit ettiğimiz dengesizlikleri gideren bir optimizasyon işlevi seçebiliriz.

TensorFlow Model Düzeltme Kitaplığı, model eğitimi sırasında iki farklı önyargı azaltma tekniği uygulamak için yardımcı programlar sağlar:

  • MinDiff: MinDiff, iki farklı veri dilimindeki (erkek/kadın öğrenciler ve cinsiyeti belirtmeyen öğrenciler) hataları dengelemek için iki grubun tahmin dağılımları arasındaki farklılıklara ceza ekleyerek çalışır.

  • Karşıt gerçeklik mantık eşleştirme: Karşıt gerçeklik mantık eşleştirme (CLP), belirli bir örneğin hassas bir özelliğinin değiştirilmesinin, modelin söz konusu örnek için yaptığı tahmini değiştirmemesini sağlamayı amaçlar. Örneğin, bir eğitim veri kümesi, özellik değerleri aynı olan iki örnek içeriyorsa ancak bunlardan birinin gender değeri male, diğerinin gender değeri nonbinary ise bu iki örnek için tahminler farklıysa CLP bir ceza ekler.

Optimizasyon işlevini ayarlamak için seçtiğiniz teknikler, modelin kullanım alanlarına bağlıdır. Bir modeli adalet açısından değerlendirme görevine bu kullanım alanlarını göz önünde bulundurarak nasıl yaklaşacağınızı sonraki bölümde daha ayrıntılı olarak inceleyeceğiz.

Alıştırma: Anladığınızdan emin olun

Yanlılığı azaltma teknikleriyle ilgili aşağıdaki ifadelerden hangisi doğrudur?
Hem MinDiff hem de CLP, hassas özelliklere bağlı model performansındaki tutarsızlıkları cezalandırır
Her iki teknik de hassas özelliklerin eğitim verilerinde temsil edilme şekliyle ilgili dengesizliklerden kaynaklanan tahmin hatalarını cezalandırarak sapmayı azaltmayı amaçlar.
MinDiff, farklı veri dilimleri için tahminlerin genel dağılımındaki farklılıkları gözetirken CLP, tek tek örnek çiftleri için tahminlerdeki tutarsızlıklara ceza verir.
MinDiff, iki alt grubun puan dağılımını uyumlu hale getirerek önyargıyı giderir. CLP, tek tek örneklerin yalnızca alt grup üyelikleri nedeniyle farklı şekilde ele alınmamasını sağlayarak önyargıyı ortadan kaldırır.
Eğitim veri kümesine daha fazla örnek eklemek, modelin tahminlerindeki önyargıları gidermeye her zaman yardımcı olur.
Daha fazla eğitim örneği eklemek, yanlılığı azaltmak için etkili bir stratejidir ancak yeni eğitim verilerinin bileşimi önemlidir. Ek eğitim örnekleri, orijinal verilerle benzer dengesizlikler gösteriyorsa muhtemelen mevcut sapmanın azaltılmasına yardımcı olmayacaktır.
Daha fazla eğitim verisi ekleyerek önyargıyı azaltıyorsanız eğitim sırasında MinDiff veya CLP'yi de uygulamamanız gerekir.
Eğitim verilerini artırmak ve MinDiff veya CLP gibi teknikleri uygulamak birbirini tamamlayabilir. Örneğin, bir makine öğrenimi mühendisi, performanstaki tutarsızlığı %30 azaltmak için yeterli ek eğitim verisi toplayabilir ve daha sonra MinDiff'i kullanarak bu tutarsızlığı %50 daha azaltabilir.