Eğitim verilerinde bir önyargı kaynağı belirlendikten sonra, etkilerini azaltmak için proaktif adımlar atabiliriz. Makine öğrenimi (ML) mühendislerinin genellikle yanlılığı gidermek için uyguladığı iki ana strateji vardır:
- Eğitim verilerini artırma.
- Modelin kayıp işlevini ayarlama
Eğitim verilerini genişletme
Eğitim verilerinin denetlenmesi eksik, yanlış veya çarpıtılmış verilerle ilgili sorunlar ortaya çıkardıysa, sorunu çözmenin en kolay yolu genellikle ek veri toplamaktır.
Ancak eğitim verilerini artırmak ideal olabilir. Bununla birlikte, bu yaklaşımın dezavantajı, mevcut veri eksikliği veya veri toplamayı engelleyen kaynak kısıtlamaları nedeniyle uygulanamayabilmesidir. Örneğin, daha fazla veri toplamak çok maliyetli, çok zaman alıcı olabilir ya da yasal kısıtlamalar/gizlilik kısıtlamaları nedeniyle uygun olmayabilir.
Modelin optimizasyon işlevini ayarlama
Ek eğitim verileri toplanamadığında, önyargıyı azaltmak için izlenebilecek başka bir yaklaşım da model eğitimi sırasında kaybın nasıl hesaplanacağını ayarlamaktır. Yanlış model tahminlerini cezalandırmak için genellikle log kaybı gibi bir optimizasyon işlevi kullanırız. Ancak günlük kaybı, alt grup üyeliğini dikkate almaz. Bu nedenle, günlük kaybı kullanmak yerine, hataları adalete duyarlı bir şekilde cezalandırmak için tasarlanmış ve eğitim verilerimizde tespit ettiğimiz dengesizlikleri gideren bir optimizasyon işlevi seçebiliriz.
TensorFlow Model Düzeltme Kitaplığı, model eğitimi sırasında iki farklı önyargı azaltma tekniği uygulamak için yardımcı programlar sağlar:
MinDiff: MinDiff, iki farklı veri dilimindeki (erkek/kadın öğrenciler ve cinsiyeti belirtmeyen öğrenciler) hataları dengelemek için iki grubun tahmin dağılımları arasındaki farklılıklara ceza ekleyerek çalışır.
Karşıt gerçeklik mantık eşleştirme: Karşıt gerçeklik mantık eşleştirme (CLP), belirli bir örneğin hassas bir özelliğinin değiştirilmesinin, modelin söz konusu örnek için yaptığı tahmini değiştirmemesini sağlamayı amaçlar. Örneğin, bir eğitim veri kümesi, özellik değerleri aynı olan iki örnek içeriyorsa ancak bunlardan birinin
gender
değerimale
, diğeriningender
değerinonbinary
ise bu iki örnek için tahminler farklıysa CLP bir ceza ekler.
Optimizasyon işlevini ayarlamak için seçtiğiniz teknikler, modelin kullanım alanlarına bağlıdır. Bir modeli adalet açısından değerlendirme görevine bu kullanım alanlarını göz önünde bulundurarak nasıl yaklaşacağınızı sonraki bölümde daha ayrıntılı olarak inceleyeceğiz.