Adalet: Önyargı belirleme

Verilerinizi model eğitimi ve değerlendirmeye hazırlarken adalet sorunlarını göz önünde bulundurmanız ve modelinizi üretime sunmadan önce etkilerini proaktif olarak azaltmak için olası önyargı kaynaklarını denetlemeniz önemlidir.

Önyargı nerede olabilir? Veri kümenizde dikkat etmeniz gereken bazı uyarı işaretleri aşağıda verilmiştir.

Eksik özellik değerleri

Veri kümenizde çok sayıda örnek için eksik değerleri olan bir veya daha fazla özellik varsa bu, veri kümenizin belirli temel özelliklerinin yeterince temsil edilmediğinin bir göstergesi olabilir.

Alıştırma: Anladığınızdan emin olun

Kurtarma köpeklerinin sahiplenilebilirliğini cins, yaş, kilo, karakter ve her gün döktükleri tüy miktarı gibi çeşitli özelliklere göre tahmin edecek bir model eğitiyorsunuz. Amacınız, fiziksel veya davranış özellikleri ne olursa olsun tüm köpek türlerinde modelin eşit performans göstermesini sağlamaktır

Eğitim veri kümesindeki 5.000 örnekten 1.500'inde mizaç değerlerinin eksik olduğunu keşfedersiniz. Aşağıdakilerden hangileri, incelemeniz gereken olası önyargı kaynaklarıdır?

Belirli köpek ırklarında mizaç verilerinin eksik olma olasılığı daha yüksektir.
Mizaç verilerinin kullanılabilirliği köpek cinsiyle ilişkiliyse bu durum, belirli köpek cinsleri için evlat edinilebilirlik tahminlerinin daha az doğru olmasına neden olabilir.
12 aydan küçük köpekler için mizaç verilerinin eksik olma ihtimali daha yüksektir
Mizaç verilerinin kullanılabilirliği yaşla ilişkiliyse bu durum, yetişkin köpeklere kıyasla yavru köpekler için daha az doğru evlat edinilebilirlik tahminlerine yol açabilir.
Büyük şehirlerden kurtarılan tüm köpeklerin mizaç verileri eksik.
Eksik veriler, cins, yaş, ağırlık vb. özelliklerinden bağımsız olarak büyük şehirlerdeki tüm köpekleri eşit şekilde etkileyeceğinden, ilk bakışta bunun olası bir önyargı kaynağı olduğu anlaşılmayabilir. Bununla birlikte, bir köpeğin bulunduğu konumun bu fiziksel özelliklerin bir göstergesi olabileceğini göz önünde bulundurmamız gerekir. Örneğin, büyük şehirlerdeki köpeklerin kırsal bölgelerdeki köpeklere kıyasla daha küçük olma olasılığı çok daha yüksekse bu durum, daha düşük kilolu köpekler veya belirli küçük köpek ırkları için daha az doğru evlat edinilebilirlik tahminlerine yol açabilir.
Veri kümesinde mizaç verileri rastgele olarak eksik.
Mizaç verileri gerçekten rastgele eksikse bu durum olası bir önyargı kaynağı olmaz. Ancak mizaç verileri rastgele eksik görünebilir. Daha ayrıntılı bir inceleme, bu tutarsızlığın bir açıklamasını ortaya çıkarabilir. Bu nedenle, veri boşluklarının rastgele olduğunu varsaymak yerine, diğer olasılıkları elemek için kapsamlı bir inceleme yapmak önemlidir.

Beklenmeyen özellik değerleri

Verileri keşfederken, özellikle karakteristik olmayan veya sıra dışı olarak öne çıkan özellik değerleri içeren örnekleri de aramanız gerekir. Bu beklenmedik özellik değerleri, veri toplama sırasında ortaya çıkan sorunları veya yanlılığa yol açabilecek başka yanlışlıkları gösterebilir.

Alıştırma: Anladığınızdan emin olun

Kurtarma köpeği evlat edinme modeli eğitmek için aşağıdaki varsayıma dayalı örnek grubunu inceleyin.

cins yaş (yıl) ağırlık (lb) mizaç shedding_level
oyuncak kaniş 2 12 heyecanlı düşük
Golden Retriever 7 65 sakin yüksek
Labrador Retriever 35 73 sakin yüksek
Fransız buldoğu 0.5 11 sakin medium
bilinmeyen karma cins 4 45 heyecanlı yüksek
Base 9 48 sakin medium
Özellik verileriyle ilgili herhangi bir sorun tespit edebiliyor musunuz?
Yanıtı görmek için burayı tıklayın

Veri çarpıtması

Verilerinizde belirli grupların veya özelliklerin gerçek dünyadaki yaygınlıklarına kıyasla eksik ya da fazla temsil edildiği her türlü sapma, modelinizde ön yargıya neden olabilir.

Model performansını denetlerken yalnızca sonuçları toplu olarak incelemek değil, sonuçları alt gruba göre ayırmak da önemlidir. Örneğin, kurtarılan köpeklerin evlat edinilebilirlik modelimiz söz konusu olduğunda, adaleti sağlamak için yalnızca genel doğruluğa bakmak yeterli değildir. Modelin her köpek ırkı, yaş grubu ve boyut grubu için eşit derecede iyi performans gösterdiğinden emin olmak amacıyla performansı alt gruba göre de denetlemeliyiz.

Bu modülün ilerleyen bölümlerinde, Yanlışlık için değerlendirme bölümünde, modelleri alt gruba göre değerlendirmeye yönelik farklı yöntemleri daha ayrıntılı olarak inceleyeceğiz.