Adalet: Önyargı belirleme

Verilerinizi model eğitimi ve değerlendirmeye hazırlarken adalet sorunlarını göz önünde bulundurmanız ve modelinizi üretime sunmadan önce etkilerini proaktif olarak azaltmak için olası önyargı kaynaklarını denetlemeniz önemlidir.

Önyargı nerede olabilir? Veri kümenizde dikkat etmeniz gereken bazı uyarı işaretleri aşağıda verilmiştir.

Eksik özellik değerleri

Veri kümenizde çok sayıda örnek için eksik değerleri olan bir veya daha fazla özellik varsa bu, veri kümenizin belirli temel özelliklerinin yeterince temsil edilmediğinin bir göstergesi olabilir.

Alıştırma: Anladığınızdan emin olun

Kurtarma köpeklerinin sahiplenilebilirliğini cins, yaş, kilo, karakter ve her gün döktükleri tüy miktarı gibi çeşitli özelliklere göre tahmin edecek bir model eğitiyorsunuz. Amacınız, fiziksel veya davranış özellikleri ne olursa olsun tüm köpek türlerinde modelin eşit performans göstermesini sağlamaktır

Eğitim veri kümesindeki 5.000 örnekten 1.500'inde mizaç değerlerinin eksik olduğunu keşfedersiniz. Aşağıdakilerden hangileri, incelemeniz gereken olası önyargı kaynaklarıdır?

12 aydan küçük köpekler için mizaç verilerinin eksik olma ihtimali daha yüksektir
Belirli köpek ırklarında mizaç verilerinin eksik olma olasılığı daha yüksektir.
Büyük şehirlerden kurtarılan tüm köpeklerin mizaç verileri eksik.
Veri kümesinde mizaç verileri rastgele olarak eksik.

Beklenmeyen özellik değerleri

Verileri keşfederken, özellikle karakteristik olmayan veya sıra dışı olarak öne çıkan özellik değerleri içeren örnekleri de aramanız gerekir. Bu beklenmedik özellik değerleri, veri toplama sırasında ortaya çıkan sorunları veya yanlılığa yol açabilecek başka yanlışlıkları gösterebilir.

Alıştırma: Anladığınızdan emin olun

Kurtarma köpeği evlat edinme modeli eğitmek için aşağıdaki varsayıma dayalı örnek grubunu inceleyin.

cins yaş (yıl) ağırlık (lb) mizaç shedding_level
oyuncak kaniş 2 12 heyecanlı düşük
Golden Retriever 7 65 sakin yüksek
Labrador Retriever 35 73 sakin yüksek
Fransız buldoğu 0.5 11 sakin medium
bilinmeyen karma cins 4 45 heyecanlı yüksek
Base 9 48 sakin medium
Özellik verileriyle ilgili herhangi bir sorun tespit edebiliyor musunuz?
Yanıtı görmek için burayı tıklayın

Veri çarpıtması

Verilerinizde belirli grupların veya özelliklerin gerçek dünyadaki yaygınlıklarına kıyasla eksik ya da fazla temsil edildiği her türlü sapma, modelinizde ön yargıya neden olabilir.

Model performansını denetlerken yalnızca sonuçları toplu olarak incelemek değil, sonuçları alt gruba göre ayırmak da önemlidir. Örneğin, kurtarılan köpeklerin evlat edinilebilirlik modelimiz söz konusu olduğunda, adaleti sağlamak için yalnızca genel doğruluğa bakmak yeterli değildir. Modelin her köpek ırkı, yaş grubu ve boyut grubu için eşit derecede iyi performans gösterdiğinden emin olmak amacıyla performansı alt gruba göre de denetlemeliyiz.

Bu modülün ilerleyen bölümlerinde, Yanlışlık için değerlendirme bölümünde, modelleri alt gruba göre değerlendirmeye yönelik farklı yöntemleri daha ayrıntılı olarak inceleyeceğiz.