Verilerinizi model eğitimi ve değerlendirmeye hazırlarken adalet sorunlarını göz önünde bulundurmanız ve modelinizi üretime sunmadan önce etkilerini proaktif olarak azaltmak için olası önyargı kaynaklarını denetlemeniz önemlidir.
Önyargı nerede olabilir? Veri kümenizde dikkat etmeniz gereken bazı uyarı işaretleri aşağıda verilmiştir.
Eksik özellik değerleri
Veri kümenizde çok sayıda örnek için eksik değerleri olan bir veya daha fazla özellik varsa bu, veri kümenizin belirli temel özelliklerinin yeterince temsil edilmediğinin bir göstergesi olabilir.
Alıştırma: Anladığınızdan emin olun
Eğitim veri kümesindeki 5.000 örnekten 1.500'inde mizaç değerlerinin eksik olduğunu keşfedersiniz. Aşağıdakilerden hangileri, incelemeniz gereken olası önyargı kaynaklarıdır?
Beklenmeyen özellik değerleri
Verileri keşfederken, özellikle karakteristik olmayan veya sıra dışı olarak öne çıkan özellik değerleri içeren örnekleri de aramanız gerekir. Bu beklenmedik özellik değerleri, veri toplama sırasında ortaya çıkan sorunları veya yanlılığa yol açabilecek başka yanlışlıkları gösterebilir.
Alıştırma: Anladığınızdan emin olun
Kurtarma köpeği evlat edinme modeli eğitmek için aşağıdaki varsayıma dayalı örnek grubunu inceleyin.
cins | yaş (yıl) | ağırlık (lb) | mizaç | shedding_level |
---|---|---|---|---|
oyuncak kaniş | 2 | 12 | heyecanlı | düşük |
Golden Retriever | 7 | 65 | sakin | yüksek |
Labrador Retriever | 35 | 73 | sakin | yüksek |
Fransız buldoğu | 0.5 | 11 | sakin | medium |
bilinmeyen karma cins | 4 | 45 | heyecanlı | yüksek |
Base | 9 | 48 | sakin | medium |
cins | yaş (yıl) | ağırlık (lb) | mizaç | shedding_level |
---|---|---|---|---|
oyuncak kaniş | 2 | 12 | heyecanlı | düşük |
Golden Retriever | 7 | 65 | sakin | yüksek |
Labrador Retriever | 35 | 73 | sakin | yüksek |
Fransız buldoğu | 0.5 | 11 | sakin | medium |
bilinmeyen karma cins | 4 | 45 | heyecanlı | yüksek |
Base | 9 | 48 | sakin | medium |
Guinness Dünya Rekorları tarafından yaşı doğrulanan en yaşlı köpek, 29 yıl 5 ay yaşayan Avustralya sığır köpeği Bluey idi. Bu bilgiler göz önüne alındığında, labrador retriever'in aslında 35 yaşında olması pek olası değil.Köpeğin yaşının yanlış hesaplandığı veya kaydedildiği daha olası (belki de köpek aslında 3,5 yaşında). Bu hata, veri kümesindeki yaş verileriyle ilgili daha kapsamlı araştırmaları gerektirecek daha kapsamlı doğruluk sorunlarına da işaret edebilir.
Veri çarpıtması
Verilerinizde belirli grupların veya özelliklerin gerçek dünyadaki yaygınlıklarına kıyasla eksik ya da fazla temsil edildiği her türlü sapma, modelinizde ön yargıya neden olabilir.
Model performansını denetlerken yalnızca sonuçları toplu olarak incelemek değil, sonuçları alt gruba göre ayırmak da önemlidir. Örneğin, kurtarılan köpeklerin evlat edinilebilirlik modelimiz söz konusu olduğunda, adaleti sağlamak için yalnızca genel doğruluğa bakmak yeterli değildir. Modelin her köpek ırkı, yaş grubu ve boyut grubu için eşit derecede iyi performans gösterdiğinden emin olmak amacıyla performansı alt gruba göre de denetlemeliyiz.
Bu modülün ilerleyen bölümlerinde, Yanlışlık için değerlendirme bölümünde, modelleri alt gruba göre değerlendirmeye yönelik farklı yöntemleri daha ayrıntılı olarak inceleyeceğiz.