Verilerinizi model eğitimi ve değerlendirmesi için hazırlarken, proje yönetiminde adalet sorunlarını göz önünde bulundurmalı ve etkili olabilecek kaynakları, önyargı oluşturarak proaktif olarak etkilerini azaltmaya yardımcı olur.
Ön yargı nerede gizlenebilir? Veri kümenizde dikkat etmeniz gereken bazı uyarı işaretleri aşağıda verilmiştir.
Özellik değerleri eksik
Veri kümenizde büyük bir veri kümesi için eksik değerlere sahip bir veya daha fazla özellik varsa bir gösterge olabilir. Bu da, belirli temel özelliklerin veri kümenizin temsili yeterince temsil edilmiyor.
Alıştırma: Öğrendiklerinizi sınayın
Eğitim veri kümesindeki 5.000 örnekten 1.500 tanesinin mizaç değerleri eksik. Aşağıdakilerden hangileri olası kaynaklardır hangi önyargıyı araştırmalısınız?
Beklenmeyen özellik değerleri
Verileri incelerken, özellik değerleri içeren örnekler de aramalısınız. özellikte olmayan veya olağan dışı olarak öne çıkan reklamlar. Bu beklenmedik özellik değerler, veri toplama sürecinde veya diğer süreçlerde önyargılara neden olabilecek
Alıştırma: Öğrendiklerinizi sınayın
Kurtarma köpeğinin eğitimiyle ilgili aşağıdaki varsayımsal örnekleri inceleyin modelidir.
cins | yaş (yıl) | kilo (kg) | mizaç | shedding_level |
---|---|---|---|---|
oyuncak kaniş | 2 | 12 | heyecanlı | düşük |
golden retriever | 7 | 65 | sakin | yüksek |
labrador retriever | 35 | 73 | sakin | yüksek |
fransız bulldog | 0.5 | 11 | sakin | medium |
bilinmeyen karma cins | 4 | 45 | heyecanlı | yüksek |
basset tazı | 9 | 48 | sakin | medium |
cins | yaş (yıl) | kilo (kg) | mizaç | shedding_level |
---|---|---|---|---|
oyuncak kaniş | 2 | 12 | heyecanlı | düşük |
golden retriever | 7 | 65 | sakin | yüksek |
labrador retriever | 35 | 73 | sakin | yüksek |
fransız bulldog | 0.5 | 11 | sakin | medium |
bilinmeyen karma cins | 4 | 45 | heyecanlı | yüksek |
basset tazı | 9 | 48 | sakin | medium |
Yaşı Guinness Dünya Rekorları tarafından doğrulanan en yaşlı köpek Önceki adı Bluey, 29 yıl 5 ay yaşamış bir Avustralyalı Sığır Köpeği. Bu nedenle, labrador retriever'ın aslında 35 yaşında olması ve köpeğin yaşının hesaplanmış ya da kaydedilmiş olma ihtimali (belki de köpek 3,5 yaşında). Bu hata veri kümesindeki yaş verileriyle ilgili daha kapsamlı doğruluk sorunlarına da işaret eder reklam öğelerini inceleyin.
Veri sapması
Verilerinizde, belirli grupların veya özelliklerin olabileceği her türlü sapma gerçek hayattaki yaygınlık durumuna göre yeterince temsil edilmeyenler veya önyargıları pekiştirmeniz gerekir.
Model performansını denetlerken yalnızca modellerdeki sonuçlara bakmak değil, ancak sonuçları alt gruba göre bölmek için kullanılır. Örneğin, sahiplenme modelimiz, adil davranmak için yeterli değil. genel doğruluklara bakabiliriz. Performansı alt gruba göre de denetlemeliyiz. Bu model, her köpek türü, yaş grubu ve cinsiyet açısından beden grubu.
Bu modülün ilerleyen bölümlerinde, Önyargıyı Değerlendirme bölümünde, Modelleri alt gruba göre değerlendirmek için farklı yöntemleri daha yakından inceleyelim.