Adalet: Önyargı belirleme

Verilerinizi model eğitimi ve değerlendirmesi için hazırlarken, proje yönetiminde adalet sorunlarını göz önünde bulundurmalı ve etkili olabilecek kaynakları, önyargı oluşturarak proaktif olarak etkilerini azaltmaya yardımcı olur.

Ön yargı nerede gizlenebilir? Veri kümenizde dikkat etmeniz gereken bazı uyarı işaretleri aşağıda verilmiştir.

Özellik değerleri eksik

Veri kümenizde büyük bir veri kümesi için eksik değerlere sahip bir veya daha fazla özellik varsa bir gösterge olabilir. Bu da, belirli temel özelliklerin veri kümenizin temsili yeterince temsil edilmiyor.

Alıştırma: Öğrendiklerinizi sınayın

Kurtarma köpeğinin sahiplenilebilirliğini tahmin etmek için bir modele eğitim veriyorsunuz. ırk, yaş, kilo, mizaç ve benzeri miktarına bakarız. Hedefiniz, modelin tüm köpek türlerinde eşit derecede iyi performans gösterir, veya davranış özellikleri

Eğitim veri kümesindeki 5.000 örnekten 1.500 tanesinin mizaç değerleri eksik. Aşağıdakilerden hangileri olası kaynaklardır hangi önyargıyı araştırmalısınız?

Bazı ırklar için mizaç verilerinin eksik olma ihtimali daha yüksektir. köpekler.
Mizaç verilerinin mevcut olması köpek cinsi ile ilişkiliyse bu durum, Google Analytics 4 ile ilgili belirli köpek türlerini içeriyor.
12 yaşından küçük köpekler için mizaç verilerinin eksik olma olasılığı daha yüksektir aylık (aylık)
Mizaç verilerinin kullanılabilirliği yaşla bağlantılıysa bu durum, Google Analytics 4 ile ilgili bir grup köpektir.
Büyük şehirlerden kurtarılan tüm köpeklerin mizaç verileri eksik.
İlk bakışta, bunun potansiyel bir kaynak olduğu görülmüyor gibi görünebilir çünkü eksik veriler büyük çaplı köpeklerden gelen tüm köpekleri etkileyeceğinden ırk, yaş, kilo ve benzeri ne olursa olsun eşit şartlar sağlamak için tasarlandı. Ancak, yine de bir köpeğin yaşadığı yeri göz önünde bulundurmamız gerekir. bu fiziksel değişimler için bir aracı işlevi görebilir özellikler. Örneğin, büyük şehirlerdeki köpekler kırsal bölgelerdeki köpeklere göre çok daha küçük olma olasılığı daha az doğru benimseme tahminlerine neden olabilir. seçilebilir.
Veri kümesinde mizaç verileri rastgele olarak eksik.
Mizaç verilerinin rastgele bir şekilde eksik olması halinde önyargılara neden olabilir. Ancak biraz da mizaca veriler rastgele olarak eksik görünebilir, ancak daha fazla araştırma bu tutarsızlığın açıklamasına yer verebilir. Bu nedenle diğer olasılıkları elemek için dışındaki seçenekleri veri boşluklarının rasgele olduğunu varsayın.

Beklenmeyen özellik değerleri

Verileri incelerken, özellik değerleri içeren örnekler de aramalısınız. özellikte olmayan veya olağan dışı olarak öne çıkan reklamlar. Bu beklenmedik özellik değerler, veri toplama sürecinde veya diğer süreçlerde önyargılara neden olabilecek

Alıştırma: Öğrendiklerinizi sınayın

Kurtarma köpeğinin eğitimiyle ilgili aşağıdaki varsayımsal örnekleri inceleyin modelidir.

cins yaş (yıl) kilo (kg) mizaç shedding_level
oyuncak kaniş 2 12 heyecanlı düşük
golden retriever 7 65 sakin yüksek
labrador retriever 35 73 sakin yüksek
fransız bulldog 0.5 11 sakin medium
bilinmeyen karma cins 4 45 heyecanlı yüksek
basset tazı 9 48 sakin medium
Özellik verileriyle ilgili herhangi bir sorun belirleyebilir misiniz?
Yanıtı görmek için burayı tıklayın

Veri sapması

Verilerinizde, belirli grupların veya özelliklerin olabileceği her türlü sapma gerçek hayattaki yaygınlık durumuna göre yeterince temsil edilmeyenler veya önyargıları pekiştirmeniz gerekir.

Model performansını denetlerken yalnızca modellerdeki sonuçlara bakmak değil, ancak sonuçları alt gruba göre bölmek için kullanılır. Örneğin, sahiplenme modelimiz, adil davranmak için yeterli değil. genel doğruluklara bakabiliriz. Performansı alt gruba göre de denetlemeliyiz. Bu model, her köpek türü, yaş grubu ve cinsiyet açısından beden grubu.

Bu modülün ilerleyen bölümlerinde, Önyargıyı Değerlendirme bölümünde, Modelleri alt gruba göre değerlendirmek için farklı yöntemleri daha yakından inceleyelim.