Bu sayfa, Cloud Translation API ile çevrilmiştir.

Adalet: Önyargı belirleme

Verilerinizi model eğitimi ve değerlendirmeye hazırlarken adalet sorunlarını göz önünde bulundurmanız ve modelinizi üretime sunmadan önce etkilerini proaktif olarak azaltmak için olası önyargı kaynaklarını denetlemeniz önemlidir.

Önyargı nerede olabilir? Veri kümenizde dikkat etmeniz gereken bazı uyarı işaretleri aşağıda verilmiştir.

Eksik özellik değerleri

Veri kümenizde çok sayıda örnek için eksik değerleri olan bir veya daha fazla özellik varsa bu, veri kümenizin belirli temel özelliklerinin yeterince temsil edilmediğinin bir göstergesi olabilir.

Alıştırma: Anladığınızdan emin olun

Kurtarma köpeklerinin sahiplenilebilirliğini cins, yaş, kilo, karakter ve her gün döktükleri tüy miktarı gibi çeşitli özelliklere göre tahmin edecek bir model eğitiyorsunuz. Amacınız, fiziksel veya davranış özellikleri ne olursa olsun tüm köpek türlerinde modelin eşit performans göstermesini sağlamaktır

Eğitim veri kümesindeki 5.000 örnekten 1.500'inde mizaç değerlerinin eksik olduğunu keşfedersiniz. Aşağıdakilerden hangileri, incelemeniz gereken olası önyargı kaynaklarıdır?

Belirli köpek ırklarında mizaç verilerinin eksik olma olasılığı daha yüksektir.

Mizaç verilerinin kullanılabilirliği köpek cinsiyle ilişkiliyse bu durum, belirli köpek cinsleri için evlat edinilebilirlik tahminlerinin daha az doğru olmasına neden olabilir.

12 aydan küçük köpekler için mizaç verilerinin eksik olma ihtimali daha yüksektir

Mizaç verilerinin kullanılabilirliği yaşla ilişkiliyse bu durum, yetişkin köpeklere kıyasla yavru köpekler için daha az doğru evlat edinilebilirlik tahminlerine yol açabilir.

Büyük şehirlerden kurtarılan tüm köpeklerin mizaç verileri eksik.

Eksik veriler, cins, yaş, ağırlık vb. özelliklerinden bağımsız olarak büyük şehirlerdeki tüm köpekleri eşit şekilde etkileyeceğinden, ilk bakışta bunun olası bir önyargı kaynağı olduğu anlaşılmayabilir. Bununla birlikte, bir köpeğin bulunduğu konumun bu fiziksel özelliklerin bir göstergesi olabileceğini göz önünde bulundurmamız gerekir. Örneğin, büyük şehirlerdeki köpeklerin kırsal bölgelerdeki köpeklere kıyasla daha küçük olma olasılığı çok daha yüksekse bu durum, daha düşük kilolu köpekler veya belirli küçük köpek ırkları için daha az doğru evlat edinilebilirlik tahminlerine yol açabilir.

Veri kümesinde mizaç verileri rastgele olarak eksik.

Mizaç verileri gerçekten rastgele eksikse bu durum olası bir önyargı kaynağı olmaz. Ancak mizaç verileri rastgele eksik görünebilir. Daha ayrıntılı bir inceleme, bu tutarsızlığın bir açıklamasını ortaya çıkarabilir. Bu nedenle, veri boşluklarının rastgele olduğunu varsaymak yerine, diğer olasılıkları elemek için kapsamlı bir inceleme yapmak önemlidir.

Beklenmeyen özellik değerleri

Verileri keşfederken, özellikle karakteristik olmayan veya sıra dışı olarak öne çıkan özellik değerleri içeren örnekleri de aramanız gerekir. Bu beklenmedik özellik değerleri, veri toplama sırasında ortaya çıkan sorunları veya yanlılığa yol açabilecek başka yanlışlıkları gösterebilir.

Alıştırma: Anladığınızdan emin olun

Kurtarma köpeği evlat edinme modeli eğitmek için aşağıdaki varsayıma dayalı örnek grubunu inceleyin.

cins	yaş (yıl)	ağırlık (lb)	mizaç	shedding_level
oyuncak kaniş	2	12	heyecanlı	düşük
Golden Retriever	7	65	sakin	yüksek
Labrador Retriever	35	73	sakin	yüksek
Fransız buldoğu	0.5	11	sakin	medium
bilinmeyen karma cins	4	45	heyecanlı	yüksek
Base	9	48	sakin	medium

Özellik verileriyle ilgili herhangi bir sorun tespit edebiliyor musunuz?

Yanıtı görmek için burayı tıklayın

cins	yaş (yıl)	ağırlık (lb)	mizaç	shedding_level
oyuncak kaniş	2	12	heyecanlı	düşük
Golden Retriever	7	65	sakin	yüksek
Labrador Retriever	35	73	sakin	yüksek
Fransız buldoğu	0.5	11	sakin	medium
bilinmeyen karma cins	4	45	heyecanlı	yüksek
Base	9	48	sakin	medium

Guinness Dünya Rekorları tarafından yaşı doğrulanan en yaşlı köpek, 29 yıl 5 ay yaşayan Avustralya sığır köpeği Bluey idi. Bu bilgiler göz önüne alındığında, labrador retriever'in aslında 35 yaşında olması pek olası değil.Köpeğin yaşının yanlış hesaplandığı veya kaydedildiği daha olası (belki de köpek aslında 3,5 yaşında). Bu hata, veri kümesindeki yaş verileriyle ilgili daha kapsamlı araştırmaları gerektirecek daha kapsamlı doğruluk sorunlarına da işaret edebilir.

Veri çarpıtması

Verilerinizde belirli grupların veya özelliklerin gerçek dünyadaki yaygınlıklarına kıyasla eksik ya da fazla temsil edildiği her türlü sapma, modelinizde ön yargıya neden olabilir.

Model performansını denetlerken yalnızca sonuçları toplu olarak incelemek değil, sonuçları alt gruba göre ayırmak da önemlidir. Örneğin, kurtarılan köpeklerin evlat edinilebilirlik modelimiz söz konusu olduğunda, adaleti sağlamak için yalnızca genel doğruluğa bakmak yeterli değildir. Modelin her köpek ırkı, yaş grubu ve boyut grubu için eşit derecede iyi performans gösterdiğinden emin olmak amacıyla performansı alt gruba göre de denetlemeliyiz.

Bu modülün ilerleyen bölümlerinde, Yanlışlık için değerlendirme bölümünde, modelleri alt gruba göre değerlendirmeye yönelik farklı yöntemleri daha ayrıntılı olarak inceleyeceğiz.

Yanlılık türleri (5 dk.)

Önyargıyı azaltma (5 dk.)

Adalet: Önyargı belirleme Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

Eksik özellik değerleri

Alıştırma: Anladığınızdan emin olun

Beklenmeyen özellik değerleri

Alıştırma: Anladığınızdan emin olun

Veri çarpıtması

Adalet: Önyargı belirleme