Modelinizi en iyi şekilde temsil etmek için verilerinizi keşfederken, adalet sorunlarını göz önünde bulundurmanız ve önyargılı olabilecek olası kaynakları proaktif bir şekilde denetlemeniz de önemlidir.
Taraflılık nerede gizlenebilir? Veri kümenizde dikkat etmeniz gereken üç kırmızı işaret vardır.
Özellik Özellikleri Eksik
Veri kümenizde çok sayıda örnek için eksik değerlere sahip bir veya daha fazla özellik varsa bu durum, veri kümenizin bazı temel özelliklerinin yeterli düzeyde temsil edilmediğinin bir göstergesi olabilir.
Örneğin, aşağıdaki tabloda Kaliforniya Konutları veri kümesindeki bir özellik alt kümesi için önemli istatistiklerin bir özeti, DataFrame
pandalarla DataFrame
konumunda depolanıp DataFrame.describe
ile oluşturulmuştur. Tüm özelliklerin count
değerinin 17.000 olduğunu, eksik değer olmadığını unutmayın:
longitude | latitude | toplam_odalar | nüfus | haneler | ortanca_gelir | medyan_ev_değeri | |
---|---|---|---|---|---|---|---|
adet | 17.000,0 | 17.000,0 | 17.000,0 | 17.000,0 | 17.000,0 | 17.000,0 | 17.000,0 |
ortalama | -119,6 | 35,6 | 2643,7 | 1.429,6 | 501,2 | 3,9 | 207,3 |
std | 2,0 | 2.1 | 2.179,9 | 1.147,9 | 384,5 | 1.9 | 116,0 |
dak | -124,3 | 32,5 | 2,0 | 3,0 | 1,0 | 0.5 | 15,0 |
%25 | -121,8 | 33,9 | 1.462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
%50 | -118,5 | 34,2 | 2.127,0 | 1.167,0 | 409,0 | 3,5 | 180,4 |
%75 | -118,0 | 37,7 | 3151,2 | 1.721,0 | 605,2 | 4.8 | 265,0 |
maks. | -114,3 | 42,0 | 37937,0 | 35682,0 | 6.082,0 | 15,0 | 500,0 |
Bunun yerine üç özelliğin (population
, households
ve median_income
) yalnızca 3000
sayıldığını, diğer bir deyişle her özelliğin 14.000 eksik değer içerdiğini varsayalım:
longitude | latitude | toplam_odalar | nüfus | haneler | ortanca_gelir | medyan_ev_değeri | |
---|---|---|---|---|---|---|---|
adet | 17.000,0 | 17.000,0 | 17.000,0 | 3.000,0 | 3.000,0 | 3.000,0 | 17.000,0 |
ortalama | -119,6 | 35,6 | 2643,7 | 1.429,6 | 501,2 | 3,9 | 207,3 |
std | 2,0 | 2.1 | 2.179,9 | 1.147,9 | 384,5 | 1.9 | 116,0 |
dak | -124,3 | 32,5 | 2,0 | 3,0 | 1,0 | 0.5 | 15,0 |
%25 | -121,8 | 33,9 | 1.462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
%50 | -118,5 | 34,2 | 2.127,0 | 1.167,0 | 409,0 | 3,5 | 180,4 |
%75 | -118,0 | 37,7 | 3151,2 | 1.721,0 | 605,2 | 4.8 | 265,0 |
maks. | -114,3 | 42,0 | 37937,0 | 35682,0 | 6.082,0 | 15,0 | 500,0 |
Bu 14.000 eksik değerin,hane gelirlerinin ortanca ev fiyatlarıyla doğru şekilde ilişkilendirilmesi çok daha zor hale gelir. Bu veriler üzerinde model eğitmeden önce, eksik gelir ve popülasyon verilerinden sorumlu ön yargılar olmadığından emin olmak için bu eksik değerlerin nedenini araştırmak akıllıca olacaktır.
Beklenmeyen Özellik Değerleri
Verileri keşfederken, özellikle ayırt edici olmayan veya olağan dışı özellik olarak öne çıkan özellik değerleri içeren örneklere de bakmanız gerekir. Beklenmeyen özellik değerleri, veri toplama sırasında ortaya çıkan sorunları veya sapmaya yol açabilecek diğer yanlışlıkları gösterebilir.
Örneğin, Kaliforniya'daki konutlardan alınan veri kümesinden alınan aşağıdaki örneklere göz atın:
longitude | latitude | toplam_odalar | nüfus | haneler | ortanca_gelir | medyan_ev_değeri | |
---|---|---|---|---|---|---|---|
1 | -121,7 | 38,0 | 7.105,0 | 3523,0 | 1.088,0 | 5,0 | 0.2 |
2 | -122,4 | 37,8 | 2.479,0 | 1.816,0 | 496,0 | 3.1 | 0,3 |
3 | -122,0 | 37,0 | 2.813,0 | 1.337,0 | 477,0 | 3,7 | 0,3 |
4 | -103,5 | 43,8 | 2.212,0 | 803,0 | 144,0 | 5.3 | 0.2 |
5 | -117,1 | 32,8 | 2.963,0 | 1.162,0 | 556,0 | 3.6 | 0.2 |
6 | -118,0 | 33,7 | 3.396,0 | 1.542,0 | 472,0 | 7.4 | 0,4 |
Beklenmedik özellik değerlerini tespit edebilir misiniz?
Veri Sapması
Verilerinizde belirli grupların veya özelliklerin gerçek dünyadaki yaygınlıklarına kıyasla yetersiz veya fazla temsil edilen sapmalar, modelinize ağırlık verebilir.
Doğrulama programlama egzersizini tamamladıysanız, eğitim ve doğrulama kümelerine ayırmadan önce Kaliforniya konut veri kümesini rastgele hale getirmenin başarısız olmasının veri sapmasının nasıl ortaya çıktığını keşfettiğinizi hatırlayabilirsiniz. Şekil 1'de, yalnızca Kaliforniya'nın kuzeybatısını temsil eden tam veri kümesinden alınan bir veri alt kümesi görselleştirilmiştir.
Şekil 1. Kaliforniya Konut veri kümesinden gelen verilerle yer paylaşımlı Kaliforniya eyalet haritası. Her nokta, bir konut blokunu temsil eder. Renkler maviden kırmızıya doğru ve sırasıyla düşükten yükseğe doğru ortanca ev fiyatına karşılık gelir.
Bu temsili örnek, bir modeli eyalet genelinde Kaliforniya'daki konutların fiyatlarını tahmin etmek üzere eğitmek için kullanılmışsa Kaliforniya'nın güney kısımlarındaki konut verilerinin eksikliği sorun teşkil ederdi. Modelde kodlanan coğrafi ön yargı, temsil edilmeyen topluluklardaki ev alıcılarını olumsuz etkileyebilir.