Elma ağaçları mükemmel meyveler ile kurtluların karışımını üretir. Buna rağmen lüks marketlerdeki elmalar% 100 mükemmel meyveler gösteriyor. Meyve bahçeleriyle market alışverişi arasında evde önemli bir zaman harcıyor sakıncalı elmaları sürdürmek gibi. Makine öğrenimi mühendisi olarak çok fazla zaman harcamanız ve kötü örnekleri fırlatmak ve kurtarılabilir olanları kaldırmaktır. Birkaç çürük elma bile büyük bir veri kümesini bozabilir.
Veri kümelerindeki pek çok örnek, şu sorunları çözer:
Soru kategorisi | Örnek |
---|---|
Dahil edilmeyen değerler | Nüfus sayımında ikamet eden bir kişinin yaşını kaydedemeyen kişiler. |
Yinelenen örnekler | Bir sunucu aynı günlükleri iki kez yükler. |
Aralık dışında özellik değerleri. | Bir insan yanlışlıkla fazladan bir rakam yazıyor. |
Hatalı etiketler | Bir insan değerlendirme yapan bir kişi meşe ağacının bir resmini akçaağaç. |
Aşağıdaki sorunlardan herhangi birini tespit etmek için bir program veya komut dosyası yazabilirsiniz:
- Dahil edilmeyen değerler
- Yinelenen örnekler
- Aralık dışı özellik değerleri
Örneğin, aşağıdaki veri kümesinde altı yinelenen değer vardır:
Başka bir örnek olarak, belirli bir özelliğin sıcaklık aralığının 10 ile 30 derece arasında olmalıdır. Ancak bazen sorunlar olabilir ki termometre geçici olarak güneşe maruz kaldığı için kötü sapmaya neden olur. Programınız veya komut dosyanız 10'dan düşük veya daha yüksek sıcaklık değerlerini tanımlamalıdır 30'dan fazla:
Etiketler birden fazla kişi tarafından oluşturulduğunda, her değerlendiricinin eşdeğer etiket grupları oluşturup oluşturmadığını belirler. Belki de değerlendiricilerden biri, diğer değerlendiricilerden daha sert bir not vermiştir veya farklı bir notlandırma kriteri içeriyor mu?
Bir sorun tespit edildikten sonra genelde Kötü özellikler içeren örnekler ya da hatalı etiketleri veri kümesinden kaldırarak veya değerlerini hesaplayarak gösterir. Ayrıntılar için Veri özellikleri Veri kümeleri, genelleştirme ve fazla uyumlu hale getirme modülünü kullanabilirsiniz.