Özellik vektörleri oluşturmadan önce sayısal verileri iki şekilde incelemenizi öneririz:
- Verilerinizi nokta veya grafiklerle görselleştirin.
- Verilerinizle ilgili istatistikleri alın.
Verilerinizi görselleştirin
Grafikler, verilerde gizli olan anormallikleri veya kalıpları bulmanıza yardımcı olabilir. Bu nedenle, analize çok fazla girmeden önce verilerinize dağılım grafiği veya histogram olarak grafiksel olarak bakın. Grafikleri yalnızca veri ardışık düzeninin başında değil, veri dönüşümleri boyunca da görüntüleyebilirsiniz. Görselleştirmeler, varsayımlarınızı sürekli olarak kontrol etmenize yardımcı olur.
Görselleştirme için pandas ile çalışmanızı öneririz:
Belirli görselleştirme araçlarının belirli veri biçimleri için optimize edildiğini unutmayın. Protokol arabelleklerini değerlendirmenize yardımcı olan bir görselleştirme aracı, CSV verilerini değerlendirmenize yardımcı olabilir veya olmayabilir.
Verilerinizi istatistiksel olarak değerlendirme
Görsel analizin yanı sıra, olası özellikleri ve etiketleri matematiksel olarak değerlendirmenizi ve aşağıdakiler gibi temel istatistikleri toplamanızı öneririz:
- ortalama ve medyan
- standart sapma
- Dörtte birlik bölümlerdeki değerler: 0., 25., 50., 75. ve 100. yüzdelikler. 0. yüzdelik dilim, bu sütunun minimum değeridir; 100. yüzdelik dilim ise bu sütunun maksimum değeridir. (50. yüzdelik dilim ortanca değerdir.)
Aykırı değerleri bulma
Ayrık değer, bir özellik veya etiketteki diğer çoğu değerden uzak bir değerdir. Tekil değerler genellikle model eğitiminde sorunlara neden olur. Bu nedenle, tekil değerleri bulmak önemlidir.
0. ve 25. yüzdelik dilim arasındaki fark, 75. ve 100. yüzdelik dilim arasındaki farktan önemli ölçüde farklıysa veri kümesi muhtemelen aykırı değerler içerir.
Anormal değerler aşağıdaki kategorilerden herhangi birine girebilir:
- Aykırı değer, bir hata nedeniyle ortaya çıkmıştır. Örneğin, bir deneysel araştırmacı yanlışlıkla fazladan bir sıfır girmiş veya veri toplayan bir cihaz arızalanmış olabilir. Genellikle hata nedeniyle aykırı değerler içeren örnekleri silersiniz.
- Anormal veri, bir hata değil, geçerli bir veri noktasıdır.
Bu durumda, eğitilmiş modelinizin nihayetinde bu aykırı değerlerle ilgili iyi tahminler çıkarması gerekir mi?
- Bu durumda, bu aykırı değerleri eğitim veri kümenizde tutun. Sonuçta, belirli özelliklerdeki aykırı değerler bazen etiketteki aykırı değerleri yansıtır. Bu nedenle, aykırı değerler modelinizin daha iyi tahminler yapmasına yardımcı olabilir. Aşırı aykırı değerlerin modelinize zarar verebileceğini unutmayın.
- Aksi takdirde, aykırı değerleri silin veya kırpma gibi daha müdahaleci özellik mühendisliği teknikleri uygulayın.