Özellik vektörlerini oluşturmadan önce, sayısal verileri iki yol vardır:
- Verilerinizi çizimler veya grafikler halinde görselleştirin.
- Verilerinizle ilgili istatistikleri alın.
Verilerinizi görselleştirin
Grafikler, verilerde gizlenen anormallikleri veya kalıpları bulmanıza yardımcı olabilir. Bu nedenle, analize fazla girmeden önce dağılım grafikleri veya histogramlar olarak grafik şeklinde oluşturabilirsiniz. Grafikleri görüntüleme: yalnızca veri ardışık düzeninin başında ancak veriler boyunca da dönüşümlerine dahil edilir. Görselleştirmeler varsayımlarınızı sürekli olarak kontrol etmenize yardımcı olur.
Görselleştirme için pandalarla çalışmanızı öneririz:
Bazı görselleştirme araçlarının belirli veri biçimleri için optimize edildiğini unutmayın. Protokol arabelleklerini değerlendirmenize yardımcı olan bir görselleştirme aracı, CSV verilerini değerlendirmenize yardımcı olabilir.
Verilerinizi istatistiksel olarak değerlendirme
Görsel analizin yanı sıra potansiyel özellikleri değerlendirmenizi ve etiketler, aşağıdaki gibi temel istatistikleri toplar:
- ortalama ve medyan
- standart sapma
- çeyrek bölümlerindeki değerler: 0., 25., 50., 75. ve 100. yüzdelik dilimler. 0. yüzdelik dilim, bu sütunun minimum değeridir; "the" 100. yüzdelik dilim, bu sütunun maksimum değeridir. (%50'lik dilim ortanca değerdir.)
Aykırı değerleri bulma
Aykırı, uzaktaki bir değerdir diğer çoğu değerden uzaklaştırın. Aykırı değerler genellikle soruna neden olur Bu yüzden, aykırı değerleri bulmak çok önemli.
0. ve 25. yüzdelik dilimler arasındaki delta önemli ölçüde farklılık gösterdiğinde veri kümesi, büyük olasılıkla 75. ve 100. yüzdelik dilimler arasındaki deltadan aykırı değerler içerir.
Aykırı değerler, aşağıdaki kategorilerin herhangi birinde olabilir:
- Aykırı değer bir hatadan kaynaklanır. Örneğin, deney yapan bir kişi yanlışlıkla fazladan bir sıfır girmiş olabilir, ya da verileri toplayan bir alet düzgün çalışmıyordur. Genellikle hata aykırı değerler içeren örnekleri silersiniz.
- Aykırı değer hata değil, geçerli bir veri noktasıdır.
Bu durumda, eğitilen modeliniz
bu aykırı değerlerle ilgili iyi tahminlerde
bulunması gerekir mi?
- Cevabınız evet ise, bu aykırı değerleri eğitim kümenizde tutun. Sonuçta, aykırılar bazı özellikler bazen etiketteki aykırı değerleri yansıttığından modelinizin daha iyi tahminlerde bulunmasına yardımcı olabilir. Dikkatli olun, aşırı aykırı değerler modelinize yine de zarar verebilir.
- Yanıtınız hayırsa, aykırı değerleri silin veya daha kapsamlı özellik mühendisliği uygulayın. kıpırdama gibi teknikler.