Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sayısal veri: İlk adımlar

Özellik vektörleri oluşturmadan önce sayısal verileri iki şekilde incelemenizi öneririz:

Verilerinizi nokta veya grafiklerle görselleştirin.
Verilerinizle ilgili istatistikleri alın.

Verilerinizi görselleştirin

Grafikler, verilerde gizli olan anormallikleri veya kalıpları bulmanıza yardımcı olabilir. Bu nedenle, analize çok fazla girmeden önce verilerinize dağılım grafiği veya histogram olarak grafiksel olarak bakın. Grafikleri yalnızca veri ardışık düzeninin başında değil, veri dönüşümleri boyunca da görüntüleyebilirsiniz. Görselleştirmeler, varsayımlarınızı sürekli olarak kontrol etmenize yardımcı olur.

Görselleştirme için pandas ile çalışmanızı öneririz:

Belirli görselleştirme araçlarının belirli veri biçimleri için optimize edildiğini unutmayın. Protokol arabelleklerini değerlendirmenize yardımcı olan bir görselleştirme aracı, CSV verilerini değerlendirmenize yardımcı olabilir veya olmayabilir.

Verilerinizi istatistiksel olarak değerlendirme

Görsel analizin yanı sıra, olası özellikleri ve etiketleri matematiksel olarak değerlendirmenizi ve aşağıdakiler gibi temel istatistikleri toplamanızı öneririz:

ortalama ve medyan
standart sapma
Dörtte birlik bölümlerdeki değerler: 0., 25., 50., 75. ve 100. yüzdelikler. 0. yüzdelik dilim, bu sütunun minimum değeridir; 100. yüzdelik dilim ise bu sütunun maksimum değeridir. (50. yüzdelik dilim ortanca değerdir.)

Aykırı değerleri bulma

Ayrık değer, bir özellik veya etiketteki diğer çoğu değerden uzak bir değerdir. Tekil değerler genellikle model eğitiminde sorunlara neden olur. Bu nedenle, tekil değerleri bulmak önemlidir.

0. ve 25. yüzdelik dilim arasındaki fark, 75. ve 100. yüzdelik dilim arasındaki farktan önemli ölçüde farklıysa veri kümesinde muhtemelen aykırı değerler vardır.

Anormal değerler aşağıdaki kategorilerden herhangi birine girebilir:

Aykırı değer, bir hata nedeniyle ortaya çıkmıştır. Örneğin, bir deneysel araştırmacı yanlışlıkla fazladan bir sıfır girmiş veya veri toplayan bir cihaz arızalanmış olabilir. Genellikle hata nedeniyle aykırı değerler içeren örnekleri silersiniz.
Anormal veri, hata değil, geçerli bir veri noktasıdır. Bu durumda, eğitilmiş modelinizin nihayetinde bu aykırı değerlerle ilgili iyi tahminler çıkarması gerekir mi?
- Bu durumda, bu aykırı değerleri eğitim veri kümenizde tutun. Sonuçta, belirli özelliklerdeki aykırı değerler bazen etiketteki aykırı değerleri yansıtır. Bu nedenle, aykırı değerler modelinizin daha iyi tahminler yapmasına yardımcı olabilir. Aşırı aykırı değerlerin modelinize zarar verebileceğini unutmayın.
- Aksi takdirde, aykırı değerleri silin veya kırpma gibi daha müdahaleci özellik mühendisliği teknikleri uygulayın.

Bir model, özellik vektörleriyle verileri nasıl alır? (5 dk.)

Programlama alıştırmaları (10 dk.)