Data numerik: Langkah pertama

Sebelum membuat vektor fitur, sebaiknya pelajari data numerik dalam dua cara:

  • Visualisasikan data Anda dalam plot atau grafik.
  • Dapatkan statistik tentang data Anda.

Memvisualisasikan data Anda

Grafik dapat membantu Anda menemukan anomali atau pola yang tersembunyi dalam data. Oleh karena itu, sebelum masuk terlalu jauh ke dalam analisis, lihat data secara grafis, baik sebagai diagram pencar atau histogram. Lihat grafik bukan hanya di awal pipeline data, tetapi juga di seluruh data transformasi. Visualisasi membantu Anda untuk terus memeriksa asumsi Anda.

Kami merekomendasikan bekerja dengan pandas untuk visualisasi:

Perhatikan bahwa alat visualisasi tertentu dioptimalkan untuk format data tertentu. Alat visualisasi yang membantu Anda mengevaluasi {i>buffer<i} protokol, mungkin atau tidak mampu membantu Anda mengevaluasi data CSV.

Mengevaluasi data Anda secara statistik

Selain analisis visual, kami juga merekomendasikan untuk mengevaluasi fitur potensial dan label secara matematis, mengumpulkan statistik dasar seperti:

  • rata-rata dan median
  • simpangan baku
  • nilai pada pembagian kuartil: ke-0, 25, 50, 75, dan 100 persentil. Persentil ke-0 adalah nilai minimum kolom ini; tindakan Persentil ke-100 adalah nilai maksimum kolom ini. (Persentil 50% adalah mediannya.)

Menemukan pencilan

Pencilan adalah nilai yang jauh dari sebagian besar nilai lain dalam suatu fitur atau label. {i>Outlier <i}sering menyebabkan masalah di pelatihan model, jadi menemukan pencilan itu penting.

Ketika delta antara persentil ke-0 dan ke-25 berbeda secara signifikan dari delta di antara persentil ke-75 dan ke-100, {i>dataset<i} itu mungkin berisi {i>outlier<i}.

{i>Outliers <i}dapat termasuk dalam kategori berikut:

  • Pencilan terjadi karena kekeliruan. Misalnya, mungkin pelaku eksperimen tidak sengaja memasukkan nol tambahan, atau mungkin instrumen yang mengumpulkan data tidak berfungsi. Anda biasanya akan menghapus contoh yang berisi pencilan kesalahan.
  • Pencilan adalah titik data yang sah, bukan kesalahan. Dalam hal ini, apakah model yang Anda latih akan pada akhirnya perlu menyimpulkan prediksi yang baik pada {i>outlier <i}ini?
    • Jika ya, simpan pencilan ini di set pelatihan Anda. Bagaimanapun juga, {i>outlier<i} dalam fitur tertentu terkadang mencerminkan pencilan dalam label, sehingga pencilan sebenarnya dapat membantu model Anda membuat prediksi yang lebih baik. Hati-hati, pencilan yang ekstrem masih dapat merusak model.
    • Jika tidak, hapus pencilan atau terapkan rekayasa fitur yang lebih invasif tertentu, seperti pemotongan (clipping).