Data numerik: Langkah pertama

Sebelum membuat vektor fitur, sebaiknya pelajari data numerik dengan dua cara:

  • Visualisasikan data Anda dalam plot atau grafik.
  • Mendapatkan statistik tentang data Anda.

Memvisualisasikan data Anda

Grafik dapat membantu Anda menemukan anomali atau pola yang tersembunyi dalam data. Oleh karena itu, sebelum melakukan analisis lebih lanjut, lihat data Anda secara grafis, baik sebagai plot sebar maupun histogram. Lihat grafik tidak hanya di awal pipeline data, tetapi juga di seluruh transformasi data. Visualisasi membantu Anda terus memeriksa asumsi.

Sebaiknya gunakan pandas untuk visualisasi:

Perhatikan bahwa alat visualisasi tertentu dioptimalkan untuk format data tertentu. Alat visualisasi yang membantu Anda mengevaluasi buffering protokol mungkin dapat atau tidak dapat membantu Anda mengevaluasi data CSV.

Mengevaluasi data secara statistik

Selain analisis visual, sebaiknya evaluasi potensi fitur dan label secara matematis, dengan mengumpulkan statistik dasar seperti:

  • rata-rata dan median
  • simpangan baku
  • nilai pada pembagian kuartil: persentil ke-0, 25, 50, 75, dan 100. Persentil ke-0 adalah nilai minimum kolom ini; persentil ke-100 adalah nilai maksimum kolom ini. (Persentil ke-50 adalah median.)

Menemukan outlier

Pengabaian adalah nilai yang jauh dari sebagian besar nilai lainnya dalam fitur atau label. Pencilan sering kali menyebabkan masalah dalam pelatihan model, sehingga menemukan pencilan sangatlah penting.

Jika delta antara persentil ke-0 dan ke-25 berbeda secara signifikan dari delta antara persentil ke-75 dan ke-100, set data mungkin berisi outlier.

Nilai ekstrem dapat termasuk dalam salah satu kategori berikut:

  • Pengecualian terjadi karena kesalahan. Misalnya, mungkin eksperimen salah memasukkan angka nol tambahan, atau mungkin instrumen yang mengumpulkan data mengalami malfungsi. Anda biasanya akan menghapus contoh yang berisi outlier kesalahan.
  • Pengecualian adalah titik data yang sah, bukan kesalahan. Dalam hal ini, apakah model terlatih Anda akhirnya perlu menyimpulkan prediksi yang baik pada outlier ini?
    • Jika ya, pertahankan outlier ini dalam set pelatihan Anda. Bagaimanapun, outlier dalam fitur tertentu terkadang mencerminkan outlier dalam label, sehingga outlier sebenarnya dapat membantu model Anda membuat prediksi yang lebih baik. Hati-hati, outlier ekstrem masih dapat merusak model Anda.
    • Jika tidak, hapus outlier atau terapkan teknik rekayasa fitur yang lebih agresif, seperti pemangkasan.