Data numerik: Kesimpulan

Kondisi model machine learning (ML) ditentukan oleh datanya. Beri membuat model data yang sehat dan akan berkembang; beri umpan sampah modelmu dan prediksi tidak akan berguna.

Praktik terbaik untuk bekerja dengan data numerik:

  • Ingat bahwa model ML Anda berinteraksi dengan data di vektor fitur, bukan data di dalam set data.
  • Normalisasi paling sering fitur numerik.
  • Jika strategi normalisasi pertama tidak berhasil, pertimbangkan metode lain untuk melakukan normalisasi data.
  • Binning, juga disebut sebagai pengelompokan, terkadang lebih baik dari normalisasi.
  • Dengan mempertimbangkan seharusnya data Anda, tulis verifikasi berbagai tes untuk memvalidasi ekspektasi tersebut. Contoh:
    • Nilai mutlak lintang tidak boleh melebihi 90. Anda dapat menulis uji untuk memeriksa apakah nilai lintang yang lebih besar dari 90 muncul dalam data Anda.
    • Jika data Anda dibatasi untuk negara bagian Florida, Anda dapat menulis pengujian untuk memeriksa apakah garis lintang berada di antara 24 hingga 31, inklusif.
  • Visualisasikan data Anda dengan diagram sebar dan histogram. Carilah siapa anomali.
  • Kumpulkan statistik tidak hanya pada seluruh {i>dataset<i} tetapi juga pada {i>dataset<i} yang lebih kecil {i>subset <i}dari {i>dataset <i}tersebut. Itu karena statistik gabungan terkadang mengaburkan masalah di bagian-bagian yang lebih kecil dari {i>dataset<i}.
  • Dokumentasikan semua transformasi data Anda.

Data adalah sumber daya Anda yang paling berharga, jadi perlakukan dengan hati-hati.

Informasi Tambahan

Langkah berikutnya

Selamat, Anda telah menyelesaikan modul ini!

Sebaiknya Anda mempelajari berbagai modul MLCC sesuai dengan kemampuan dan minat Anda sendiri. Jika Anda ingin mengikuti pesanan yang disarankan, sebaiknya Anda melanjutkan ke modul berikut: Merepresentasikan data kategori.