Data numerik: Kesimpulan

Kondisi model machine learning (ML) ditentukan oleh datanya. Berikan data yang baik ke model Anda dan model akan berkembang; berikan sampah ke model Anda dan prediksinya tidak akan berguna.

Praktik terbaik untuk menggunakan data numerik:

  • Ingat bahwa model ML Anda berinteraksi dengan data dalam vektor fitur, bukan data dalam set data.
  • Normalisasi sebagian besar fitur numerik.
  • Jika strategi normalisasi pertama tidak berhasil, pertimbangkan cara lain untuk menormalisasi data Anda.
  • Pengelompokan, yang juga disebut sebagai bucketing, terkadang lebih baik daripada normalisasi.
  • Dengan mempertimbangkan seharusnya data Anda seperti apa, tulis pengujian verifikasi untuk memvalidasi ekspektasi tersebut. Contoh:
    • Nilai mutlak lintang tidak boleh melebihi 90. Anda dapat menulis pengujian untuk memeriksa apakah nilai lintang yang lebih besar dari 90 muncul dalam data Anda.
    • Jika data Anda dibatasi untuk negara bagian Florida, Anda dapat menulis pengujian untuk memeriksa apakah lintang berada antara 24 hingga 31, inklusif.
  • Visualisasikan data Anda dengan diagram pencar dan histogram. Cari anomali.
  • Kumpulkan statistik tidak hanya di seluruh set data, tetapi juga di subkumpulan set data yang lebih kecil. Hal ini karena statistik gabungan terkadang menyembunyikan masalah di bagian yang lebih kecil dari set data.
  • Dokumentasikan semua transformasi data Anda.

Data adalah aset Anda yang paling berharga, jadi perlakukan dengan hati-hati.

Informasi Tambahan

  • Panduan Aturan Machine Learning berisi bagian Rekayasa Fitur yang berharga.

Langkah berikutnya

Selamat, Anda telah menyelesaikan modul ini!

Sebaiknya Anda menjelajahi berbagai modul MLCC sesuai minat dan kecepatan Anda sendiri. Jika Anda ingin mengikuti urutan yang direkomendasikan, sebaiknya Anda melanjutkan ke modul berikut: Merepresentasikan data kategoris.