Bekerja dengan data numerik

Praktisi ML menghabiskan jauh lebih banyak waktu untuk mengevaluasi, membersihkan, dan mentransformasi data daripada membangun model. Data sangat penting sehingga kursus ini mendedikasikan tiga unit untuk topiknya:

Unit ini berfokus pada data numerik, yang berarti bilangan bulat atau nilai floating point yang berperilaku seperti angka. Yaitu, mereka adalah tambahan, dapat dihitung, diurutkan, dan seterusnya. Unit berikutnya berfokus pada data kategorik, yang dapat termasuk angka yang berperilaku seperti kategori. Unit ketiga berfokus pada cara mempersiapkan data Anda untuk memastikan hasil yang berkualitas tinggi saat melatih dan mengevaluasi model Anda.

Contoh data numerik meliputi:

  • Suhu
  • Berat
  • Jumlah rusa yang musim dingin di cagar alam

Sebaliknya, kode pos AS, meskipun angka yang terdiri dari lima digit atau sembilan digit, tidak berperilaku seperti angka atau mewakili hubungan matematis. Kode pos 40004 (di Nelson County, Kentucky) adalah tidak dua kali lipat jumlah kode pos 20002 (di Washington, D.C.). Angka ini merepresentasikan kategori, khususnya area geografis, dan dianggap data kategorik.