Praktisi ML menghabiskan jauh lebih banyak waktu untuk mengevaluasi, membersihkan, dan mentransformasi data daripada membangun model. Data sangat penting sehingga kursus ini mendedikasikan tiga unit untuk topiknya:
- Bekerja dengan data numerik (satuan ini)
- Bekerja dengan data kategorik
- Set data, generalisasi, dan overfitting
Unit ini berfokus pada data numerik, yang berarti bilangan bulat atau nilai floating point yang berperilaku seperti angka. Yaitu, mereka adalah tambahan, dapat dihitung, diurutkan, dan seterusnya. Unit berikutnya berfokus pada data kategorik, yang dapat termasuk angka yang berperilaku seperti kategori. Unit ketiga berfokus pada cara mempersiapkan data Anda untuk memastikan hasil yang berkualitas tinggi saat melatih dan mengevaluasi model Anda.
Contoh data numerik meliputi:
- Suhu
- Berat
- Jumlah rusa yang musim dingin di cagar alam
Sebaliknya, kode pos AS, meskipun angka yang terdiri dari lima digit atau sembilan digit, tidak berperilaku seperti angka atau mewakili hubungan matematis. Kode pos 40004 (di Nelson County, Kentucky) adalah tidak dua kali lipat jumlah kode pos 20002 (di Washington, D.C.). Angka ini merepresentasikan kategori, khususnya area geografis, dan dianggap data kategorik.