Set data, generalisasi, dan overfit

Pengantar

Modul ini dimulai dengan pertanyaan utama. Pilih salah satu jawaban berikut:

Jika Anda harus memprioritaskan untuk memperbaiki salah satu area berikut dalam project machine learning Anda, yang akan memberikan dampak?
Meningkatkan kualitas set data Anda
Data mengalahkan segalanya. Kualitas dan ukuran {i>dataset<i} menjadi jauh lebih penting canggih yang Anda gunakan untuk membangun model.
Menerapkan fungsi kerugian yang lebih cerdas untuk melatih model Anda
Benar, fungsi kerugian yang lebih baik dapat membantu model berlatih lebih cepat, tetapi jaraknya masih terlalu jauh dari item lain dalam daftar ini.

Dan inilah pertanyaan yang jauh lebih penting:

Coba tebak: Dalam project machine learning Anda, berapa lama waktu yang biasanya Anda habiskan untuk persiapan dan transformasi data?
Lebih dari setengah waktu proyek
Ya, praktisi ML menghabiskan sebagian besar waktu mereka membangun set data dan melakukan rekayasa fitur.
Kurang dari setengah waktu proyek
Rencanakan untuk yang lain! Biasanya, 80% waktu penggunaan machine learning proyek dihabiskan untuk membangun {i>dataset<i} dan mengubah data.

Dalam modul ini, Anda akan mempelajari lebih lanjut karakteristik machine learning {i>dataset<i}, dan cara mempersiapkan data Anda untuk memastikan hasil yang berkualitas tinggi. melatih dan mengevaluasi model Anda.