Set data, generalisasi, dan overfitting

Tujuan pembelajaran

Identifikasi empat karakteristik yang berbeda dari data dan {i>dataset<i}.
Identifikasi setidaknya empat penyebab berbeda dari ketidakandalan data.
Tentukan kapan harus menghapus data yang hilang dan kapan harus mengimputasinya.
Membedakan antara label langsung dan turunan.
Identifikasi dua cara berbeda untuk meningkatkan kualitas label yang diberi rating manusia.
Menjelaskan mengapa membagi {i>dataset <i}menjadi satu set pelatihan, set validasi, dan set pengujian; mengidentifikasi potensi masalah dalam pembagian data.
Jelaskan overfitting dan identifikasi tiga kemungkinan penyebabnya.
Jelaskan konsep regularisasi. Secara khusus, jelaskan berikut ini:
- Bias versus varians (adaptasi ke pencilan...)
- Regularisasi L₂, termasuk Lambda (derajat regularisasi)
- Penghentian awal
Menafsirkan berbagai jenis kurva kerugian; mendeteksi konvergensi dan overfitting dalam kurva kerugian.

Pengantar

Modul ini dimulai dengan pertanyaan utama. Pilih salah satu jawaban berikut:

Jika Anda harus memprioritaskan peningkatan salah satu area berikut dalam project machine learning, manakah yang akan memiliki dampak terbesar?

Meningkatkan kualitas set data Anda

Data mengalahkan semuanya. Kualitas dan ukuran set data jauh lebih penting daripada algoritma yang Anda gunakan untuk membuat model.

Menerapkan fungsi kerugian yang lebih cerdas untuk melatih model

Memang benar, fungsi loss yang lebih baik dapat membantu model dilatih lebih cepat, tetapi masih jauh di bawah item lain dalam daftar ini.

Dan inilah pertanyaan yang jauh lebih penting:

Coba tebak: Dalam project machine learning Anda, berapa lama waktu yang biasanya Anda habiskan untuk persiapan dan transformasi data?

Lebih dari setengah waktu proyek

Ya, praktisi ML menghabiskan sebagian besar waktu mereka membangun set data dan melakukan rekayasa fitur.

Kurang dari setengah waktu proyek

Rencanakan lebih banyak lagi. Biasanya, 80% waktu pada project machine learning dihabiskan untuk membuat set data dan mengubah data.

Dalam modul ini, Anda akan mempelajari lebih lanjut karakteristik machine learning {i>dataset<i}, dan cara mempersiapkan data Anda untuk memastikan hasil yang berkualitas tinggi. melatih dan mengevaluasi model Anda.

Sebelumnya

Uji pengetahuan Anda (10 menit)

Berikutnya

Karakteristik data (10 mnt)

Set data, generalisasi, dan overfitting Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Pengantar

Set data, generalisasi, dan overfitting