Modul sebelumnya memperkenalkan partisi set data ke dalam set pelatihan dan pengujian. Partisi ini memungkinkan Anda melatih satu set contoh, lalu menguji model terhadap serangkaian contoh yang berbeda. Dengan dua partisi, alur kerjanya dapat terlihat sebagai berikut:
Gambar 1. Kemungkinan alur kerja?
Dalam gambar, "Menyesuaikan model" berarti menyesuaikan apa pun tentang model yang dapat Anda bayangkan—mulai dari mengubah kecepatan pembelajaran, menambahkan atau menghapus fitur, hingga mendesain model yang benar-benar baru dari awal. Di akhir alur kerja ini, Anda memilih model dengan performa terbaik pada set pengujian.
Membagi {i>dataset<i} menjadi dua {i>dataset<i} adalah ide yang baik, tetapi bukan solusi ampuh. Anda dapat mengurangi peluang overfit secara signifikan dengan mempartisi set data menjadi tiga subset yang ditampilkan dalam gambar berikut:
Gambar 2. Membagi satu set data menjadi tiga subset.
Gunakan set validasi untuk mengevaluasi hasil dari set pelatihan. Kemudian, gunakan set pengujian untuk memeriksa kembali evaluasi Anda setelah model "lulus" set validasi. Gambar berikut menunjukkan alur kerja baru ini:
Gambar 3. Alur kerja yang lebih baik.
Dalam alur kerja yang ditingkatkan ini:
- Pilih model dengan performa terbaik pada set validasi.
- Periksa kembali model tersebut terhadap set pengujian.
Ini adalah alur kerja yang lebih baik karena menghasilkan lebih sedikit eksposur ke set pengujian.