Kita kembali ke Playground untuk bereksperimen dengan set pelatihan
dan set pengujian.
Klik ikon plus untuk pengingat tentang arti titik oranye dan biru.
Dalam visualisasi:
Setiap titik biru menandakan satu contoh dari satu kelas data (misalnya,
spam).
Setiap titik oranye menandakan satu contoh class data lainnya (misalnya, bukan spam).
Warna latar belakang mewakili prediksi model tempat contoh
warna tersebut seharusnya ditemukan. Latar belakang biru di sekitar titik biru
menandakan bahwa model memprediksi contoh tersebut dengan benar. Sebaliknya, latar belakang oranye di sekitar titik biru berarti bahwa model tersebut membuat prediksi yang salah untuk contoh tersebut.
Latihan ini memberikan set pengujian dan pelatihan, keduanya diambil dari
set data yang sama. Secara default, visualisasi hanya menampilkan set
pelatihan. Jika Anda juga ingin melihat set pengujian, klik
kotak centang Show test data tepat di bawah visualisasi. Dalam
visualisasi, perhatikan perbedaan berikut:
Contoh pelatihan memiliki garis luar putih.
Contoh pengujian memiliki garis batas berwarna hitam.
Tugas 1: Jalankan Playground menggunakan setelan tertentu dengan melakukan
hal berikut:
Klik tombol Run/Pause:
Tonton perubahan nilai Kerugian pengujian dan Kerugian pelatihan.
Saat nilai Kerugian pengujian dan kerugian Pelatihan berhenti berubah atau hanya berubah sesekali, tekan tombol Run/Pause lagi untuk menjeda Playground.
Perhatikan delta antara Kerugian pengujian dan Kerugian pelatihan. Kita akan mencoba mengurangi
delta ini dalam tugas-tugas berikut.
Apakah delta antara Kerugian pengujian dan Kerugian pelatihan lebih rendah atau
lebih tinggi dengan Kecepatan pembelajaran baru ini? Apa yang terjadi jika Anda mengubah Kecepatan pembelajaran dan ukuran tumpukan?
Tugas Opsional 3: Penggeser berlabel Persentase data pelatihan
memungkinkan Anda mengontrol proporsi data pelatihan ke data pengujian. Misalnya,
jika ditetapkan ke 90%, 90% dari data akan digunakan untuk set pelatihan dan 10% sisanya digunakan untuk set pengujian.
Lakukan hal berikut:
Kurangi "Persentase data pelatihan" dari 50% menjadi 10%.
Lakukan eksperimen dengan Kecepatan pembelajaran dan Ukuran tumpukan, dengan mencatat
temuan Anda.
Apakah mengubah persentase data pelatihan mengubah setelan
pembelajaran optimal yang Anda temukan di Tugas 2? Jika demikian, mengapa?
Klik ikon plus untuk jawaban Tugas 1.
Dengan kecepatan pembelajaran ditetapkan ke 3 (setelan awal), Kerugian pengujian secara signifikan lebih tinggi daripada Kerugian pelatihan.
Klik ikon plus untuk jawaban Tugas 2.
Dengan mengurangi kecepatan pembelajaran (misalnya, hingga 0,001),
nilai Kerugian pengujian turun jauh mendekati Kerugian pelatihan. Dalam sebagian besar sesi,
peningkatan Ukuran tumpukan tidak memengaruhi Kerugian pelatihan atau Kerugian
pengujian secara signifikan. Namun, dalam sebagian kecil operasi, meningkatkan Ukuran tumpukan menjadi 20 atau lebih besar menyebabkan Kerugian pengujian sedikit turun di bawah Kerugian pelatihan.
Set data Playground dibuat secara acak. Akibatnya, jawaban kita mungkin tidak selalu sesuai dengan jawaban Anda.
Klik ikon plus untuk jawaban Tugas 3.
Mengurangi persentase data Pelatihan dari 50% menjadi 10% menurunkan
jumlah titik data dalam set pelatihan secara drastis. Dengan sedikit data, ukuran tumpukan yang tinggi dan kecepatan pembelajaran yang tinggi menyebabkan model pelatihan melompat-lompat yang tidak teratur (melompat berulang kali di atas titik minimum).