Data kategorikal: Latihan silang fitur

Playground adalah aplikasi interaktif yang memungkinkan Anda memanipulasi berbagai pelatihan dan pengujian model machine learning. Dengan Playground, Anda dapat memilih fitur dan menyesuaikan hyperparameter, dan kemudian temukan bagaimana pilihan Anda memengaruhi sebuah model.

Halaman ini berisi dua latihan Playground.

Latihan 1: Persilangan fitur dasar

Untuk latihan ini, fokus pada bagian Playground berikut antarmuka pengguna:

  • Di bawah FITUR, perhatikan tiga fitur model potensial:
    • 1
    • x2
    • x1x2
  • Di bawah OUTPUT, Anda akan melihat kotak yang berisi warna oranye dan titik biru. Bayangkan Anda sedang melihat hutan persegi, di mana titik oranye menandai posisi pohon yang sakit dan titik biru menandai posisi pohon yang sehat.
  • Di antara FITUR dan OUTPUT, jika melihat lebih dekat, Anda akan melihat tiga garis putus-putus samar yang menghubungkan setiap fitur ke {i>output<i}. Lebar setiap garis putus-putus melambangkan bobot yang saat ini terkait dengan setiap fitur. Garis-garis ini sangat lemah karena bobot awal untuk setiap fitur diinisialisasi ke 0. Seiring bertambahnya berat atau menyusut, jadi ketebalan garis ini.

Tugas 1: Jelajahi Playground dengan melakukan hal berikut:

  1. Klik garis samar yang menghubungkan fitur x1 ke output. Pop-up akan muncul.
  2. Pada pop-up, masukkan berat 1.0.
  3. Tekan Enter.

Perhatikan catatan berikut:

  • Garis putus-putus untuk x1 menjadi lebih tebal seiring bertambahnya bobot dari 0 hingga 1.0.
  • Latar belakang oranye dan biru kini akan muncul.
    • Latar belakang oranye adalah tebakan model tentang di mana pohon yang sakit alamat IP internalnya.
    • Latar belakang biru adalah tebakan model tentang lokasi pohon yang sehat alamat IP internalnya. Model melakukan pekerjaan yang buruk; sekitar setengah tebakan model salah.
  • Karena bobotnya 1,0 untuk x1 dan 0 untuk fitur lainnya, model sama persis dengan nilai x1.

Tugas 2: Ubah bobot salah satu atau ketiga fitur tersebut sehingga (warna latar belakang) berhasil memprediksi sakit dan sehat pohon. Solusinya muncul tepat di bawah Playground.



Latihan 2: Persilangan fitur yang lebih canggih

Untuk latihan kedua, lihat susunan titik-titik oranye (pohon yang sakit) dan titik biru (pohon sehat) dalam model output, dengan memperhatikan hal berikut:

  • Titik-titik tersebut membentuk pola sferis.
  • Susunan titik-titiknya berisik; misalnya, perhatikan sesekali warna biru titik-titik di bola luar berupa titik-titik oranye. Oleh karena itu, bahkan model yang hebat kemungkinan tidak dapat memprediksi setiap titik dengan benar.

Tugas 1: Jelajahi UI Playground dengan melakukan hal berikut:

  1. Klik tombol Run/Pause, yaitu segitiga putih di dalam kotak hitam lingkaran. Playground akan mulai melatih model; mengamati penghitung Epochs meningkat.
  2. Setelah sistem dilatih setidaknya selama 300 epoch, tekan tombol yang sama Tombol Run/Pause untuk menjeda pelatihan.
  3. Perhatikan modelnya. Apakah modelnya membuat prediksi yang baik? Dengan kata lain, {i>SUMIF<i} memiliki daftar sel adalah titik-titik biru yang umumnya dikelilingi oleh latar belakang biru, dan merupakan titik-titik oranye umumnya dikelilingi oleh latar belakang oranye?
  4. Periksa nilai Kerugian pengujian, yang muncul tepat di bawah OUTPUT. Apakah ini jika nilainya mendekati 1,0 (kerugian lebih tinggi) atau lebih dekat ke 0 (kerugian lebih rendah)?
  5. Reset Playground dengan menekan panah melengkung ke kiri Tombol Run/Pause.

Tugas 2: Buat model yang lebih baik dengan melakukan hal berikut:

  1. Pilih atau batalkan pilihan kombinasi dari lima fitur yang tersedia.
  2. Sesuaikan kecepatan pembelajaran.
  3. Latih sistem setidaknya 500 epoch.
  4. Periksa nilai Kerugian pengujian. Bisakah Anda mendapatkan Kerugian pengujian kurang dari 0,2?

Solusi muncul di bawah Playground.