Framing: Periksa Pemahaman Anda

Pembelajaran yang Diawasi

Pelajari opsi-opsi di bawah.

Misalkan Anda ingin mengembangkan model machine learning yang diawasi untuk memprediksi apakah email tertentu adalah "spam" atau "bukan spam." Manakah dari pernyataan berikut yang benar?
Email yang tidak ditandai sebagai "spam" atau "bukan spam" adalah contoh tak berlabel.
Karena label kita terdiri dari nilai "spam" dan "bukan spam", email apa pun yang belum ditandai sebagai spam atau bukan spam adalah contoh tak berlabel.
Kata-kata dalam header subjek akan menjadi label yang baik.
Kata-kata dalam header subjek mungkin akan menjadi fitur yang sangat bagus, tetapi tidak akan menjadi label yang baik.
Kita akan menggunakan contoh tak berlabel untuk melatih model.
Kita akan menggunakan contoh berlabel untuk melatih model. Kemudian, kami dapat menjalankan model yang terlatih terhadap contoh tak berlabel guna menyimpulkan apakah pesan email tidak berlabel adalah spam atau bukan spam.
Label yang diterapkan pada beberapa contoh mungkin tidak dapat diandalkan.
Ya, ada. Penting untuk memeriksa seberapa andal data Anda. Label untuk set data ini mungkin berasal dari pengguna email yang menandai pesan email tertentu sebagai spam. Karena sebagian besar pengguna tidak menandai setiap pesan email yang mencurigakan sebagai spam, kami mungkin kesulitan mengetahui apakah email tersebut adalah spam. Selain itu, spammer dapat dengan sengaja meracuni model kami dengan memberikan label yang salah.

Fitur dan Label

Pelajari opsi-opsi di bawah.

Misalnya, toko sepatu online ingin membuat model ML yang diawasi yang akan memberikan rekomendasi sepatu yang dipersonalisasi kepada pengguna. Artinya, model tersebut akan merekomendasikan sepasang sepatu tertentu kepada Marty dan sepasang sepatu yang berbeda untuk Janet. Sistem akan menggunakan data perilaku pengguna terdahulu untuk membuat data pelatihan. Manakah dari pernyataan berikut yang benar?
"Ukuran sepatu" adalah fitur yang bermanfaat.
"Ukuran sepatu" adalah sinyal terukur yang kemungkinan memiliki dampak yang kuat pada apakah pengguna akan menyukai sepatu yang direkomendasikan. Misalnya, jika Marty memakai ukuran 9, model tidak boleh merekomendasikan sepatu ukuran 7.
"Kecantikan sepatu" adalah fitur yang bermanfaat.
Fitur yang baik bersifat konkret dan dapat diukur. Kecantikan terlalu konsep yang samar untuk digunakan sebagai fitur yang berguna. Kecantikan mungkin merupakan perpaduan dari fitur konkret tertentu, seperti gaya dan warna. Gaya dan warna masing-masing akan menjadi fitur yang lebih baik daripada kecantikan.
"Pengguna mengklik deskripsi sepatu" adalah label yang berguna.
Pengguna mungkin hanya ingin membaca lebih lanjut tentang sepatu yang mereka sukai. Oleh karena itu, klik oleh pengguna adalah metrik yang dapat diukur dan dapat dikenali yang dapat berfungsi sebagai label pelatihan yang baik. Karena data pelatihan kami berasal dari perilaku pengguna di masa lalu, label kami harus berasal dari perilaku tujuan seperti klik yang sangat berkorelasi dengan preferensi pengguna.
"Sepatu yang dikagumi pengguna" adalah label yang berguna.
Adorasi bukanlah metrik yang dapat diukur dan dapat diamati. Cara terbaik yang dapat kami lakukan adalah menelusuri metrik proxy yang dapat diobservasi untuk memuji.