Apa yang dimaksud dengan (machine learning) yang diawasi? Ringkasnya, kode berikut adalah:
- Sistem ML mempelajari cara menggabungkan input untuk menghasilkan prediksi yang berguna pada data yang belum pernah dilihat sebelumnya.
Mari jelajahi terminologi dasar machine learning.
Label
Label adalah hal yang kami prediksi—variabel y
dalam
regresi linear sederhana. Label dapat berupa harga gandum di masa mendatang, jenis hewan yang ditampilkan dalam gambar, arti klip audio, atau apa saja.
Fitur
Fitur adalah variabel input—variabel x
dalam regresi linear
sederhana. Project machine learning sederhana dapat menggunakan satu fitur, sedangkan project machine learning yang lebih canggih dapat menggunakan jutaan fitur, yang ditentukan sebagai:
\[\\{x_1, x_2, ... x_N\\}\]
Dalam contoh pendeteksi spam, fitur dapat mencakup hal berikut:
- kata-kata dalam teks email
- alamat pengirim
- waktu ketika email dikirim
- email berisi frasa "satu trik aneh."
Contoh
Contoh adalah instance data tertentu, x. (Kita menempatkan x dalam huruf tebal untuk menunjukkan bahwa contoh tersebut adalah vektor.) Kami membagi contoh menjadi dua kategori:
- contoh berlabel
- contoh tak berlabel
Contoh berlabel mencakup fitur dan label. Definisinya yaitu:
labeled examples: {features, label}: (x, y)
Gunakan contoh berlabel untuk melatih model. Dalam contoh pendeteksi spam kami, contoh berlabel adalah email individual yang secara eksplisit ditandai pengguna sebagai "spam" atau "bukan spam."
Misalnya, tabel berikut menunjukkan 5 contoh berlabel dari set data yang berisi informasi tentang harga perumahan di California:
perumahanMedianAge (fitur) |
totalRooms (fitur) |
totalBedrooms (fitur) |
medianHouseValue (label) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
Contoh tak berlabel berisi fitur tetapi bukan label. Definisinya yaitu:
unlabeled examples: {features, ?}: (x, ?)
Berikut adalah 3 contoh tak berlabel dari set data perumahan yang sama,
yang mengecualikan medianHouseValue
:
perumahanMedianAge (fitur) |
totalRooms (fitur) |
totalBedrooms (fitur) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
Setelah melatih model dengan contoh berlabel, kita gunakan model tersebut untuk memprediksi label pada contoh yang tidak berlabel. Dalam pendeteksi spam, contoh tak berlabel adalah email baru yang belum diberi label oleh manusia.
Model
Model menentukan hubungan antara fitur dan label. Misalnya, model deteksi spam mungkin mengaitkan fitur tertentu dengan "quot;spam". Mari kita sorot dua fase dalam kehidupan model:
Pelatihan berarti membuat atau mempelajari model. Artinya, Anda menampilkan contoh berlabel model dan memungkinkan model untuk secara bertahap mempelajari hubungan antara fitur dan label.
Inferensi berarti menerapkan model yang dilatih ke contoh tak berlabel. Artinya, Anda menggunakan model terlatih untuk membuat prediksi yang berguna (
y'
). Misalnya, selama inferensi, Anda dapat memprediksimedianHouseValue
untuk contoh baru yang tidak berlabel.
Regresi vs. klasifikasi
Model regresi memprediksi nilai kontinu. Misalnya, model regresi membuat prediksi yang menjawab pertanyaan seperti berikut:
Berapa nilai rumah di California?
Seberapa besar kemungkinan pengguna akan mengklik iklan ini?
Model klasifikasi memprediksi nilai terpisah. Misalnya, model klasifikasi membuat prediksi yang menjawab pertanyaan seperti berikut:
Apakah pesan email tertentu merupakan spam atau bukan spam?
Apakah ini gambar anjing, kucing, atau hamster?