Framing: Terminologi Utama ML

Apa yang dimaksud dengan (machine learning) yang diawasi? Ringkasnya, kode berikut adalah:

  • Sistem ML mempelajari cara menggabungkan input untuk menghasilkan prediksi yang berguna pada data yang belum pernah dilihat sebelumnya.

Mari jelajahi terminologi dasar machine learning.

Label

Label adalah hal yang kami prediksi—variabel y dalam regresi linear sederhana. Label dapat berupa harga gandum di masa mendatang, jenis hewan yang ditampilkan dalam gambar, arti klip audio, atau apa saja.

Fitur

Fitur adalah variabel input—variabel x dalam regresi linear sederhana. Project machine learning sederhana dapat menggunakan satu fitur, sedangkan project machine learning yang lebih canggih dapat menggunakan jutaan fitur, yang ditentukan sebagai:

\[\\{x_1, x_2, ... x_N\\}\]

Dalam contoh pendeteksi spam, fitur dapat mencakup hal berikut:

  • kata-kata dalam teks email
  • alamat pengirim
  • waktu ketika email dikirim
  • email berisi frasa "satu trik aneh."

Contoh

Contoh adalah instance data tertentu, x. (Kita menempatkan x dalam huruf tebal untuk menunjukkan bahwa contoh tersebut adalah vektor.) Kami membagi contoh menjadi dua kategori:

  • contoh berlabel
  • contoh tak berlabel

Contoh berlabel mencakup fitur dan label. Definisinya yaitu:

  labeled examples: {features, label}: (x, y)

Gunakan contoh berlabel untuk melatih model. Dalam contoh pendeteksi spam kami, contoh berlabel adalah email individual yang secara eksplisit ditandai pengguna sebagai "spam" atau "bukan spam."

Misalnya, tabel berikut menunjukkan 5 contoh berlabel dari set data yang berisi informasi tentang harga perumahan di California:

perumahanMedianAge
(fitur)
totalRooms
(fitur)
totalBedrooms
(fitur)
medianHouseValue
(label)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

Contoh tak berlabel berisi fitur tetapi bukan label. Definisinya yaitu:

  unlabeled examples: {features, ?}: (x, ?)

Berikut adalah 3 contoh tak berlabel dari set data perumahan yang sama, yang mengecualikan medianHouseValue:

perumahanMedianAge
(fitur)
totalRooms
(fitur)
totalBedrooms
(fitur)
42 1686 361
34 1226 180
33 1077 271

Setelah melatih model dengan contoh berlabel, kita gunakan model tersebut untuk memprediksi label pada contoh yang tidak berlabel. Dalam pendeteksi spam, contoh tak berlabel adalah email baru yang belum diberi label oleh manusia.

Model

Model menentukan hubungan antara fitur dan label. Misalnya, model deteksi spam mungkin mengaitkan fitur tertentu dengan "quot;spam". Mari kita sorot dua fase dalam kehidupan model:

  • Pelatihan berarti membuat atau mempelajari model. Artinya, Anda menampilkan contoh berlabel model dan memungkinkan model untuk secara bertahap mempelajari hubungan antara fitur dan label.

  • Inferensi berarti menerapkan model yang dilatih ke contoh tak berlabel. Artinya, Anda menggunakan model terlatih untuk membuat prediksi yang berguna (y'). Misalnya, selama inferensi, Anda dapat memprediksi medianHouseValue untuk contoh baru yang tidak berlabel.

Regresi vs. klasifikasi

Model regresi memprediksi nilai kontinu. Misalnya, model regresi membuat prediksi yang menjawab pertanyaan seperti berikut:

  • Berapa nilai rumah di California?

  • Seberapa besar kemungkinan pengguna akan mengklik iklan ini?

Model klasifikasi memprediksi nilai terpisah. Misalnya, model klasifikasi membuat prediksi yang menjawab pertanyaan seperti berikut:

  • Apakah pesan email tertentu merupakan spam atau bukan spam?

  • Apakah ini gambar anjing, kucing, atau hamster?