Pertanyaan berikut membantu Anda memperkuat pemahaman tentang konsep ML inti.
Kemampuan prediktif
Model ML tersupervisi dilatih menggunakan set data dengan contoh berlabel. Model
mempelajari cara memprediksi label dari fitur. Namun, tidak semua fitur dalam set data memiliki kekuatan prediktif. Dalam beberapa kasus, hanya beberapa fitur yang berfungsi sebagai
prediktor label. Dalam set data di bawah, gunakan harga sebagai label
dan kolom lainnya sebagai fitur.
Menurut Anda, tiga fitur mana yang kemungkinan merupakan prediktor terbesar untuk harga mobil?
Make_model, year, miles.
Merek/model, tahun, dan jarak tempuh mobil kemungkinan merupakan salah satu prediktor terkuat untuk harganya.
Warna, tinggi, make_model.
Tinggi dan warna mobil bukanlah prediktor yang kuat untuk harga mobil.
Miles, gearbox, make_model.
Kotak roda gigi bukan merupakan prediktor utama harga.
Tire_size, wheel_base, year.
Ukuran ban dan jarak sumbu roda bukanlah prediktor kuat untuk harga mobil.
Supervised learning dan unsupervised learning
Berdasarkan masalahnya, Anda akan menggunakan pendekatan yang diawasi atau tidak diawasi.
Misalnya, jika Anda mengetahui nilai atau kategori yang ingin diprediksi sebelumnya,
Anda akan menggunakan pembelajaran dengan pengawasan. Namun, jika ingin mempelajari apakah set data Anda
berisi segmentasi atau pengelompokan contoh terkait, Anda akan menggunakan
pembelajaran tanpa pengawasan.
Misalkan Anda memiliki set data pengguna untuk situs belanja online, dan set data tersebut berisi kolom berikut:
Jika ingin memahami jenis pengguna yang mengunjungi situs, apakah Anda akan menggunakan supervised learning atau unsupervised learning?
Unsupervised learning.
Karena kita ingin model mengelompokkan grup pelanggan terkait, kita akan menggunakan pembelajaran tanpa pengawasan. Setelah model mengelompokkan pengguna,
kita akan membuat nama sendiri untuk setiap cluster, misalnya,
"pencari diskon", "pemburu promo", "penjelajah", "setia",
dan "pengembara".
Pemelajaran dengan pengawasan karena saya mencoba memprediksi class
yang menjadi kategori pengguna.
Dalam supervised learning, set data harus berisi label yang Anda coba prediksi. Dalam set data, tidak ada label yang merujuk pada kategori pengguna.
Misalkan Anda memiliki set data penggunaan energi untuk rumah dengan kolom berikut:
Jenis ML apa yang akan Anda gunakan untuk memprediksi kilowatt jam yang digunakan per tahun untuk rumah yang baru dibangun?
Supervised learning.
Supervised learning dilatih pada contoh berlabel. Dalam set data ini,
"kilowatt hour yang digunakan per tahun" akan menjadi label karena ini adalah
nilai yang ingin Anda prediksi oleh model. Fiturnya adalah
"luas persegi”, "lokasi”, dan "tahun dibangun”.
Unsupervised learning.
Unsupervised learning menggunakan contoh tidak berlabel. Dalam contoh ini,
"kilowatt hour yang digunakan per tahun" akan menjadi label karena ini adalah
nilai yang Anda inginkan untuk diprediksi oleh model.
Misalkan Anda memiliki set data penerbangan dengan kolom berikut:
Jika ingin memprediksi biaya tiket bus, apakah Anda akan menggunakan
regresi atau klasifikasi?
Regresi
Output model regresi adalah nilai numerik.
Klasifikasi
Output model klasifikasi adalah nilai diskret,
biasanya berupa kata. Dalam hal ini, biaya tiket ekonomi adalah
nilai numerik.
Berdasarkan set data, dapatkah Anda melatih model klasifikasi
untuk mengklasifikasikan biaya tiket kelas ekonomi sebagai
"tinggi", "rata-rata", atau "rendah"?
Ya, tetapi kita harus mengonversi nilai numerik di kolom coach_ticket_cost
menjadi nilai kategoris terlebih dahulu.
Anda dapat membuat model klasifikasi dari set data.
Anda akan melakukan hal seperti berikut:
- Temukan biaya rata-rata tiket dari bandara keberangkatan ke bandara tujuan.
- Tentukan nilai minimum yang akan menjadi "tinggi", "sedang",
dan "rendah".
- Bandingkan biaya yang diprediksi dengan nilai minimum dan tampilkan kategori tempat nilai tersebut berada.
Tidak. Anda tidak dapat membuat model klasifikasi. Nilai
coach_ticket_cost
bersifat numerik, bukan kategoris.
Dengan sedikit usaha, Anda dapat membuat model klasifikasi.
Tidak. Model klasifikasi hanya memprediksi dua kategori, seperti
spam
atau not_spam
. Model ini harus memprediksi
tiga kategori.
Model klasifikasi dapat memprediksi beberapa kategori. Model ini
disebut model klasifikasi multi-class.
Melatih dan mengevaluasi
Setelah melatih model, kita mengevaluasinya menggunakan set data dengan contoh berlabel
dan membandingkan nilai prediksi model dengan nilai sebenarnya dari label.
Pilih dua jawaban terbaik untuk pertanyaan tersebut.
Jika prediksi model sangat jauh dari yang diharapkan, apa yang dapat Anda lakukan untuk meningkatkannya?
Latih ulang model, tetapi hanya gunakan fitur yang Anda yakini memiliki kekuatan prediktif terkuat untuk label.
Melatih ulang model dengan lebih sedikit fitur, tetapi memiliki kemampuan prediksi yang lebih baik, dapat menghasilkan model yang membuat prediksi yang lebih baik.
Anda tidak dapat memperbaiki model yang prediksinya jauh dari akurat.
Anda dapat memperbaiki model yang prediksinya salah. Sebagian besar model memerlukan beberapa putaran pelatihan hingga membuat prediksi yang berguna.
Latih ulang model menggunakan set data yang lebih besar dan lebih beragam.
Model yang dilatih pada set data dengan lebih banyak contoh dan rentang nilai yang lebih luas dapat menghasilkan prediksi yang lebih baik karena model memiliki solusi umum yang lebih baik untuk hubungan antara fitur dan label.
Coba pendekatan pelatihan yang berbeda. Misalnya, jika Anda menggunakan pendekatan yang diawasi, coba pendekatan yang tidak diawasi.
Pendekatan pelatihan yang berbeda tidak akan menghasilkan prediksi yang lebih baik.
Sekarang Anda siap untuk mengambil langkah berikutnya dalam perjalanan ML:
Buku Panduan People + AI. Jika Anda
mencari serangkaian metode, praktik terbaik, dan contoh yang disajikan oleh
karyawan Google, pakar industri, dan riset akademis untuk menggunakan ML.
Framing Masalah. Jika Anda mencari
pendekatan yang telah teruji di lapangan untuk membuat model ML dan menghindari perangkap umum
selama prosesnya.
Kursus Singkat Machine Learning. Jika Anda
sudah siap untuk pendekatan mendalam dan langsung untuk mempelajari ML lebih lanjut.