Uji Pemahaman Anda

Pertanyaan-pertanyaan berikut membantu memperkuat pemahaman Anda tentang konsep inti ML.

Daya prediktif

Model supervised ML dilatih menggunakan set data dengan contoh berlabel. Model ini mempelajari cara memprediksi label dari fitur. Namun, tidak setiap fitur dalam {i>dataset<i} memiliki kemampuan prediktif. Dalam beberapa kasus, hanya beberapa fitur yang bertindak sebagai prediktif label. Pada {i>dataset<i} di bawah ini, gunakan harga sebagai label dan kolom lainnya sebagai fitur.

Contoh berlabel atribut mobil.

Manakah tiga fitur yang menurut Anda kemungkinan menjadi prediktor terbesar untuk harga sebuah mobil?
Make_model, tahun, mil.
Merek/model, tahun, dan mil mobil cenderung menjadi salah satu prediktor terkuat untuk harganya.
Warna, tinggi, make_model.
Tinggi dan warna mobil bukanlah prediktor kuat untuk harga mobil.
Mil, kotak roda gigi, make_model.
Kotak roda gigi bukan merupakan prediktor utama harga.
Ukuran_ban, jarak_roda, tahun.
Ukuran ban dan basis roda bukanlah prediktor kuat untuk harga mobil.

Supervised learning dan unsupervised learning

Berdasarkan masalahnya, Anda akan menggunakan pendekatan yang diawasi atau tidak diawasi. Misalnya, jika Anda sudah mengetahui nilai atau kategori yang ingin diprediksi, Anda akan menggunakan supervised learning. Namun, jika Anda ingin mengetahui apakah set data berisi segmentasi atau pengelompokan contoh terkait, Anda dapat menggunakan unsupervised learning.

Misalkan Anda memiliki {i>dataset<i} pengguna untuk {i>website<i} belanja {i>online<i}, dan berisi kolom-kolom berikut:

Gambar baris atribut pelanggan.

Jika Anda ingin memahami jenis pengguna yang mengunjungi situs tersebut, apakah Anda akan menggunakan supervised learning atau unsupervised learning?
Unsupervised learning.
Karena kita ingin model mengelompokkan grup pelanggan terkait, kita menggunakan unsupervised learning. Setelah model mengelompokkan pengguna, kami akan membuat nama sendiri untuk setiap cluster, misalnya, "pencari diskon", "pemburu transaksi", "peselancar", "loyal", dan "pengembara".
Supervised learning karena saya mencoba memprediksi termasuk kelas milik pengguna.
Dalam supervised learning, set data harus berisi label yang ingin Anda prediksi. Di set data, tidak ada label yang merujuk ke kategori pengguna.

Misalkan Anda memiliki {i>dataset<i} penggunaan energi untuk rumah dengan kolom berikut:

Gambar baris atribut rumah.

Jenis ML apa yang akan Anda gunakan untuk memprediksi kilowatt jam yang digunakan per tahun untuk rumah yang baru dibangun?
Supervised learning.
Supervised learning melatih contoh berlabel. Dalam set data ini, "kilowatt jam yang digunakan per tahun" akan menjadi label karena ini adalah nilai yang ingin diprediksi oleh model. Fiturnya adalah "persegi panjang", "lokasi", dan "tahun dibangun".
Unsupervised learning.
Unsupervised learning menggunakan contoh tak berlabel. Dalam contoh ini, "kilowatt jam yang digunakan per tahun" akan menjadi label karena ini adalah nilai yang ingin diprediksi oleh model.

Misalkan Anda memiliki {i>dataset<i} penerbangan dengan kolom-kolom berikut:

Gambar baris data penerbangan.

Jika Anda ingin memprediksi biaya tiket pelatih, apakah Anda akan menggunakan regresi atau klasifikasi?
Metrik
Output model regresi berupa nilai numerik.
Metrik
Output model klasifikasi adalah nilai diskret, biasanya berupa kata. Dalam hal ini, biaya tiket pelatih adalah nilai numerik.
Berdasarkan set data, dapatkah Anda melatih model klasifikasi untuk mengklasifikasikan biaya tiket pelatih sebagai "tinggi", "rata-rata", atau "rendah"?
Ya, tetapi kita harus terlebih dahulu mengonversi nilai numerik dalam kolom coach_ticket_cost menjadi nilai kategori.
Model klasifikasi dapat dibuat dari set data. Anda akan melakukan sesuatu seperti berikut:
  1. Temukan biaya rata-rata tiket dari bandara keberangkatan ke bandara tujuan.
  2. Tentukan batas yang akan menetapkan "tinggi", "rata-rata", dan "rendah".
  3. Bandingkan prediksi biaya dengan nilai minimum dan hasilkan kategori di mana nilai tersebut berada.
Tidak. Model klasifikasi tidak dapat dibuat. Nilai coach_ticket_cost adalah numerik, bukan kategori.
Dengan sedikit usaha, Anda bisa membuat model klasifikasi.
Tidak. Model klasifikasi hanya memprediksi dua kategori, seperti spam atau not_spam. Model ini harus memprediksi tiga kategori.
Model klasifikasi dapat memprediksi beberapa kategori. Model ini disebut model klasifikasi multiclass.

Pelatihan dan evaluasi

Setelah melatih model, kita mengevaluasinya menggunakan set data dengan contoh berlabel dan membandingkan nilai prediksi model dengan nilai label yang sebenarnya.

Pilih dua jawaban terbaik untuk pertanyaan tersebut.

Jika prediksi modelnya jauh, apa yang dapat Anda lakukan untuk membuatnya lebih baik?
Latih ulang model, tetapi hanya gunakan fitur yang Anda yakini memiliki kemampuan prediktif terkuat untuk label.
Melatih ulang model dengan fitur yang lebih sedikit, tetapi memiliki kemampuan prediktif yang lebih tinggi, dapat menghasilkan model yang membuat prediksi lebih baik.
Anda tidak dapat memperbaiki model yang prediksinya jauh.
Anda dapat memperbaiki model yang prediksinya tidak aktif. Sebagian besar model memerlukan beberapa putaran pelatihan hingga dapat membuat prediksi yang berguna.
Latih ulang model menggunakan {i>dataset<i} yang lebih besar dan beragam.
Model yang dilatih pada set data dengan lebih banyak contoh dan rentang nilai yang lebih luas dapat menghasilkan prediksi yang lebih baik karena model tersebut memiliki solusi umum yang lebih baik untuk hubungan antara fitur dan label.
Coba pendekatan pelatihan lain. Misalnya, jika Anda menggunakan pendekatan yang diawasi, cobalah pendekatan yang tidak diawasi.
Pendekatan pelatihan yang berbeda tidak akan menghasilkan prediksi yang lebih baik.

Sekarang Anda siap untuk mengambil langkah selanjutnya dalam perjalanan ML Anda:

  • Buku Panduan People + AI. Jika Anda mencari serangkaian metode, praktik terbaik, dan contoh yang dipresentasikan oleh Googler, pakar industri, dan riset akademis untuk menggunakan ML.

  • Framing Masalah. Jika Anda mencari pendekatan yang telah teruji di lapangan untuk membuat model ML dan menghindari kesalahan umum selama prosesnya.

  • Kursus Singkat Machine Learning. Jika Anda siap menggunakan pendekatan langsung dan mendalam untuk mempelajari ML lebih lanjut.