Bagian ini berfokus pada label.
Label langsung versus label proxy
Pertimbangkan dua jenis label yang berbeda:
- Label langsung, yaitu label yang identik dengan prediksi yang
coba dibuat oleh model Anda. Artinya, prediksi yang coba dibuat model Anda ada
persis sebagai kolom dalam set data Anda.
Misalnya, kolom bernama
bicycle ownerakan menjadi label langsung untuk model klasifikasi biner yang memprediksi apakah seseorang memiliki sepeda atau tidak. - Label pengganti, yaitu label yang serupa—tetapi tidak identik—dengan prediksi yang coba dibuat model Anda. Misalnya, seseorang yang berlangganan majalah Bicycle Bizarre mungkin—tetapi tidak pasti—memiliki sepeda.
Label langsung umumnya lebih baik daripada label proxy. Jika set data Anda memberikan kemungkinan label langsung, sebaiknya gunakan label tersebut. Namun, sering kali label langsung tidak tersedia.
Label proxy selalu merupakan kompromi—perkiraan yang tidak sempurna dari label langsung. Namun, beberapa label pengganti cukup mendekati untuk dapat digunakan. Model yang menggunakan label proxy hanya berguna jika ada hubungan antara label proxy dan prediksi.
Ingatlah bahwa setiap label harus direpresentasikan sebagai angka floating point, mirip dengan vektor fitur (karena machine learning pada dasarnya hanyalah kumpulan operasi matematika). Terkadang, label langsung ada, tetapi tidak dapat dengan mudah direpresentasikan sebagai bilangan floating point. Dalam hal ini, gunakan label proxy.
Latihan: Periksa pemahaman Anda
Perusahaan Anda ingin melakukan hal berikut:
Mengirim kupon ("Dapatkan diskon 15% untuk helm sepeda baru") kepada pemilik sepeda.
Jadi, model Anda harus melakukan hal berikut:
Memprediksi orang yang memiliki sepeda.
Sayangnya, set data tidak berisi kolom bernama bike owner.
Namun, set data tersebut berisi kolom bernama recently bought a bicycle.
recently bought a bicycle akan menjadi label pengganti yang baik
atau label pengganti yang buruk untuk model ini?recently bought a bicycle adalah
label proxy yang relatif baik. Lagipula, sebagian besar orang yang membeli sepeda sekarang sudah memiliki sepeda. Namun, seperti semua
label pengganti, bahkan yang sangat bagus sekalipun, recently bought a
bicycle tidak sempurna. Bagaimanapun juga, orang yang membeli
item tidak selalu merupakan orang yang menggunakan (atau memiliki) item tersebut.
Misalnya, orang terkadang membeli sepeda sebagai hadiah.recently bought a bicycle
tidak sempurna (beberapa sepeda dibeli sebagai hadiah dan diberikan kepada
orang lain). Namun, recently bought a bicycle masih
merupakan indikator yang relatif baik bahwa seseorang memiliki
sepeda.Data buatan manusia
Beberapa data dibuat oleh manusia; artinya, satu atau beberapa orang memeriksa beberapa informasi dan memberikan nilai, biasanya untuk label. Misalnya, satu atau beberapa ahli meteorologi dapat memeriksa gambar langit dan mengidentifikasi jenis awan.
Atau, beberapa data dibuat secara otomatis. Artinya, software (kemungkinan, model machine learning lain) menentukan nilainya. Misalnya, model machine learning dapat memeriksa gambar langit dan mengidentifikasi jenis awan secara otomatis.
Bagian ini membahas kelebihan dan kekurangan data buatan manusia.
Kelebihan
- Penilai manusia dapat melakukan berbagai tugas yang bahkan mungkin sulit dilakukan oleh model machine learning yang canggih.
- Proses ini memaksa pemilik set data untuk mengembangkan kriteria yang jelas dan konsisten.
Kekurangan
- Anda biasanya membayar pelabel manual, sehingga data yang dihasilkan oleh manusia bisa mahal.
- Manusia pasti berbuat salah. Oleh karena itu, beberapa pemberi rating manusia mungkin harus mengevaluasi data yang sama.
Pikirkan pertanyaan-pertanyaan berikut untuk menentukan kebutuhan Anda:
- Seberapa terampil penilai Anda? (Misalnya, apakah pemberi rating harus menguasai bahasa tertentu? Apakah Anda memerlukan ahli bahasa untuk aplikasi NLP atau dialog?)
- Berapa banyak contoh berlabel yang Anda butuhkan? Seberapa cepat Anda membutuhkannya?
- Berapa anggaran Anda?
Selalu periksa kembali pemberi rating manual Anda. Misalnya, beri label pada 1.000 contoh sendiri, dan lihat kecocokan hasil Anda dengan hasil pemberi rating lainnya. Jika ada perbedaan, jangan menganggap rating Anda adalah yang benar, terutama jika penilaian nilai terlibat. Jika pemberi rating manusia telah melakukan kesalahan, pertimbangkan untuk menambahkan petunjuk untuk membantu mereka dan coba lagi.