Bagian ini berfokus pada label.
Label langsung versus proxy
Pertimbangkan dua jenis label yang berbeda:
- Label langsung, yang merupakan label yang identik dengan prediksi yang coba dibuat oleh model Anda. Artinya, prediksi yang coba dibuat model Anda
tepat ada sebagai kolom dalam set data Anda.
Misalnya, kolom bernama
bicycle owner
akan menjadi label langsung untuk model klasifikasi biner yang memprediksi apakah seseorang memiliki sepeda atau tidak. - Label proxy, yang merupakan label yang mirip—tetapi tidak identik—dengan prediksi yang coba dibuat model Anda. Misalnya, seseorang yang berlangganan majalah Bicycle Bizarre mungkin—tetapi tidak pasti—memiliki sepeda.
Label langsung umumnya lebih baik daripada label proxy. Jika set data Anda menyediakan kemungkinan label langsung, sebaiknya gunakan label tersebut. Namun, sering kali label langsung tidak tersedia.
Label proxy selalu merupakan kompromi—perkiraan yang tidak sempurna dari label langsung. Namun, beberapa label proxy adalah perkiraan yang cukup dekat agar berguna. Model yang menggunakan label proxy hanya berguna seperti hubungan antara label proxy dan prediksi.
Ingat bahwa setiap label harus direpresentasikan sebagai bilangan floating point dalam vektor fitur (karena machine learning pada dasarnya hanyalah gabungan besar dari operasi matematika). Terkadang, label langsung ada, tetapi tidak dapat direpresentasikan dengan mudah sebagai angka floating point dalam vektor fitur. Dalam hal ini, gunakan label proxy.
Latihan: Periksa pemahaman Anda
Perusahaan Anda ingin melakukan hal berikut:
Kirimkan kupon ("Tukar sepeda lama Anda dengan diskon 15% untuk sepeda baru") kepada pemilik sepeda.
Jadi, model Anda harus melakukan hal berikut:
Memprediksi orang yang memiliki sepeda.
Sayangnya, set data tidak berisi kolom bernama bike owner
.
Namun, set data berisi kolom bernama recently bought a bicycle
.
recently bought a bicycle
akan menjadi label proxy yang baik
atau label proxy yang buruk untuk model ini?recently bought a bicycle
adalah
label proxy yang relatif baik. Lagi pula, sebagian besar orang
yang membeli sepeda kini memiliki sepeda. Namun, seperti semua label proxy, bahkan yang sangat baik, recently bought a
bicycle
tidak sempurna. Lagi pula, orang yang membeli
suatu item tidak selalu orang yang menggunakan (atau memiliki) item tersebut.
Misalnya, orang terkadang membeli sepeda sebagai hadiah.recently bought a bicycle
tidak sempurna (beberapa sepeda dibeli sebagai hadiah dan diberikan kepada
orang lain). Namun, recently bought a bicycle
masih merupakan indikator yang relatif baik bahwa seseorang memiliki
sepeda.Data buatan manusia
Beberapa data dibuat oleh manusia; yaitu, satu atau beberapa manusia memeriksa beberapa informasi dan memberikan nilai, biasanya untuk label. Misalnya, satu atau beberapa ahli meteorologi dapat memeriksa gambar langit dan mengidentifikasi jenis awan.
Atau, beberapa data dibuat secara otomatis. Artinya, software (mungkin, model machine learning lain) menentukan nilainya. Misalnya, model machine learning dapat memeriksa gambar langit dan secara otomatis mengidentifikasi jenis awan.
Bagian ini membahas kelebihan dan kekurangan data buatan manusia.
Kelebihan
- Penilai manusia dapat melakukan berbagai tugas yang bahkan mungkin sulit bagi model machine learning yang canggih.
- Proses ini memaksa pemilik set data untuk mengembangkan kriteria yang jelas dan konsisten.
Kekurangan
- Anda biasanya membayar pelabel manual, sehingga data yang dibuat manusia dapat mahal.
- Manusia pasti akan melakukan kesalahan. Oleh karena itu, beberapa penilai manusia mungkin harus mengevaluasi data yang sama.
Pikirkan pertanyaan-pertanyaan berikut untuk menentukan kebutuhan Anda:
- Seberapa terampil penilai Anda? (Misalnya, apakah penilai harus mengetahui bahasa tertentu? Apakah Anda memerlukan ahli bahasa untuk aplikasi dialog atau NLP?)
- Berapa banyak contoh berlabel yang Anda butuhkan? Seberapa cepat Anda memerlukannya?
- Berapa anggaran Anda?
Selalu periksa kembali penilai manual Anda. Misalnya, beri label pada 1.000 contoh sendiri, dan lihat kecocokan hasil Anda dengan hasil penilai lain. Jika terjadi perbedaan, jangan berasumsi bahwa rating Anda adalah yang benar, terutama jika penilaian nilai terlibat. Jika penilai manusia telah membuat error, sebaiknya tambahkan petunjuk untuk membantu mereka dan coba lagi.