Set data: Label

Bagian ini berfokus pada label.

Label langsung versus proxy

Pertimbangkan dua jenis label yang berbeda:

  • Label langsung, yang merupakan label yang identik dengan prediksi yang coba dibuat oleh model Anda. Artinya, prediksi yang coba dibuat model Anda tepat ada sebagai kolom dalam set data Anda. Misalnya, kolom bernama bicycle owner akan menjadi label langsung untuk model klasifikasi biner yang memprediksi apakah seseorang memiliki sepeda atau tidak.
  • Label proxy, yang merupakan label yang mirip—tetapi tidak identik—dengan prediksi yang coba dibuat model Anda. Misalnya, seseorang yang berlangganan majalah Bicycle Bizarre mungkin—tetapi tidak pasti—memiliki sepeda.

Label langsung umumnya lebih baik daripada label proxy. Jika set data Anda menyediakan kemungkinan label langsung, sebaiknya gunakan label tersebut. Namun, sering kali label langsung tidak tersedia.

Label proxy selalu merupakan kompromi—perkiraan yang tidak sempurna dari label langsung. Namun, beberapa label proxy adalah perkiraan yang cukup dekat agar berguna. Model yang menggunakan label proxy hanya berguna seperti hubungan antara label proxy dan prediksi.

Ingat bahwa setiap label harus direpresentasikan sebagai bilangan floating point dalam vektor fitur (karena machine learning pada dasarnya hanyalah gabungan besar dari operasi matematika). Terkadang, label langsung ada, tetapi tidak dapat direpresentasikan dengan mudah sebagai angka floating point dalam vektor fitur. Dalam hal ini, gunakan label proxy.

Latihan: Periksa pemahaman Anda

Perusahaan Anda ingin melakukan hal berikut:

Kirimkan kupon ("Tukar sepeda lama Anda dengan diskon 15% untuk sepeda baru") kepada pemilik sepeda.

Jadi, model Anda harus melakukan hal berikut:

Memprediksi orang yang memiliki sepeda.

Sayangnya, set data tidak berisi kolom bernama bike owner. Namun, set data berisi kolom bernama recently bought a bicycle.

Apakah recently bought a bicycle akan menjadi label proxy yang baik atau label proxy yang buruk untuk model ini?
Label proxy yang baik
Kolom recently bought a bicycle adalah label proxy yang relatif baik. Lagi pula, sebagian besar orang yang membeli sepeda kini memiliki sepeda. Namun, seperti semua label proxy, bahkan yang sangat baik, recently bought a bicycle tidak sempurna. Lagi pula, orang yang membeli suatu item tidak selalu orang yang menggunakan (atau memiliki) item tersebut. Misalnya, orang terkadang membeli sepeda sebagai hadiah.
Label proxy yang buruk
Seperti semua label proxy, recently bought a bicycle tidak sempurna (beberapa sepeda dibeli sebagai hadiah dan diberikan kepada orang lain). Namun, recently bought a bicycle masih merupakan indikator yang relatif baik bahwa seseorang memiliki sepeda.

Data buatan manusia

Beberapa data dibuat oleh manusia; yaitu, satu atau beberapa manusia memeriksa beberapa informasi dan memberikan nilai, biasanya untuk label. Misalnya, satu atau beberapa ahli meteorologi dapat memeriksa gambar langit dan mengidentifikasi jenis awan.

Atau, beberapa data dibuat secara otomatis. Artinya, software (mungkin, model machine learning lain) menentukan nilainya. Misalnya, model machine learning dapat memeriksa gambar langit dan secara otomatis mengidentifikasi jenis awan.

Bagian ini membahas kelebihan dan kekurangan data buatan manusia.

Kelebihan

  • Penilai manusia dapat melakukan berbagai tugas yang bahkan mungkin sulit bagi model machine learning yang canggih.
  • Proses ini memaksa pemilik set data untuk mengembangkan kriteria yang jelas dan konsisten.

Kekurangan

  • Anda biasanya membayar pelabel manual, sehingga data yang dibuat manusia dapat mahal.
  • Manusia pasti akan melakukan kesalahan. Oleh karena itu, beberapa penilai manusia mungkin harus mengevaluasi data yang sama.

Pikirkan pertanyaan-pertanyaan berikut untuk menentukan kebutuhan Anda:

  • Seberapa terampil penilai Anda? (Misalnya, apakah penilai harus mengetahui bahasa tertentu? Apakah Anda memerlukan ahli bahasa untuk aplikasi dialog atau NLP?)
  • Berapa banyak contoh berlabel yang Anda butuhkan? Seberapa cepat Anda memerlukannya?
  • Berapa anggaran Anda?

Selalu periksa kembali penilai manual Anda. Misalnya, beri label pada 1.000 contoh sendiri, dan lihat kecocokan hasil Anda dengan hasil penilai lain. Jika terjadi perbedaan, jangan berasumsi bahwa rating Anda adalah yang benar, terutama jika penilaian nilai terlibat. Jika penilai manusia telah membuat error, sebaiknya tambahkan petunjuk untuk membantu mereka dan coba lagi.