Set data: Label

Bagian ini berfokus pada label.

Label langsung versus proxy

Pertimbangkan dua jenis label yang berbeda:

  • Label langsung, yang merupakan label yang identik dengan prediksi yang coba dibuat oleh model Anda. Artinya, prediksi yang coba dibuat model Anda tepat ada sebagai kolom dalam set data Anda. Misalnya, kolom bernama bicycle owner akan menjadi label langsung untuk model klasifikasi biner yang memprediksi apakah seseorang memiliki sepeda atau tidak.
  • Label proxy, yang merupakan label yang mirip—tetapi tidak identik—dengan prediksi yang coba dibuat model Anda. Misalnya, seseorang yang berlangganan majalah Bicycle Bizarre mungkin—tetapi tidak pasti—memiliki sepeda.

Label langsung umumnya lebih baik daripada label proxy. Jika set data Anda menyediakan kemungkinan label langsung, sebaiknya gunakan label tersebut. Namun, sering kali label langsung tidak tersedia.

Label proxy selalu merupakan kompromi—perkiraan yang tidak sempurna dari label langsung. Namun, beberapa label proxy adalah perkiraan yang cukup dekat agar berguna. Model yang menggunakan label proxy hanya berguna seperti hubungan antara label proxy dan prediksi.

Ingat bahwa setiap label harus direpresentasikan sebagai bilangan floating point dalam vektor fitur (karena machine learning pada dasarnya hanyalah gabungan besar dari operasi matematika). Terkadang, label langsung ada, tetapi tidak dapat direpresentasikan dengan mudah sebagai angka floating point dalam vektor fitur. Dalam hal ini, gunakan label proxy.

Latihan: Periksa pemahaman Anda

Perusahaan Anda ingin melakukan hal berikut:

Kirimkan kupon ("Tukar sepeda lama Anda dengan diskon 15% untuk sepeda baru") kepada pemilik sepeda.

Jadi, model Anda harus melakukan hal berikut:

Memprediksi orang yang memiliki sepeda.

Sayangnya, set data tidak berisi kolom bernama bike owner. Namun, set data berisi kolom bernama recently bought a bicycle.

Apakah recently bought a bicycle akan menjadi label proxy yang baik atau label proxy yang buruk untuk model ini?
Label proxy yang baik
Label proxy yang buruk

Data buatan manusia

Beberapa data dibuat oleh manusia; yaitu, satu atau beberapa manusia memeriksa beberapa informasi dan memberikan nilai, biasanya untuk label. Misalnya, satu atau beberapa ahli meteorologi dapat memeriksa gambar langit dan mengidentifikasi jenis awan.

Atau, beberapa data dibuat secara otomatis. Artinya, software (mungkin, model machine learning lain) menentukan nilainya. Misalnya, model machine learning dapat memeriksa gambar langit dan secara otomatis mengidentifikasi jenis awan.

Bagian ini membahas kelebihan dan kekurangan data buatan manusia.

Kelebihan

  • Penilai manusia dapat melakukan berbagai tugas yang bahkan mungkin sulit bagi model machine learning yang canggih.
  • Proses ini memaksa pemilik set data untuk mengembangkan kriteria yang jelas dan konsisten.

Kekurangan

  • Anda biasanya membayar pelabel manual, sehingga data yang dibuat manusia dapat mahal.
  • Manusia pasti akan melakukan kesalahan. Oleh karena itu, beberapa penilai manusia mungkin harus mengevaluasi data yang sama.

Pikirkan pertanyaan-pertanyaan berikut untuk menentukan kebutuhan Anda:

  • Seberapa terampil penilai Anda? (Misalnya, apakah penilai harus mengetahui bahasa tertentu? Apakah Anda memerlukan ahli bahasa untuk aplikasi dialog atau NLP?)
  • Berapa banyak contoh berlabel yang Anda butuhkan? Seberapa cepat Anda memerlukannya?
  • Berapa anggaran Anda?

Selalu periksa kembali penilai manual Anda. Misalnya, beri label pada 1.000 contoh sendiri, dan lihat kecocokan hasil Anda dengan hasil penilai lain. Jika terjadi perbedaan, jangan berasumsi bahwa rating Anda adalah yang benar, terutama jika penilaian nilai terlibat. Jika penilai manusia telah membuat error, sebaiknya tambahkan petunjuk untuk membantu mereka dan coba lagi.

Melihat data secara manual adalah latihan yang baik, terlepas dari cara Anda mendapatkan data. Andrej Karpathy melakukannya di ImageNet dan menulis tentang pengalamannya.

Model dapat dilatih dengan campuran label otomatis dan buatan manusia. Namun, untuk sebagian besar model, kumpulan label tambahan yang dibuat manusia (yang dapat menjadi usang) umumnya tidak sebanding dengan kompleksitas dan pemeliharaan tambahan. Meskipun demikian, terkadang label yang dibuat manusia dapat memberikan informasi tambahan yang tidak tersedia di label otomatis.