Set data: Label

Bagian ini berfokus pada label.

Label langsung versus label proxy

Pertimbangkan dua jenis label yang berbeda:

  • Label langsung, yaitu label yang identik dengan prediksi yang coba dibuat oleh model Anda. Artinya, prediksi yang coba dibuat model Anda ada persis sebagai kolom dalam set data Anda. Misalnya, kolom bernama bicycle owner akan menjadi label langsung untuk model klasifikasi biner yang memprediksi apakah seseorang memiliki sepeda atau tidak.
  • Label pengganti, yaitu label yang serupa—tetapi tidak identik—dengan prediksi yang coba dibuat model Anda. Misalnya, seseorang yang berlangganan majalah Bicycle Bizarre mungkin—tetapi tidak pasti—memiliki sepeda.

Label langsung umumnya lebih baik daripada label proxy. Jika set data Anda menyediakan kemungkinan label langsung, sebaiknya gunakan label tersebut. Namun, sering kali label langsung tidak tersedia.

Label proxy selalu merupakan kompromi—perkiraan yang tidak sempurna dari label langsung. Namun, beberapa label pengganti cukup mendekati untuk dapat digunakan. Model yang menggunakan label proxy hanya berguna jika ada hubungan antara label proxy dan prediksi.

Ingatlah bahwa setiap label harus direpresentasikan sebagai angka floating point dalam vektor fitur (karena machine learning pada dasarnya hanyalah gabungan besar operasi matematika). Terkadang, label langsung ada, tetapi tidak dapat dengan mudah direpresentasikan sebagai bilangan floating point dalam vektor fitur. Dalam hal ini, gunakan label proxy.

Latihan: Periksa pemahaman Anda

Perusahaan Anda ingin melakukan hal berikut:

Mengirim kupon ("Dapatkan diskon 15% untuk helm sepeda baru") kepada pemilik sepeda.

Jadi, model Anda harus melakukan hal berikut:

Memprediksi orang yang memiliki sepeda.

Sayangnya, set data tidak berisi kolom bernama bike owner. Namun, set data tersebut berisi kolom bernama recently bought a bicycle.

Apakah recently bought a bicycle akan menjadi label pengganti yang baik atau label pengganti yang buruk untuk model ini?
Label proxy yang baik
Kolom recently bought a bicycle adalah label pengganti yang relatif baik. Lagipula, sebagian besar orang yang membeli sepeda sekarang sudah memiliki sepeda. Namun, seperti semua label proksi, bahkan yang sangat bagus sekalipun, recently bought a bicycle tidak sempurna. Lagipula, orang yang membeli item tidak selalu orang yang menggunakan (atau memiliki) item tersebut. Misalnya, orang terkadang membeli sepeda sebagai hadiah.
Label proxy buruk
Seperti semua label proksi, recently bought a bicycle tidak sempurna (beberapa sepeda dibeli sebagai hadiah dan diberikan kepada orang lain). Namun, recently bought a bicycle masih menjadi indikator yang cukup baik bahwa seseorang memiliki sepeda.

Data buatan manusia

Beberapa data dibuat oleh manusia; artinya, satu atau beberapa orang memeriksa beberapa informasi dan memberikan nilai, biasanya untuk label. Misalnya, satu atau beberapa ahli meteorologi dapat memeriksa gambar langit dan mengidentifikasi jenis awan.

Atau, beberapa data dibuat secara otomatis. Artinya, software (kemungkinan, model machine learning lain) menentukan nilainya. Misalnya, model machine learning dapat memeriksa gambar langit dan otomatis mengidentifikasi jenis awan.

Bagian ini membahas kelebihan dan kekurangan data buatan manusia.

Kelebihan

  • Penilai manusia dapat melakukan berbagai tugas yang bahkan mungkin sulit dilakukan oleh model machine learning canggih.
  • Proses ini memaksa pemilik set data untuk mengembangkan kriteria yang jelas dan konsisten.

Kekurangan

  • Anda biasanya membayar pelabel manual, sehingga data yang dibuat oleh manusia bisa mahal.
  • Manusia pasti berbuat salah. Oleh karena itu, beberapa pemberi rating manusia mungkin harus mengevaluasi data yang sama.

Pikirkan pertanyaan-pertanyaan berikut untuk menentukan kebutuhan Anda:

  • Seberapa terampil penilai Anda? (Misalnya, apakah pemberi rating harus menguasai bahasa tertentu? Apakah Anda memerlukan ahli bahasa untuk aplikasi NLP atau dialog?)
  • Berapa banyak contoh berlabel yang Anda butuhkan? Seberapa cepat Anda membutuhkannya?
  • Berapa anggaran Anda?

Selalu periksa kembali pemberi rating manual Anda. Misalnya, beri label pada 1.000 contoh sendiri, dan lihat kecocokan hasil Anda dengan hasil pemberi rating lainnya. Jika ada perbedaan, jangan menganggap rating Anda adalah yang benar, terutama jika penilaian nilai terlibat. Jika pemberi rating manusia telah melakukan kesalahan, pertimbangkan untuk menambahkan petunjuk untuk membantu mereka dan coba lagi.