Set data: Label

Bagian ini berfokus pada label.

Label langsung versus proxy

Pertimbangkan dua jenis label yang berbeda:

  • Label langsung, yang merupakan label yang identik dengan prediksi model Anda coba lakukan. Artinya, prediksi yang coba dibuat oleh model Anda adalah persis ada sebagai kolom dalam {i>dataset<i} Anda. Misalnya, kolom bernama bicycle owner akan menjadi label langsung untuk model klasifikasi biner yang memprediksi apakah seseorang memiliki sepeda.
  • Label proxy, yang merupakan label yang serupa—tetapi tidak sama persis—dengan prediksi yang coba dibuat oleh model Anda. Misalnya, seseorang berlangganan majalah Bicycle Bizarre mungkin—tapi tidak pasti—memiliki sepeda.

Label langsung umumnya lebih baik daripada label {i>proxy<i}. Jika set data Anda menyediakan label langsung yang mungkin, Anda mungkin harus menggunakannya. Namun sering kali, label langsung tidak tersedia.

Label {i>proxy<i} selalu merupakan kompromi—perkiraan yang tidak sempurna label langsung. Namun, beberapa label proxy memiliki perkiraan yang cukup mendekati agar bermanfaat. Model yang menggunakan label proxy hanya bermanfaat seperti koneksi antara label proxy dan prediksi.

Ingat bahwa setiap label harus direpresentasikan sebagai bilangan floating point di vektor fitur (karena machine learning pada dasarnya hanyalah gabungan besar dari operasi). Terkadang, label langsung ada tetapi tidak dapat dengan mudah ditampilkan sebagai bilangan floating point dalam vektor fitur. Dalam hal ini, gunakan label proxy.

Latihan: Memeriksa pemahaman Anda

Perusahaan Anda ingin melakukan hal berikut:

Kupon pos ("Tukar sepeda lama Anda dengan diskon 15% untuk sepeda baru") kepada pemilik sepeda.

Jadi, model Anda harus melakukan hal berikut:

Memprediksi orang mana yang memiliki sepeda.

Sayangnya, set data tidak memuat kolom bernama bike owner. Namun, set data berisi kolom bernama recently bought a bicycle.

Apakah recently bought a bicycle akan menjadi label proxy yang tepat atau label proxy yang buruk untuk model ini?
Label proxy baik
Kolom recently bought a bicycle adalah label {i>proxy<i} yang relatif baik. Lagi pula, sebagian besar orang yang membeli sepeda sekarang memiliki sepeda. Meskipun demikian, seperti semua label proxy, bahkan yang sangat bagus, recently bought a bicycle tidak sempurna. Lagi pula, orang yang membeli sebuah item belum tentu orang yang menggunakan (atau memiliki) item tersebut. Misalnya, terkadang orang membeli sepeda sebagai hadiah.
Label proxy buruk
Seperti semua label proxy, recently bought a bicycle tidak sempurna (beberapa sepeda dibeli sebagai hadiah dan diberikan kepada lainnya). Namun, recently bought a bicycle adalah masih merupakan indikator yang relatif baik bahwa seseorang memiliki sepeda.

Data buatan manusia

Beberapa data dibuat manusia; yaitu, satu atau lebih manusia memeriksa beberapa informasi dan memberikan nilai, biasanya untuk label. Misalnya, satu atau lebih ahli meteorologi dapat memeriksa gambar langit dan mengidentifikasi jenis cloud tertentu.

Atau, beberapa data dibuat secara otomatis. Yaitu, perangkat lunak (mungkin, model machine learning lainnya) menentukan nilai. Sebagai contoh, model machine learning dapat memeriksa gambar langit dan secara otomatis jenis cloud tertentu.

Bagian ini mengeksplorasi kelebihan dan kekurangan data buatan manusia.

Kelebihan

  • Penilai manusia dapat melakukan berbagai tugas yang bahkan yang mungkin akan sulit bagi model machine learning.
  • Proses ini memaksa pemilik {i>dataset<i} untuk mengembangkan kriteria yang konsisten.

Kekurangan

  • Anda biasanya membayar pelabel manusia, sehingga data yang dihasilkan manusia bisa jadi mahal.
  • Berbuat salah adalah manusia. Oleh karena itu, beberapa penilai manusia mungkin harus mengevaluasi data yang sama.

Pikirkan pertanyaan-pertanyaan ini untuk menentukan kebutuhan Anda:

  • Seberapa ahlikah Anda yang harus dimiliki? (Misalnya, apakah pelabel harus tahu bahasa tertentu? Apakah Anda memerlukan ahli bahasa untuk berdialog atau NLP aplikasi?)
  • Berapa banyak contoh berlabel yang Anda butuhkan? Seberapa cepat Anda membutuhkannya?
  • Berapa anggaran Anda?

Selalu periksa kembali penilai manusia Anda. Misalnya, beri label 1.000 contoh sendiri, dan melihat bagaimana hasil Anda cocok dengan hasil pengujian tersebut. Jika terdapat perbedaan, jangan berasumsi bahwa rating Anda sudah benar, terutama jika diperlukan penilaian nilai. Jika penilai manusia telah memperkenalkan error, pertimbangkan untuk menambahkan petunjuk guna membantu dan coba lagi.