Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Set data: Label

Bagian ini berfokus pada label.

Label langsung versus label proxy

Pertimbangkan dua jenis label yang berbeda:

Label langsung, yaitu label yang identik dengan prediksi yang coba dibuat oleh model Anda. Artinya, prediksi yang coba dibuat model Anda ada persis sebagai kolom dalam set data Anda. Misalnya, kolom bernama bicycle owner akan menjadi label langsung untuk model klasifikasi biner yang memprediksi apakah seseorang memiliki sepeda atau tidak.
Label pengganti, yaitu label yang serupa—tetapi tidak identik—dengan prediksi yang coba dibuat model Anda. Misalnya, seseorang yang berlangganan majalah Bicycle Bizarre mungkin—tetapi tidak pasti—memiliki sepeda.

Label langsung umumnya lebih baik daripada label proxy. Jika set data Anda memberikan kemungkinan label langsung, sebaiknya gunakan label tersebut. Namun, sering kali label langsung tidak tersedia.

Label proxy selalu merupakan kompromi—perkiraan yang tidak sempurna dari label langsung. Namun, beberapa label pengganti cukup mendekati untuk dapat digunakan. Model yang menggunakan label proxy hanya berguna jika ada hubungan antara label proxy dan prediksi.

Ingatlah bahwa setiap label harus direpresentasikan sebagai angka floating point, mirip dengan vektor fitur (karena machine learning pada dasarnya hanyalah kumpulan operasi matematika). Terkadang, label langsung ada, tetapi tidak dapat dengan mudah direpresentasikan sebagai bilangan floating point. Dalam hal ini, gunakan label proxy.

Latihan: Periksa pemahaman Anda

Perusahaan Anda ingin melakukan hal berikut:

Mengirim kupon ("Dapatkan diskon 15% untuk helm sepeda baru") kepada pemilik sepeda.

Jadi, model Anda harus melakukan hal berikut:

Memprediksi orang yang memiliki sepeda.

Sayangnya, set data tidak berisi kolom bernama bike owner. Namun, set data tersebut berisi kolom bernama recently bought a bicycle.

Apakah recently bought a bicycle akan menjadi label pengganti yang baik atau label pengganti yang buruk untuk model ini?

Label proxy yang baik

Kolom recently bought a bicycle adalah label proxy yang relatif baik. Lagipula, sebagian besar orang yang membeli sepeda sekarang sudah memiliki sepeda. Namun, seperti semua label pengganti, bahkan yang sangat bagus sekalipun,

recently bought a
            bicycle

tidak sempurna. Bagaimanapun juga, orang yang membeli item tidak selalu merupakan orang yang menggunakan (atau memiliki) item tersebut. Misalnya, orang terkadang membeli sepeda sebagai hadiah.

Label proxy buruk

Seperti semua label proksi, recently bought a bicycle tidak sempurna (beberapa sepeda dibeli sebagai hadiah dan diberikan kepada orang lain). Namun, recently bought a bicycle masih merupakan indikator yang relatif baik bahwa seseorang memiliki sepeda.

Data buatan manusia

Beberapa data dibuat oleh manusia; artinya, satu atau beberapa orang memeriksa beberapa informasi dan memberikan nilai, biasanya untuk label. Misalnya, satu atau beberapa ahli meteorologi dapat memeriksa gambar langit dan mengidentifikasi jenis awan.

Atau, beberapa data dibuat secara otomatis. Artinya, software (kemungkinan, model machine learning lain) menentukan nilainya. Misalnya, model machine learning dapat memeriksa gambar langit dan mengidentifikasi jenis awan secara otomatis.

Bagian ini membahas kelebihan dan kekurangan data buatan manusia.

Kelebihan

Penilai manusia dapat melakukan berbagai tugas yang bahkan mungkin sulit dilakukan oleh model machine learning yang canggih.
Proses ini memaksa pemilik set data untuk mengembangkan kriteria yang jelas dan konsisten.

Kekurangan

Anda biasanya membayar pelabel manual, sehingga data yang dihasilkan oleh manusia bisa mahal.
Manusia pasti berbuat salah. Oleh karena itu, beberapa pemberi rating manusia mungkin harus mengevaluasi data yang sama.

Pikirkan pertanyaan-pertanyaan berikut untuk menentukan kebutuhan Anda:

Seberapa terampil penilai Anda? (Misalnya, apakah pemberi rating harus menguasai bahasa tertentu? Apakah Anda memerlukan ahli bahasa untuk aplikasi NLP atau dialog?)
Berapa banyak contoh berlabel yang Anda butuhkan? Seberapa cepat Anda membutuhkannya?
Berapa anggaran Anda?

Selalu periksa kembali pemberi rating manual Anda. Misalnya, beri label pada 1.000 contoh sendiri, dan lihat kecocokan hasil Anda dengan hasil pemberi rating lainnya. Jika ada perbedaan, jangan menganggap rating Anda adalah yang benar, terutama jika penilaian nilai terlibat. Jika pemberi rating manusia telah melakukan kesalahan, pertimbangkan untuk menambahkan petunjuk untuk membantu mereka dan coba lagi.

Klik ikon plus untuk mempelajari lebih lanjut data yang dibuat manusia.

Melihat data Anda secara manual adalah latihan yang baik, terlepas dari cara Anda mendapatkan data. Andrej Karpathy melakukannya di ImageNet dan menulis tentang pengalamannya.

Model dapat dilatih dengan campuran label otomatis dan buatan manusia. Namun, untuk sebagian besar model, set label buatan manusia tambahan (yang dapat menjadi tidak valid) umumnya tidak sebanding dengan kompleksitas dan pemeliharaan tambahan. Namun, terkadang label yang dibuat oleh manusia dapat memberikan informasi tambahan yang tidak tersedia dalam label otomatis.

Sebelumnya

Karakteristik data (10 mnt)

Berikutnya

Set data tidak seimbang (10 menit)