Mengidentifikasi Label dan Sumber

Label Langsung vs. Turunan

Machine learning lebih mudah jika label Anda ditetapkan dengan baik. Label terbaik adalah label langsung dari hal yang ingin Anda prediksi. Misalnya, jika Anda ingin memprediksi apakah pengguna adalah penggemar Taylor Swift, label langsung adalah "Pengguna adalah penggemar Taylor Swift."

Pengujian yang lebih sederhana mungkin berupa apakah pengguna telah menonton video Taylor Swift di YouTube. Label "pengguna telah menonton video Taylor Swift di YouTube" merupakan label turunan karena tidak langsung mengukur apa yang ingin Anda prediksi. Apakah label turunan ini menjadi indikator andal yang disukai pengguna Taylor Swift? Model Anda hanya akan sebaik hubungan antara label turunan dan prediksi yang diinginkan.

Sumber Label

Output model Anda dapat berupa Peristiwa atau Atribut. Hasilnya adalah dua jenis label berikut:

  • Label langsung untuk Peristiwa, seperti “Apakah pengguna mengklik hasil penelusuran teratas?”
  • Label langsung untuk Atribut, seperti “Apakah pengiklan akan membelanjakan lebih dari RpX dalam seminggu ke depan?”

Label Langsung untuk Acara

Untuk peristiwa, label langsung biasanya mudah karena Anda dapat mencatat perilaku pengguna selama peristiwa untuk digunakan sebagai label. Saat melabeli peristiwa, ajukan pertanyaan berikut kepada diri sendiri:

  • Bagaimana struktur log Anda?
  • Apa yang dianggap sebagai “peristiwa” dalam log Anda?

Misalnya, apakah sistem membuat log pengguna yang mengklik hasil penelusuran atau saat pengguna melakukan penelusuran? Jika Anda memiliki log klik, perlu diketahui bahwa Anda tidak akan pernah melihat tayangan tanpa klik. Anda akan memerlukan log dengan peristiwa sebagai tayangan, sehingga Anda mencakup semua kasus saat pengguna melihat hasil penelusuran teratas.

Label Langsung untuk Atribut

Misalkan label Anda adalah, "Pengiklan akan membelanjakan lebih dari $X dalam minggu berikutnya". Biasanya, Anda akan menggunakan data hari sebelumnya untuk memprediksi apa yang akan terjadi pada hari berikutnya. Misalnya, ilustrasi berikut menunjukkan data pelatihan sepuluh hari yang memprediksi tujuh hari berikutnya:

Kalender yang menandai blok 10 hari langsung diikuti dengan pemblokiran 7 hari.
Model ini menggunakan data dari blok 10 hari untuk membuat prediksi pada blok 7 hari.

Jangan lupa untuk mempertimbangkan efek musiman atau siklus; misalnya, pengiklan mungkin membelanjakan lebih banyak pada akhir pekan. Karena alasan tersebut, Anda dapat memilih untuk menggunakan periode 14 hari, atau menggunakan tanggal sebagai fitur sehingga model dapat mempelajari efek tahunan.

Label Langsung Memerlukan Log Perilaku Sebelumnya

Dalam kasus sebelumnya, perhatikan bahwa kita memerlukan data tentang hasil yang benar. Baik jumlah yang dibelanjakan pengiklan atau pengguna yang menonton video Taylor Swift, kami membutuhkan data historis untuk menggunakan machine learning yang diawasi. Machine learning membuat prediksi berdasarkan hal yang terjadi di masa lalu, jadi jika Anda tidak memiliki log untuk masa lalu, Anda harus mendapatkannya.

Bagaimana jika Anda Tidak Memiliki Data untuk Dicatat?

Mungkin produk Anda belum ada, sehingga Anda tidak memiliki data untuk dicatat dalam log. Dalam hal ini, Anda dapat melakukan satu atau beberapa tindakan berikut:

  • Gunakan heuristik untuk peluncuran pertama, lalu latih sistem berdasarkan data yang tercatat.
  • Gunakan log dari masalah yang serupa untuk mem-bootstrap sistem Anda.
  • Gunakan penilai manusia untuk membuat data dengan menyelesaikan tugas.

Mengapa Menggunakan Data Berlabel Manusia?

Ada kelebihan dan kekurangan penggunaan data yang diberi label oleh manusia.

Kelebihan

  • Penilai manusia dapat melakukan berbagai tugas.
  • Data memaksa Anda memiliki definisi masalah yang jelas.

Kekurangan

  • Data untuk domain tertentu sangat mahal.
  • Data yang baik biasanya memerlukan beberapa iterasi.

Meningkatkan Kualitas

Selalu periksa pekerjaan penilai manusia Anda. Misalnya, beri label 1000 contoh sendiri, dan lihat bagaimana hasil Anda cocok dengan penilai'. (Memberi label pada data sendiri juga merupakan latihan yang bagus untuk memahami data Anda.) Jika terdapat perbedaan, jangan menganggap rating Anda sudah benar, terutama jika penilaian itu terlibat. Jika penilai manusia telah melakukan error, pertimbangkan untuk menambahkan petunjuk guna membantu mereka dan mencoba lagi.

Melihat data secara manual adalah praktik yang baik terlepas dari cara Anda mendapatkan data. Andrej Karpathy melakukannya di ImageNet dan menulis tentang pengalamannya.