Pengantar tentang Membangun Set Data Anda

Langkah-Langkah untuk Membuat Set Data

Untuk membuat set data (dan sebelum melakukan transformasi data), Anda harus:

  1. Kumpulkan data mentah.
  2. Identifikasi sumber fitur dan label.
  3. Pilih strategi pengambilan sampel.
  4. Memisahkan data.

Langkah-langkah ini sangat bergantung pada cara Anda membingkai masalah ML. Gunakan pemeriksaan mandiri di bawah ini untuk memperbarui memori Anda tentang framing masalah dan untuk memeriksa asumsi Anda tentang pengumpulan data.

Pemeriksaan diri Konsep Masalah Pembingkaian dan Pengumpulan Data

Untuk pertanyaan berikut, klik panah yang diinginkan untuk memeriksa jawaban Anda:

Anda sedang menggunakan project machine learning baru, yang akan memilih fitur pertama Anda. Berapa banyak fitur yang harus Anda pilih?
Pilih 1-3 fitur yang tampaknya memiliki daya prediksi yang kuat.
Sebaiknya pipeline pengumpulan data Anda dimulai dengan satu atau dua fitur saja. Hal ini akan membantu Anda mengonfirmasi bahwa model ML berfungsi sebagaimana mestinya. Selain itu, saat Anda membuat dasar pengukuran dari beberapa fitur, Anda akan merasa seperti membuat kemajuan!
Pilih 4-6 fitur yang tampaknya memiliki daya prediktif yang kuat.
Anda mungkin pada akhirnya akan menggunakan banyak fitur ini, tetapi akan lebih baik jika Anda memulai dengan lebih sedikit fitur. Lebih sedikit fitur biasanya berarti lebih sedikit detail yang tidak diperlukan.
Pilih fitur sebanyak mungkin, sehingga Anda dapat mulai mengamati fitur yang memiliki kemampuan prediktif paling kuat.
Mulai dengan jumlah yang lebih kecil. Setiap fitur baru akan menambahkan dimensi baru ke set data pelatihan Anda. Jika dimensi meningkat, volume ruang akan meningkat dengan sangat cepat sehingga data pelatihan yang tersedia akan tersebar. Semakin terpisah data Anda, semakin sulit bagi model untuk mempelajari hubungan antara fitur yang benar-benar penting dan label. Fenomena ini disebut "kutukan dimensi."
Teman Anda, Samsul, sangat senang dengan hasil awal analisis statistiknya. Dia mengatakan bahwa data menunjukkan korelasi positif antara jumlah download aplikasi dan jumlah tayangan ulasan aplikasi. Namun, ia tidak yakin apakah akan mendownload aplikasi tersebut tanpa melihat ulasannya. Respons apa yang paling bermanfaat bagi Samuel?
Anda dapat menjalankan eksperimen untuk membandingkan perilaku pengguna yang tidak melihat ulasan dengan pengguna serupa yang melakukannya.
Benar. Jika Sam mengamati bahwa pengguna yang melihat ulasan positif lebih cenderung akan mendownload aplikasi daripada pengguna yang tidak, maka ia memiliki bukti yang wajar untuk menunjukkan bahwa ulasan positif tersebut mendorong orang untuk mendapatkan aplikasi.
Percayai data. Jelas bahwa ulasan yang bagus adalah alasan pengguna mendownload aplikasi.
Salah. Respons ini tidak akan mengarahkan Sam ke arah yang benar. Anda tidak dapat menentukan penyebab hanya dari data pengamatan. Sam melihat korelasi (yaitu, dependensi statistik di antara angka-angka) yang mungkin atau mungkin tidak menunjukkan penyebab. Jangan biarkan analisis Anda bergabung dengan peringkat korelasi palsu.