Unit ini telah mengeksplorasi cara untuk memetakan data mentah ke vektor fitur. Fitur numerik yang baik membagikan kualitas yang dijelaskan dalam bagian ini.
Dinamai dengan jelas
Setiap fitur harus memiliki makna yang jelas, masuk akal, dan jelas bagi setiap manusia menyelesaikan proyek tersebut. Misalnya, arti nilai fitur berikut adalah membingungkan:
Tidak direkomendasikan
home_age: 851472000
Sebaliknya, nama dan nilai fitur berikut jauh lebih jelas:
Direkomendasikan
rumah_usia_tahun: 27
Diperiksa atau diuji sebelum pelatihan
Meskipun modul ini telah mencurahkan banyak waktu untuk
outlier, topiknya adalah
cukup penting untuk menjadi
hal yang terakhir disebutkan. Dalam beberapa kasus, data buruk
(bukan pilihan teknik yang buruk) menyebabkan nilai yang tidak jelas. Misalnya,
user_age_in_years
berikut berasal dari sumber yang tidak memeriksa
nilai yang sesuai:
Tidak direkomendasikan
user_age_in_years: 224
Namun, orang dapat berusia 24 tahun:
Direkomendasikan
user_age_in_years: 24
Periksa data Anda.
Masuk akal
"Nilai ajaib" adalah diskontinuitas yang disengaja dalam bentuk kontinuitas
aplikasi baru. Sebagai contoh, anggaplah fitur berkelanjutan bernama watch_time_in_seconds
dapat menyimpan nilai floating point antara 0 dan 30, tetapi mewakili ketiadaan
pengukuran dengan nilai ajaib -1:
Tidak direkomendasikan
watch_time_in_seconds: -1
watch_time_in_seconds
-1 akan memaksa model mencoba mencari
apa artinya menonton film dengan cara mundur. Model yang dihasilkan akan
mungkin tidak membuat
prediksi yang baik.
Teknik yang lebih baik adalah membuat fitur Boolean terpisah yang menunjukkan
apakah watch_time_in_seconds
nilai yang diberikan. Contoh:
Direkomendasikan
watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=Truewatch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False
Sekarang pertimbangkan diskrit fitur numerik yang nilainya harus termasuk dalam himpunan nilai yang terbatas. Di sini kasus, ketika nilai hilang, menandakan bahwa nilai yang hilang menggunakan nilai baru di himpunan terhingga. Dengan fitur diskret, model akan mempelajari bobot yang berbeda untuk setiap nilai, termasuk bobot asli untuk fitur yang tidak ada.