Data numerik: Kualitas fitur numerik yang baik

Unit ini telah mengeksplorasi cara untuk memetakan data mentah ke vektor fitur. Fitur numerik yang baik membagikan kualitas yang dijelaskan dalam bagian ini.

Dinamai dengan jelas

Setiap fitur harus memiliki makna yang jelas, masuk akal, dan jelas bagi setiap manusia menyelesaikan proyek tersebut. Misalnya, arti nilai fitur berikut adalah membingungkan:

Tidak direkomendasikan

home_age: 851472000

Sebaliknya, nama dan nilai fitur berikut jauh lebih jelas:

Direkomendasikan

rumah_usia_tahun: 27

Diperiksa atau diuji sebelum pelatihan

Meskipun modul ini telah mencurahkan banyak waktu untuk outlier, topiknya adalah cukup penting untuk menjadi hal yang terakhir disebutkan. Dalam beberapa kasus, data buruk (bukan pilihan teknik yang buruk) menyebabkan nilai yang tidak jelas. Misalnya, user_age_in_years berikut berasal dari sumber yang tidak memeriksa nilai yang sesuai:

Tidak direkomendasikan

user_age_in_years: 224

Namun, orang dapat berusia 24 tahun:

Direkomendasikan

user_age_in_years: 24

Periksa data Anda.

Masuk akal

"Nilai ajaib" adalah diskontinuitas yang disengaja dalam bentuk kontinuitas aplikasi baru. Sebagai contoh, anggaplah fitur berkelanjutan bernama watch_time_in_seconds dapat menyimpan nilai floating point antara 0 dan 30, tetapi mewakili ketiadaan pengukuran dengan nilai ajaib -1:

Tidak direkomendasikan

watch_time_in_seconds: -1

watch_time_in_seconds -1 akan memaksa model mencoba mencari apa artinya menonton film dengan cara mundur. Model yang dihasilkan akan mungkin tidak membuat prediksi yang baik.

Teknik yang lebih baik adalah membuat fitur Boolean terpisah yang menunjukkan apakah watch_time_in_seconds nilai yang diberikan. Contoh:

Direkomendasikan

watch_time_in_seconds: 4,82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

Sekarang pertimbangkan diskrit fitur numerik yang nilainya harus termasuk dalam himpunan nilai yang terbatas. Di sini kasus, ketika nilai hilang, menandakan bahwa nilai yang hilang menggunakan nilai baru di himpunan terhingga. Dengan fitur diskret, model akan mempelajari bobot yang berbeda untuk setiap nilai, termasuk bobot asli untuk fitur yang tidak ada.