Model machine learning tidak dapat langsung melihat, mendengar, atau merasakan contoh input. Sebaliknya, Anda harus membuat representasi data untuk memberi model titik pandang yang berguna ke kualitas utama data. Artinya, untuk melatih model, Anda harus memilih set fitur yang paling mewakili data.
Representasi
Dari Data Mentah ke Fitur
Idenya adalah untuk memetakan setiap bagian vektor di sebelah kiri menjadi satu atau beberapa {i>field<i} dalam vektor fitur di sebelah kanan.
Dari Data Mentah ke Fitur
Dari Data Mentah ke Fitur
Dari Data Mentah ke Fitur
- Kamus memetakan setiap nama jalan ke int di {0, ...,V-1}
- Sekarang merepresentasikan vektor one-hot di atas sebagai <i>
Properti Fitur Baik
Nilai fitur akan muncul dengan nilai bukan nol lebih sering dalam set data.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Properti Fitur Baik
Fitur harus memiliki makna yang jelas dan pasti.
user_age:23
user_age:123456789
Properti Fitur Baik
Fitur tidak boleh mengambil nilai "ajaib"
(sebagai gantinya, gunakan fitur boolean tambahan seperti watch_time_is_defined.)
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Properti Fitur Baik
Definisi fitur tidak boleh berubah dari waktu ke waktu.
(Waspadalah terhadap ketergantungan pada sistem ML lain.)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Properti Fitur Baik
Distribusi tidak boleh memiliki pencilan yang ekstrem
Idealnya semua fitur diubah ke rentang yang serupa, seperti (-1, 1) atau (0, 5).
Trik Pengelompokan
Trik Pengelompokan
- Membuat beberapa kelompok boolean, masing-masing memetakan ke fitur unik baru
- Memungkinkan model agar sesuai dengan nilai yang berbeda untuk setiap kelompok
Kebiasaan Baik
MENGETAHUI DATA ANDA
- Visualisasikan: Histogram plot, memberi peringkat dari paling umum hingga paling tidak umum.
- Debug: Contoh duplikat? Nilai tidak ada? Pencilan? Data sesuai dengan dasbor? Data Pelatihan dan Validasi serupa?
- Pantau: Kuantil fitur, jumlah contoh dari waktu ke waktu?