Representasi

Model machine learning tidak dapat langsung melihat, mendengar, atau merasakan contoh input. Sebaliknya, Anda harus membuat representasi data untuk memberi model titik pandang yang berguna ke kualitas utama data. Artinya, untuk melatih model, Anda harus memilih set fitur yang paling mewakili data.

Representasi

Idenya adalah untuk memetakan setiap bagian vektor di sebelah kiri menjadi satu atau beberapa {i>field<i} dalam vektor fitur di sebelah kanan.

Data mentah dipetakan ke vektor fitur melalui proses yang disebut rekayasa fitur.
Contoh fitur yang dapat disalin langsung dari data mentah
Contoh fitur string (nama jalan) yang tidak dapat disalin langsung dari data mentah
Memetakan nilai string (
  • Kamus memetakan setiap nama jalan ke int di {0, ...,V-1}
  • Sekarang merepresentasikan vektor one-hot di atas sebagai <i>

Nilai fitur akan muncul dengan nilai bukan nol lebih sering dalam set data.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Fitur harus memiliki makna yang jelas dan pasti.

user_age:23

user_age:123456789

Fitur tidak boleh mengambil nilai "ajaib"

(sebagai gantinya, gunakan fitur boolean tambahan seperti watch_time_is_defined.)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Definisi fitur tidak boleh berubah dari waktu ke waktu.

(Waspadalah terhadap ketergantungan pada sistem ML lain.)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Distribusi tidak boleh memiliki pencilan yang ekstrem

Idealnya semua fitur diubah ke rentang yang serupa, seperti (-1, 1) atau (0, 5).

Distribusi dengan pencilan dan distribusi dengan batasan
Grafik menunjukkan distribusi dengan kurva yang sesuai berdasarkan lokasi
Grafik menunjukkan distribusi dengan kurva yang sesuai berdasarkan lokasi
  • Membuat beberapa kelompok boolean, masing-masing memetakan ke fitur unik baru
  • Memungkinkan model agar sesuai dengan nilai yang berbeda untuk setiap kelompok

MENGETAHUI DATA ANDA

  • Visualisasikan: Histogram plot, memberi peringkat dari paling umum hingga paling tidak umum.
  • Debug: Contoh duplikat? Nilai tidak ada? Pencilan? Data sesuai dengan dasbor? Data Pelatihan dan Validasi serupa?
  • Pantau: Kuantil fitur, jumlah contoh dari waktu ke waktu?