Versi baru dan peningkatan dari Kursus Singkat Machine Learning akan hadir pada Agustus 2024. Nantikan kabar terbaru.

Halaman ini diterjemahkan oleh Cloud Translation API.

Representasi

Model machine learning tidak dapat langsung melihat, mendengar, atau merasakan contoh input. Sebaliknya, Anda harus membuat representasi data untuk memberi model titik pandang yang berguna ke kualitas utama data. Artinya, untuk melatih model, Anda harus memilih set fitur yang paling mewakili data.

Representasi

Dari Data Mentah ke Fitur

Idenya adalah untuk memetakan setiap bagian vektor di sebelah kiri menjadi satu atau beberapa {i>field<i} dalam vektor fitur di sebelah kanan.

Data mentah dipetakan ke vektor fitur melalui proses yang disebut rekayasa fitur.

Dari Data Mentah ke Fitur

Contoh fitur yang dapat disalin langsung dari data mentah

Dari Data Mentah ke Fitur

Contoh fitur string (nama jalan) yang tidak dapat disalin langsung dari data mentah

Dari Data Mentah ke Fitur

Kamus memetakan setiap nama jalan ke int di {0, ...,V-1}
Sekarang merepresentasikan vektor one-hot di atas sebagai <i>

Properti Fitur Baik

Nilai fitur akan muncul dengan nilai bukan nol lebih sering dalam set data.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Properti Fitur Baik

Fitur harus memiliki makna yang jelas dan pasti.

user_age:23

user_age:123456789

Properti Fitur Baik

Fitur tidak boleh mengambil nilai "ajaib"

(sebagai gantinya, gunakan fitur boolean tambahan seperti watch_time_is_defined.)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Properti Fitur Baik

Definisi fitur tidak boleh berubah dari waktu ke waktu.

(Waspadalah terhadap ketergantungan pada sistem ML lain.)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Properti Fitur Baik

Distribusi tidak boleh memiliki pencilan yang ekstrem

Idealnya semua fitur diubah ke rentang yang serupa, seperti (-1, 1) atau (0, 5).

Distribusi dengan pencilan dan distribusi dengan batasan

Trik Pengelompokan

Grafik menunjukkan distribusi dengan kurva yang sesuai berdasarkan lokasi

Trik Pengelompokan

Membuat beberapa kelompok boolean, masing-masing memetakan ke fitur unik baru
Memungkinkan model agar sesuai dengan nilai yang berbeda untuk setiap kelompok

Kebiasaan Baik

MENGETAHUI DATA ANDA

Visualisasikan: Histogram plot, memberi peringkat dari paling umum hingga paling tidak umum.
Debug: Contoh duplikat? Nilai tidak ada? Pencilan? Data sesuai dengan dasbor? Data Pelatihan dan Validasi serupa?
Pantau: Kuantil fitur, jumlah contoh dari waktu ke waktu?