Hingga saat ini, kami telah memberi Anda kesan bahwa model bertindak langsung pada baris set data; namun, model sebenarnya menyerap data dengan cara yang agak berbeda.
Misalnya, set data menyediakan lima kolom, tetapi hanya dua kolom tersebut (b
dan d
) yang merupakan fitur dalam model. Saat memproses
contoh di baris 3, apakah model hanya mengambil konten
dua sel yang ditandai (3b dan 3d) sebagai berikut?
Faktanya, model ini sebenarnya menyerap array nilai floating point yang disebut vektor fitur. Anda dapat menganggap vektor fitur sebagai nilai floating point yang terdiri dari satu contoh.
Namun, vektor fitur jarang menggunakan nilai mentah set data. Sebagai gantinya, Anda biasanya harus memproses nilai set data menjadi representasi yang dapat dipelajari model Anda dengan lebih baik. Jadi, vektor fitur yang lebih realistis mungkin terlihat seperti ini:
Bukankah model akan menghasilkan prediksi yang lebih baik dengan melakukan pelatihan dari nilai aktual dalam set data, bukan dari nilai yang diubah? Anehnya, jawabannya adalah tidak.
Anda harus menentukan cara terbaik untuk merepresentasikan nilai set data mentah sebagai nilai yang dapat dilatih dalam vektor fitur. Proses ini disebut feature engineering, dan merupakan bagian penting dari machine learning. Teknik teknik engineering fitur yang paling umum adalah:
- Normalisasi: Mengonversi nilai numerik menjadi rentang standar.
- Pengelompokan (juga disebut sebagai bucketing): Mengonversi nilai numerik menjadi bucket rentang.
Unit ini membahas normalisasi dan pengelompokan. Unit berikutnya, Menggunakan data kategoris, mencakup bentuk lain dari prapemrosesan, seperti mengonversi data non-numerik, seperti string, menjadi nilai floating point.
Setiap nilai dalam vektor fitur harus berupa nilai floating point. Namun, banyak fitur yang secara alami berupa string atau nilai non-numerik lainnya. Akibatnya, sebagian besar teknik fitur merepresentasikan nilai non-numerik sebagai nilai numerik. Anda akan melihat banyak hal ini di modul berikutnya.