Data numerik: Cara model menyerap data menggunakan vektor fitur

Hingga saat ini, kami telah memberi Anda kesan bahwa model bertindak langsung pada baris set data; namun, model sebenarnya menyerap data dengan cara yang agak berbeda.

Misalnya, set data menyediakan lima kolom, tetapi hanya dua kolom tersebut (b dan d) yang merupakan fitur dalam model. Saat memproses contoh di baris 3, apakah model hanya mengambil konten dua sel yang ditandai (3b dan 3d) sebagai berikut?

Gambar 1. Model yang menyerap contoh langsung dari set data.
            Kolom b dan d di Baris 3 ditandai.
Gambar 1. Bukan cara model mendapatkan contohnya.

Faktanya, model ini sebenarnya menyerap array nilai floating point yang disebut vektor fitur. Anda dapat menganggap vektor fitur sebagai nilai floating point yang terdiri dari satu contoh.

Gambar 2. Vektor fitur adalah perantara antara set data
            dan model.
Gambar 2. Lebih mendekati kebenaran, tetapi tidak realistis.

Namun, vektor fitur jarang menggunakan nilai mentah set data. Sebagai gantinya, Anda biasanya harus memproses nilai set data menjadi representasi yang dapat dipelajari model Anda dengan lebih baik. Jadi, vektor fitur yang lebih realistis mungkin terlihat seperti ini:

Gambar 3. Vektor fitur berisi dua nilai floating point:
            0,13 dan 0,47. Vektor fitur yang lebih realistis.
Gambar 3. Vektor fitur yang lebih realistis.

Bukankah model akan menghasilkan prediksi yang lebih baik dengan melakukan pelatihan dari nilai aktual dalam set data, bukan dari nilai yang diubah? Anehnya, jawabannya adalah tidak.

Anda harus menentukan cara terbaik untuk merepresentasikan nilai set data mentah sebagai nilai yang dapat dilatih dalam vektor fitur. Proses ini disebut feature engineering, dan merupakan bagian penting dari machine learning. Teknik teknik engineering fitur yang paling umum adalah:

Unit ini membahas normalisasi dan pengelompokan. Unit berikutnya, Menggunakan data kategoris, mencakup bentuk lain dari prapemrosesan, seperti mengonversi data non-numerik, seperti string, menjadi nilai floating point.

Setiap nilai dalam vektor fitur harus berupa nilai floating point. Namun, banyak fitur yang secara alami berupa string atau nilai non-numerik lainnya. Akibatnya, sebagian besar teknik fitur merepresentasikan nilai non-numerik sebagai nilai numerik. Anda akan melihat banyak hal ini di modul berikutnya.