Model machine learning hanya dapat dilatih dengan nilai floating point. Namun, banyak fitur set data bukan nilai floating point alami. Oleh karena itu, salah satu bagian penting dari machine learning adalah fitur non-floating-point ke representasi floating point.
Misalnya, street names
adalah fitur. Sebagian besar nama jalan
adalah string, seperti "Broadway" atau "Vilakazi".
Model Anda tidak bisa dilatih di "Broadway", jadi Anda harus mengubah "Broadway"
menjadi bilangan floating point. Data Kategorial
modul ini
menjelaskan cara melakukannya.
Selain itu, Anda bahkan harus mentransformasi sebagian besar fitur floating point. Proses transformasi ini, yang disebut normalisasi, mengonversi bilangan floating point ke rentang terbatas yang meningkatkan pelatihan model. Data Numerik modul ini menjelaskan cara melakukannya.
Sampel data jika terlalu banyak
Beberapa organisasi memiliki data yang melimpah. Jika set data berisi terlalu banyak contoh, Anda harus memilih subset contoh untuk pelatihan. Jika memungkinkan, pilih {i>subset<i} yang paling relevan dengan prediksi model Anda.
Filter contoh yang berisi PII
Set data yang baik menghilangkan contoh yang berisi Informasi Identitas Pribadi (PII). Kebijakan ini membantu melindungi privasi, tetapi dapat memengaruhi model.
Lihat modul Keamanan dan Privasi nanti dalam kursus untuk informasi selengkapnya tentang topik ini.