Model machine learning hanya dapat dilatih dengan nilai floating point. Namun, banyak fitur set data bukan nilai floating point secara alami. Oleh karena itu, salah satu bagian penting dari machine learning adalah mengubah fitur non-floating point menjadi representasi floating point.
Misalnya, anggap street names
adalah fitur. Sebagian besar nama jalan
adalah string, seperti "Broadway" atau "Vilakazi".
Model Anda tidak dapat dilatih di "Broadway", jadi Anda harus mengubah "Broadway"
menjadi bilangan floating point. Modul Data Kategoris menjelaskan cara melakukannya.
Selain itu, Anda bahkan harus mengubah sebagian besar fitur floating point. Proses transformasi ini, yang disebut normalisasi, mengonversi angka floating point ke rentang terbatas yang meningkatkan pelatihan model. Modul Data Numerik menjelaskan cara melakukannya.
Mengambil sampel data jika Anda memiliki terlalu banyak data
Beberapa organisasi diberkahi dengan berlimpahnya data. Jika set data berisi terlalu banyak contoh, Anda harus memilih subkumpulan contoh untuk pelatihan. Jika memungkinkan, pilih subset yang paling relevan dengan prediksi model Anda.
Contoh filter yang berisi PII
Set data yang baik menghilangkan contoh yang berisi Informasi Identitas Pribadi (PII). Kebijakan ini membantu menjaga privasi, tetapi dapat memengaruhi model.
Lihat modul Keamanan dan Privasi nanti dalam kursus untuk mengetahui informasi selengkapnya tentang topik ini.