Data kategorikal memiliki kumpulan nilai yang mungkin secara spesifik. Contoh:
- Berbagai spesies hewan di taman nasional
- Nama-nama jalan di kota tertentu
- Apakah email merupakan spam atau bukan
- Warna-warna eksterior rumah yang dicat
- Bilangan biner, yang dijelaskan dalam bagian Bekerja dengan Numerik Modul data
Bilangan juga dapat berupa data kategorik
Data numerik benar dapat dikalikan secara bermakna. Misalnya, pertimbangkan yang memprediksi nilai rumah berdasarkan luasnya. Perhatikan bahwa model yang berguna untuk mengevaluasi harga rumah biasanya bergantung pada ratusan fitur. Yang mengatakan, semua yang lain sama, sebuah rumah seluas 200 persegi meter seharusnya kira-kira dua kali lebih berharga dibandingkan rumah identik dengan luas 100 meter persegi meter.
Sering kali, Anda harus merepresentasikan fitur yang berisi nilai bilangan bulat sebagai data kategorikal alih-alih data numerik. Misalnya, perhatikan alamat pos fitur kode yang mana nilainya adalah bilangan bulat. Jika Anda mewakili ini fitur secara numerik, bukan kategoris, Anda meminta model untuk menemukan hubungan numerik di antara kode pos yang berbeda. Artinya, Anda memberi tahu model untuk memperlakukan kode pos 20004 dua kali (atau setengah) lebih besar sinyalnya 10002. Dengan merepresentasikan kode pos sebagai data kategorik, model ini dapat berat setiap kode pos secara terpisah.
Encoding
Encoding berarti mengonversi data kategori atau data lainnya menjadi vektor numerik
yang dapat digunakan untuk melatih model. Konversi ini diperlukan karena model dapat
hanya melatih nilai floating point; model tidak bisa dilatih dengan {i>string<i} seperti
"dog"
atau "maple"
. Modul ini menjelaskan berbagai
metode encoding untuk data kategorik.