Kategorik veriler, belirli bir değer grubu. Örneğin:
- Milli parktaki farklı hayvan türleri
- Belirli bir şehirdeki sokakların adları
- E-postanın spam olup olmadığı
- Evin dış cephesinin boyandığı renkler
- Bölünmüş sayılar, Sayısal Sayılarla Çalışma Veri modülü
Sayılar ayrıca kategorik veri de olabilir
Doğru sayısal veriler katlanabilirsiniz. Örneğin, bulunduğu alana göre evin değerini tahmin eden bir model. Ev fiyatlarını değerlendirmek için yararlı bir modelin genellikle yüzlerce özellik. Bununla birlikte, diğer her şey eşit olduğunda, 200 karelik bir ev metreler, 100 karelik özdeş bir evin yaklaşık iki katı daha değerli olmalıdır metre.
Çoğu zaman tamsayı değerleri içeren özellikleri kategorik verileri kullanır. Örneğin, bir posta adresi değerlerin tam sayı olduğu kod özelliği. Bunu temsil ediyorsanız özellik sayısını kategorik olarak değil sayısal olarak sorarsanız, modele sayısal bir ilişki bulmak için ekleyebilirsiniz. Yani modele, müşterilerinizin 20004 posta kodu, posta kodunun iki katı (veya yarısı) büyük bir sinyal olarak ele alınır 10002. Posta kodlarını kategorik veri olarak göstermek, her posta kodunun ağırlığını ayrı ayrı alın.
Kodlama
Kodlama kategorik verilerin veya diğer verilerin sayısal vektörlere dönüştürülmesi anlamına gelir
tek bir fonksiyona değineceğiz. Bu dönüşüm gereklidir çünkü modeller
yalnızca kayan nokta değerleriyle eğitilir; tarafından çalıştırılamaz.
"dog"
veya "maple"
. Bu modülde, farklı türde
kategorik verilerde kodlama yöntemlerini
kullanmayı öğreteceğim.