Kategorik verilerle çalışma

'nı inceleyin.

Kategorik veriler, belirli bir değer grubu. Örneğin:

  • Milli parktaki farklı hayvan türleri
  • Belirli bir şehirdeki sokakların adları
  • E-postanın spam olup olmadığı
  • Evin dış cephesinin boyandığı renkler
  • Bölünmüş sayılar, Sayısal Sayılarla Çalışma Veri modülü

Sayılar ayrıca kategorik veri de olabilir

Doğru sayısal veriler katlanabilirsiniz. Örneğin, bulunduğu alana göre evin değerini tahmin eden bir model. Ev fiyatlarını değerlendirmek için yararlı bir modelin genellikle yüzlerce özellik. Bununla birlikte, diğer her şey eşit olduğunda, 200 karelik bir ev metreler, 100 karelik özdeş bir evin yaklaşık iki katı daha değerli olmalıdır metre.

Çoğu zaman tamsayı değerleri içeren özellikleri kategorik verileri kullanır. Örneğin, bir posta adresi değerlerin tam sayı olduğu kod özelliği. Bunu temsil ediyorsanız özellik sayısını kategorik olarak değil sayısal olarak sorarsanız, modele sayısal bir ilişki bulmak için ekleyebilirsiniz. Yani modele, müşterilerinizin 20004 posta kodu, posta kodunun iki katı (veya yarısı) büyük bir sinyal olarak ele alınır 10002. Posta kodlarını kategorik veri olarak göstermek, her posta kodunun ağırlığını ayrı ayrı alın.

Kodlama

Kodlama kategorik verilerin veya diğer verilerin sayısal vektörlere dönüştürülmesi anlamına gelir tek bir fonksiyona değineceğiz. Bu dönüşüm gereklidir çünkü modeller yalnızca kayan nokta değerleriyle eğitilir; tarafından çalıştırılamaz. "dog" veya "maple". Bu modülde, farklı türde kategorik verilerde kodlama yöntemlerini kullanmayı öğreteceğim.