Utiliser des données catégorielles

Les données catégorielles présentent une ensemble spécifique de valeurs possibles. Exemple :

  • Les différentes espèces animales d'un parc national
  • Le nom des rues d'une ville spécifique
  • Indique si l'e-mail est un spam ou non
  • Les couleurs utilisées pour peindre les extérieurs des maisons
  • Les nombres classifiés, qui sont décrits dans la section Utiliser des nombres Module "Données"

Les nombres peuvent aussi être des données catégorielles

Vraies données numériques peuvent être multipliées de manière significative. Prenons l'exemple d'une qui prédit la valeur d'un logement en fonction de sa superficie. Notez qu'un modèle utile pour évaluer le prix des maisons repose généralement sur des centaines de fonctionnalités. Cela dit, toutes choses égales par ailleurs, une maison de 200 places Les mètres doivent avoir une valeur environ deux fois supérieure à celle d'une maison identique de 100 mètres carrés. mètres.

Souvent, vous devez représenter les caractéristiques contenant des valeurs entières sous la forme des données catégorielles au lieu de données numériques. Prenons l'exemple d'un code postal caractéristique de code dont les valeurs sont des entiers. Si vous représentez des caractéristiques numériques plutôt que catégorielles, vous demandez au modèle pour trouver une relation numérique entre différents codes postaux. Autrement dit, vous demandez au modèle Traiter le code postal 20004 comme étant deux fois (ou la moitié) plus grand que le code postal 10002. Représenter les codes postaux en tant que données catégorielles permet au modèle pondérer chaque code postal séparément.

Encodage

L'encodage désigne la conversion de données catégorielles ou autres en vecteurs numériques pour l'entraînement d'un modèle. Cette conversion est nécessaire, car les modèles l'entraînement sur des valeurs à virgule flottante uniquement. ne peuvent pas être entraînés sur des chaînes "dog" ou "maple". Ce module présente différentes pour les données catégorielles.