Données numériques: méthode d'ingestion de données par un modèle à l'aide de vecteurs de caractéristiques

Jusqu'à présent, nous vous avons donné l'impression qu'un modèle agit directement sur les lignes d'un ensemble de données. Toutefois, les modèles ingurgitent en réalité les données de manière quelque peu différente.

Par exemple, supposons qu'un ensemble de données comporte cinq colonnes, mais que seules deux d'entre elles (b et d) soient des caractéristiques du modèle. Lors du traitement de l'exemple de la ligne 3, le modèle saisit-il simplement le contenu des deux cellules en surbrillance (3b et 3d) comme suit ?

Figure 1. Modèle incluant un exemple directement à partir d'un ensemble de données
            Les colonnes b et d de la ligne 3 sont mises en surbrillance.
Image 1. Ce n'est pas exactement ainsi qu'un modèle obtient ses exemples.

En réalité, le modèle ingère un tableau de valeurs à virgule flottante appelé vecteur de caractéristiques. Vous pouvez considérer un vecteur de caractéristiques comme les valeurs à virgule flottante d'un exemple.

Figure 2. Le vecteur de caractéristiques est un intermédiaire entre le jeu de données et le modèle.
Figure 2 : Plus proche de la vérité, mais pas réaliste.

Toutefois, les vecteurs de caractéristiques utilisent rarement les valeurs brutes de l'ensemble de données. Au lieu de cela, vous devez généralement transformer les valeurs de l'ensemble de données en représentations que votre modèle peut mieux apprendre. Un vecteur de caractéristiques plus réaliste peut donc se présenter comme suit:

Figure 3. Le vecteur de caractéristiques contient deux valeurs à virgule flottante : 0,13 et 0,47. Vecteur de caractéristiques plus réaliste.
Figure 3 : Vecteur de caractéristiques plus réaliste.

Un modèle ne produirait-il pas de meilleures prédictions en s'entraînant à partir des valeurs réelles de l'ensemble de données qu'à partir de valeurs modifiées ? Étonnamment, la réponse est non.

Vous devez déterminer le meilleur moyen de représenter les valeurs de l'ensemble de données brut en tant que valeurs enregistrables dans le vecteur de caractéristiques. Ce processus s'appelle la création de caractéristiques. Il est essentiel au machine learning. Les techniques d'ingénierie des caractéristiques les plus courantes sont les suivantes:

  • Normalisation: conversion des valeurs numériques en plage standard.
  • Binning (également appelé bucketing): conversion des valeurs numériques en buckets de plages.

Ce module explique la normalisation et le binning. L'unité suivante, Travailler avec des données catégorielles, couvre d'autres formes de prétraitement, telles que la conversion de données non numériques, comme les chaînes, en valeurs à virgule flottante.

Chaque valeur d'un vecteur de caractéristiques doit être une valeur à virgule flottante. Toutefois, de nombreuses entités sont naturellement des chaînes ou d'autres valeurs non numériques. Par conséquent, une grande partie de l'ingénierie des caractéristiques consiste à représenter des valeurs non numériques en tant que valeurs numériques. Vous en verrez beaucoup dans les prochains modules.