Données numériques: méthode d'ingestion de données par un modèle à l'aide de vecteurs de caractéristiques

Jusqu'à présent, nous vous avions donné l'impression qu'un modèle agirait directement les lignes d'un jeu de données ; Toutefois, les modèles ingèrent les données différemment.

Par exemple, supposons qu'un ensemble de données fournit cinq colonnes, mais seulement deux d'entre elles les colonnes (b et d) sont des caractéristiques du modèle. Lors du traitement dans l'exemple de la ligne 3 : le modèle récupère-t-il simplement le contenu a mis en évidence deux cellules (3b et 3d) comme suit ?

Figure 1. Modèle ingérant un exemple directement à partir d'un ensemble de données.
            Les colonnes b et d de la ligne 3 sont mises en surbrillance.
Image 1. Ce n'est pas exactement la façon dont un modèle obtient ses exemples.

Le modèle ingère un tableau de valeurs à virgule flottante appelé vecteur de caractéristiques. Vous pouvez réfléchir d'un vecteur de caractéristiques comme valeurs à virgule flottante (un exemple).

Figure 2. Le vecteur de caractéristiques est un intermédiaire entre l'ensemble de données
            et le modèle.
Figure 2 : Plus proche de la vérité, mais pas réaliste.

Toutefois, les vecteurs de caractéristiques utilisent rarement les valeurs brutes de l'ensemble de données. À la place, vous devez généralement traiter les valeurs de l'ensemble de données sous forme de représentations à partir desquels votre modèle pourra mieux apprendre. Ainsi, une approche plus réaliste vecteur de caractéristiques pourrait ressembler à ceci:

Figure 3. Le vecteur de caractéristiques contient deux valeurs à virgule flottante:
            0,13 et 0,47. Vecteur de caractéristiques plus réaliste.
Figure 3 : Vecteur de caractéristiques plus réaliste.

Un modèle ne produirait-il pas de meilleures prédictions en l'entraînant à partir du réelles dans l'ensemble de données que des valeurs modifiées ? Étonnamment, la réponse est non.

Vous devez déterminer la meilleure façon de représenter les valeurs brutes de l'ensemble de données comme aptes à l'entraînement dans le vecteur de caractéristiques. Ce processus s'appelle l'ingénierie des caractéristiques, C'est un élément essentiel du machine learning. Les techniques d'ingénierie des caractéristiques les plus courantes sont les suivantes:

  • Normalization: conversion des valeurs numériques dans une plage standard.
  • Le binning (également appelé binning): conversion de valeurs numériques en buckets de plages.

Ce module traite de la normalisation et du binning. L'unité suivante, Travailler avec des données catégorielles couvre d'autres formes de prétraitement, comme convertir des données non numériques, comme des chaînes, en valeurs à virgule flottante.

Chaque valeur d'un vecteur de caractéristiques doit être une valeur à virgule flottante. Cependant, de nombreuses les caractéristiques sont naturellement des chaînes ou d'autres valeurs non numériques. Par conséquent, une grande partie de l'ingénierie des caractéristiques consiste à représenter des valeurs non numériques des valeurs numériques. Vous découvrirez de nombreuses informations à ce sujet dans les prochains modules.