Jusqu'à présent, nous vous avions donné l'impression qu'un modèle agirait directement les lignes d'un jeu de données ; Toutefois, les modèles ingèrent les données différemment.
Par exemple, supposons qu'un ensemble de données fournit cinq colonnes, mais seulement deux d'entre elles
les colonnes (b
et d
) sont des caractéristiques du modèle. Lors du traitement
dans l'exemple de la ligne 3 : le modèle récupère-t-il simplement le contenu
a mis en évidence deux cellules (3b et 3d) comme suit ?
Le modèle ingère un tableau de valeurs à virgule flottante appelé vecteur de caractéristiques. Vous pouvez réfléchir d'un vecteur de caractéristiques comme valeurs à virgule flottante (un exemple).
Toutefois, les vecteurs de caractéristiques utilisent rarement les valeurs brutes de l'ensemble de données. À la place, vous devez généralement traiter les valeurs de l'ensemble de données sous forme de représentations à partir desquels votre modèle pourra mieux apprendre. Ainsi, une approche plus réaliste vecteur de caractéristiques pourrait ressembler à ceci:
Un modèle ne produirait-il pas de meilleures prédictions en l'entraînant à partir du réelles dans l'ensemble de données que des valeurs modifiées ? Étonnamment, la réponse est non.
Vous devez déterminer la meilleure façon de représenter les valeurs brutes de l'ensemble de données comme aptes à l'entraînement dans le vecteur de caractéristiques. Ce processus s'appelle l'ingénierie des caractéristiques, C'est un élément essentiel du machine learning. Les techniques d'ingénierie des caractéristiques les plus courantes sont les suivantes:
- Normalization: conversion des valeurs numériques dans une plage standard.
- Le binning (également appelé binning): conversion de valeurs numériques en buckets de plages.
Ce module traite de la normalisation et du binning. L'unité suivante, Travailler avec des données catégorielles couvre d'autres formes de prétraitement, comme convertir des données non numériques, comme des chaînes, en valeurs à virgule flottante.
Chaque valeur d'un vecteur de caractéristiques doit être une valeur à virgule flottante. Cependant, de nombreuses les caractéristiques sont naturellement des chaînes ou d'autres valeurs non numériques. Par conséquent, une grande partie de l'ingénierie des caractéristiques consiste à représenter des valeurs non numériques des valeurs numériques. Vous découvrirez de nombreuses informations à ce sujet dans les prochains modules.