Jusqu'à présent, nous vous avons donné l'impression qu'un modèle agit directement sur les lignes d'un ensemble de données. Toutefois, les modèles ingurgitent en réalité les données de manière quelque peu différente.
Par exemple, supposons qu'un ensemble de données comporte cinq colonnes, mais que seules deux d'entre elles (b
et d
) soient des caractéristiques du modèle. Lors du traitement de l'exemple de la ligne 3, le modèle saisit-il simplement le contenu des deux cellules en surbrillance (3b et 3d) comme suit ?
En réalité, le modèle ingère un tableau de valeurs à virgule flottante appelé vecteur de caractéristiques. Vous pouvez considérer un vecteur de caractéristiques comme les valeurs à virgule flottante d'un exemple.
Toutefois, les vecteurs de caractéristiques utilisent rarement les valeurs brutes de l'ensemble de données. Au lieu de cela, vous devez généralement transformer les valeurs de l'ensemble de données en représentations que votre modèle peut mieux apprendre. Un vecteur de caractéristiques plus réaliste peut donc se présenter comme suit:
Un modèle ne produirait-il pas de meilleures prédictions en s'entraînant à partir des valeurs réelles de l'ensemble de données qu'à partir de valeurs modifiées ? Étonnamment, la réponse est non.
Vous devez déterminer le meilleur moyen de représenter les valeurs de l'ensemble de données brut en tant que valeurs enregistrables dans le vecteur de caractéristiques. Ce processus s'appelle la création de caractéristiques. Il est essentiel au machine learning. Les techniques d'ingénierie des caractéristiques les plus courantes sont les suivantes:
- Normalisation: conversion des valeurs numériques en plage standard.
- Binning (également appelé bucketing): conversion des valeurs numériques en buckets de plages.
Ce module explique la normalisation et le binning. L'unité suivante, Travailler avec des données catégorielles, couvre d'autres formes de prétraitement, telles que la conversion de données non numériques, comme les chaînes, en valeurs à virgule flottante.
Chaque valeur d'un vecteur de caractéristiques doit être une valeur à virgule flottante. Toutefois, de nombreuses entités sont naturellement des chaînes ou d'autres valeurs non numériques. Par conséquent, une grande partie de l'ingénierie des caractéristiques consiste à représenter des valeurs non numériques en tant que valeurs numériques. Vous en verrez beaucoup dans les prochains modules.