Un modèle de machine learning ne peut pas voir, entendre ou sentir directement les exemples d'entrée. À la place, vous devez créer une représentation des données pour fournir au modèle un angle de vue utile sur les qualités clés des données. Autrement dit, pour entraîner un modèle, vous devez choisir l'ensemble de caractéristiques qui représente le mieux les données.
Représentation
Des données brutes aux caractéristiques
L'idée est de mapper chaque partie du vecteur de gauche avec un ou plusieurs champs du vecteur de caractéristiques situé à droite.
Des données brutes aux caractéristiques
Des données brutes aux caractéristiques
Des données brutes aux caractéristiques
- Le dictionnaire met en correspondance chaque nom de rue avec un entier dans {0, ...,V-1}.
- Il s'agit désormais d'un vecteur one-hot, représenté ci-dessus par <i>.
Propriétés d'une bonne caractéristique
Les valeurs des caractéristiques doivent apparaître plusieurs fois avec une valeur non nulle dans l'ensemble de données.
my_device_id:8SK982ZZ1242Z
device_model:galaxy_s6
Propriétés d'une bonne caractéristique
La signification des caractéristiques doit être claire.
user_age:23
user_age:123456789
Propriétés d'une bonne caractéristique
Les caractéristiques ne doivent pas avoir des valeurs "magiques"
(utilisez plutôt une autre caractéristique booléenne comme "watch_time_is_defined")
watch_time: -1.0
watch_time: 1.023
watch_time_is_defined: 1.0
Propriétés d'une bonne caractéristique
La définition d'une caractéristique ne doit pas changer au fil du temps.
(Attention à la dépendance à d'autres systèmes de ML !)
city_id:"br/sao_paulo"
inferred_city_cluster_id:219
Propriétés d'une bonne caractéristique
La distribution ne doit pas comporter de valeurs aberrantes extrêmes
Idéalement, toutes les caractéristiques transformées dans une plage similaire, comme (-1, 1) ou (0, 5).
L'astuce du binning
L'astuce du binning
- Créer plusieurs classes booléennes, chacune étant mappée à une nouvelle caractéristique unique
- Permet au modèle d'ajuster une valeur différente pour chaque classe
Bonnes habitudes
CONNAISSEZ VOS DONNÉES
- Visualiser: tracez des histogrammes, classez-les de la plus fréquente à la moins courante.
- Débogage: exemples en double ? Valeurs manquantes ? Des anomalies ? Les données sont en accord avec les tableaux de bord ? Les données d'entraînement et de validation sont-elles similaires ?
- Surveiller: quantiles de caractéristiques, nombre d'exemples au fil du temps, etc.