Représentation

Un modèle de machine learning ne peut pas voir, entendre ou sentir directement les exemples d'entrée. À la place, vous devez créer une représentation des données pour fournir au modèle un angle de vue utile sur les qualités clés des données. Autrement dit, pour entraîner un modèle, vous devez choisir l'ensemble de caractéristiques qui représente le mieux les données.

Représentation

L'idée est de mapper chaque partie du vecteur de gauche avec un ou plusieurs champs du vecteur de caractéristiques situé à droite.

Les données brutes sont mises en correspondance avec un vecteur de caractéristiques via un processus appelé "extraction de caractéristiques".
Exemple de caractéristique qui peut être copiée directement des données brutes
Exemple d'élément géographique de chaîne (nom de rue) qui ne peut pas être copié directement à partir des données brutes
Mapper une valeur de chaîne (
  • Le dictionnaire met en correspondance chaque nom de rue avec un entier dans {0, ...,V-1}.
  • Il s'agit désormais d'un vecteur one-hot, représenté ci-dessus par <i>.

Les valeurs des caractéristiques doivent apparaître plusieurs fois avec une valeur non nulle dans l'ensemble de données.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

La signification des caractéristiques doit être claire.

user_age:23

user_age:123456789

Les caractéristiques ne doivent pas avoir des valeurs "magiques"

(utilisez plutôt une autre caractéristique booléenne comme "watch_time_is_defined")

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

La définition d'une caractéristique ne doit pas changer au fil du temps.

(Attention à la dépendance à d'autres systèmes de ML !)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

La distribution ne doit pas comporter de valeurs aberrantes extrêmes

Idéalement, toutes les caractéristiques transformées dans une plage similaire, comme (-1, 1) ou (0, 5).

Distribution avec des valeurs aberrantes et distribution avec une limite
Graphique représentant une distribution avec une courbe d&#39;ajustement basée sur le lieu
Graphique représentant une distribution avec une courbe d&#39;ajustement basée sur le lieu
  • Créer plusieurs classes booléennes, chacune étant mappée à une nouvelle caractéristique unique
  • Permet au modèle d'ajuster une valeur différente pour chaque classe

CONNAISSEZ VOS DONNÉES

  • Visualiser: tracez des histogrammes, classez-les de la plus fréquente à la moins courante.
  • Débogage: exemples en double ? Valeurs manquantes ? Des anomalies ? Les données sont en accord avec les tableaux de bord ? Les données d'entraînement et de validation sont-elles similaires ?
  • Surveiller: quantiles de caractéristiques, nombre d'exemples au fil du temps, etc.