Identifier des libellés et des sources

Libellés directs ou dérivés

Le machine learning est plus facile lorsque vos étiquettes sont bien définies. Le meilleur libellé est un libellé direct de ce que vous souhaitez prédire. Par exemple, si vous souhaitez prédire si un utilisateur est un fan de Taylor Swift, un libellé direct sera "l'utilisateur est un fan de Taylor Swift".

Un test plus simple pour les fans peut consister à regarder si une vidéo de Taylor Swift a été diffusée sur YouTube. L'étiquette "l'utilisateur a regardé une vidéo de Taylor Swift sur YouTube" est une étiquette dérivée, car elle ne mesure pas directement ce que vous voulez prédire. Cette étiquette dérivée est-elle un indicateur fiable que l'utilisateur aime Taylor Swift ? La qualité du modèle dépend de la connexion entre l'étiquette dérivée et la prédiction souhaitée.

Sources des libellés

La sortie de votre modèle peut être un événement ou un attribut. Il en résulte les deux types de libellés suivants:

  • Libellé direct pour les événements, par exemple "L'utilisateur a-t-il cliqué sur le premier résultat de recherche ?"
  • Libellé direct pour les attributs (par exemple, "L'annonceur va-t-il dépenser plus de X € la semaine prochaine ?")

Libellés directs pour les événements

Pour les événements, les libellés directs sont généralement simples, car vous pouvez enregistrer le comportement de l'utilisateur au cours de l'événement et l'utiliser comme libellé. Lorsque vous attribuez des étiquettes aux événements, posez-vous les questions suivantes:

  • Comment vos journaux sont-ils structurés ?
  • Dans vos journaux, qu'est-ce qu'un "événement" ?

Par exemple, le système enregistre-t-il un utilisateur qui clique sur un résultat de recherche ou lorsqu'il effectue une recherche ? Si vous avez des journaux de clics, sachez que vous ne verrez jamais d'impression sans clic. Vous aurez besoin de journaux dans lesquels les événements sont des impressions. Vous couvrirez donc tous les cas où un utilisateur voit un résultat de recherche en haut de page.

Libellés directs pour les attributs

Supposons que votre étiquette soit "L'annonceur dépensera plus de X € la semaine prochaine". Généralement, vous utilisez les données des jours précédents pour prédire ce qui se passera les jours suivants. Par exemple, l'illustration suivante montre les 10 jours de données d'entraînement qui prédisent les sept jours suivants:

Agenda montrant un blocage de 10 jours, suivi immédiatement d'un blocage de 7 jours.
Le modèle utilise les données du bloc de 10 jours pour effectuer des prédictions sur le bloc de 7 jours.

N'oubliez pas de tenir compte de la saisonnalité ou des effets cycliques. Par exemple, les annonceurs peuvent dépenser plus pendant les week-ends. Pour cette raison, vous pouvez utiliser à la place une période de 14 jours ou la date comme caractéristique afin que le modèle puisse apprendre les effets annuels.

Les étiquettes directes nécessitent des journaux relatifs aux comportements passés

Dans les cas précédents, notez que nous avions besoin de données sur le résultat réel. Qu'il s'agisse du montant dépensé par les annonceurs ou des utilisateurs ayant visionné des vidéos de Taylor Swift, nous avions besoin de données historiques pour utiliser le machine learning supervisé. Le machine learning effectue des prédictions en fonction des événements passés. Par conséquent, si vous ne disposez pas de journaux sur le passé, vous devez les obtenir.

Et si vous n'avez pas de données à consigner ?

Peut-être que votre produit n'existe pas encore, vous n'avez donc aucune donnée à consigner. Dans ce cas, vous pouvez prendre une ou plusieurs des mesures suivantes:

  • Utilisez une heuristique pour un premier lancement, puis entraînez un système basé sur des données enregistrées.
  • Utilisez les journaux d'un problème similaire pour amorcer votre système.
  • Utilisez des évaluateurs humains pour générer des données en effectuant des tâches.

Pourquoi utiliser des données étiquetées manuellement ?

L'utilisation de données étiquetées manuellement présente des avantages et des inconvénients.

Avantages

  • Les évaluateurs humains peuvent effectuer un large éventail de tâches.
  • Les données vous obligent à avoir une définition claire du problème.

Inconvénients

  • Les données sont coûteuses pour certains domaines.
  • Des données de qualité nécessitent généralement plusieurs itérations.

Améliorer la qualité

Vérifiez toujours le travail de vos évaluateurs manuels. Par exemple, ajoutez vous-même un libellé à 1 000 exemples et découvrez comment vos résultats correspondent aux évaluateurs. (L'étiquetage vous-même des données est également un excellent exercice pour mieux connaître vos données.) Si vous constatez des écarts, ne partez pas du principe que vos notes sont correctes, en particulier si vous devez évaluer la valeur. Si des évaluateurs humains ont introduit des erreurs, pensez à ajouter des instructions pour les aider, puis réessayez.

Examiner vos données manuellement est un bon exercice, quelle que soit la façon dont vous avez obtenu vos données. Andrej Karpathy a effectué cette opération sur ImageNet et a écrit sur l'expérience.