Ensembles de données: étiquettes

Cette section est consacrée aux libellés.

Libellés directs et de substitution

Considérons deux types d'étiquettes:

  • Étiquettes directes, qui sont des étiquettes identiques à la prédiction que votre modèle tente d'effectuer. Autrement dit, la prédiction que votre modèle tente de faire est exactement présente sous la forme d'une colonne dans votre ensemble de données. Par exemple, une colonne nommée bicycle owner serait une étiquette directe pour un modèle de classification binaire qui prédit si une personne possède un vélo ou non.
  • Étiquettes proxy, qui sont des étiquettes similaires, mais pas identiques, à la prédiction que votre modèle tente d'effectuer. Par exemple, une personne qui s'abonne au magazine Bicycle Bizarre possède probablement un vélo, mais ce n'est pas forcément le cas.

Les étiquettes directes sont généralement meilleures que les étiquettes proxy. Si votre ensemble de données fournit un libellé direct possible, vous devriez probablement l'utiliser. Cependant, il arrive souvent que les libellés directs ne soient pas disponibles.

Les libellés de proxy sont toujours un compromis, une approximation imparfaite d'un libellé direct. Toutefois, certains libellés de proxy sont suffisamment proches pour être utiles. Les modèles qui utilisent des étiquettes de proxy ne sont utiles que si la connexion entre l'étiquette de proxy et la prédiction est pertinente.

Pour rappel, chaque étiquette doit être représentée sous la forme d'un nombre à virgule flottante dans le vecteur de caractéristiques (car le machine learning n'est fondamentalement qu'un énorme amalgame d'opérations mathématiques). Parfois, un libellé direct existe, mais ne peut pas être facilement représenté sous la forme d'un nombre à virgule flottante dans le vecteur de caractéristiques. Dans ce cas, utilisez un libellé de proxy.

Exercice: Vérifiez votre compréhension

Votre entreprise souhaite effectuer les opérations suivantes:

Envoyer des bons de réduction ("Échangez votre ancien vélo contre 15% de remise sur un nouveau vélo") aux propriétaires de vélos

Votre modèle doit donc effectuer les opérations suivantes:

Prédire les personnes qui possèdent un vélo.

Malheureusement, l'ensemble de données ne contient pas de colonne nommée bike owner. Toutefois, l'ensemble de données contient une colonne nommée recently bought a bicycle.

recently bought a bicycle serait-il un bon ou un mauvais étiquette de proxy pour ce modèle ?
Bon libellé de proxy
La colonne recently bought a bicycle est une étiquette de proxy relativement bonne. Après tout, la plupart des personnes qui achètent des vélos en possèdent déjà. Néanmoins, comme tous les libellés de proxy, même les très bons, recently bought a bicycle n'est pas parfait. Après tout, la personne qui achète un article n'est pas toujours celle qui l'utilise (ou qui en est propriétaire). Par exemple, les gens achètent parfois des vélos en cadeau.
Libellé de proxy de mauvaise qualité
Comme tous les libellés de proxy, recently bought a bicycle n'est pas parfait (certains vélos sont achetés en cadeau et donnés à d'autres). Toutefois, recently bought a bicycle reste un indicateur relativement fiable pour savoir si une personne possède un vélo.

Données générées par l'humain

Certaines données sont générées par des humains, c'est-à-dire qu'une ou plusieurs personnes examinent certaines informations et fournissent une valeur, généralement pour l'étiquette. Par exemple, un ou plusieurs météorologues peuvent examiner des images du ciel et identifier les types de nuages.

Certaines données sont également générées automatiquement. Autrement dit, un logiciel (peut-être un autre modèle de machine learning) détermine la valeur. Par exemple, un modèle de machine learning peut examiner des images du ciel et identifier automatiquement les types de nuages.

Cette section explore les avantages et les inconvénients des données générées par l'humain.

Avantages

  • Les évaluateurs humains peuvent effectuer un large éventail de tâches que même des modèles de machine learning sophistiqués peuvent trouver difficiles.
  • Le processus oblige le propriétaire du jeu de données à développer des critères clairs et cohérents.

Inconvénients

  • Vous payez généralement des évaluateurs humains, ce qui peut rendre les données générées par des humains coûteuses.
  • L'erreur est humaine. Par conséquent, plusieurs évaluateurs humains peuvent être amenés à évaluer les mêmes données.

Réfléchissez aux questions suivantes pour déterminer vos besoins:

  • Quel niveau de compétences vos évaluateurs doivent-ils posséder ? (Par exemple, les évaluateurs doivent-ils connaître une langue spécifique ? Avez-vous besoin de linguistes pour des applications de dialogue ou de traitement du langage naturel ?
  • De combien d'exemples annotés avez-vous besoin ? Dans combien de temps en avez-vous besoin ?
  • Quel est votre budget ?

Vérifiez toujours les évaluations de vos examinateurs humains. Par exemple, attribuez vous-même des libellés à 1 000 exemples et comparez vos résultats à ceux d'autres évaluateurs. Si des divergences apparaissent, ne partez pas du principe que vos évaluations sont correctes, en particulier si un jugement de valeur est impliqué. Si des évaluateurs humains ont introduit des erreurs, envisagez d'ajouter des instructions pour les aider, puis réessayez.