Ensembles de données: étiquettes

Cette section porte sur les libellés.

Étiquettes directes et étiquettes de proxy

Considérons deux types d'étiquettes différents:

  • Les étiquettes directes, qui sont identiques à la prédiction effectuée par votre modèle essaie de créer. Autrement dit, la prédiction que votre modèle essaie de réaliser exactement présent sous forme de colonne dans votre jeu de données. Par exemple, une colonne nommée bicycle owner constitue un libellé direct pour une modèle de classification binaire qui prédit si une personne possède à vélo.
  • Les étiquettes de proxy, qui sont similaires, mais à la prédiction que votre modèle essaie de réaliser. Par exemple, une personne s'abonnant au magazine Bizarre cycliste possède probablement un vélo, mais pas vraiment.

Les étiquettes directes sont généralement mieux que les étiquettes de proxy. Si votre jeu de données fournit une étiquette directe possible, vous devriez probablement l'utiliser. Cependant, il arrive souvent que les libellés directs ne soient pas disponibles.

Les étiquettes de proxy représentent toujours un compromis : une approximation imparfaite une étiquette directe. Cependant, certaines étiquettes de proxy sont assez proches pour être utiles. Les modèles qui utilisent des étiquettes de proxy ne sont utiles que si la connexion entre l'étiquette de proxy et la prédiction.

N'oubliez pas que chaque étiquette doit être représentée sous la forme d'un nombre à virgule flottante dans le vecteur de caractéristiques ; car le machine learning n'est fondamentalement qu'un immense amalgame opérations). Parfois, une étiquette directe existe, mais ne peut pas être facilement représentée sous la forme un nombre à virgule flottante dans le vecteur de caractéristiques. Dans ce cas, utilisez une étiquette de proxy.

Exercice: tester vos connaissances

Votre entreprise souhaite:

Envoyez vos bons de réduction ("Échangez votre ancien vélo contre "15% de remise sur un nouveau vélo") aux propriétaires de vélos.

Votre modèle doit donc:

Prédire quelles personnes sont propriétaires d'un vélo

Malheureusement, l'ensemble de données ne contient aucune colonne nommée bike owner. Cependant, l'ensemble de données contient une colonne nommée recently bought a bicycle.

Est-ce que recently bought a bicycle serait une bonne étiquette de proxy ? ou une étiquette de proxy médiocre pour ce modèle ?
Étiquette de proxy correcte
La colonne recently bought a bicycle est une étiquette de proxy relativement bonne. Après tout, la plupart des gens qui achètent des vélos sont désormais propriétaires de vélos. Néanmoins, comme toutes les étiquettes de proxy, même les très bonnes, recently bought a bicycle est imparfaite. Après tout, la personne qui achète un élément n'est pas toujours la personne qui l'utilise (ou en possède). Par exemple, certaines personnes achètent parfois des vélos en cadeau.
Libellé de proxy médiocre
Comme toutes les étiquettes de proxy, recently bought a bicycle est imparfait (certains vélos sont achetés en cadeau autres). Cependant, recently bought a bicycle est reste un bon indicateur du fait que quelqu'un possède vélo.

Données générées par l'humain

Certaines données sont générées par des humains. c'est-à-dire qu'un ou plusieurs humains examinent et fournissent une valeur, généralement pour l'étiquette. Par exemple, un ou plusieurs météorologues pourraient examiner des images du ciel et identifier de différents types de clouds.

Certaines données sont également générées automatiquement. Autrement dit, le logiciel (éventuellement un autre modèle de machine learning) détermine la valeur. Par exemple, un pourrait examiner des images du ciel et identifier automatiquement de différents types de clouds.

Cette section explore les avantages et les inconvénients des données générées par l'humain.

Avantages

  • Les évaluateurs humains peuvent effectuer un large éventail de tâches les modèles de machine learning peuvent s'avérer difficiles.
  • Le processus oblige le propriétaire du jeu de données à développer des des critères cohérents.

Inconvénients

  • Généralement, vous payez des évaluateurs humains, les données générées par l'humain peuvent donc être coûteuses.
  • L'erreur est humaine. Par conséquent, plusieurs évaluateurs humains peuvent être amenés à évaluer les mêmes données.

Réfléchissez à ces questions pour déterminer vos besoins:

  • Quel est le niveau de compétence de vos évaluateurs ? (Par exemple, les évaluateurs doivent-ils une langue spécifique ? Avez-vous besoin de linguistes pour le dialogue ou le TLN ? applications?)
  • De combien d'exemples étiquetés avez-vous besoin ? Dans combien de temps en aurez-vous besoin ?
  • Quel est votre budget ?

Vérifiez toujours vos évaluateurs manuels. Par exemple, étiquetez 1 000 exemples et comparez vos résultats à ceux d'autres évaluateurs résultats. Si des écarts apparaissent, ne partez pas du principe que vos évaluations sont correctes. surtout si un jugement de valeur est impliqué. Si des évaluateurs humains ont introduit , envisagez d'ajouter des instructions pour les aider, puis réessayez.