Cette section porte sur les libellés.
Étiquettes directes et étiquettes de proxy
Considérons deux types d'étiquettes différents:
- Les étiquettes directes, qui sont identiques à la prédiction effectuée par votre modèle
essaie de créer. Autrement dit, la prédiction que votre modèle essaie de réaliser
exactement présent sous forme
de colonne dans votre jeu de données.
Par exemple, une colonne nommée
bicycle owner
constitue un libellé direct pour une modèle de classification binaire qui prédit si une personne possède à vélo. - Les étiquettes de proxy, qui sont similaires, mais à la prédiction que votre modèle essaie de réaliser. Par exemple, une personne qui s'abonne au magazine Bizarre de vélo. possède probablement un vélo, mais pas vraiment.
Les étiquettes directes sont généralement mieux que les étiquettes de proxy. Si votre jeu de données fournit une étiquette directe possible, vous devriez probablement l'utiliser. Cependant, il arrive souvent que les libellés directs ne soient pas disponibles.
Les étiquettes de proxy représentent toujours un compromis : une approximation imparfaite une étiquette directe. Cependant, certaines étiquettes de proxy sont suffisamment proches pour être utiles. Les modèles qui utilisent des étiquettes de proxy ne sont utiles que si la connexion entre l'étiquette de proxy et la prédiction.
N'oubliez pas que chaque étiquette doit être représentée sous la forme d'un nombre à virgule flottante dans le vecteur de caractéristiques. (parce que le machine learning n'est fondamentalement qu'un énorme amalgame de opérations). Parfois, une étiquette directe existe, mais ne peut pas être facilement représentée sous la forme un nombre à virgule flottante dans le vecteur de caractéristiques. Dans ce cas, utilisez une étiquette de proxy.
Exercice: tester vos connaissances
Votre entreprise souhaite:
Envoyez vos bons de réduction ("Échangez votre ancien vélo contre "15% de remise sur un nouveau vélo") aux propriétaires de vélos.
Votre modèle doit donc:
Prédire quelles personnes sont propriétaires d'un vélo
Malheureusement, l'ensemble de données ne contient aucune colonne nommée bike owner
.
Cependant, l'ensemble de données contient une colonne nommée recently bought a bicycle
.
recently bought a bicycle
serait une bonne étiquette de proxy ?
ou une étiquette de proxy médiocre pour ce modèle ?recently bought a bicycle
est
une étiquette de proxy relativement bonne. Après tout, la plupart des gens
qui achètent des vélos sont désormais propriétaires de vélos. Néanmoins, comme toutes
les étiquettes de proxy, même les très bonnes, recently bought a
bicycle
est imparfait. Après tout, la personne qui achète
un élément n'est pas toujours la personne qui l'utilise (ou en possède).
Par exemple, certaines personnes achètent parfois des vélos en cadeau.recently bought a bicycle
est imparfait (certains vélos sont achetés en cadeau et
autres). Cependant, recently bought a bicycle
est
reste un bon indicateur du fait que quelqu'un possède
vélo.Données générées par l'humain
Certaines données sont générées par des humains. c'est-à-dire qu'un ou plusieurs humains examinent et fournissent une valeur, généralement pour l'étiquette. Par exemple : un ou plusieurs météorologues pourraient examiner des images du ciel et identifier de différents types de clouds.
Certaines données sont également générées automatiquement. Autrement dit, le logiciel (éventuellement un autre modèle de machine learning) détermine la valeur. Par exemple, un pourrait examiner des images du ciel et identifier automatiquement de différents types de clouds.
Cette section explore les avantages et les inconvénients des données générées par l'humain.
Avantages
- Les évaluateurs humains peuvent effectuer un large éventail de tâches les modèles de machine learning peuvent s'avérer difficiles.
- Le processus oblige le propriétaire du jeu de données à développer des des critères cohérents.
Inconvénients
- Généralement, vous payez des évaluateurs humains, les données générées par l'humain peuvent donc être coûteuses.
- L'erreur est humaine. Par conséquent, plusieurs évaluateurs humains peuvent être amenés à évaluer les mêmes données.
Réfléchissez à ces questions pour déterminer vos besoins:
- Quel est le niveau de compétence de vos évaluateurs ? (Par exemple, les évaluateurs doivent-ils une langue spécifique ? Avez-vous besoin de linguistes pour le dialogue ou le TLN ? applications?)
- De combien d'exemples étiquetés avez-vous besoin ? Dans combien de temps en aurez-vous besoin ?
- Quel est votre budget ?
Vérifiez toujours vos évaluateurs manuels. Par exemple, étiquetez 1 000 exemples et comparez vos résultats à ceux d'autres évaluateurs résultats. Si des écarts apparaissent, ne partez pas du principe que vos évaluations sont correctes. surtout si un jugement de valeur est impliqué. Si des évaluateurs humains ont introduit , envisagez d'ajouter des instructions pour les aider, puis réessayez.