Cette section porte sur les libellés.
Étiquettes directes et de substitution
Considérez deux types d'étiquettes différents :
- Les libellés directs, qui sont identiques à la prédiction que votre modèle tente de faire. En d'autres termes, la prédiction que votre modèle tente de faire est exactement présente sous forme de colonne dans votre ensemble de données.
Par exemple, une colonne nommée
bicycle owner
serait un libellé direct pour un modèle de classification binaire qui prédit si une personne possède ou non un vélo. - Les étiquettes de substitution, qui sont des étiquettes similaires, mais pas identiques, à la prédiction que votre modèle essaie de faire. Par exemple, une personne abonnée au magazine Bicycle Bizarre possède probablement un vélo, mais ce n'est pas certain.
Les libellés directs sont généralement préférables aux libellés indirects. Si votre ensemble de données fournit un libellé direct possible, vous devriez probablement l'utiliser. Toutefois, les libellés directs ne sont pas toujours disponibles.
Les libellés de substitution sont toujours un compromis, une approximation imparfaite d'un libellé direct. Toutefois, certains libellés de substitution sont suffisamment proches pour être utiles. Les modèles qui utilisent des étiquettes de substitution ne sont utiles que dans la mesure où il existe un lien entre l'étiquette de substitution et la prédiction.
Pour rappel, chaque libellé doit être représenté sous la forme d'un nombre à virgule flottante dans le vecteur de caractéristiques (car le machine learning n'est fondamentalement qu'un énorme amalgame d'opérations mathématiques). Parfois, un libellé direct existe, mais ne peut pas être facilement représenté sous la forme d'un nombre à virgule flottante dans le vecteur de caractéristiques. Dans ce cas, utilisez un libellé de substitution.
Exercice : Vérifier que vous avez bien compris
Votre entreprise souhaite effectuer les opérations suivantes :
Envoyez des bons de réduction ("Obtenez 15 % de remise sur un nouveau casque de vélo") aux propriétaires de vélos.
Votre modèle doit donc effectuer les opérations suivantes :
Prédisez quelles personnes possèdent un vélo.
Malheureusement, l'ensemble de données ne contient pas de colonne nommée bike owner
.
Toutefois, l'ensemble de données contient une colonne nommée recently bought a bicycle
.
recently bought a bicycle
serait-il une bonne ou une mauvaise étiquette de substitution pour ce modèle ?recently bought a bicycle
est une étiquette proxy relativement bonne. Après tout, la plupart des personnes qui achètent des vélos en possèdent déjà. Néanmoins, comme toutes les étiquettes de substitution, même les meilleures, recently bought a
bicycle
est imparfaite. Après tout, la personne qui achète un article n'est pas toujours celle qui l'utilise (ou le possède).
Par exemple, les gens achètent parfois des vélos pour les offrir.recently bought a bicycle
est imparfait (certains vélos sont achetés comme cadeaux et offerts à d'autres personnes). Toutefois, recently bought a bicycle
reste un indicateur relativement fiable de la possession d'un vélo.Données générées par des humains
Certaines données sont générées par des humains. Cela signifie qu'une ou plusieurs personnes examinent certaines informations et fournissent une valeur, généralement pour le libellé. Par exemple, un ou plusieurs météorologues peuvent examiner des photos du ciel et identifier les types de nuages.
D'autres données sont générées automatiquement. En d'autres termes, la valeur est déterminée par un logiciel (éventuellement un autre modèle de machine learning). Par exemple, un modèle de machine learning pourrait examiner des photos du ciel et identifier automatiquement les types de nuages.
Cette section explore les avantages et les inconvénients des données générées par des humains.
Avantages
- Les évaluateurs humains peuvent effectuer un large éventail de tâches que même les modèles de machine learning sophistiqués peuvent trouver difficiles.
- Ce processus oblige le propriétaire du jeu de données à développer des critères clairs et cohérents.
Inconvénients
- Les données générées par des humains peuvent être coûteuses, car vous devez généralement payer les évaluateurs humains.
- L'erreur est humaine. Par conséquent, il est possible que plusieurs évaluateurs humains doivent évaluer les mêmes données.
Réfléchissez aux questions suivantes pour déterminer vos besoins :
- Quel niveau de compétence vos évaluateurs doivent-ils avoir ? (Par exemple, les évaluateurs doivent-ils connaître une langue spécifique ? Avez-vous besoin de linguistes pour les applications de dialogue ou de traitement du langage naturel ?)
- De combien d'exemples libellés avez-vous besoin ? Dans combien de temps en aurez-vous besoin ?
- Quel est votre budget ?
Vérifiez toujours les évaluations de vos évaluateurs humains. Par exemple, annotez vous-même 1 000 exemples et comparez vos résultats à ceux d'autres évaluateurs. Si des écarts apparaissent, ne partez pas du principe que vos classifications sont correctes, surtout si un jugement de valeur est impliqué. Si des évaluateurs humains ont introduit des erreurs, pensez à ajouter des instructions pour les aider, puis réessayez.