Ensembles de données: étiquettes

Cette section porte sur les libellés.

Étiquettes directes et de substitution

Considérez deux types d'étiquettes différents :

Les libellés directs, qui sont identiques à la prédiction que votre modèle tente de faire. En d'autres termes, la prédiction que votre modèle tente de faire est exactement présente sous forme de colonne dans votre ensemble de données. Par exemple, une colonne nommée bicycle owner serait un libellé direct pour un modèle de classification binaire qui prédit si une personne possède ou non un vélo.
Les étiquettes de substitution, qui sont des étiquettes similaires, mais pas identiques, à la prédiction que votre modèle essaie de faire. Par exemple, une personne abonnée au magazine Bicycle Bizarre possède probablement un vélo, mais ce n'est pas certain.

Les libellés directs sont généralement préférables aux libellés indirects. Si votre ensemble de données fournit un libellé direct possible, vous devriez probablement l'utiliser. Toutefois, les libellés directs ne sont pas toujours disponibles.

Les libellés de substitution sont toujours un compromis, une approximation imparfaite d'un libellé direct. Toutefois, certaines étiquettes de proxy sont suffisamment proches pour être utiles. Les modèles qui utilisent des étiquettes de substitution ne sont utiles que dans la mesure où il existe un lien entre l'étiquette de substitution et la prédiction.

Rappelez-vous que chaque libellé doit être représenté sous la forme d'un nombre à virgule flottante, semblable au vecteur de caractéristiques (car le machine learning n'est fondamentalement qu'une collection d'opérations mathématiques). Parfois, un libellé direct existe, mais ne peut pas être facilement représenté sous la forme d'un nombre à virgule flottante. Dans ce cas, utilisez un libellé de substitution.

Exercice : Vérifier que vous avez bien compris

Votre entreprise souhaite effectuer les opérations suivantes :

Envoyez des bons de réduction ("Obtenez 15 % de remise sur un nouveau casque de vélo") aux propriétaires de vélos.

Votre modèle doit donc effectuer les opérations suivantes :

Prédisez quelles personnes possèdent un vélo.

Malheureusement, l'ensemble de données ne contient pas de colonne nommée bike owner. Toutefois, l'ensemble de données contient une colonne nommée recently bought a bicycle.

recently bought a bicycle serait-il une bonne ou une mauvaise étiquette de substitution pour ce modèle ?

Libellé de substitution de bonne qualité

La colonne recently bought a bicycle est une étiquette proxy relativement bonne. Après tout, la plupart des personnes qui achètent des vélos en possèdent déjà. Néanmoins, comme toutes les étiquettes de substitution, même les meilleures,

recently bought a
            bicycle

est imparfaite. Après tout, la personne qui achète un article n'est pas toujours celle qui l'utilise (ou le possède). Par exemple, les gens achètent parfois des vélos pour les offrir.

Libellé de substitution de mauvaise qualité

Comme tous les libellés de proxy, recently bought a bicycle n'est pas parfait (certains vélos sont achetés comme cadeaux et offerts à d'autres personnes). Toutefois, recently bought a bicycle reste un indicateur relativement fiable de la possession d'un vélo.

Données générées par des humains

Certaines données sont générées par des humains. Cela signifie qu'une ou plusieurs personnes examinent certaines informations et fournissent une valeur, généralement pour le libellé. Par exemple, un ou plusieurs météorologues peuvent examiner des photos du ciel et identifier les types de nuages.

Certaines données sont également générées automatiquement. En d'autres termes, la valeur est déterminée par un logiciel (éventuellement un autre modèle de machine learning). Par exemple, un modèle de machine learning pourrait examiner des photos du ciel et identifier automatiquement les types de nuages.

Cette section explore les avantages et les inconvénients des données générées par des humains.

Avantages

Les évaluateurs humains peuvent effectuer un large éventail de tâches que même les modèles de machine learning sophistiqués peuvent trouver difficiles.
Ce processus oblige le propriétaire de l'ensemble de données à développer des critères clairs et cohérents.

Inconvénients

Les données générées par des humains peuvent être coûteuses, car vous devez généralement payer les évaluateurs humains.
L'erreur est humaine. Par conséquent, il est possible que plusieurs évaluateurs humains doivent évaluer les mêmes données.

Réfléchissez aux questions suivantes pour déterminer vos besoins :

Quel niveau de compétence vos évaluateurs doivent-ils avoir ? (Par exemple, les évaluateurs doivent-ils connaître une langue spécifique ? Avez-vous besoin de linguistes pour les applications de dialogue ou de traitement du langage naturel ?)
De combien d'exemples libellés avez-vous besoin ? Dans combien de temps en aurez-vous besoin ?
Quel est votre budget ?

Vérifiez toujours vos évaluateurs humains. Par exemple, annotez vous-même 1 000 exemples et comparez vos résultats à ceux d'autres évaluateurs. Si des écarts apparaissent, ne partez pas du principe que vos classifications sont correctes, surtout si un jugement de valeur est impliqué. Si des évaluateurs humains ont introduit des erreurs, pensez à ajouter des instructions pour les aider, puis réessayez.

Cliquez sur l'icône Plus pour en savoir plus sur les données générées par des humains.

L'examen manuel de vos données est un bon exercice, quelle que soit la façon dont vous les avez obtenues. Andrej Karpathy l'a fait sur ImageNet et a écrit sur son expérience.

Les modèles peuvent s'entraîner sur un mélange de libellés générés automatiquement et par des humains. Toutefois, pour la plupart des modèles, un ensemble supplémentaire d'étiquettes générées par des humains (qui peuvent devenir obsolètes) ne vaut généralement pas la complexité et la maintenance supplémentaires. Cela dit, il arrive que les libellés générés par des humains fournissent des informations supplémentaires qui ne sont pas disponibles dans les libellés automatiques.

Caractéristiques des données (10 min)

Ensembles de données déséquilibrés (10 min)