Données catégorielles: problèmes courants

Les données numériques sont souvent enregistrées par des instruments scientifiques ou des mesures automatisées. Les données catégorielles, à l’inverse, sont souvent catégorisées par des êtres humains ou par des modèles de machine learning (ML). Qui décide-t-il sur les catégories et les libellés, ainsi que sur la façon dont ils prennent ces décisions, a un impact la fiabilité et l'utilité de ces données.

Évaluateurs manuels

Les données étiquetées manuellement par des êtres humains sont souvent appelées étiquettes or, et est considéré comme plus souhaitable que les données étiquetées par machine pour l'entraînement des modèles, en raison d'une qualité relativement meilleure.

Cela ne signifie pas nécessairement qu'un ensemble de données étiquetées manuellement qualité. Les erreurs humaines, les biais et la malveillance peuvent être introduits au moment de la collecte de données ou pendant le nettoyage et le traitement des données. Rechercher avant l'entraînement.

Deux êtres humains peuvent étiqueter le même exemple différemment. La différence entre les évaluateurs humains s'appelle inter-évaluateurs Google Cloud. Vous pouvez vous faire une idée de la variance des opinions en utilisant plusieurs évaluateurs par exemple et mesurer l'accord inter-évaluateurs.

Évaluateurs de machines

Les données étiquetées automatiquement, où les catégories sont automatiquement déterminées par un ou modèles de classification, est souvent appelée étiquette argent. La qualité des données étiquetées automatiquement peut varier considérablement. Vérifiez son exactitude, et pas seulement et biais, mais aussi pour un non-respect du bon sens, de la réalité et de l'intention. Pour exemple, si un modèle de vision par ordinateur étiquette de manière erronée une photo d'une chihuahua comme muffin, ou la photo d'un muffin représentant un chihuahua, les modèles entraînés sur ces données étiquetées être de moins bonne qualité.

De même, un analyseur de sentiments qui attribue un score de -0,25 aux mots neutres lorsque 0,0 est la valeur neutre, peut-être évaluer tous les mots avec un biais négatif supplémentaire qui ne sont pas réellement présentes dans les données. Un détecteur de toxicité trop sensible peut signaler à tort de nombreuses déclarations neutres comme toxiques. Essayez d'avoir une idée la qualité et les biais des étiquettes et annotations de machines dans vos données s'y entraîner.

Grande dimensionnalité

Les données catégorielles ont tendance à produire des vecteurs de caractéristiques de grande dimension. c'est-à-dire des vecteurs de caractéristiques comportant un grand nombre d'éléments. La grande dimensionnalité augmente les coûts et l'entraînement difficiles. C'est pourquoi les experts en ML cherchent souvent à réduire le nombre de dimensions avant l'entraînement.

Pour les données en langage naturel, la principale méthode de réduction de la dimensionnalité est pour convertir des vecteurs de caractéristiques en vecteurs de représentation vectorielle continue. Ce point est abordé dans la le module sur les représentations vectorielles continues plus tard dans ce cours.