Les données numériques sont souvent enregistrées par des instruments scientifiques ou des mesures automatisées. En revanche, les données catégorielles sont souvent catégorisées par des êtres humains ou par des modèles de machine learning (ML). Qui décide des catégories et des libellés, et comment il prend ces décisions, a une incidence sur la fiabilité et l'utilité de ces données.
Évaluateurs manuels
Les données étiquetées manuellement par des humains sont souvent appelées étiquettes d'or et sont considérées comme plus souhaitables que les données étiquetées par machine pour l'entraînement des modèles, en raison de leur qualité relativement meilleure.
Cela ne signifie pas nécessairement que tous les ensembles de données étiquetées manuellement sont de haute qualité. Des erreurs humaines, des biais et de la malveillance peuvent être introduits au moment de la collecte des données ou lors du nettoyage et du traitement des données. Vérifiez-les avant la formation.
Deux êtres humains peuvent étiqueter le même exemple différemment. La différence entre les décisions des évaluateurs humains s'appelle l'accord inter-évaluateurs. Vous pouvez avoir une idée de la variance des opinions des évaluateurs en utilisant plusieurs évaluateurs par exemple et en mesurant l'accord entre les évaluateurs.
Évaluateurs automatiques
Les données étiquetées automatiquement, où les catégories sont déterminées automatiquement par un ou plusieurs modèles de classification, sont souvent appelées étiquettes argentées. La qualité des données libellées automatiquement peut varier considérablement. Vérifiez-la non seulement pour vérifier l'exactitude et les biais, mais aussi pour identifier des violations du bon sens, de la réalité et de l'intention. Par exemple, si un modèle de vision par ordinateur classe à tort une photo d'un chihuahua comme un muffin ou une photo d'un muffin comme un chihuahua, les modèles entraînés sur ces données libellées seront de moins bonne qualité.
De même, un analyseur de sentiment qui attribue une valeur de -0,25 aux mots neutres, alors que la valeur neutre est 0,0, peut attribuer une valeur négative supplémentaire à tous les mots qui n'est pas réellement présente dans les données. Un détecteur de toxicité trop sensible peut marquer à tort de nombreuses déclarations neutres comme étant toxiques. Essayez d'évaluer la qualité et les biais des étiquettes et des annotations générées par machine dans vos données avant de les utiliser pour l'entraînement.
Haute dimensionnalité
Les données catégorielles ont tendance à produire des vecteurs de caractéristiques à grande dimension, c'est-à-dire des vecteurs de caractéristiques comportant un grand nombre d'éléments. Une dimensionnalité élevée augmente les coûts d'entraînement et le rend plus difficile. C'est pourquoi les experts en ML cherchent souvent à réduire le nombre de dimensions avant l'entraînement.
Pour les données en langage naturel, la principale méthode de réduction de la dimensionnalité consiste à convertir les vecteurs de caractéristiques en vecteurs d'embedding. Ce point sera abordé dans le module sur les représentations vectorielles continues plus tard dans ce cours.