Données numériques: barre de lecture

Les pommiers produisent un mélange de grands fruits et de dégâts. Pourtant, dans les épiceries haut de gamme, les pommes sont 100% parfaites. Entre le verger et l'épicerie, une personne passe beaucoup de temps à retirer les mauvaises pommes ou pulvériser un peu de cire sur celles qui sont récupérables. En tant qu'ingénieur en ML, vous passez énormément de temps en éliminant les mauvais exemples et en nettoyant ceux qui sont récupérables. Même quelques mauvaises pommes peuvent gâcher un grand jeu de données.

De nombreux exemples dans les ensembles de données ne sont pas fiables en raison d'une ou de plusieurs les problèmes suivants:

Catégorie du problème Exemple
Valeurs omises Un recensement n’indique pas l’âge d’un résident.
Exemples en double Un serveur importe les mêmes journaux deux fois.
Valeurs de caractéristique hors plage Un humain saisit accidentellement un chiffre en trop.
Libellés incorrects Un évaluateur humain étiquette une image d'un chêne comme étant Maple.

Vous pouvez écrire un programme ou un script pour détecter les problèmes suivants:

  • Valeurs omises
  • Exemples en double
  • Valeurs de caractéristique hors plage

Par exemple, l'ensemble de données suivant contient six valeurs répétées:

Figure 15. Les six premières valeurs sont répétées. Les huit derniers
            ne le sont pas.
Figure 15 : Les six premières valeurs sont répétées.

Autre exemple : supposons que la plage de températures d'une certaine caractéristique être comprise entre 10 et 30 degrés, inclus. Mais des accidents se produisent, peut-être le thermomètre est temporairement exposé au soleil, ce qui génère une valeur aberrante. Votre programme ou script doit identifier des valeurs de température inférieures ou supérieures à 10 supérieur à 30:

Figure 16. Dix-neuf valeurs dans la plage et une valeur hors plage.
Figure 16 : Valeur hors plage.

Lorsque les libellés sont générés par plusieurs personnes, déterminer si chaque évaluateur a généré des ensembles d'étiquettes équivalents. Peut-être qu'un évaluateur était un évaluateur plus sévère que les autres ou a utilisé un ensemble de critères de notation différent ?

Une fois le problème détecté, vous devez généralement corriger Exemples contenant des caractéristiques incorrectes ou mauvaises étiquettes en les supprimant de l'ensemble de données ou en imputant leurs valeurs. Pour en savoir plus, consultez les Caractéristiques des données de la Ensembles de données, généralisation et surapprentissage de ce module.