Les pommiers produisent un mélange de grands fruits et de dégâts. Pourtant, dans les épiceries haut de gamme, les pommes sont 100% parfaites. Entre le verger et l'épicerie, une personne passe beaucoup de temps à retirer les mauvaises pommes ou pulvériser un peu de cire sur celles qui sont récupérables. En tant qu'ingénieur en ML, vous passez énormément de temps en éliminant les mauvais exemples et en nettoyant ceux qui sont récupérables. Même quelques mauvaises pommes peuvent gâcher un grand jeu de données.
De nombreux exemples dans les ensembles de données ne sont pas fiables en raison d'une ou de plusieurs les problèmes suivants:
Catégorie du problème | Exemple |
---|---|
Valeurs omises | Un recensement n’indique pas l’âge d’un résident. |
Exemples en double | Un serveur importe les mêmes journaux deux fois. |
Valeurs de caractéristique hors plage | Un humain saisit accidentellement un chiffre en trop. |
Libellés incorrects | Un évaluateur humain étiquette une image d'un chêne comme étant Maple. |
Vous pouvez écrire un programme ou un script pour détecter les problèmes suivants:
- Valeurs omises
- Exemples en double
- Valeurs de caractéristique hors plage
Par exemple, l'ensemble de données suivant contient six valeurs répétées:
Autre exemple : supposons que la plage de températures d'une certaine caractéristique être comprise entre 10 et 30 degrés, inclus. Mais des accidents se produisent, peut-être le thermomètre est temporairement exposé au soleil, ce qui génère une valeur aberrante. Votre programme ou script doit identifier des valeurs de température inférieures ou supérieures à 10 supérieur à 30:
Lorsque les libellés sont générés par plusieurs personnes, déterminer si chaque évaluateur a généré des ensembles d'étiquettes équivalents. Peut-être qu'un évaluateur était un évaluateur plus sévère que les autres ou a utilisé un ensemble de critères de notation différent ?
Une fois le problème détecté, vous devez généralement corriger Exemples contenant des caractéristiques incorrectes ou mauvaises étiquettes en les supprimant de l'ensemble de données ou en imputant leurs valeurs. Pour en savoir plus, consultez les Caractéristiques des données de la Ensembles de données, généralisation et surapprentissage de ce module.