Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Données numériques: barre de lecture

Les pommiers produisent un mélange de grands fruits et de dégâts. Pourtant, dans les épiceries haut de gamme, les pommes sont 100% parfaites. Entre le verger et l'épicerie, une personne passe beaucoup de temps à retirer les mauvaises pommes ou pulvériser un peu de cire sur celles qui sont récupérables. En tant qu'ingénieur en ML, vous passez énormément de temps en éliminant les mauvais exemples et en nettoyant ceux qui sont récupérables. Même quelques mauvaises pommes peuvent gâcher un grand jeu de données.

De nombreux exemples dans les ensembles de données ne sont pas fiables en raison d'une ou de plusieurs les problèmes suivants:

Catégorie du problème	Exemple
Valeurs omises	Un recensement n’indique pas l’âge d’un résident.
Exemples en double	Un serveur importe les mêmes journaux deux fois.
Valeurs de caractéristique hors plage	Un humain saisit accidentellement un chiffre en trop.
Libellés incorrects	Un évaluateur humain étiquette une image d'un chêne comme étant Maple.

Vous pouvez écrire un programme ou un script pour détecter les problèmes suivants:

Valeurs omises
Exemples en double
Valeurs de caractéristique hors plage

Par exemple, l'ensemble de données suivant contient six valeurs répétées:

Figure 15. Les six premières valeurs sont répétées. Les huit derniers
ne le sont pas. — **Figure 15** : Les six premières valeurs sont répétées.

Autre exemple : supposons que la plage de températures d'une certaine caractéristique être comprise entre 10 et 30 degrés, inclus. Mais des accidents se produisent, peut-être le thermomètre est temporairement exposé au soleil, ce qui génère une valeur aberrante. Votre programme ou script doit identifier des valeurs de température inférieures ou supérieures à 10 supérieur à 30:

Figure 16. Dix-neuf valeurs dans la plage et une valeur hors plage. — **Figure 16** : Valeur hors plage.

Lorsque les libellés sont générés par plusieurs personnes, déterminer si chaque évaluateur a généré des ensembles d'étiquettes équivalents. Peut-être qu'un évaluateur était un évaluateur plus sévère que les autres ou a utilisé un ensemble de critères de notation différent ?

Une fois le problème détecté, vous devez généralement corriger Exemples contenant des caractéristiques incorrectes ou mauvaises étiquettes en les supprimant de l'ensemble de données ou en imputant leurs valeurs. Pour en savoir plus, consultez les Caractéristiques des données de la Ensembles de données, généralisation et surapprentissage de ce module.

Binning (15 min)

Qualités des bonnes caractéristiques numériques (5 min)

Données numériques: barre de lecture Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Données numériques: barre de lecture