Avant de créer des vecteurs de caractéristiques, nous vous recommandons d'étudier les données numériques de deux manières:
- Visualisez vos données sous forme de tracés ou de graphiques.
- Obtenez des statistiques sur vos données.
Visualisez vos données
Les graphiques peuvent vous aider à trouver des anomalies ou des schémas cachés dans les données. Par conséquent, avant d'aller trop loin dans l'analyse, examinez vos les données sous forme graphique, sous forme de graphiques en nuage de points ou d'histogrammes. Afficher les graphiques qu'au début du pipeline, mais aussi tout au long Transformer. Les visualisations vous aident à vérifier en permanence vos hypothèses.
Nous vous recommandons d'utiliser Pandas pour la visualisation:
Notez que certains outils de visualisation sont optimisés pour certains formats de données. Un outil de visualisation qui vous aide à évaluer les tampons de protocole peut ou non vous aider à évaluer les données CSV.
Évaluer vos données de façon statistique
Au-delà de l'analyse visuelle, nous recommandons également d'évaluer les caractéristiques potentielles et étiquettes de manière mathématique, en recueillant des statistiques de base telles que:
- moyenne et médiane
- écart-type
- les valeurs correspondant aux divisions des quartiles: 0, 25, 50, 75e et 100e centiles. Le 0e centile est la valeur minimale de cette colonne ; la Le 100e centile correspond à la valeur maximale de cette colonne. (Le 50% centile correspond à la médiane.)
Identifier les anomalies
Une valeur aberrante est une valeur distante de la plupart des autres valeurs d'une caractéristique ou d'une étiquette. Les anomalies entraînent souvent des problèmes dans l'entraînement du modèle. Il est donc important d'identifier les anomalies.
Lorsque le delta entre les 0e et 25e centiles diffère considérablement du delta entre les 75e et 100e centiles, l'ensemble de données contient des anomalies.
Les anomalies peuvent appartenir à l'une des catégories suivantes:
- La valeur aberrante est due à une erreur. Par exemple, peut-être qu’un expérimentateur a saisi par erreur un zéro supplémentaire, ou peut-être qu’un instrument qui collectait des données a mal fonctionné. Généralement, vous supprimez les exemples contenant des anomalies.
- La valeur aberrante est un point de données légitime, et non une erreur.
Dans ce cas, le modèle entraîné
devez-vous inférer de bonnes prédictions à partir de ces anomalies ?
- Si c'est le cas, conservez ces anomalies dans votre ensemble d'entraînement. Après tout, les valeurs aberrantes de certaines caractéristiques reflètent parfois des valeurs aberrantes dans l'étiquette. Ces anomalies pourraient aider votre modèle à produire de meilleures prédictions. Soyez prudent, car des anomalies extrêmes peuvent toujours nuire à votre modèle.
- Si ce n'est pas le cas, supprimez les valeurs aberrantes ou appliquez une ingénierie des caractéristiques plus invasive. telles que le clipping.