Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Avant de créer des vecteurs de caractéristiques, nous vous recommandons d'étudier les données numériques de deux manières:
Visualisez vos données sous forme de graphiques ou de graphiques.
Obtenez des statistiques sur vos données.
Visualiser vos données
Les graphiques peuvent vous aider à identifier les anomalies ou les tendances cachées dans les données.
Par conséquent, avant de vous lancer dans l'analyse, examinez vos données sous forme graphique, sous forme de nuages de points ou d'histogrammes. Affichez des graphiques non seulement au début du pipeline de données, mais aussi tout au long des transformations de données. Les visualisations vous aident à vérifier en permanence vos hypothèses.
Nous vous recommandons d'utiliser pandas pour la visualisation:
Notez que certains outils de visualisation sont optimisés pour certains formats de données.
Un outil de visualisation qui vous aide à évaluer les tampons de protocole peut ou non vous aider à évaluer les données CSV.
Évaluer vos données de manière statistique
En plus de l'analyse visuelle, nous vous recommandons également d'évaluer les fonctionnalités et les libellés potentiels de manière mathématique, en recueillant des statistiques de base telles que:
moyenne et médiane
écart-type
les valeurs aux divisions des quartiles: les centiles 0, 25, 50, 75 et 100. Le 0e centile correspond à la valeur minimale de cette colonne, et le 100e centile à la valeur maximale de cette colonne. (Le 50e centile correspond à la médiane.)
Identifier les anomalies
Une anomalie est une valeur éloignée de la plupart des autres valeurs d'une caractéristique ou d'un libellé. Les valeurs aberrantes entraînent souvent des problèmes lors de l'entraînement du modèle. Il est donc important de les identifier.
Lorsque le delta entre le 0e et le 25e centile diffère considérablement du delta entre le 75e et le 100e centile, l'ensemble de données contient probablement des valeurs aberrantes.
Les valeurs aberrantes peuvent appartenir à l'une des catégories suivantes:
L'écart est dû à une erreur.
Par exemple, un expérimentateur a peut-être saisi un zéro supplémentaire par erreur, ou un instrument qui a collecté des données a peut-être mal fonctionné.
Vous supprimerez généralement les exemples contenant des valeurs aberrantes dues à des erreurs.
L'écart type est un point de données légitime, et non une erreur.
Dans ce cas, votre modèle entraîné devra-t-il inférer de bonnes prédictions sur ces valeurs aberrantes ?
Si c'est le cas, conservez ces valeurs aberrantes dans votre ensemble d'entraînement. Après tout, les valeurs aberrantes de certaines caractéristiques reflètent parfois les valeurs aberrantes de l'étiquette. Elles peuvent donc aider votre modèle à effectuer de meilleures prédictions.
Attention, les valeurs aberrantes extrêmes peuvent toujours nuire à votre modèle.
Si ce n'est pas le cas, supprimez les valeurs aberrantes ou appliquez des techniques d'ingénierie des caractéristiques plus invasives, telles que le clipping.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/02/26 (UTC).
[null,null,["Dernière mise à jour le 2025/02/26 (UTC)."],[[["\u003cp\u003eBefore creating feature vectors, it is crucial to analyze numerical data by visualizing it through plots and graphs and calculating basic statistics like mean, median, and standard deviation.\u003c/p\u003e\n"],["\u003cp\u003eVisualizations, such as scatter plots and histograms, can reveal anomalies and patterns in the data, aiding in identifying potential issues early in the data analysis process.\u003c/p\u003e\n"],["\u003cp\u003eOutliers, values significantly distant from others, should be identified and handled appropriately, either by correcting mistakes, retaining legitimate outliers for model training, or applying techniques like clipping.\u003c/p\u003e\n"],["\u003cp\u003eStatistical evaluation helps in understanding the distribution and characteristics of data, providing insights into potential feature and label relationships.\u003c/p\u003e\n"],["\u003cp\u003eWhile basic statistics and visualizations provide valuable insights, it's essential to remain vigilant as anomalies can still exist in seemingly well-balanced data.\u003c/p\u003e\n"]]],[],null,["# Numerical data: First steps\n\nBefore creating feature vectors, we recommend studying numerical data in\ntwo ways:\n\n- Visualize your data in plots or graphs.\n- Get statistics about your data.\n\nVisualize your data\n-------------------\n\nGraphs can help you find anomalies or patterns hiding in the data.\nTherefore, before getting too far into analysis, look at your\ndata graphically, either as scatter plots or histograms. View graphs not\nonly at the beginning of the data pipeline, but also throughout data\ntransformations. Visualizations help you continually check your assumptions.\n\nWe recommend working with pandas for visualization:\n\n- [Working with Missing Data (pandas\n Documentation)](http://pandas.pydata.org/pandas-docs/stable/missing_data.html)\n- [Visualizations (pandas\n Documentation)](http://pandas.pydata.org/pandas-docs/stable/visualization.html)\n\nNote that certain visualization tools are optimized for certain data formats.\nA visualization tool that helps you evaluate protocol buffers may or may not\nbe able to help you evaluate CSV data.\n\nStatistically evaluate your data\n--------------------------------\n\nBeyond visual analysis, we also recommend evaluating potential features and\nlabels mathematically, gathering basic statistics such as:\n\n- mean and median\n- standard deviation\n- the values at the quartile divisions: the 0th, 25th, 50th, 75th, and 100th percentiles. The 0th percentile is the minimum value of this column; the 100th percentile is the maximum value of this column. (The 50th percentile is the median.)\n\nFind outliers\n-------------\n\nAn [**outlier**](/machine-learning/glossary#outliers) is a value *distant*\nfrom most other values in a feature or label. Outliers often cause problems\nin model training, so finding outliers is important.\n\nWhen the delta between the 0th and 25th percentiles differs significantly\nfrom the delta between the 75th and 100th percentiles, the dataset probably\ncontains outliers.\n| **Note:** Don't over-rely on basic statistics. Anomalies can also hide in seemingly well-balanced data.\n\nOutliers can fall into any of the following categories:\n\n- The outlier is due to a *mistake*. For example, perhaps an experimenter mistakenly entered an extra zero, or perhaps an instrument that gathered data malfunctioned. You'll generally delete examples containing mistake outliers.\n- The outlier is a legitimate data point, *not a mistake* . In this case, will your trained model ultimately need to infer good predictions on these outliers?\n - If yes, keep these outliers in your training set. After all, outliers in certain features sometimes mirror outliers in the label, so the outliers could actually *help* your model make better predictions. Be careful, extreme outliers can still hurt your model.\n - If no, delete the outliers or apply more invasive feature engineering techniques, such as [**clipping**](/machine-learning/glossary#clipping).\n\n| **Key terms:**\n|\n| - [Clipping](/machine-learning/glossary#clipping)\n- [Outliers](/machine-learning/glossary#outliers) \n[Help Center](https://support.google.com/machinelearningeducation)"]]