Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Antes de crear vectores de características, te recomendamos que estudies los datos numéricos de estas dos maneras:
Visualiza tus datos en gráficos o diagramas.
Obtén estadísticas sobre tus datos.
Visualiza tus datos
Los gráficos pueden ayudarte a encontrar anomalías o patrones ocultos en los datos.
Por lo tanto, antes de avanzar demasiado en el análisis, observa tus datos de forma gráfica, ya sea como diagramas de dispersión o histogramas. Consulta los gráficos no solo al comienzo de la canalización de datos, sino también durante las transformaciones de datos. Las visualizaciones te ayudan a verificar tus suposiciones de forma continua.
Te recomendamos trabajar con pandas para la visualización:
Ten en cuenta que algunas herramientas de visualización están optimizadas para ciertos formatos de datos.
Es posible que una herramienta de visualización que te ayude a evaluar los búferes de protocolo pueda o no ayudarte a evaluar los datos CSV.
Evalúa tus datos de forma estadística
Además del análisis visual, también recomendamos evaluar las posibles funciones y etiquetas de forma matemática y recopilar estadísticas básicas, como las siguientes:
media y mediana
standard deviation
los valores en las divisiones de cuartil: los percentiles 0, 25, 50, 75 y 100. El percentil 0 es el valor mínimo de esta columna, y el percentil 100 es el valor máximo de esta columna. (el percentil 50 es la mediana).
Cómo encontrar valores atípicos
Un valor atípico es un valor distante de la mayoría de los otros valores de un atributo o una etiqueta. Los valores atípicos suelen causar problemas
en el entrenamiento del modelo, por lo que es importante encontrarlos.
Cuando la diferencia entre el percentil 0 y el 25 difiere significativamente
de la diferencia entre el percentil 75 y el 100, es probable que el conjunto de datos
contenga valores atípicos.
Los valores atípicos pueden pertenecer a cualquiera de las siguientes categorías:
El valor atípico se debe a un error.
Por ejemplo, es posible que un experimentador haya ingresado por error un cero adicional o que un instrumento que recopiló datos haya fallado.
Por lo general, borrarás los ejemplos que contengan valores extremos por errores.
El valor atípico es un dato legítimo, no un error.
En este caso, ¿tu modelo entrenado necesitará, en última instancia, inferir buenas predicciones sobre estos valores atípicos?
Si es así, mantén estos valores atípicos en tu conjunto de entrenamiento. Después de todo, los valores extremos de ciertas características a veces reflejan los valores extremos de la etiqueta, por lo que los valores extremos podrían ayudar a tu modelo a realizar mejores predicciones.
Ten cuidado, los valores atípicos extremos aún pueden perjudicar tu modelo.
De lo contrario, borra los valores atípicos o aplica técnicas de ingeniería de atributos más invasivas, como el recorte.
[null,null,["Última actualización: 2025-02-26 (UTC)"],[[["\u003cp\u003eBefore creating feature vectors, it is crucial to analyze numerical data by visualizing it through plots and graphs and calculating basic statistics like mean, median, and standard deviation.\u003c/p\u003e\n"],["\u003cp\u003eVisualizations, such as scatter plots and histograms, can reveal anomalies and patterns in the data, aiding in identifying potential issues early in the data analysis process.\u003c/p\u003e\n"],["\u003cp\u003eOutliers, values significantly distant from others, should be identified and handled appropriately, either by correcting mistakes, retaining legitimate outliers for model training, or applying techniques like clipping.\u003c/p\u003e\n"],["\u003cp\u003eStatistical evaluation helps in understanding the distribution and characteristics of data, providing insights into potential feature and label relationships.\u003c/p\u003e\n"],["\u003cp\u003eWhile basic statistics and visualizations provide valuable insights, it's essential to remain vigilant as anomalies can still exist in seemingly well-balanced data.\u003c/p\u003e\n"]]],[],null,["# Numerical data: First steps\n\nBefore creating feature vectors, we recommend studying numerical data in\ntwo ways:\n\n- Visualize your data in plots or graphs.\n- Get statistics about your data.\n\nVisualize your data\n-------------------\n\nGraphs can help you find anomalies or patterns hiding in the data.\nTherefore, before getting too far into analysis, look at your\ndata graphically, either as scatter plots or histograms. View graphs not\nonly at the beginning of the data pipeline, but also throughout data\ntransformations. Visualizations help you continually check your assumptions.\n\nWe recommend working with pandas for visualization:\n\n- [Working with Missing Data (pandas\n Documentation)](http://pandas.pydata.org/pandas-docs/stable/missing_data.html)\n- [Visualizations (pandas\n Documentation)](http://pandas.pydata.org/pandas-docs/stable/visualization.html)\n\nNote that certain visualization tools are optimized for certain data formats.\nA visualization tool that helps you evaluate protocol buffers may or may not\nbe able to help you evaluate CSV data.\n\nStatistically evaluate your data\n--------------------------------\n\nBeyond visual analysis, we also recommend evaluating potential features and\nlabels mathematically, gathering basic statistics such as:\n\n- mean and median\n- standard deviation\n- the values at the quartile divisions: the 0th, 25th, 50th, 75th, and 100th percentiles. The 0th percentile is the minimum value of this column; the 100th percentile is the maximum value of this column. (The 50th percentile is the median.)\n\nFind outliers\n-------------\n\nAn [**outlier**](/machine-learning/glossary#outliers) is a value *distant*\nfrom most other values in a feature or label. Outliers often cause problems\nin model training, so finding outliers is important.\n\nWhen the delta between the 0th and 25th percentiles differs significantly\nfrom the delta between the 75th and 100th percentiles, the dataset probably\ncontains outliers.\n| **Note:** Don't over-rely on basic statistics. Anomalies can also hide in seemingly well-balanced data.\n\nOutliers can fall into any of the following categories:\n\n- The outlier is due to a *mistake*. For example, perhaps an experimenter mistakenly entered an extra zero, or perhaps an instrument that gathered data malfunctioned. You'll generally delete examples containing mistake outliers.\n- The outlier is a legitimate data point, *not a mistake* . In this case, will your trained model ultimately need to infer good predictions on these outliers?\n - If yes, keep these outliers in your training set. After all, outliers in certain features sometimes mirror outliers in the label, so the outliers could actually *help* your model make better predictions. Be careful, extreme outliers can still hurt your model.\n - If no, delete the outliers or apply more invasive feature engineering techniques, such as [**clipping**](/machine-learning/glossary#clipping).\n\n| **Key terms:**\n|\n| - [Clipping](/machine-learning/glossary#clipping)\n- [Outliers](/machine-learning/glossary#outliers) \n[Help Center](https://support.google.com/machinelearningeducation)"]]