Datos numéricos: Conclusión
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
El estado de un modelo de aprendizaje automático (AA) se determina en función de sus datos. Si alimentas a tu
modelo con datos de calidad, este prosperará; si le alimentas con basura, sus
predicciones no valdrán nada.
Prácticas recomendadas para trabajar con datos numéricos:
- Recuerda que tu modelo de AA interactúa con los datos del
vector de atributos,
no con los datos del
conjunto de datos.
- Normalizar la mayoría
atributos numéricos.
- Si tu primera estrategia de normalización no tiene éxito, considera una forma diferente de normalizar tus datos.
- El agrupamiento, también conocido como agrupación, a veces es mejor que la normalización.
- Ten en cuenta cómo deben verse tus datos y escribe pruebas de verificación para validar esas expectativas. Por ejemplo:
- El valor absoluto de la latitud nunca debe exceder 90. Puedes escribir un
prueba para verificar si un valor de latitud superior a 90 aparece en tus datos.
- Si tus datos están restringidos al estado de Florida, puedes escribir pruebas
para comprobar que las latitudes están entre 24 y 31 inclusive.
- Visualiza tus datos con histogramas y diagramas de dispersión. Busca
anomalías.
- Recopila estadísticas no solo sobre todo el conjunto de datos, sino también sobre
subconjuntos del conjunto de datos. Esto se debe a que, a veces, las estadísticas agregadas
ocultar problemas en secciones más pequeñas de un conjunto de datos.
- Documenta todas tus transformaciones de datos.
Los datos son tu recurso más valioso, así que trátalos con cuidado.
¿Qué sigue?
¡Felicitaciones por completar el módulo!
Te invitamos a explorar los distintos módulos de la MLCC.
a tu propio ritmo e interés. Si quieres seguir un orden recomendado, te sugerimos que pases al siguiente módulo: Representación de datos categóricos.
Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.
Última actualización: 2024-11-10 (UTC)
[null,null,["Última actualización: 2024-11-10 (UTC)"],[[["\u003cp\u003eA machine learning model's predictive ability is directly dependent on the quality of data it's trained on.\u003c/p\u003e\n"],["\u003cp\u003eNumerical features often benefit from normalization or binning to improve model performance.\u003c/p\u003e\n"],["\u003cp\u003eData validation through verification tests and visualizations is crucial for identifying and addressing potential issues.\u003c/p\u003e\n"],["\u003cp\u003eUnderstanding data distribution through statistics on both the entire dataset and its subsets is essential for identifying hidden problems.\u003c/p\u003e\n"],["\u003cp\u003eMaintaining thorough documentation of all data transformations ensures reproducibility and facilitates model understanding.\u003c/p\u003e\n"]]],[],null,["# Numerical data: Conclusion\n\nA machine learning (ML) model's health is determined by its data. Feed your\nmodel healthy data and it will thrive; feed your model junk and its\npredictions will be worthless.\n\nBest practices for working with numerical data:\n\n- Remember that your ML model interacts with the data in the [**feature vector**](/machine-learning/glossary#feature_vector), not the data in the [**dataset**](/machine-learning/glossary#dataset).\n- [**Normalize**](/machine-learning/glossary#normalization) most numerical [**features**](/machine-learning/glossary#feature).\n- If your first normalization strategy doesn't succeed, consider a different way to normalize your data.\n- [**Binning**](/machine-learning/glossary#binning), also referred to as [**bucketing**](/machine-learning/glossary#bucketing), is sometimes better than normalizing.\n- Considering what your data *should* look like, write verification tests to validate those expectations. For example:\n - The absolute value of latitude should never exceed 90. You can write a test to check if a latitude value greater than 90 appears in your data.\n - If your data is restricted to the state of Florida, you can write tests to check that the latitudes fall between 24 through 31, inclusive.\n- Visualize your data with scatter plots and histograms. Look for anomalies.\n- Gather statistics not only on the entire dataset but also on smaller subsets of the dataset. That's because aggregate statistics sometimes obscure problems in smaller sections of a dataset.\n- Document all your data transformations.\n\nData is your most valuable resource, so treat it with care.\n\nAdditional Information\n----------------------\n\n- The *Rules of Machine Learning* guide contains a valuable [Feature Engineering](https://developers.google.com/machine-learning/rules-of-ml/#ml_phase_ii_feature_engineering) section.\n\nWhat's next\n-----------\n\nCongratulations on finishing this module!\n\nWe encourage you to explore the various [MLCC modules](/machine-learning/crash-course)\nat your own pace and interest. If you'd like to follow a recommended order,\nwe suggest that you move to the following module next:\n**[Representing categorical data](/machine-learning/crash-course/categorical-data)**.\n\n*** ** * ** ***\n\n| **Key terms:**\n|\n| - [Binning](/machine-learning/glossary#binning)\n| - [Bucketing](/machine-learning/glossary#bucketing)\n| - [Dataset](/machine-learning/glossary#dataset)\n| - [Feature](/machine-learning/glossary#feature)\n| - [Feature vector](/machine-learning/glossary#feature_vector)\n- [Normalization](/machine-learning/glossary#normalization) \n[Help Center](https://support.google.com/machinelearningeducation)"]]