El estado de un modelo de aprendizaje automático (AA) se determina en función de sus datos. Si alimentas a tu modelo con datos de calidad, este prosperará; si le alimentas con basura, sus predicciones no valdrán nada.
Prácticas recomendadas para trabajar con datos numéricos:
- Recuerda que tu modelo de AA interactúa con los datos del vector de atributos, no con los datos del conjunto de datos.
- Normalizar la mayoría atributos numéricos.
- Si tu primera estrategia de normalización no tiene éxito, considera una forma diferente de normalizar tus datos.
- El agrupamiento, también conocido como agrupación, a veces es mejor que la normalización.
- Ten en cuenta cómo deben verse tus datos y escribe pruebas de verificación para validar esas expectativas. Por ejemplo:
- El valor absoluto de la latitud nunca debe exceder 90. Puedes escribir un prueba para verificar si un valor de latitud superior a 90 aparece en tus datos.
- Si tus datos están restringidos al estado de Florida, puedes escribir pruebas para comprobar que las latitudes están entre 24 y 31 inclusive.
- Visualiza tus datos con histogramas y diagramas de dispersión. Busca anomalías.
- Recopila estadísticas no solo sobre todo el conjunto de datos, sino también sobre subconjuntos del conjunto de datos. Esto se debe a que, a veces, las estadísticas agregadas ocultar problemas en secciones más pequeñas de un conjunto de datos.
- Documenta todas tus transformaciones de datos.
Los datos son tu recurso más valioso, así que trátalos con cuidado.
Información adicional
- La guía Rules of Machine Learning contiene una sección valiosa sobre ingeniería de atributos.
¿Qué sigue?
¡Felicitaciones por completar el módulo!
Te invitamos a explorar los distintos módulos de la MLCC. a tu propio ritmo e interés. Si quieres seguir un orden recomendado, te sugerimos que pases al siguiente módulo: Representación de datos categóricos.