Datos numéricos: Conclusión

El estado de un modelo de aprendizaje automático (AA) se determina en función de sus datos. Si alimentas a tu modelo con datos de calidad, este prosperará; si le alimentas con basura, sus predicciones no valdrán nada.

Prácticas recomendadas para trabajar con datos numéricos:

  • Recuerda que tu modelo de AA interactúa con los datos del vector de atributos, no con los datos del conjunto de datos.
  • Normalizar la mayoría atributos numéricos.
  • Si tu primera estrategia de normalización no tiene éxito, considera una forma diferente de normalizar tus datos.
  • El agrupamiento, también conocido como agrupación, a veces es mejor que la normalización.
  • Ten en cuenta cómo deben verse tus datos y escribe pruebas de verificación para validar esas expectativas. Por ejemplo:
    • El valor absoluto de la latitud nunca debe exceder 90. Puedes escribir un prueba para verificar si un valor de latitud superior a 90 aparece en tus datos.
    • Si tus datos están restringidos al estado de Florida, puedes escribir pruebas para comprobar que las latitudes están entre 24 y 31 inclusive.
  • Visualiza tus datos con histogramas y diagramas de dispersión. Busca anomalías.
  • Recopila estadísticas no solo sobre todo el conjunto de datos, sino también sobre subconjuntos del conjunto de datos. Esto se debe a que, a veces, las estadísticas agregadas ocultar problemas en secciones más pequeñas de un conjunto de datos.
  • Documenta todas tus transformaciones de datos.

Los datos son tu recurso más valioso, así que trátalos con cuidado.

Información adicional

¿Qué sigue?

¡Felicitaciones por completar el módulo!

Te invitamos a explorar los distintos módulos de la MLCC. a tu propio ritmo e interés. Si quieres seguir un orden recomendado, te sugerimos que pases al siguiente módulo: Representación de datos categóricos.