Datos numéricos: Conclusión

El estado de un modelo de aprendizaje automático (AA) se determina a partir de sus datos. Alimenta a tu modelar datos en buen estado y prosperará; alimentar tu basura de modelo y su las predicciones serán inútiles.

Prácticas recomendadas para trabajar con datos numéricos:

  • Recuerda que tu modelo de AA interactúa con los datos vector de atributos, no los datos en la conjunto de datos.
  • Normalizar la mayoría atributos numéricos.
  • Si su primera estrategia de normalización no tiene éxito, considere una estrategia de normalizar tus datos.
  • La discretización, también conocida como El agrupamiento, a veces, es es mejor que la normalización.
  • Teniendo en cuenta cómo deberían verse tus datos, escribe una verificación y pruebas para validar esas expectativas. Por ejemplo:
    • El valor absoluto de la latitud nunca debe exceder 90. Puedes escribir un prueba para verificar si un valor de latitud superior a 90 aparece en tus datos.
    • Si tus datos están restringidos al estado de Florida, puedes escribir pruebas para comprobar que las latitudes están entre 24 y 31 inclusive.
  • Visualiza tus datos con histogramas y diagramas de dispersión. Busca anomalías.
  • Recopila estadísticas no solo sobre todo el conjunto de datos, sino también sobre subconjuntos del conjunto de datos. Esto se debe a que, a veces, las estadísticas agregadas ocultar problemas en secciones más pequeñas de un conjunto de datos.
  • Documenta todas tus transformaciones de datos.

Los datos son tu recurso más valioso, así que trátalos con cuidado.

Información adicional

¿Qué sigue?

¡Felicitaciones por completar el módulo!

Te invitamos a explorar los distintos módulos de la MLCC. a tu propio ritmo e interés. Si quieres seguir un pedido recomendado, te sugerimos que continúes con el siguiente módulo: Representación de datos categóricos.