El estado de un modelo de aprendizaje automático (AA) se determina a partir de sus datos. Alimenta a tu modelar datos en buen estado y prosperará; alimentar tu basura de modelo y su las predicciones serán inútiles.
Prácticas recomendadas para trabajar con datos numéricos:
- Recuerda que tu modelo de AA interactúa con los datos vector de atributos, no los datos en la conjunto de datos.
- Normalizar la mayoría atributos numéricos.
- Si su primera estrategia de normalización no tiene éxito, considere una estrategia de normalizar tus datos.
- La discretización, también conocida como El agrupamiento, a veces, es es mejor que la normalización.
- Teniendo en cuenta cómo deberían verse tus datos, escribe una verificación
y pruebas para validar esas expectativas. Por ejemplo:
- El valor absoluto de la latitud nunca debe exceder 90. Puedes escribir un prueba para verificar si un valor de latitud superior a 90 aparece en tus datos.
- Si tus datos están restringidos al estado de Florida, puedes escribir pruebas para comprobar que las latitudes están entre 24 y 31 inclusive.
- Visualiza tus datos con histogramas y diagramas de dispersión. Busca anomalías.
- Recopila estadísticas no solo sobre todo el conjunto de datos, sino también sobre subconjuntos del conjunto de datos. Esto se debe a que, a veces, las estadísticas agregadas ocultar problemas en secciones más pequeñas de un conjunto de datos.
- Documenta todas tus transformaciones de datos.
Los datos son tu recurso más valioso, así que trátalos con cuidado.
Información adicional
- La guía Reglas del aprendizaje automático contiene un Ingeniería de atributos.
¿Qué sigue?
¡Felicitaciones por completar el módulo!
Te invitamos a explorar los distintos módulos de la MLCC. a tu propio ritmo e interés. Si quieres seguir un pedido recomendado, te sugerimos que continúes con el siguiente módulo: Representación de datos categóricos.