Los modelos de aprendizaje automático solo se pueden entrenar con valores de punto flotante. Sin embargo, muchos atributos de los conjuntos de datos no son valores de punto flotante por naturaleza. Por lo tanto, una parte importante del aprendizaje automático atributos de punto no flotante a representaciones de punto flotante.
Por ejemplo, supongamos que street names
es un atributo. La mayoría de los nombres de las calles
son cadenas, como "Broadway" o "Vilakazi".
Tu modelo no se puede entrenar en “Broadway”, por lo que debes transformar “Broadway”
a un número de punto flotante. Los datos categóricos
módulo
se explica cómo hacerlo.
Además, incluso debes transformar la mayoría de los atributos de punto flotante. Este proceso de transformación, llamado normalization, convierte números de punto flotante a un rango limitado que mejora el entrenamiento del modelo. Los datos numéricos módulo se explica cómo hacerlo.
Muestra datos cuando tienes demasiados.
Algunas organizaciones cuentan con una gran cantidad de datos. Cuando el conjunto de datos contiene demasiados ejemplos, debes seleccionar un subconjunto de ejemplos para el entrenamiento. Cuando sea posible, selecciona el subconjunto relevantes para las predicciones de tu modelo.
Filtrar ejemplos que contienen PII
Los conjuntos de datos correctos omiten los ejemplos que contienen información de identificación personal. (PII). Esta política ayuda a proteger la privacidad, pero puede influir en el modelo.
Consulta el módulo de Seguridad y privacidad que se encuentra más adelante en el curso para obtener más información sobre estos temas.