Los modelos de aprendizaje automático solo pueden entrenarse con valores de punto flotante. Sin embargo, muchos atributos del conjunto de datos no son valores de punto flotante de forma natural. Por lo tanto, una parte importante del aprendizaje automático es transformar los atributos que no son de punto flotante en representaciones de punto flotante.
Por ejemplo, supongamos que street names
es un atributo. La mayoría de los nombres de las calles son cadenas, como "Broadway" o "Vilakazi".
Tu modelo no puede entrenarse en “Broadway”, por lo que debes transformar “Broadway”
en un número de punto flotante. En el módulo Datos categóricos, se explica cómo hacerlo.
Además, incluso debes transformar la mayoría de las funciones de punto flotante. Este proceso de transformación, llamado normalización, convierte los números de punto flotante en un rango limitado que mejora el entrenamiento del modelo. En el módulo Datos numéricos, se explica cómo hacerlo.
Cómo tomar muestras de datos cuando tienes demasiados
Algunas organizaciones tienen la suerte de contar con una gran cantidad de datos. Cuando el conjunto de datos contiene demasiados ejemplos, debes seleccionar un subconjunto de ejemplos para el entrenamiento. Cuando sea posible, selecciona el subconjunto que sea más relevante para las predicciones de tu modelo.
Ejemplos de filtros que contienen PII
Los buenos conjuntos de datos omiten los ejemplos que contienen información de identificación personal (PII). Esta política ayuda a proteger la privacidad, pero puede influir en el modelo.
Consulta el módulo Seguridad y privacidad más adelante en el curso para obtener más información sobre estos temas.