Si estás pensando en usar AutoML, es posible que tengas preguntas sobre cómo funciona y qué pasos debes seguir para comenzar. En esta sección, se profundiza en los patrones comunes de AutoML, se explora cómo funciona y se examinan los pasos que podrías necesitar seguir antes de comenzar a usar AutoML en tu proyecto.
Herramientas de AutoML
Las herramientas de AutoML se dividen en dos categorías principales:
- Las herramientas que no requieren programación suelen adoptar la forma de aplicaciones web que te permiten configurar y ejecutar experimentos a través de una interfaz de usuario para encontrar el mejor modelo para tus datos sin escribir código.
- Las herramientas de API y CLI proporcionan funciones de automatización avanzadas, pero requieren más (a veces, mucho más) experiencia en programación y AA.
Las herramientas de AutoML que requieren programación pueden ser más potentes y flexibles que las herramientas sin código, pero también pueden ser más difíciles de usar. En este módulo, se enfoca en las opciones sin código para el desarrollo de modelos, pero ten en cuenta que las opciones de API y CLI pueden ayudarte si necesitas automatización personalizada.
Flujo de trabajo de AutoML
Analicemos un flujo de trabajo de AA típico y veamos cómo funciona cuando usas AutoML. Los pasos de alto nivel del flujo de trabajo son los mismos que los que usas para el entrenamiento personalizado. La principal diferencia es que AutoML controla algunas tareas por ti.
Definición del problema
El primer paso de cualquier flujo de trabajo de AA es definir el problema. Cuando uses AutoML, asegúrate de que la herramienta que elijas pueda admitir los objetivos de tu proyecto de AA. La mayoría de las herramientas de AutoML admiten una variedad de algoritmos de aprendizaje automático supervisado y tipos de datos de entrada.
Para obtener más información sobre el planteamiento de problemas, consulta el módulo sobre Introducción al planteamiento de problemas de aprendizaje automático.
Data gathering
Antes de comenzar a trabajar con una herramienta de AutoML, debes recopilar tus datos en una sola fuente de datos. Consulta la documentación del producto para asegurarte de que tu herramienta admita la fuente de datos, los tipos de datos y el tamaño del conjunto de datos.
Preparación de datos
La preparación de datos es un área en la que las herramientas de AutoML pueden ayudarte, pero ninguna puede hacer todo automáticamente, así que debes hacer algunos trabajos antes de poder importar tus datos a la herramienta. La preparación de datos para AutoML es similar a lo que deberías hacer para entrenar un modelo de forma manual. Si necesitas más información para preparar tus datos para el entrenamiento, consulta la sección Preparación de datos.
Para obtener más información sobre cómo preparar tus datos, consulta los módulos Cómo trabajar con datos numéricos y Cómo trabajar con datos categóricos.
Antes de importar tus datos para el entrenamiento de AutoML, debes completar estos pasos:
Etiqueta tus datos
Cada ejemplo de tu conjunto de datos necesita una etiqueta.
Cómo limpiar y dar formato a los datos
Los datos del mundo real suelen ser desordenados, por lo que debes limpiarlos antes de usarlos. Incluso con AutoML, debes determinar los mejores tratamientos para tu conjunto de datos y problema en particular. Esto puede requerir cierta exploración y, posiblemente, varias ejecuciones de AutoML antes de obtener los mejores resultados.
Cómo realizar transformaciones de atributos
Algunas herramientas de AutoML controlan ciertas transformaciones de atributos por ti. Sin embargo, si la herramienta que usas no admite una transformación de componentes que necesitas o no la admite bien, es posible que debas realizar las transformaciones con anticipación.
Desarrollo de modelos (con AutoML sin código)
AutoML hace el trabajo por ti durante el entrenamiento. Sin embargo, antes de comenzar la capacitación, debes configurar el experimento. Para configurar una ejecución de entrenamiento de AutoML, por lo general, debes especificar estos pasos de alto nivel:
Importa tus datos
Para importar tus datos, especifica la fuente de datos. Durante el proceso de importar, la herramienta de AutoML asigna un tipo de datos semántico a cada valor de datos.
Analiza tus datos
Los productos de AutoML suelen proporcionar herramientas para analizar tu conjunto de datos antes y después del entrenamiento. Como práctica recomendada, te recomendamos que uses estas herramientas de análisis para comprender y verificar tus datos antes de iniciar una ejecución de AutoML.
Define mejor tus datos
Las herramientas de AutoML suelen proporcionar mecanismos para ayudarte a definir mejor tus datos después de importar y antes de entrenar. Estas son algunas tareas que tal vez quieras completar para definir mejor tus datos:
Verificación semántica: Durante la importación, las herramientas de AutoML intentan determinar el tipo semántica correcto para cada atributo, pero estas son solo conjeturas. Debes verificar los tipos designados a todas las funciones y cambiarlos si se asignaron de forma incorrecta.
Por ejemplo, es posible que tengas códigos postales almacenados como números en una columna de tu base de datos. La mayoría de los sistemas de AutoML detectarían los datos como datos numéricos continuos. Esto sería incorrecto para un código postal, y es probable que el usuario desee cambiar el tipo de semántica a categórica en lugar de continua para esta columna de atributos.
Transformaciones: Algunas herramientas permiten a los usuarios personalizar las transformaciones de datos como parte del proceso de perfeccionamiento. A veces, esto es necesario cuando un conjunto de datos tiene características potencialmente predictivas que deben transformarse o combinarse de una manera que es difícil para las herramientas de AutoML determinar sin ayuda.
Por ejemplo, considera un conjunto de datos de viviendas que usas para predecir el precio de venta de una casa. Supongamos que hay una función que representa la descripción de una ficha de casa llamada
description
y que te gustaría usar estos datos para crear una función nueva llamadadescription_length
. Algunos sistemas de AutoML ofrecen formas de usar transformaciones personalizadas. En este ejemplo, podría haber una funciónLENGTH
para generar una nueva función de longitud de descripción como esta:LENGTH(description)
.
Configura los parámetros de ejecución de AutoML
El último paso antes de ejecutar el experimento de entrenamiento es elegir algunos parámetros de configuración para indicarle a la herramienta cómo quieres que entrene tu modelo. Aunque cada herramienta de AutoML tiene su propio conjunto único de opciones de configuración, estas son algunas de las tareas de configuración significativas que es posible que debas completar:
- Selecciona el tipo de problema de AA que planeas resolver. Por ejemplo, ¿estás resolviendo un problema de clasificación o de regresión?
- Selecciona qué columna de tu conjunto de datos es la etiqueta.
- Selecciona el conjunto de atributos que se usarán para entrenar el modelo.
- Selecciona el conjunto de algoritmos de aprendizaje automático que AutoML considera en la búsqueda de modelos.
- Selecciona la métrica de evaluación que usa AutoML para elegir el mejor modelo.
Después de configurar tu experimento de AutoML, ya puedes comenzar la ejecución de entrenamiento. El entrenamiento puede tardar un tiempo en completarse (alrededor de horas).
Evaluar el modelo
Después del entrenamiento, puedes examinar los resultados con las herramientas que te proporciona tu producto de AutoML para ayudarte a hacer lo siguiente:
- Para evaluar tus atributos, examina las métricas de importancia de los atributos.
- Para comprender tu modelo, examina la arquitectura y los hiperparámetros que se usaron para compilarlo.
- Evalúa el rendimiento del modelo de nivel superior con gráficos y métricas recopilados durante el entrenamiento del modelo de salida.
Producción
Aunque está fuera del alcance de este módulo, algunos sistemas de AutoML pueden ayudarte a probar e implementar tu modelo.
Cómo volver a entrenar el modelo
Es posible que debas volver a entrenar el modelo con datos nuevos. Esto puede suceder después de que evalúes la ejecución de entrenamiento de AutoML o después de que tu modelo esté en producción durante un tiempo. De cualquier manera, los sistemas de AutoML también pueden ayudar con el reentrenamiento. No es extraño volver a analizar tus datos después de una ejecución de AutoML y volver a entrenar con un conjunto de datos mejorado.
¿Qué sigue?
¡Felicitaciones por completar este módulo!
Te recomendamos que explores los diferentes módulos de MLCC a tu propio ritmo y según tus intereses. Si quieres seguir un orden recomendado, te sugerimos que pases al siguiente módulo: Equidad de la IA.