AutoML: Primeros pasos

Si estás pensando en usar AutoML, es posible que tengas preguntas sobre cómo y qué pasos debes seguir para comenzar. En esta sección, se profundiza en los detalles en patrones comunes de AutoML, explora cómo funciona AutoML y examina qué pasos que debas realizar antes de comenzar a usar AutoML para tu proyecto.

Herramientas de AutoML

Las herramientas de AutoML se dividen en dos categorías principales:

  • Las herramientas que no requieren programación suelen adoptar el formato de aplicaciones web. que te permiten configurar y ejecutar experimentos a través de una interfaz de usuario para encontrar el mejor modelo para tus datos sin escribir ningún código.
  • Las herramientas de API y CLI proporcionan funciones de automatización avanzadas, pero requieren más y experiencia en programación y AA.

Las herramientas de AutoML que requieren programación pueden ser más potentes y flexibles que las herramientas sin código, pero también pueden ser más difíciles de usar. Este módulo se centra las opciones sin código para el desarrollo del modelo, pero ten en cuenta que la API y la CLI estas opciones pueden ser útiles si necesitas automatización personalizada.

Flujo de trabajo de AutoML

Veamos un flujo de trabajo típico del AA y cómo funcionan las cosas cuando usas AutoML. Los pasos de alto nivel del flujo de trabajo son los mismos que usas para el entrenamiento personalizado, la principal diferencia es que AutoML se encarga de algunas tareas por ti.

Definición del problema

El primer paso en cualquier flujo de trabajo del AA es definir tu problema. Cuando usas AutoML, asegúrate de que la herramienta que elijas sea compatible con el de tu proyecto de AA. La mayoría de las herramientas de AutoML admiten una variedad algoritmos de aprendizaje automático y tipos de datos de entrada.

Para obtener más información sobre el enmarcado de problemas, echa un vistazo al módulo sobre Introducción al enmarcado de problemas del aprendizaje automático.

Data gathering

Antes de que puedas comenzar a trabajar con una herramienta de AutoML, debes recopilar tus datos en una única fuente de datos. Consulta la documentación del producto para asegurarte de que tu herramienta admite: tu fuente de datos, los tipos de datos en tu conjunto de datos, el tamaño de tu conjunto de datos.

Preparación de datos

La preparación de datos es un área en la que las herramientas de AutoML pueden ayudarte, pero no puede hacer todo automáticamente, así que antes de empezar puede importar tus datos a la herramienta. La preparación de datos para AutoML es similar a lo que necesitaría hacer para entrenar un modelo manualmente. Si necesitas más información sobre cómo preparar tus datos para el entrenamiento, consulta el curso sección.

Para obtener más información sobre cómo preparar los datos, consulta la trabajar con datos numéricos y trabajar con datos categóricos módulos.

Antes de importar tus datos para el entrenamiento de AutoML, debes completar estas pasos:

  • Cómo etiquetar tus datos

    Cada ejemplo en tu conjunto de datos necesita una etiqueta.

  • Limpia y formatea los datos

    Los datos del mundo real suelen ser desordenados, así que debes limpiarlos antes de usarlos que la modifica. Incluso con AutoML, debes determinar los mejores tratamientos para tu conjunto de datos y problema en particular. Esto puede requerir un poco de exploración y tal vez múltiples ejecuciones de AutoML antes de obtener los mejores resultados.

  • Realiza transformaciones de atributos

    Algunas herramientas de AutoML manejan ciertas transformaciones de atributos por ti. Sin embargo, si Si la herramienta que usas no admite una transformación de atributos no lo admite bien, es posible que debas realizar las transformaciones un plazo determinado.

Desarrollo de modelos (con AutoML sin código)

AutoML hace el trabajo por ti durante el entrenamiento. Sin embargo, antes de empezar entrenamiento, debes configurar el experimento. Configurar un entrenamiento de AutoML por lo general, debes especificar estos pasos de alto nivel:

  1. Importa tus datos

    Para importar tus datos, especifica tu fuente de datos. Durante la importación en un proceso específico, la herramienta AutoML asigna un tipo de datos semántico a cada valor.

  2. Analiza tus datos

    Los productos de AutoML suelen proporcionar herramientas para analizar tu conjunto de datos después del entrenamiento. Como práctica recomendada, tal vez te convenga usar estas herramientas de análisis para comprender y verificar tus datos antes de comenzar una ejecución de AutoML.

  3. Cómo definir mejor los datos

    Las herramientas de AutoML a menudo proporcionan mecanismos para ayudarte a definir mejor tus datos después y antes del entrenamiento. Estas son algunas tareas que puedes completar para definir mejor tus datos:

    • Verificación semántica: durante la importación, las herramientas de AutoML intentan determinar la el tipo semántico correcto para cada atributo, pero estas son solo suposiciones. Debes verificar los tipos designados para todos los atributos y cambiarlos si se asignaron de forma incorrecta.

      Por ejemplo, puedes tener códigos postales almacenados como números en una columna en tu base de datos. La mayoría de los sistemas de AutoML detectarían los datos como datos como datos numéricos. Esto sería incorrecto para un código postal y el usuario querría cambiar el tipo semántico a categórico en lugar que continuos en esta columna de atributos.

    • Transformaciones: Algunas herramientas permiten que los usuarios personalicen los datos. transformaciones como parte del proceso de perfeccionamiento. A veces es así cuando un conjunto de datos tiene atributos potencialmente predictivos que deben transformarse o combinarse de una manera que es difícil para las herramientas de AutoML determinar sin ayuda.

      Por ejemplo, considera un conjunto de datos de viviendas que estás usando para predecir el precio de oferta de una casa. Supongamos que hay un atributo que representa la descripción de una ficha de vivienda llamada description y les gusta usar estos datos para crear un nuevo atributo llamado description_length Algunos sistemas de AutoML ofrecen formas de usar de datos. Para este ejemplo, podría haber una función LENGTH para generar una nueva característica de longitud de la descripción como la siguiente: LENGTH(description)

  4. Configura los parámetros de ejecución de AutoML

    El último paso antes de ejecutar tu experimento de entrenamiento es elegir parámetros de configuración para indicarle a la herramienta cómo deseas que entrene tu modelo. Aunque cada herramienta de AutoML tiene su propio conjunto único de opciones de configuración, Estas son algunas de las tareas de configuración significativas completa:

    • Selecciona el tipo de problema de AA que planeas resolver. Por ejemplo, ¿estás resolver un problema de clasificación o regresión?
    • Selecciona qué columna de tu conjunto de datos es la etiqueta.
    • Selecciona el conjunto de atributos que se usará para entrenar el modelo.
    • Selecciona el conjunto de algoritmos de AA que AutoML considera en la búsqueda del modelo.
    • Selecciona la métrica de evaluación que usa AutoML para elegir el mejor modelo.

Después de configurar el experimento de AutoML, puedes comenzar el entrenamiento cuando se ejecute. Es posible que el entrenamiento tarde un poco en completarse (en horas).

Evaluar el modelo

Después del entrenamiento, puedes examinar los resultados con las herramientas que tu producto proporciona para ayudarte a:

  • Examina las métricas de importancia de los atributos para evaluar los atributos.
  • Examina la arquitectura y los hiperparámetros utilizados para comprender tu modelo para crearlo.
  • Evaluar el rendimiento del modelo de nivel superior con gráficos y métricas recopilados durante para el modelo de salida.

Producción

Aunque esto está fuera del alcance de este módulo, algunos sistemas de AutoML pueden ayudarte probar e implementar tu modelo.

Volver a entrenar el modelo

Es posible que debas volver a entrenar el modelo con datos nuevos. Esto puede ocurrir después de evaluar tu ejecución de entrenamiento de AutoML o después de que tu modelo esté en producción durante algunos tiempo. De cualquier manera, los sistemas de AutoML también pueden ayudar con el reentrenamiento. No es es poco común echar un vistazo a tus datos después de una ejecución de AutoML y volver a entrenarlo con un conjunto de datos mejorado.

¿Qué sigue?

¡Felicitaciones por completar el módulo!

Te invitamos a explorar los distintos módulos de la MLCC. a tu propio ritmo e interés. Si quieres seguir un pedido recomendado, te sugerimos que continúes con el siguiente módulo: Equidad en el AA.