AutoML: primeiros passos

Se você está pensando em usar o AutoML, talvez tenha dúvidas sobre como ele funciona e quais etapas precisa seguir para começar. Esta seção aborda mais a fundo os padrões comuns do AutoML, explica como ele funciona e examina as etapas que você precisa seguir antes de começar a usar o AutoML no seu projeto.

Ferramentas do AutoML

As ferramentas de AutoML se enquadram em duas categorias principais:

  • As ferramentas sem programação geralmente têm a forma de aplicativos da Web que permitem configurar e realizar experimentos por uma interface do usuário para encontrar o melhor modelo para seus dados sem precisar programar.
  • As ferramentas de API e CLI oferecem recursos avançados de automação, mas exigem mais (às vezes muito mais) experiência em programação e ML.

As ferramentas AutoML que exigem programação podem ser mais poderosas e flexíveis do que as ferramentas sem código, mas também podem ser mais difíceis de usar. Este módulo se concentra nas opções sem código para desenvolvimento de modelos, mas as opções de API e CLI podem ajudar se você precisar de automação personalizada.

Fluxo de trabalho do AutoML

Vamos conferir um fluxo de trabalho típico de ML e entender como as coisas funcionam quando você usa o AutoML. As etapas de alto nível no fluxo de trabalho são as mesmas usadas no treinamento personalizado. A principal diferença é que o AutoML processa algumas tarefas para você.

Definição do problema

A primeira etapa de qualquer fluxo de trabalho de ML é definir o problema. Ao usar o AutoML, verifique se a ferramenta escolhida pode atender aos objetivos do seu projeto de ML. A maioria das ferramentas do AutoML oferece suporte a vários algoritmos de aprendizado de máquina supervisionado e tipos de dados de entrada.

Para mais informações sobre o enquadramento do problema, consulte o módulo sobre Introdução ao enquadramento de problemas de machine learning.

Data gathering

Antes de começar a trabalhar com uma ferramenta do AutoML, você precisa coletar seus dados em uma única fonte de dados. Verifique a documentação do produto para garantir que a ferramenta ofereça suporte à sua fonte de dados, aos tipos de dados no conjunto de dados e ao tamanho do conjunto de dados.

Preparação de dados

O preparo de dados é uma área em que as ferramentas do AutoML podem ajudar, mas nenhuma ferramenta pode fazer tudo automaticamente. Portanto, é necessário fazer algum trabalho antes de importar os dados para a ferramenta. O preparo de dados para o AutoML é semelhante ao que você precisa fazer para treinar um modelo manualmente. Se você precisar saber mais sobre como preparar os dados para treinamento, consulte a seção "Preparação de dados".

Para mais informações sobre como preparar seus dados, consulte os módulos como trabalhar com dados numéricos e como trabalhar com dados categóricos.

Antes de importar seus dados para o treinamento do AutoML, você precisa concluir estas etapas:

  • Rotular seus dados

    Cada exemplo no conjunto de dados precisa ter um rótulo.

  • Limpar e formatar dados

    Os dados reais tendem a ser confusos, então espere limpar seus dados antes de usá-los. Mesmo com o AutoML, você precisa determinar os melhores tratamentos para seu conjunto de dados e problema específico. Isso pode exigir alguma exploração e talvez várias execuções do AutoML antes de você conseguir os melhores resultados.

  • Fazer transformações de atributos

    Algumas ferramentas do AutoML processam algumas transformações de atributos. No entanto, se a ferramenta que você está usando não oferece suporte a uma transformação de recurso necessária ou não oferece suporte adequado, talvez seja necessário realizar as transformações com antecedência.

Desenvolvimento de modelos (com um AutoML sem código)

O AutoML faz o trabalho para você durante o treinamento. No entanto, antes de começar o treinamento, você precisa configurar o experimento. Para configurar uma execução de treinamento do AutoML, normalmente é necessário especificar estas etapas gerais:

  1. Importar seus dados

    Para importar seus dados, especifique a fonte de dados. Durante o processo de importação, a ferramenta AutoML atribui um tipo de dados semântico a cada valor de dados.

  2. Analisar seus dados

    Os produtos do AutoML geralmente fornecem ferramentas para analisar seu conjunto de dados antes e depois do treinamento. Como prática recomendada, use essas ferramentas de análise para entender e verificar seus dados antes de iniciar uma execução do AutoML.

  3. Refinar seus dados

    As ferramentas do AutoML geralmente oferecem mecanismos para ajudar você a refinar seus dados após a importação e antes do treinamento. Confira algumas tarefas que você pode realizar para refinar seus dados:

    • Verificação semântica:durante a importação, as ferramentas do AutoML tentam determinar o tipo semântico correto para cada recurso, mas essas são apenas suposições. Verifique os tipos designados para todos os recursos e mude-os se eles foram atribuídos incorretamente.

      Por exemplo, você pode ter CEPs armazenados como números em uma coluna no seu banco de dados. A maioria dos sistemas AutoML detectaria os dados como dados numéricos contínuos. Isso seria incorreto para um CEP, e o usuário provavelmente gostaria de mudar o tipo semântico para categórico em vez de contínuo para essa coluna de atributos.

    • Transformações:algumas ferramentas permitem que os usuários personalizem as transformações de dados como parte do processo de refinamento. Às vezes, isso é necessário quando um conjunto de dados tem recursos potencialmente preditivos que precisam ser transformados ou combinados de uma maneira que seja difícil para as ferramentas do AutoML determinar sem ajuda.

      Por exemplo, considere um conjunto de dados de imóveis que você está usando para prever o preço de venda de uma casa. Suponha que haja um recurso que represente a descrição de um anúncio de casa chamado description e que você queira usar esses dados para criar um novo recurso chamado description_length. Alguns sistemas do AutoML oferecem maneiras de usar transformações personalizadas. Neste exemplo, pode haver uma função LENGTH para gerar um novo recurso de comprimento de descrição, como este: LENGTH(description).

  4. Configurar parâmetros de execução do AutoML

    A última etapa antes de executar o experimento de treinamento é escolher algumas configurações para informar à ferramenta como você quer treinar o modelo. Embora cada ferramenta do AutoML tenha um conjunto exclusivo de opções de configuração, confira algumas das tarefas de configuração importantes que você precisa concluir:

    • Selecione o tipo de problema de ML que você planeja resolver. Por exemplo, você está resolvendo um problema de classificação ou regressão?
    • Selecione qual coluna do conjunto de dados é o rótulo.
    • Selecione o conjunto de recursos a ser usado para treinar o modelo.
    • Selecione o conjunto de algoritmos de ML que o AutoML considera na pesquisa de modelos.
    • Selecione a métrica de avaliação usada pelo AutoML para escolher o melhor modelo.

Depois de configurar o experimento do AutoML, você pode iniciar a execução de treinamento. O treinamento pode levar algumas horas para ser concluído.

Avaliar o modelo

Após o treinamento, você pode examinar os resultados usando as ferramentas que o produto do AutoML oferece para ajudar você a:

  • Avalie seus recursos examinando as métricas de importância.
  • Entenda seu modelo examinando a arquitetura e os hiperparâmetros usados para criá-lo.
  • Avalie a performance do modelo de nível superior com gráficos e métricas coletados durante o treinamento do modelo de saída.

Produção

Embora esteja fora do escopo deste módulo, alguns sistemas do AutoML podem ajudar você a testar e implantar seu modelo.

Treinar modelo de novo

Talvez seja necessário treinar o modelo novamente com novos dados. Isso pode acontecer depois que você avalia a execução de treinamento do AutoML ou depois que o modelo está em produção por algum tempo. De qualquer forma, os sistemas de AutoML também podem ajudar no reentrenamento. Não é incomum analisar novamente os dados após uma execução do AutoML e treinar novamente com um conjunto de dados melhorado.

A seguir

Parabéns por concluir este módulo!

Recomendamos que você explore os vários módulos do MLCC no seu próprio ritmo e interesse. Se você quiser seguir a ordem recomendada, sugerimos que passe para o próximo módulo: Justiça de ML.