Se você está pensando em usar o AutoML, pode ter dúvidas sobre como ele funciona e quais etapas você deve seguir para começar. Esta seção se aprofunda em padrões comuns do AutoML, explica como ele funciona e examina quais etapas que talvez seja necessário fazer antes de começar a usar o AutoML em seu projeto.
Ferramentas do AutoML
As ferramentas do AutoML se enquadram em duas categorias principais:
- Ferramentas que não exigem codificação normalmente aparecem no formato de aplicativos da Web que permitem configurar e executar experimentos por uma interface do usuário para encontrar o melhor modelo para seus dados sem escrever códigos.
- As ferramentas de API e CLI oferecem recursos avançados de automação, mas exigem mais (às vezes significativamente mais) conhecimento em programação e ML.
As ferramentas do AutoML que exigem programação podem ser mais poderosas e mais flexíveis do que sem código, mas elas também podem ser mais difíceis de usar. O foco deste módulo é as opções sem código para o desenvolvimento de modelos, mas lembre-se de que a API e a CLI do Cloud Storage podem ajudar se você precisar de automação personalizada.
Fluxo de trabalho do AutoML
Vamos examinar um fluxo de trabalho de ML típico e entender como as coisas funcionam quando você usa o AutoML. As etapas de alto nível no fluxo de trabalho são as mesmas que você usa para treinamento personalizado A principal diferença é que o AutoML lida com algumas tarefas para você.
Definição do problema
A primeira etapa em qualquer fluxo de trabalho de ML é definir o problema. Quando você usa AutoML, verifique se a ferramenta escolhida é compatível com os e os objetivos do seu projeto de ML. A maioria das ferramentas do AutoML oferece suporte a várias algoritmos de machine learning e tipos de dados de entrada.
Para mais informações sobre como enquadrar problemas, confira o módulo Introdução à classificação de problemas de machine learning.
Data gathering
Antes de começar a trabalhar com uma ferramenta do AutoML, você precisa coletar seus dados em uma única fonte de dados. Verifique a documentação do produto para ter certeza de que com a ferramenta: a fonte, os tipos de dados no conjunto, o tamanho do conjunto de dados.
Preparação de dados
A preparação de dados é uma área em que as ferramentas do AutoML podem ajudar você, mas não pode fazer tudo automaticamente, então espere fazer algum trabalho antes de pode importar seus dados para a ferramenta. A preparação de dados para o AutoML é semelhante à o que você precisa fazer para treinar um modelo manualmente. Para saber mais sobre como preparar os dados para treinamento, confira o curso nesta seção.
Para mais informações sobre como preparar os dados, consulte a como trabalhar com dados numéricos e como trabalhar com dados categóricos módulos.
Antes de importar seus dados para o treinamento do AutoML, você precisa concluir estas etapas:
Rotular seus dados
Cada exemplo no conjunto de dados precisa de um rótulo.
Limpar e formatar dados
Os dados do mundo real tendem a ser confusos, portanto, espere limpar seus dados antes de usar reimplantá-lo. Mesmo com o AutoML, você precisa determinar os melhores tratamentos para conjunto de dados e problema específico. Isso pode exigir alguma análise e várias execuções do AutoML para alcançar os melhores resultados.
Realizar transformações de atributos
Algumas ferramentas do AutoML lidam com determinadas transformações de atributos para você. Mas, se a ferramenta que você está usando não oferece suporte a uma transformação de atributo de que você precisa ou não oferecer suporte a ela, talvez seja necessário realizar as transformações período.
Desenvolvimento de modelos (com um AutoML sem código)
O AutoML faz o trabalho por você durante o treinamento. No entanto, antes de começar você precisa configurar o experimento. Para configurar um treinamento do AutoML ser executada, você normalmente precisa especificar estas etapas de alto nível:
Importar seus dados
Para importar seus dados, especifique sua fonte de dados. Durante a importação a ferramenta de AutoML atribui um tipo de dados semântico a cada valor de dados.
Analisar seus dados
Os produtos do AutoML geralmente oferecem ferramentas para analisar seu conjunto de dados antes e depois do treinamento. Como prática recomendada, convém usar essas ferramentas de análise para entender e verificar os dados antes de iniciar uma execução do AutoML.
Refinar seus dados
As ferramentas do AutoML geralmente oferecem mecanismos para ajudar você a refinar os dados depois importação e antes do treinamento. Aqui estão algumas tarefas que convém concluir para refinar seus dados:
Verificação semântica: durante a importação, as ferramentas do AutoML tentam determinar semântico correto para cada atributo, mas são apenas suposições. Você deve verificar os tipos designados para todos os recursos e alterá-los caso tenham sido atribuídos incorretamente.
Por exemplo, você pode ter códigos postais armazenados como números em uma coluna no seu banco de dados. A maioria dos sistemas do AutoML detecta os dados como contínuos dados numéricos, Seria incorreto para um código postal e para o usuário provavelmente mudaria o tipo semântico para categórico, contínua para esta coluna de atributo.
Transformações:algumas ferramentas permitem que os usuários personalizem dados. como parte do processo de refinamento. Às vezes, isso é necessário quando um conjunto de dados tem atributos potencialmente preditivos que precisam ser transformados ou combinados de uma forma que seja difícil para as ferramentas do AutoML determinar sem ajuda.
Por exemplo, considere um conjunto de dados de imóveis que você está usando para prever o preço de venda de uma casa. Suponha que haja um atributo que represente para um anúncio de uma casa chamada
description
e gostam de usar esses dados para criar um novo atributo chamadodescription_length
. Alguns sistemas AutoML oferecem maneiras de usar transformações de dados. Para este exemplo, pode haver uma funçãoLENGTH
para gerar um novo recurso de tamanho de descrição como este:LENGTH(description)
.
Configurar parâmetros de execução do AutoML
A última etapa antes de realizar seu experimento de treinamento é escolher as definições de configuração para informar à ferramenta como você quer que ela treine seu modelo. Embora cada ferramenta do AutoML tenha o próprio conjunto exclusivo de opções de configuração, confira algumas tarefas de configuração importantes que talvez você precise completar:
- Selecione o tipo de problema de ML que você planeja resolver. Por exemplo, você está ao resolver um problema de classificação ou regressão?
- Selecione qual coluna do conjunto de dados é o rótulo.
- Selecione o conjunto de atributos a ser usado para treinar o modelo.
- Selecione o conjunto de algoritmos de ML que o AutoML considera na pesquisa de modelo.
- Selecione a métrica de avaliação que o AutoML usa para escolher o melhor modelo.
Depois de configurar seu experimento do AutoML, você estará pronto para iniciar o treinamento. correr. O treinamento pode levar um tempo para ser concluído (em algumas horas).
Avaliar o modelo
Após o treinamento, é possível examinar os resultados usando as ferramentas produto fornece para ajudar você a:
- Avalie os atributos examinando as métricas de importância do atributo.
- Compreenda seu modelo examinando a arquitetura e os hiperparâmetros usados para criá-lo.
- Avaliar o desempenho de alto nível do modelo com gráficos e métricas coletados durante treinamento para o modelo de saída.
Produção
Embora esteja fora do escopo deste módulo, alguns sistemas AutoML podem ajudar testar e implantar seu modelo.
Treinar modelo novamente
Talvez seja necessário treinar novamente o modelo com dados novos. Isso pode acontecer depois que você avalie a execução de treinamento do AutoML ou depois que o modelo estiver em produção por algum tempo de resposta. De qualquer forma, os sistemas AutoML também podem ajudar com o retreinamento. Não é incomum analisar novamente os dados após a execução do AutoML e treinar novamente com um conjunto de dados aprimorado.
A seguir
Parabéns por concluir este módulo!
Recomendamos que você explore os vários módulos do MLCC no seu próprio ritmo e interesse. Para seguir um pedido recomendado, sugerimos que você acesse o módulo a seguir: Imparcialidade no ML.