Visão geral de pipelines de ML

Parabéns! Seu modelo está pronto para implantação em um pipeline de ML de produção. Nesta seção do curso, apresentamos as diretrizes de teste para pipelines de ML. No entanto, esta seção não demonstra essas diretrizes, porque essa demonstração não é possível em um ambiente sandbox.

O que você vai aprender:

  • Criar testes apropriados para o lançamento e a produção.
  • Como detectar modos de falha no pipeline de ML usando testes.
  • avaliar a qualidade do modelo em produção;

O que é um pipeline de ML?

Um pipeline de ML consiste em vários componentes, como mostra o diagrama. Conheceremos esses componentes mais tarde. Por enquanto, observe que o “Modelo” (a caixa preta) é uma pequena parte da infraestrutura do pipeline necessária para a produção de ML.

Um esquema de um pipeline típico de machine learning. O
            esquema mostra várias caixas, uma para cada componente do
            pipeline. A caixa "modelo" está no centro do esquema. As outras caixas são organizadas em torno
            da caixa "modelo". Essas caixas são rotuladas: coleta de dados,
            verificação de dados, gerenciamento de recursos da máquina, infraestrutura
            de disponibilização, extração de recursos, ferramentas de análise, ferramentas de
            gerenciamento de processos, configuração e monitoramento.
Figura 1: um esquema de um pipeline de machine learning típico.

Papel de testes em pipelines de ML

No desenvolvimento de software, o fluxo de trabalho ideal segue o desenvolvimento baseado em teste (TDD). Mas, no ML, não é simples começar com testes. Os testes dependem dos dados, modelos e problemas. Por exemplo, antes de treinar o modelo, não é possível escrever um teste para validar a perda. Em vez disso, você descoberta a perda viável durante o desenvolvimento do modelo e depois testa novas versões do modelo em relação à perda alcançável.

Você precisa de testes para:

  • Validando dados de entrada.
  • Validando a engenharia de atributos.
  • Validando a qualidade de novas versões de modelo.
  • Validando a infraestrutura de disponibilização.
  • Testar a integração entre os componentes do pipeline.