Manual de ajuste de aprendizado profundo

Este documento ajuda você a treinar modelos de aprendizado profundo com mais eficiência. Este documento enfatiza o ajuste de hiperparâmetro, mas também abrange outros aspectos do treinamento de aprendizado profundo, como a implementação e a otimização do pipeline de treinamento.

Neste documento, pressupomos que sua tarefa de machine learning seja um problema de aprendizado supervisionado ou um problema semelhante (por exemplo, aprendizado autosupervisionado). Dito isso, algumas das recomendações neste documento também podem se aplicar a outros tipos de problemas de machine learning.

Público-alvo

Este documento destina-se a engenheiros e pesquisadores com pelo menos um conhecimento básico de machine learning e deep learning. Se você não tem esse conhecimento, faça o Curso intensivo de machine learning.

Por que escrevemos este documento?

Atualmente, há uma quantidade surpreendente de esforço e adivinhação envolvidas no funcionamento prático das redes neurais profundas. Pior ainda: as receitas reais que as pessoas usam para ter bons resultados com o aprendizado profundo raramente são documentadas. Os documentos relembram o processo que levou aos resultados finais para apresentar uma história mais limpa, e os engenheiros de machine learning que trabalham com problemas comerciais raramente têm tempo para dar um passo atrás e generalizar o processo deles. Os livros didáticos tendem a escapar de orientações práticas e priorizar princípios fundamentais, mesmo que os autores tenham a experiência necessária em trabalhos aplicados para fornecer conselhos úteis.

Ao se preparar para criar este documento, não encontramos uma tentativa abrangente de explicar como conseguir bons resultados com o aprendizado profundo. Em vez disso, encontramos trechos de conselhos em postagens de blogs e mídias sociais, truques espalhados do apêndice de artigos de pesquisa, estudos de caso ocasionais sobre um projeto ou canal em particular e muita confusão. Há um enorme golfo entre os resultados alcançados por especialistas em aprendizado profundo e profissionais menos habilidosos que usam métodos superficiais. No entanto, os especialistas imediatamente admitem que parte do que fazem pode não ser bem justificada. À medida que o aprendizado profundo amadurece e tem um impacto maior no mundo, a comunidade precisa de mais recursos para receitas úteis, incluindo todos os detalhes práticos que podem ser essenciais para conseguir bons resultados.

Somos uma equipe de cinco pesquisadores e engenheiros que trabalham no aprendizado profundo há muitos anos. Alguns de nós desde 2006. Aplicamos o aprendizado profundo em tudo, do reconhecimento de fala à astronomia. Este documento surgiu da nossa própria experiência no treinamento de redes neurais, no ensino de novos engenheiros de machine learning e na orientação de nossos colegas sobre a prática de aprendizado profundo.

É gratificante ver o aprendizado profundo ir de uma abordagem de machine learning praticada por vários laboratórios acadêmicos até uma tecnologia que potencializa produtos usados por bilhões de pessoas. No entanto, o aprendizado profundo ainda está engatinhando como uma disciplina de engenharia e esperamos que este documento incentive outras pessoas a ajudar a sistematizar os protocolos experimentais do campo.

Este documento surgiu quando tentamos cristalizar nossa própria abordagem de aprendizado profundo. Portanto, ela representa nossas opiniões no momento em que foi escrito, não qualquer tipo de verdade objetiva. Nossas próprias dificuldades com o ajuste de hiperparâmetro fizeram com que ele se tornasse um foco específico da nossa orientação, mas também abordamos outros problemas importantes que encontramos no nosso trabalho (ou vimos que deram errado). Nossa intenção é que esse trabalho seja um documento vivo que cresça e evolua à medida que nossas crenças mudam. Por exemplo, o material sobre depuração e mitigação de falhas de treinamento não teria sido possível escrever há dois anos porque ele é baseado em resultados recentes e investigações em andamento.

Inevitavelmente, alguns dos nossos conselhos precisarão ser atualizados para contabilizar novos resultados e fluxos de trabalho aprimorados. Não sabemos qual é a receita de aprendizado profundo ideal, mas não esperamos que a comunidade comece a escrever e discutir sobre diferentes procedimentos. Por esse motivo, recomendamos que os leitores que encontrarem problemas com nossas orientações produzam recomendações alternativas, junto com evidências convincentes, para que possamos atualizar o manual. Também adoraríamos ver guias e manuais alternativos que possam ter recomendações diferentes para trabalharmos nas práticas recomendadas como comunidade.

Sobre esse emoji de robô

O emoji 🤖 do robô indica áreas em que gostaríamos de fazer mais pesquisas. Só depois de escrever este manual, ficou claro que existem muitas perguntas de pesquisa interessantes e negligenciadas no fluxo de trabalho do profissional de aprendizado profundo.