O módulo anterior introduziu o particionamento de um conjunto de dados em um conjunto de treinamento e um de teste. Esse particionamento permitiu que você treinasse em um conjunto de exemplos e depois testasse o modelo em um conjunto diferente de exemplos. Com duas partições, o fluxo de trabalho pode ficar assim:
Figura 1. Um fluxo de trabalho possível?
Na figura, "Ajustar modelo" significa ajustar qualquer coisa sobre o modelo que você possa imaginar, desde mudar a taxa de aprendizado até adicionar ou remover recursos ou projetar um modelo completamente novo do zero. No final deste fluxo de trabalho, você escolhe o modelo que tem o melhor desempenho no conjunto de testes.
Dividir o conjunto de dados em dois é uma boa ideia, mas não é uma solução definitiva. É possível reduzir muito as chances de overfitting particionar o conjunto de dados nos três subconjuntos mostrados na figura a seguir:
Figura 2. Dividir um único conjunto de dados em três subconjuntos.
Use o conjunto de validação para avaliar os resultados do conjunto de treinamento. Em seguida, use o conjunto de teste para verificar novamente sua avaliação depois que o modelo tiver "aprovado" o conjunto de validação. A figura abaixo mostra esse novo fluxo de trabalho.
Figura 3. Um fluxo de trabalho melhor.
Nesse fluxo de trabalho aprimorado:
- Escolha o modelo que se sai melhor no conjunto de validação.
- Compare esse modelo com o conjunto de teste.
Esse é um fluxo de trabalho melhor, porque cria menos exposições para o conjunto de teste.