Overfitting: como interpretar curvas de perda

O aprendizado de máquina seria muito mais simples se todas as curvas de perda parecessem assim na primeira vez que você treinasse o modelo:

Figura 20. Um gráfico mostrando a curva de perda ideal ao treinar um modelo de machine learning. A curva de perda mostra a perda no eixo y
            em relação ao número de etapas de treinamento no eixo x. À medida que o número
            de etapas de treinamento aumenta, a perda começa alta, depois diminui
            exponencialmente e, por fim, se estabiliza para alcançar uma perda
            mínima.
Figura 20. Uma curva de perda ideal.

Infelizmente, as curvas de perda costumam ser difíceis de interpretar. Use sua intuição sobre curvas de perda para resolver os exercícios desta página.

Exercício 1: curva de perda oscilante

Figura 21. Uma curva de perda (perda no eixo y; número de etapas
            de treinamento no eixo x) em que a perda não é nivelada.
            Em vez disso, a perda oscila de forma irregular.
Figura 21. Curva de perda oscilante.
Quais três coisas você poderia fazer para tentar melhorar a curva de perda mostrada na Figura 21?
Compare seus dados com um esquema de dados para detectar exemplos inválidos e remova-os do conjunto de treinamento.
Sim, essa é uma boa prática para todos os modelos.
Reduza a taxa de aprendizado.
Sim, reduzir a taxa de aprendizado geralmente é uma boa ideia ao depurar um problema de treinamento.
Reduza o conjunto de treinamento para um número pequeno de exemplos confiáveis.
Embora essa técnica pareça artificial, ela é uma boa ideia. Supondo que o modelo convirja para o pequeno conjunto de exemplos confiáveis, você pode adicionar gradualmente mais exemplos, talvez descobrindo quais exemplos fazem a curva de perda oscilar.
Aumente o número de exemplos no conjunto de treinamento.
Essa é uma ideia tentadora, mas é extremamente improvável que ela resolva o problema.
Aumente a taxa de aprendizado.
Em geral, evite aumentar a taxa de aprendizado quando a curva de aprendizado de um modelo indicar um problema.

Exercício 2. Curva de perda com um salto acentuado

Figura 22. Um gráfico de curva de perda que mostra a perda diminuindo até um
            determinado número de etapas de treinamento e aumentando de repente
            com outras etapas de treinamento.
Figura 22. Aumento acentuado na perda.
Quais duas das afirmações a seguir identificam possíveis motivos para a perda explosiva mostrada na Figura 22.
Os dados de entrada contêm um ou mais NaNs, por exemplo, um valor causado por uma divisão por zero.
Isso é mais comum do que você imagina.
Os dados de entrada contêm uma série de valores discrepantes.
Às vezes, devido a uma mistura inadequada de lotes, um lote pode conter muitos valores discrepantes.
A taxa de aprendizado é muito baixa.
Uma taxa de aprendizado muito baixa pode aumentar o tempo de treinamento, mas não é a causa da curva de perda estranha.
A taxa de regularização é muito alta.
É verdade que uma regularização muito alta pode impedir que um modelo convirja. No entanto, ela não causa a curva de perda estranha mostrada na Figura 22.

Exercício 3. A perda do teste diverge da perda do treinamento

Figura 23. A curva de perda de treinamento parece convergir, mas a perda de validação começa a aumentar após um determinado número de etapas de treinamento.
Figura 23. Aumento acentuado na perda de validação.
Qual uma das afirmações a seguir identifica melhor o motivo dessa diferença entre as curvas de perda dos conjuntos de treinamento e teste?
O modelo está apresentando overfitting no conjunto de treinamento.
Sim, provavelmente é. Possíveis soluções:
  • Simplifique o modelo, possivelmente reduzindo o número de recursos.
  • Aumente a taxa de regularização.
  • Verifique se o conjunto de treinamento e o de teste são estatisticamente equivalentes.
A taxa de aprendizado é muito alta.
Se a taxa de aprendizado fosse muito alta, a curva de perda do conjunto de treinamento provavelmente não teria se comportado dessa forma.

Exercício 4. A curva de perda fica travada

Figura 24. Um gráfico de uma curva de perda mostrando que a perda começa a
            convergir com o treinamento, mas depois mostra padrões repetidos que
            se parecem com uma onda retangular.
Figura 24. Perda caótica após um determinado número de etapas.
Qual uma das afirmações a seguir é a explicação mais provável para a curva de perda irregular mostrada na Figura 24?
O conjunto de treinamento contém sequências repetitivas de exemplos.
Isso é uma possibilidade. Confira se você está misturando os exemplos adequadamente.
A taxa de regularização é muito alta.
É improvável que seja a causa.
O conjunto de treinamento contém muitos recursos.
É improvável que seja a causa.