Esta página foi traduzida pela API Cloud Translation.

Overfitting: como interpretar curvas de perda

O aprendizado de máquina seria muito mais simples se todas as curvas de perda parecessem assim na primeira vez que você treinasse o modelo:

Figura 20. Um gráfico mostrando a curva de perda ideal ao treinar um modelo de machine learning. A curva de perda mostra a perda no eixo y
em relação ao número de etapas de treinamento no eixo x. À medida que o número
de etapas de treinamento aumenta, a perda começa alta, depois diminui
exponencialmente e, por fim, se estabiliza para alcançar uma perda
mínima. — **Figura 20.** Uma curva de perda ideal.

Infelizmente, as curvas de perda costumam ser difíceis de interpretar. Use sua intuição sobre curvas de perda para resolver os exercícios desta página.

Exercício 1: curva de perda oscilante

Figura 21. Uma curva de perda (perda no eixo y; número de etapas
de treinamento no eixo x) em que a perda não é nivelada.
Em vez disso, a perda oscila de forma irregular. — **Figura 21**. Curva de perda oscilante.

Quais três coisas você poderia fazer para tentar melhorar a curva de perda mostrada na Figura 21?

Compare seus dados com um esquema de dados para detectar exemplos inválidos e remova-os do conjunto de treinamento.

Sim, essa é uma boa prática para todos os modelos.

Reduza a taxa de aprendizado.

Sim, reduzir a taxa de aprendizado geralmente é uma boa ideia ao depurar um problema de treinamento.

Reduza o conjunto de treinamento para um número pequeno de exemplos confiáveis.

Embora essa técnica pareça artificial, ela é uma boa ideia. Supondo que o modelo convirja para o pequeno conjunto de exemplos confiáveis, você pode adicionar gradualmente mais exemplos, talvez descobrindo quais exemplos fazem a curva de perda oscilar.

Aumente o número de exemplos no conjunto de treinamento.

Essa é uma ideia tentadora, mas é extremamente improvável que ela resolva o problema.

Aumente a taxa de aprendizado.

Em geral, evite aumentar a taxa de aprendizado quando a curva de aprendizado de um modelo indicar um problema.

Exercício 2. Curva de perda com um salto acentuado

Figura 22. Um gráfico de curva de perda que mostra a perda diminuindo até um
determinado número de etapas de treinamento e aumentando de repente
com outras etapas de treinamento. — **Figura 22**. Aumento acentuado na perda.

Quais duas das afirmações a seguir identificam possíveis motivos para a perda explosiva mostrada na Figura 22.

Os dados de entrada contêm um ou mais NaNs, por exemplo, um valor causado por uma divisão por zero.

Isso é mais comum do que você imagina.

Os dados de entrada contêm uma série de valores discrepantes.

Às vezes, devido a uma mistura inadequada de lotes, um lote pode conter muitos valores discrepantes.

A taxa de aprendizado é muito baixa.

Uma taxa de aprendizado muito baixa pode aumentar o tempo de treinamento, mas não é a causa da curva de perda estranha.

A taxa de regularização é muito alta.

É verdade que uma regularização muito alta pode impedir que um modelo convirja. No entanto, ela não causa a curva de perda estranha mostrada na Figura 22.

Exercício 3. A perda do teste diverge da perda do treinamento

Figura 23. A curva de perda de treinamento parece convergir, mas a perda de validação começa a aumentar após um determinado número de etapas de treinamento. — **Figura 23**. Aumento acentuado na perda de validação.

Qual uma das afirmações a seguir identifica melhor o motivo dessa diferença entre as curvas de perda dos conjuntos de treinamento e teste?

O modelo está apresentando overfitting no conjunto de treinamento.

Sim, provavelmente é. Possíveis soluções:

Simplifique o modelo, possivelmente reduzindo o número de recursos.
Aumente a taxa de regularização.
Verifique se o conjunto de treinamento e o de teste são estatisticamente equivalentes.

A taxa de aprendizado é muito alta.

Se a taxa de aprendizado fosse muito alta, a curva de perda do conjunto de treinamento provavelmente não teria se comportado dessa forma.

Exercício 4. A curva de perda fica travada

Figura 24. Um gráfico de uma curva de perda mostrando que a perda começa a
convergir com o treinamento, mas depois mostra padrões repetidos que
se parecem com uma onda retangular. — **Figura 24**. Perda caótica após um determinado número de etapas.

Qual uma das afirmações a seguir é a explicação mais provável para a curva de perda irregular mostrada na Figura 24?

O conjunto de treinamento contém sequências repetitivas de exemplos.

Isso é uma possibilidade. Confira se você está misturando os exemplos adequadamente.

A taxa de regularização é muito alta.

É improvável que seja a causa.

O conjunto de treinamento contém muitos recursos.

É improvável que seja a causa.

Regularização L2 (10 min)

Teste seus conhecimentos (10 min)