Overfitting: como interpretar curvas de perda

O aprendizado de máquina seria muito mais simples se todas as curvas de perda parecessem assim na primeira vez que você treinasse o modelo:

Figura 20. Um gráfico mostrando a curva de perda ideal ao treinar um modelo de machine learning. A curva de perda mostra a perda no eixo y
            em relação ao número de etapas de treinamento no eixo x. À medida que o número
            de etapas de treinamento aumenta, a perda começa alta, depois diminui
            exponencialmente e, por fim, se estabiliza para alcançar uma perda
            mínima.
Figura 20. Uma curva de perda ideal.

Infelizmente, as curvas de perda costumam ser difíceis de interpretar. Use sua intuição sobre curvas de perda para resolver os exercícios desta página.

Exercício 1: curva de perda oscilante

Figura 21. Uma curva de perda (perda no eixo y; número de etapas
            de treinamento no eixo x) em que a perda não é nivelada.
            Em vez disso, a perda oscila de forma irregular.
Figura 21. Curva de perda oscilante.
Quais três coisas você poderia fazer para tentar melhorar a curva de perda mostrada na Figura 21?
Aumente o número de exemplos no conjunto de treinamento.
Aumente a taxa de aprendizado.
Reduza o conjunto de treinamento para um número pequeno de exemplos confiáveis.
Compare seus dados com um esquema de dados para detectar exemplos inválidos e remova-os do conjunto de treinamento.
Reduza a taxa de aprendizado.

Exercício 2. Curva de perda com um salto acentuado

Figura 22. Um gráfico de curva de perda que mostra a perda diminuindo até um
            determinado número de etapas de treinamento e aumentando de repente
            com outras etapas de treinamento.
Figura 22. Aumento acentuado na perda.
Quais duas das afirmações a seguir identificam possíveis motivos para a perda explosiva mostrada na Figura 22.
Os dados de entrada contêm uma série de valores discrepantes.
A taxa de regularização é muito alta.
Os dados de entrada contêm um ou mais NaNs, por exemplo, um valor causado por uma divisão por zero.
A taxa de aprendizado é muito baixa.

Exercício 3. A perda do teste diverge da perda do treinamento

Figura 23. A curva de perda de treinamento parece convergir, mas a perda de validação começa a aumentar após um determinado número de etapas de treinamento.
Figura 23. Aumento acentuado na perda de validação.
Qual uma das afirmações a seguir identifica melhor o motivo dessa diferença entre as curvas de perda dos conjuntos de treinamento e teste?
A taxa de aprendizado é muito alta.
O modelo está apresentando overfitting no conjunto de treinamento.

Exercício 4. A curva de perda fica travada

Figura 24. Um gráfico de uma curva de perda mostrando que a perda começa a
            convergir com o treinamento, mas depois mostra padrões repetidos que
            se parecem com uma onda retangular.
Figura 24. Perda caótica após um determinado número de etapas.
Qual uma das afirmações a seguir é a explicação mais provável para a curva de perda irregular mostrada na Figura 24?
O conjunto de treinamento contém muitos recursos.
A taxa de regularização é muito alta.
O conjunto de treinamento contém sequências repetitivas de exemplos.