Overfitting: como interpretar curvas de perda

O machine learning seria muito mais simples se todas as suas curvas de perda ficou assim na primeira vez que você treinou seu modelo:

Figura 20. Um gráfico que mostra a curva de perda ideal ao treinar um
            modelo de machine learning. A curva de perda representa a perda no eixo Y
            em relação ao número de etapas de treinamento no eixo X. Como o número
            dos passos de treinamento aumenta, a perda começa alta e depois diminui
            exponencialmente e, em última instância, se nivela para atingir um mínimo
            e perda de talentos.
Figura 20. Uma curva de perda ideal.

Infelizmente, as curvas de perda costumam ser difíceis de interpretar. Use seu intuição sobre curvas de perda para resolver os exercícios desta página.

Exercício 1: curva de perda oscilante

Figura 21. Uma curva de perda (perda no eixo Y; número de
            degraus no eixo x) em que a perda não se nivela.
            Em vez disso, a perda oscila de forma irregular.
Figura 21. Curva de perda oscilante.
Cite três coisas que você poderia fazer para tentar melhorar a curva de perda. como mostrado na figura 21.
comparar seus dados com um esquema de dados para detectar exemplos ruins; e e depois remover os exemplos ruins do conjunto de treinamento.
Sim, essa é uma boa prática para todos os modelos.
Reduza a taxa de aprendizado.
Sim, reduzir a taxa de aprendizado costuma ser uma boa ideia ao depurar problema de treinamento.
Reduza o conjunto de treinamento a um pequeno número de exemplos confiáveis.
Embora essa técnica pareça artificial, ela é uma boa ideia. Supondo que o modelo converge no pequeno conjunto de exemplos confiáveis, você pode adicionar gradualmente mais exemplos, talvez descobrir quais exemplos fazem com que a curva de perda oscilar.
Aumente o número de exemplos no conjunto de treinamento.
Esta é uma ideia tentadora, mas é extremamente improvável que corrija o problema.
Aumentar a taxa de aprendizado.
Em geral, evite aumentar a taxa de aprendizado e a curva de aprendizado indica um problema.

Exercício 2. Curva de perda com um salto agudo

Figura 22. Um gráfico de curva de perda que mostra a perda diminuindo até um
            um certo número de etapas de treinamento e, de repente,
            com mais etapas de treinamento.
Figura 22. Aumento acentuado na perda.
Quais duas afirmações a seguir identificam possíveis os motivos dessa explosão mostrados na figura 22.
Os dados de entrada contêm um ou mais NaNs, por exemplo, um valor causada por uma divisão por zero.
Isso é mais comum do que você esperava.
Os dados de entrada contêm um burst de outliers.
Às vezes, devido ao embaralhamento inadequado de lotes, conter muitos outliers.
A taxa de aprendizado é muito baixa.
Uma taxa de aprendizado muito baixa pode aumentar o tempo de treinamento, mas não é a causa da curva de perda estranha.
A taxa de regularização é muito alta.
Verdadeiro. Uma regularização muito alta pode impedir que um modelo converging; No entanto, isso não causará a estranha curva de perda como mostrado na figura 22.

Exercício 3. A perda de teste é diferente da perda de treinamento

Figura 23. A curva de perda de treinamento parece convergir, mas a
            a perda de validação começa a aumentar depois de um certo número de
            etapas.
Figura 23. Aumento acentuado na perda de validação.
Qual das seguintes afirmações identifica melhor ? por essa diferença entre as curvas de perda do treinamento e conjuntos de teste?
O modelo está com overfitting do conjunto de treinamento.
Sim, provavelmente é. Soluções possíveis:
  • Simplificar o modelo, possivelmente reduzindo o número de atributos.
  • Aumentar a taxa de regularização.
  • Garantir que os conjuntos de treinamento e teste sejam estatisticamente equivalentes.
A taxa de aprendizado é muito alta.
Se a taxa de aprendizado for muito alta, a curva de perda do conjunto de treinamento provavelmente não teria se comportado da forma que aconteceu.

Exercício 4. A curva de perda fica travada

Figura 24. Um gráfico de uma curva de perda que mostra a perda começando a
            convergem com o treinamento, mas depois exibindo padrões repetidos que
            parecem uma onda retangular.
Figura 24. Perda caótica após um certo número de passos.
Qual uma das afirmações a seguir é a mais provável explicação da curva de perda irregular mostrada na figura 24?
O conjunto de treinamento contém sequências repetitivas de exemplos.
Isso é uma possibilidade. Verifique se os exemplos estão sendo embaralhados o suficiente.
A taxa de regularização é muito alta.
Essa provavelmente não é a causa.
O conjunto de treinamento contém muitos atributos.
Essa provavelmente não é a causa.