O aprendizado de máquina seria muito mais simples se todas as curvas de perda parecessem assim na primeira vez que você treinasse o modelo:
Infelizmente, as curvas de perda costumam ser difíceis de interpretar. Use sua intuição sobre curvas de perda para resolver os exercícios desta página.
Exercício 1: curva de perda oscilante
Quais três coisas você poderia fazer para tentar melhorar a curva de perda
mostrada na Figura 21?
Compare seus dados com um esquema de dados para detectar exemplos inválidos e remova-os do conjunto de treinamento.
Sim, essa é uma boa prática para todos os modelos.
Reduza a taxa de aprendizado.
Sim, reduzir a taxa de aprendizado geralmente é uma boa ideia ao depurar um
problema de treinamento.
Reduza o conjunto de treinamento para um número pequeno de exemplos confiáveis.
Embora essa técnica pareça artificial, ela é uma boa
ideia. Supondo que o modelo convirja para o pequeno conjunto de
exemplos confiáveis, você pode adicionar gradualmente mais exemplos,
talvez descobrindo quais exemplos fazem a curva de perda oscilar.
Aumente o número de exemplos no conjunto de treinamento.
Essa é uma ideia tentadora, mas é extremamente improvável que ela resolva
o problema.
Aumente a taxa de aprendizado.
Em geral, evite aumentar a taxa de aprendizado quando a curva de aprendizado de um modelo indicar um problema.
Exercício 2. Curva de perda com um salto acentuado
Quais duas das afirmações a seguir identificam possíveis
motivos para a perda explosiva mostrada na Figura 22.
Os dados de entrada contêm um ou mais NaNs, por exemplo, um valor causado por uma divisão por zero.
Isso é mais comum do que você imagina.
Os dados de entrada contêm uma série de valores discrepantes.
Às vezes, devido a uma mistura inadequada de lotes, um lote pode
conter muitos valores discrepantes.
A taxa de aprendizado é muito baixa.
Uma taxa de aprendizado muito baixa pode aumentar o tempo de treinamento, mas não é
a causa da curva de perda estranha.
A taxa de regularização é muito alta.
É verdade que uma regularização muito alta pode impedir que um modelo
convirja. No entanto, ela não causa a curva de perda estranha
mostrada na Figura 22.
Exercício 3. A perda do teste diverge da perda do treinamento
Qual uma das afirmações a seguir identifica melhor o motivo dessa diferença entre as curvas de perda dos conjuntos de treinamento e teste?
O modelo está apresentando overfitting no conjunto de treinamento.
Sim, provavelmente é. Possíveis soluções:
- Simplifique o modelo, possivelmente reduzindo o número de recursos.
- Aumente a taxa de regularização.
- Verifique se o conjunto de treinamento e o de teste são estatisticamente equivalentes.
A taxa de aprendizado é muito alta.
Se a taxa de aprendizado fosse muito alta, a curva de perda do conjunto de treinamento
provavelmente não teria se comportado dessa forma.
Exercício 4. A curva de perda fica travada
Qual uma das afirmações a seguir é a explicação mais provável
para a curva de perda irregular mostrada na Figura 24?
O conjunto de treinamento contém sequências repetitivas de exemplos.
Isso é uma possibilidade. Confira se você está misturando os exemplos
adequadamente.
A taxa de regularização é muito alta.
É improvável que seja a causa.
O conjunto de treinamento contém muitos recursos.
É improvável que seja a causa.