Il machine learning sarebbe molto più semplice se tutte le curve di perdita avessero questo aspetto la prima volta che addestravi il modello:
Figura 20. Una curva di perdita ideale.
Sfortunatamente, le curve di perdita sono spesso difficili da interpretare. Utilizza la tua intuizione sulle curve di perdita per risolvere gli esercizi in questa pagina.
Esercizio 1: curva di perdita oscillante
Figura 21. Curva di perdita oscillante.
Quali tre azioni puoi intraprendere per provare a migliorare la curva di perdita riportata nella Figura 21?
Aumentare il tasso di apprendimento.
In generale, evita di aumentare il tasso di apprendimento quando la curva di apprendimento di un modello indica un problema.
Riduci il set di addestramento a un numero ridotto di esempi attendibili.
Sebbene questa tecnica possa sembrare artificiale, in realtà è una buona idea. Supponendo che il modello converga sul piccolo insieme di
esempi attendibili, puoi aggiungere gradualmente altri esempi,
magari scoprendo quali esempi causano l'oscillazione della curva di perdita.
Controlla i dati rispetto a uno schema di dati per rilevare gli esempi errati, quindi rimuovili dal set di addestramento.
Sì, questa è una buona prassi per tutti i modelli.
Riduci il tasso di apprendimento.
Sì, ridurre il tasso di apprendimento è spesso una buona idea per eseguire il debug di un
problema di addestramento.
Aumenta il numero di esempi nel set di addestramento.
È un'idea allettante, ma è estremamente improbabile che risolva il problema.
Esercizio 2. Curva di perdita con un salto netto
Figura 22. Aumento netto delle perdite.
Quali due delle seguenti affermazioni identificano possibili
motivi per la perdita esplosiva mostrata nella Figura 22.
I dati di input contengono una serie di valori anomali.
A volte, a causa di un'immissione in batch non corretta, un batch potrebbe contenere molti valori anomali.
Il tasso di apprendimento è troppo basso.
Un tasso di apprendimento molto basso potrebbe aumentare i tempi di addestramento, ma non è la causa della strana curva di perdita.
I dati di input contengono uno o più valori NaN, ad esempio un valore
causato da una divisione per zero.
Questo problema è più comune di quanto si pensi.
Il tasso di regolarizzazione è troppo elevato.
È vero, una regolarizzazione molto elevata potrebbe impedire la convergenza di un modello, ma non causerà la strana curva di perdita mostrata nella Figura 22.
Esercizio 3. La perdita del test diverge dalla perdita di addestramento
Figura 23. Aumento netto delle perdite di convalida.
Quale delle seguenti affermazioni identifica meglio il motivo di questa differenza tra le curve di perdita dei set di addestramento e di test?
Il tasso di apprendimento è troppo elevato.
Se il tasso di apprendimento fosse stato troppo alto, la curva di perdita per il set di addestramento
probabilmente non si sarebbe comportata come ha fatto.
Il modello presenta un overfitting del set di addestramento.
Sì, probabilmente lo è. Possibili soluzioni:
Semplifica il modello, eventualmente riducendo il numero di elementi.
Aumentare il tasso di regolarizzazione.
Assicurati che il set di addestramento e il set di test siano statisticamente
equivalenti.
Esercizio 4. La curva di perdita si blocca
Figura 24. Perdita caotica dopo un determinato numero di passaggi.
Quale delle seguenti affermazioni è la spiegazione più probabile per la curva di perdita erratica mostrata nella Figura 24?
Il set di addestramento contiene sequenze ripetitive di esempi.
Questa è una possibilità. Assicurati di mescolare gli esempi
in modo sufficiente.
Il set di addestramento contiene troppe funzionalità.
[null,null,["Ultimo aggiornamento 2024-11-14 UTC."],[[["This document helps you understand and interpret Machine Learning loss curves through a series of exercises and visual examples."],["You will learn how to identify common issues like oscillating loss, exploding loss, overfitting, and erratic behavior in your models."],["Solutions are provided for each exercise, along with explanations for various loss curve patterns."],["Techniques to address these issues are discussed, including adjusting learning rate, cleaning training data, and applying regularization."],["A glossary of key Machine Learning terminology related to loss curves and model training is included for quick reference."]]],[]]