Overfitting: interpretare le curve di perdita

Il machine learning sarebbe molto più semplice se tutte le curve di perdita avessero questo aspetto la prima volta che addestravi il modello:

Figura 20. Un grafico che mostra la curva di perdita ideale durante l'addestramento di un
            modello di machine learning. La curva di perdita traccia la perdita sull'asse y
            rispetto al numero di passaggi di addestramento sull'asse x. Con l'aumentare del numero di passaggi di addestramento, la perdita inizia alta, poi diminuisce in modo esponenziale e infine si appiattisce fino a raggiungere una perdita minima.
Figura 20. Una curva di perdita ideale.

Sfortunatamente, le curve di perdita sono spesso difficili da interpretare. Utilizza la tua intuizione sulle curve di perdita per risolvere gli esercizi in questa pagina.

Esercizio 1: curva di perdita oscillante

Figura 21. Una curva di perdita (perdita sull'asse y; numero di passaggi di addestramento sull'asse x) in cui la perdita non si appiattisce.
            Invece, la perdita oscilla in modo irregolare.
Figura 21. Curva di perdita oscillante.
Quali tre azioni puoi intraprendere per provare a migliorare la curva di perdita riportata nella Figura 21?
Controlla i dati rispetto a uno schema di dati per rilevare gli esempi errati, quindi rimuovili dal set di addestramento.
Sì, questa è una buona prassi per tutti i modelli.
Riduci il tasso di apprendimento.
Sì, ridurre il tasso di apprendimento è spesso una buona idea per eseguire il debug di un problema di addestramento.
Riduci il set di addestramento a un numero ridotto di esempi attendibili.
Sebbene questa tecnica possa sembrare artificiale, in realtà è una buona idea. Supponendo che il modello converga sul piccolo insieme di esempi attendibili, puoi aggiungere gradualmente altri esempi, magari scoprendo quali esempi causano l'oscillazione della curva di perdita.
Aumenta il numero di esempi nel set di addestramento.
È un'idea allettante, ma è estremamente improbabile che risolva il problema.
Aumentare il tasso di apprendimento.
In generale, evita di aumentare il tasso di apprendimento quando la curva di apprendimento di un modello indica un problema.

Esercizio 2. Curva di perdita con un salto netto

Figura 22. Un grafico della curva di perdita che mostra la perdita in diminuzione fino a un
            determinato numero di passaggi di addestramento e poi aumenta improvvisamente
            con ulteriori passaggi di addestramento.
Figura 22. Aumento netto delle perdite.
Quali due delle seguenti affermazioni identificano possibili motivi per la perdita esplosiva mostrata nella Figura 22.
I dati di input contengono uno o più valori NaN, ad esempio un valore causato da una divisione per zero.
Questo problema è più comune di quanto si pensi.
I dati di input contengono una serie di valori anomali.
A volte, a causa di un'immissione in batch non corretta, un batch potrebbe contenere molti valori anomali.
Il tasso di apprendimento è troppo basso.
Un tasso di apprendimento molto basso potrebbe aumentare i tempi di addestramento, ma non è la causa della strana curva di perdita.
Il tasso di regolarizzazione è troppo elevato.
È vero, una regolarizzazione molto elevata potrebbe impedire la convergenza di un modello, ma non causerà la strana curva di perdita mostrata nella Figura 22.

Esercizio 3. La perdita del test diverge dalla perdita di addestramento

Figura 23. La curva di perdita di addestramento sembra convergere, ma la perdita di convalida inizia ad aumentare dopo un determinato numero di passaggi di addestramento.
Figura 23. Aumento netto delle perdite di convalida.
Quale delle seguenti affermazioni identifica meglio il motivo di questa differenza tra le curve di perdita dei set di addestramento e di test?
Il modello presenta un overfitting del set di addestramento.
Sì, probabilmente lo è. Possibili soluzioni:
  • Semplifica il modello, eventualmente riducendo il numero di elementi.
  • Aumentare il tasso di regolarizzazione.
  • Assicurati che il set di addestramento e il set di test siano statisticamente equivalenti.
Il tasso di apprendimento è troppo elevato.
Se il tasso di apprendimento fosse stato troppo alto, la curva di perdita per il set di addestramento probabilmente non si sarebbe comportata come ha fatto.

Esercizio 4. La curva di perdita si blocca

Figura 24. Un grafico di una curva di perdita che mostra la perdita che inizia a convergere con l'addestramento, ma che poi mostra pattern ripetuti che assomigliano a un'onda rettangolare.
Figura 24. Perdita caotica dopo un determinato numero di passaggi.
Quale delle seguenti affermazioni è la spiegazione più probabile per la curva di perdita erratica mostrata nella Figura 24?
Il set di addestramento contiene sequenze ripetitive di esempi.
Questa è una possibilità. Assicurati di mescolare gli esempi in modo sufficiente.
Il tasso di regolarizzazione è troppo elevato.
È improbabile che sia la causa.
Il set di addestramento contiene troppe funzionalità.
È improbabile che sia la causa.