Il machine learning sarebbe molto più semplice se tutte le curve di perdita avessero questo aspetto la prima volta che addestravi il modello:
Sfortunatamente, le curve di perdita sono spesso difficili da interpretare. Utilizza la tua intuizione sulle curve di perdita per risolvere gli esercizi in questa pagina.
Esercizio 1: curva di perdita oscillante
Quali tre azioni puoi intraprendere per provare a migliorare la curva di perdita riportata nella Figura 21?
Controlla i dati rispetto a uno schema di dati per rilevare gli esempi errati, quindi rimuovili dal set di addestramento.
Sì, questa è una buona prassi per tutti i modelli.
Riduci il tasso di apprendimento.
Sì, ridurre il tasso di apprendimento è spesso una buona idea per eseguire il debug di un
problema di addestramento.
Riduci il set di addestramento a un numero ridotto di esempi attendibili.
Sebbene questa tecnica possa sembrare artificiale, in realtà è una buona idea. Supponendo che il modello converga sul piccolo insieme di
esempi attendibili, puoi aggiungere gradualmente altri esempi,
magari scoprendo quali esempi causano l'oscillazione della curva di perdita.
Aumenta il numero di esempi nel set di addestramento.
È un'idea allettante, ma è estremamente improbabile che risolva il problema.
Aumentare il tasso di apprendimento.
In generale, evita di aumentare il tasso di apprendimento quando la curva di apprendimento di un modello indica un problema.
Esercizio 2. Curva di perdita con un salto netto
Quali due delle seguenti affermazioni identificano possibili
motivi per la perdita esplosiva mostrata nella Figura 22.
I dati di input contengono uno o più valori NaN, ad esempio un valore
causato da una divisione per zero.
Questo problema è più comune di quanto si pensi.
I dati di input contengono una serie di valori anomali.
A volte, a causa di un'immissione in batch non corretta, un batch potrebbe contenere molti valori anomali.
Il tasso di apprendimento è troppo basso.
Un tasso di apprendimento molto basso potrebbe aumentare i tempi di addestramento, ma non è la causa della strana curva di perdita.
Il tasso di regolarizzazione è troppo elevato.
È vero, una regolarizzazione molto elevata potrebbe impedire la convergenza di un modello, ma non causerà la strana curva di perdita mostrata nella Figura 22.
Esercizio 3. La perdita del test diverge dalla perdita di addestramento
Quale delle seguenti affermazioni identifica meglio il motivo di questa differenza tra le curve di perdita dei set di addestramento e di test?
Il modello presenta un overfitting del set di addestramento.
Sì, probabilmente lo è. Possibili soluzioni:
- Semplifica il modello, eventualmente riducendo il numero di elementi.
- Aumentare il tasso di regolarizzazione.
- Assicurati che il set di addestramento e il set di test siano statisticamente equivalenti.
Il tasso di apprendimento è troppo elevato.
Se il tasso di apprendimento fosse stato troppo alto, la curva di perdita per il set di addestramento
probabilmente non si sarebbe comportata come ha fatto.
Esercizio 4. La curva di perdita si blocca
Quale delle seguenti affermazioni è la spiegazione più probabile per la curva di perdita erratica mostrata nella Figura 24?
Il set di addestramento contiene sequenze ripetitive di esempi.
Questa è una possibilità. Assicurati di mescolare gli esempi
in modo sufficiente.
Il tasso di regolarizzazione è troppo elevato.
È improbabile che sia la causa.
Il set di addestramento contiene troppe funzionalità.
È improbabile che sia la causa.