Overfitting: interpretare le curve di perdita

Il machine learning sarebbe molto più semplice se tutti curve di perdita la prima volta che hai addestrato il modello:

Figura 20. Un grafico che mostra la curva di perdita ideale durante l'addestramento di
            modello di machine learning. La curva di perdita traccia la perdita sull'asse y
            rispetto al numero di passaggi di addestramento sull'asse x. Come numero
            di passaggi di addestramento aumenta, la perdita inizia in alto, poi diminuisce
            in modo esponenziale per poi appiattire per raggiungere
            o una perdita di dati.
. Figura 20. Una curva di perdita ideale.

Purtroppo, le curve di perdita sono spesso difficili da interpretare. Utilizza il tuo intuizione sulle curve di perdita per risolvere gli esercizi in questa pagina.

Esercizio 1: curva di perdita oscillante

Figura 21. Una curva di perdita (perdita sull'asse y; numero di addestramento
            passi sull'asse x) in cui la perdita non si appiattisce.
            Invece, la perdita oscilla in modo irregolare.
. Figura 21. Curva di perdita oscillante.
Quali tre cose potresti fare per provare a migliorare la curva di perdita come mostrato nella Figura 21.
Confronta i tuoi dati con uno schema di dati per rilevare esempi errati e quindi rimuovi gli esempi errati dal set di addestramento.
Sì, è una buona prassi per tutti i modelli.
Riduci il tasso di apprendimento.
Sì, ridurre il tasso di apprendimento è spesso una buona idea durante il debug di un un problema di addestramento.
Riduci il set di addestramento a un numero ridotto di esempi affidabili.
Sebbene questa tecnica sembri artificiale, in realtà è una buona dell'IA. Supponendo che il modello confluisca sul piccolo insieme di esempi affidabili, puoi aggiungerne gradualmente magari scoprendo quali esempi causano la curva di perdita oscillare.
Aumentare il numero di esempi nel set di addestramento.
Si tratta di un'idea allettante, ma è molto improbabile che venga risolta risolvere il problema.
Aumentare il tasso di apprendimento.
In generale, evita di aumentare il tasso di apprendimento quando della curva di apprendimento indica un problema.

Esercizio 2. Curva di perdita con un salto netto

Figura 22. Un grafico della curva di perdita che mostra la perdita che diminuisce fino a
            di passaggi di addestramento per poi aumentare improvvisamente
            con ulteriori passaggi di addestramento.
. Figura 22. Notevole aumento delle perdite.
Quali due delle seguenti affermazioni identificano le possibili i motivi della perdita esplosiva mostrati nella Figura 22.
I dati di input contengono uno o più NaN, ad esempio un valore sia causato da una divisione per zero.
Si tratta di una situazione più comune di quanto ci si possa aspettare.
I dati di input contengono un'esplosione di outlier.
A volte, a causa di uno shuffling non corretto dei batch, un batch potrebbe contengono molti outlier.
Il tasso di apprendimento è troppo basso.
Un tasso di apprendimento molto basso può aumentare i tempi di addestramento, ma non è la causa di una strana curva di perdita.
La percentuale di regolarizzazione è troppo elevata.
Una regolarizzazione molto elevata potrebbe impedire a un modello converging; ma non verrà creata una strana curva di perdita come mostrato nella Figura 22.

Esercizio 3. La perdita di test differisce dalla perdita di addestramento

Figura 23. La curva di perdita dell'addestramento sembra convergere, ma
            la perdita di convalida inizia ad aumentare dopo un certo numero
            passaggi.
. Figura 23. Notevole aumento della perdita di convalida.
Quale una delle seguenti affermazioni identifica meglio il motivo di questa differenza tra le curve di perdita dell'addestramento e set di test?
Il modello è in overfitting del set di addestramento.
Sì, probabilmente lo è. Possibili soluzioni:
  • Semplifica il modello, possibilmente riducendo il numero di funzionalità.
  • Aumentare la frequenza di regolarizzazione.
  • Assicurarsi che il set di addestramento e il set di test siano statisticamente equivalenti.
Il tasso di apprendimento è troppo alto.
Se il tasso di apprendimento è troppo alto, la curva di perdita per il set di addestramento probabilmente non si sarebbe comportato come prima.

Esercizio 4. La curva di perdita si blocca

Figura 24. Un grafico di una curva di perdita che mostra la perdita dall'inizio
            convergono con l'addestramento, ma poi mostrano pattern ripetuti
            forma un'onda rettangolare.
. Figura 24. Perdita caotica dopo un certo numero di passi.
Quale una delle seguenti affermazioni è la più probabile spiegazione della curva di perdita irregolare mostrata nella Figura 24?
Il set di addestramento contiene sequenze ripetitive di esempi.
Questa è una possibilità. Assicurati di eseguire lo shuffling degli esempi in modo casuale a sufficienza.
La percentuale di regolarizzazione è troppo elevata.
È improbabile che questa sia la causa.
Il set di addestramento contiene troppe caratteristiche.
È improbabile che questa sia la causa.